Leistungsbeurteilung in zentralen Prüfungen: Lehrkräftewahrnehmungen der landesweit vorgegebenen Erwartungshorizonte im Prüfungsfach Deutsch [1. Aufl.] 9783658312237, 9783658312244

Die vorliegende Studie bildet eine systematische Auseinandersetzung mit der schulinternen Leistungsbeurteilung anhand vo

1,257 105 4MB

German Pages XXII, 445 [456] Year 2020

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Leistungsbeurteilung in zentralen Prüfungen: Lehrkräftewahrnehmungen der landesweit vorgegebenen Erwartungshorizonte im Prüfungsfach Deutsch [1. Aufl.]
 9783658312237, 9783658312244

Table of contents :
Front Matter ....Pages I-XXII
Einleitung (Stefanie Kötter-Mathes)....Pages 1-8
Front Matter ....Pages 9-9
Schulische Abschlussvergabe in Deutschland (Stefanie Kötter-Mathes)....Pages 11-31
Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses (Stefanie Kötter-Mathes)....Pages 33-54
Erwartungshorizonte als Steuerungsinstrumente in zentralen Prüfungen (Stefanie Kötter-Mathes)....Pages 55-81
Aktueller Forschungsstand (Stefanie Kötter-Mathes)....Pages 83-114
Front Matter ....Pages 115-115
Forschungsvorhaben (Stefanie Kötter-Mathes)....Pages 117-130
Qualitative Datenerhebung anhand von problemzentrierten Interviews (Stefanie Kötter-Mathes)....Pages 131-160
Inhaltsanalytische Auswertung (Stefanie Kötter-Mathes)....Pages 161-230
Metaphernanalytische Auswertung (Stefanie Kötter-Mathes)....Pages 231-239
Ergebnisse der qualitativen Inhaltsanalyse (Stefanie Kötter-Mathes)....Pages 241-330
Ergebnisse der Metaphernanalyse (Stefanie Kötter-Mathes)....Pages 331-357
Ergebnisse der Typenbildung (Stefanie Kötter-Mathes)....Pages 359-375
Diskussion der Ergebnisse (Stefanie Kötter-Mathes)....Pages 377-411
Back Matter ....Pages 413-445

Citation preview

Educational Governance

Stefanie Kötter-Mathes

Leistungsbeurteilung in zentralen Prüfungen Lehrkräftewahrnehmungen der landesweit vorgegebenen Erwartungshorizonte im Prüfungsfach Deutsch

Educational Governance Band 51 Reihe herausgegeben von Herbert Altrichter, Linz School of Education, Johannes Kepler Universität Linz, Linz, Österreich Thomas Brüsemeister, Institut für Soziologie, Justus-Liebig-Universität Gießen, Gießen, Deutschland Ute Clement, Institut für Berufsbildung, Universität Kassel, Kassel, Deutschland Martin Heinrich, Fakultät für Erziehungswissenschaft, Universität Bielefeld, Bielefeld, Österreich Roman Langer, Linz School of Education, Johannes Kepler Universität Linz, Linz, Österreich Katharina Maag Merki, Institut für Erziehungswissenschaft, Universität Zürich, Zürich, Schweiz Matthias Rürup, Institut für Bildungsforschung, Bergische Universität Wuppertal, Wuppertal, Deutschland Jochen Wissinger, Institut für Schulpädagogik und Elementarbildung, Justus-Liebig-Universität Gießen, Gießen, Deutschland

Reihe herausgegeben von H. Altrichter Johannes Kepler Universität Linz, Österreich

Th. Brüsemeister Justus-Liebig-Universität Gießen, Deutschland

U. Clement Universität Kassel Kassel, Deutschland

M. Heinrich Universität Bielefeld Bielefeld, Deutschland

R. Langer Johannes Kepler Universität Linz, Österreich

K. Maag Merki Universität Zürich Zürich, Schweiz

M. Rürup Bergische Universität Wuppertal Wuppertal, Deutschland

J. Wissinger Justus-Liebig-Universität Gießen, Deutschland

Weitere Bände in der Reihe http://www.springer.com/series/12179

Stefanie Kötter-Mathes

Leistungsbeurteilung in zentralen Prüfungen Lehrkräftewahrnehmungen der landesweit vorgegebenen Erwartungshorizonte im Prüfungsfach Deutsch

Stefanie Kötter-Mathes Institut für Erziehungswissenschaft ­Universität Duisburg-Essen Essen, Deutschland Diese Arbeit wurde im Juli 2019 als Dissertation zur Erlangung des akademischen Grades Dr. phil. von der Fakultät für Bildungswissenschaften der Universität DuisburgEssen angenommen (Erstgutachterin: Prof. Dr. Isabell van Ackeren, Zweitgutachterin: Prof. Dr. Katharina Maag Merki). Die Disputation erfolgte am 23.01.2020.

ISSN 2512-0794 ISSN 2512-0808  (electronic) Educational Governance ISBN 978-3-658-31223-7 ISBN 978-3-658-31224-4  (eBook) https://doi.org/10.1007/978-3-658-31224-4 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: Stefanie Eggert Springer VS ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany

So eine Arbeit wird eigentlich nie fertig, man muß sie für fertig erklären, wenn man nach Zeit und Umständen das Möglichste getan hat. (Goethe, 1977, S. 228)

Für meine Eltern, meine größten Unterstützer und Vorbilder

Danksagung

„Leider läßt sich eine wahrhafte Dankbarkeit mit Worten nicht ausdrücken […], lassen Sie mir deswegen nur mit wenigen Worten wiederholen daß Ihre Wohltat sehr groß war“ (Goethe, o. J., S. 32)

An dieser Stelle möchte ich mich von Herzen bei allen bedanken, die mich in meiner Promotionsphase unterstützt und damit zur Fertigstellung meiner Dissertation beigetragen haben. Ein ganz besonderer Dank gilt Frau Prof. Dr. Isabell van Ackeren, welche einen Rahmen geschaffen hat, der gleichermaßen eine kompetente Unterstützung wie auch (Frei-)Räume für ein individuelles Arbeiten bot. Ihre vertrauensvolle und wertschätzende Betreuung hat maßgeblich dazu beigetragen, dass ich das Promotionsvorhaben erfolgreich zum Abschluss gebracht habe. Außerdem bedanke ich mich bei Frau Prof. Dr. Katharina Maag Merki für die Übernahme des Zweitgutachtens und die Bereitschaft, die umfangreiche Arbeit zu beurteilen sowie bei Frau Prof. Dr. Svenja Schmid-Kühn für die Heranführung an das systematische wissenschaftliche Arbeiten. Für die fachliche und mentale Unterstützung bedanke ich mich bei den (ehemaligen) Mitgliedern der Arbeitsgruppe Bildungsforschung. Vor allem meine Büronachbarin Hanna Bronnert-Härle hat mich mit ihrer liebevollen und souveränen Art fortwährend motiviert und unterstützt. Liebe Hanna, vielen Dank, dass du immer ein offenes Ohr für mich hast – ich hoffe, ich kann dich in deiner Promotionsphase ebenfalls bestärken. Außerdem möchte ich mich bei Lena Blumentritt bedanken, welche meinen Weg auf fachlicher und menschlicher Ebene unterstützt hat. Dankeschön liebe Lena, für die zahlreichen hilfreichen, aber auch schönen Gespräche. Im besonderen Maße gilt mein Dank zudem den Personen, die aktiv an meiner Studie mitgewirkt haben. Ich danke den beteiligten Lehrkräften für die Möglichkeit, einen spannenden Einblick in die schulische Praxis zu erhalten sowie IX

X

Danksagung

Katharina Back für die angenehme Zusammenarbeit und die sorgfältige Durchführung der Zweitcodierung. Von Herzen danke ich auch meiner Familie und meinen Freunden – vielen Dank für eure vielfältige Unterstützung! Ich bin vor allem meinem Lebenspartner Christoph Kötter für sein unerschöpfliches Verständnis sowie seinen starken Rückhalt dankbar. Vielen Dank auch meinem Bruder Tobias, dem es immer wieder gelungen ist mich zu bekräftigen. Mein außerordentlicher Dank gilt meinen Eltern, die meinen bisherigen Lebensweg uneingeschränkt unterstützt haben und denen ich meine Dissertation im Sinne eines wertschätzenden Dankeschöns widmen möchte.

Inhaltsverzeichnis

1 Einleitung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Teil I  Theoretischer Teil 2

Schulische Abschlussvergabe in Deutschland . . . . . . . . . . . . . . . . . . . 11 2.1 Die schulische Abschlussvergabe aus historischer Perspektive: Von der Stände- zur Leistungsgesellschaft . . . . . . . . . . . . . . . . . . 12 2.2 Die schulische Abschlussvergabe aus aktueller Sicht: Von der input- zur outputorientierten Steuerung. . . . . . . . . . . . . . . . . . 16

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.1 Der mittlere Schulabschluss. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2 Die zentrale Prüfungsklausur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.3 Der zentrale Erwartungshorizont. . . . . . . . . . . . . . . . . . . . . . . . . . 49

4

Erwartungshorizonte als Steuerungsinstrumente in zentralen Prüfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.1 Realisierungsprobleme einer einheitlichen Beurteilungspraxis vor dem Hintergrund steuerungstheoretischer Überlegungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.2 Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.2.1 Gestaltung des Erwartungshorizontes. . . . . . . . . . . . . . . 63 4.2.2 Implementation des Erwartungshorizontes. . . . . . . . . . . 65 4.2.3 Kontrolle der Anwendung des Erwartungshorizontes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

XI

XII

Inhaltsverzeichnis

4.2.4

4.3 5

Landesspezifische Rahmenbedingungen der Prüfung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.2.5 Strukturelle und organisationale Effekte der Einzelschule. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.2.6 Konsequenzen der zentralen Prüfung. . . . . . . . . . . . . . . . 71 4.2.7 Spannungsfeld von Förderung und Selektion . . . . . . . . . 72 4.2.8 (Beurteilungs-)Kompetenzen und Persönlichkeitsmerkmale der Lehrkraft. . . . . . . . . . . . . . 75 Heuristisches Modell einer multifaktoriell beeinflussten Anwendungspraxis des Erwartungshorizontes . . . . . . . . . . . . . . . 78

Aktueller Forschungsstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.1 Befunde für die Bundesrepublik Deutschland. . . . . . . . . . . . . . . . 85 5.1.1 Konfiguration von Erwartungshorizonten. . . . . . . . . . . . 88 5.1.2 Beurteilungspraxis in zentralen Prüfungen . . . . . . . . . . . 99 5.2 Befunde für den internationalen Raum . . . . . . . . . . . . . . . . . . . . . 104 5.3 Resümee. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Teil II  Empirischer Teil 6 Forschungsvorhaben. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.1 Forschungsinteresse und Ziele. . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.2 Zentrale Fragestellungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.3 Erwartete Erträge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.4 Qualitatives Forschungsdesign. . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 7

Qualitative Datenerhebung anhand von problemzentrierten Interviews. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 7.1 Begründung der Methodenwahl. . . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.2 Beschreibung der methodischen Durchführung. . . . . . . . . . . . . . . 136 7.2.1 Vorbereitung der Interviews. . . . . . . . . . . . . . . . . . . . . . . 137 7.2.2 Durchführung der Interviews. . . . . . . . . . . . . . . . . . . . . . 138 7.2.3 Nachbereitung der Interviews . . . . . . . . . . . . . . . . . . . . . 141 7.3 Vorstellung der Erhebungsinstrumente . . . . . . . . . . . . . . . . . . . . . 143 7.3.1 Entwicklung und Aufbau des Leitfadens. . . . . . . . . . . . . 144 7.3.2 Gestaltung und Einsatz von Stimuli. . . . . . . . . . . . . . . . . 149 7.4 Auswahl und Zusammensetzung des Samples. . . . . . . . . . . . . . . 152 7.5 Limitationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

Inhaltsverzeichnis

XIII

8

Inhaltsanalytische Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 8.1 Inhaltlich strukturierende Inhaltsanalyse. . . . . . . . . . . . . . . . . . . . 162 8.2 Entwicklung des Kategorienleitfadens. . . . . . . . . . . . . . . . . . . . . . 165 8.3 Aufbau des Kategorienleitfadens. . . . . . . . . . . . . . . . . . . . . . . . . . 173 8.3.1 Informationen zur interviewten Lehrkraft. . . . . . . . . . . . 174 8.3.2 Bereich Prüfungsklausur. . . . . . . . . . . . . . . . . . . . . . . . . 175 8.3.3 Bereich Erwartungshorizont . . . . . . . . . . . . . . . . . . . . . . 176 8.4 Typenbildende Inhaltsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 8.5 Limitationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

9

Metaphernanalytische Auswertung. . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 9.1 Grundlagen der systematischen Metaphernanalyse. . . . . . . . . . . . 232 9.2 Ablauf der metaphernanalytischen Auswertung . . . . . . . . . . . . . . 235 9.3 Limitationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238

10 Ergebnisse der qualitativen Inhaltsanalyse . . . . . . . . . . . . . . . . . . . . . 241 10.1 Wahrnehmung der zentralen Prüfung . . . . . . . . . . . . . . . . . . . . . . 242 10.1.1 Heranführung an das zentrale Prüfungsformat . . . . . . . . 243 10.1.2 Zentrale Prüfungsklausur. . . . . . . . . . . . . . . . . . . . . . . . . 247 10.1.3 Prüfungsvorbereitung. . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 10.2 Wahrnehmung des Erwartungshorizontes. . . . . . . . . . . . . . . . . . . 258 10.2.1 Ziele und Funktionen des Erwartungshorizontes. . . . . . . 259 10.2.2 Nützlichkeit des Erwartungshorizontes. . . . . . . . . . . . . . 263 10.2.3 Konfiguration des Erwartungshorizontes. . . . . . . . . . . . . 271 10.3 Wahrnehmung der Beurteilungspraxis. . . . . . . . . . . . . . . . . . . . . . 296 10.3.1 Angebote hinsichtlich des Erwartungshorizontes . . . . . . 297 10.3.2 Umgang mit dem Erwartungshorizont. . . . . . . . . . . . . . . 307 10.3.3 Umsetzung der Zweitkorrektur . . . . . . . . . . . . . . . . . . . . 320 11 Ergebnisse der Metaphernanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 11.1 Zielbereich Beurteilungsprozess . . . . . . . . . . . . . . . . . . . . . . . . . . 332 11.1.1 Die Beurteilung als visueller Vorgang. . . . . . . . . . . . . . . 332 11.1.2 Die Beurteilung als handwerkliche Tätigkeit. . . . . . . . . . 342 11.1.3 Die Beurteilung als Schenken . . . . . . . . . . . . . . . . . . . . . 345 11.1.4 Der Erwartungshorizont als Wegweiser. . . . . . . . . . . . . . 346 11.1.5 Der Erwartungshorizont als Schutz. . . . . . . . . . . . . . . . . 349 11.2 Zielbereich Beziehungskonstellationen. . . . . . . . . . . . . . . . . . . . . 350 11.2.1 Das Verhältnis der Akteurinnen und Akteure als Gefangenschaft. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351

XIV

Inhaltsverzeichnis

11.2.2 Das Verhältnis der Lehrkräfte als Handelsbeziehung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 12 Ergebnisse der Typenbildung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 12.1 Die tendenziell vorschriftenorientierte Lehrkraft . . . . . . . . . . . . . 360 12.2 Die tendenziell kompetenzorientierte Lehrkraft . . . . . . . . . . . . . . 364 12.3 Die kompetenz- und vorschriftenorientierte Lehrkraft . . . . . . . . . 368 12.4 Metaphernanalytische Betrachtung der konträren Typen . . . . . . . 370 13 Diskussion der Ergebnisse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 13.1 Wahrnehmungen der Lehrkräfte . . . . . . . . . . . . . . . . . . . . . . . . . . 379 13.1.1 Wie nehmen die beteiligten Lehrkräfte die zentrale Prüfung zum Erwerb des MSA sowie die jeweiligen landesspezifischen Rahmenbedingungen wahr?. . . . . . . . . . . . . . . . . . . . . . . 379 13.1.2 Welche Wahrnehmungen besitzen die Lehrkräfte hinsichtlich der vorgegebenen Erwartungshorizonte und wie charakterisieren sie eine geeignete Gestaltungsvariante?. . . . . . . . . . . . . . 383 13.1.3 Wie beschreiben und begründen die Lehrkräfte die eigene Beurteilungspraxis im Rahmen der zentralen Prüfung sowie speziell den Umgang mit dem Erwartungshorizont?. . . . . . . . . . . . . . . . . . . . . 387 13.1.4 Wie konzeptualisieren die Lehrkräfte ihr Verständnis der Leistungsbeurteilung und ­insbesondere des Erwartungshorizontes sowie die Beziehung zu weiteren Beteiligten im Kontext der zentralen Prüfung zum Erwerb des MSA?. . . . . . . . . . . . 392 13.2 Theoretische und praktische Erträge. . . . . . . . . . . . . . . . . . . . . . . 394 13.3 Reflexion und Ausblick. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402 Literaturverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413

Abkürzungsverzeichnis

Akteursgruppen und Institutionen CDU Christlich Demokratische Union Deutschlands DFG Deutsche Forschungsgemeinschaft KMK Ständige Konferenz der Kultusminister der Länder in der ­Bundesrepublik Deutschland SPD Sozialdemokratische Partei Deutschlands SuS Schülerinnen und Schüler

Bundesländer BB Brandenburg BE Berlin BW Baden-Württemberg BY Bayern HB Bremen HE Hessen HH Hamburg MV Mecklenburg-Vorpommern NI Niedersachsen NW Nordrhein-Westfalen RP Rheinland-Pfalz SH Schleswig-Holstein SL Saarland XV

XVI

Abkürzungsverzeichnis

SN Sachsen ST Sachsen-Anhalt TH Thüringen

Forschungsmethodik ID Identifikationsnummer (von Merkmalsausprägungen im Kategoriensystem) MAXQDA Qualitative Data Analysis Software zur computergestützten ­Datenanalyse PZI problemzentriertes Interview SPSS Statistical Package for the Social Sciences (Statistik-Software zur Daten analyse)

Vergleichsstudien und zentrale Prüfungen GCSE General Certificate of Secondary Education (Schulzertifikat im Vereinigten Königreich) IGLU internationale Grundschul-Lese-Untersuchung MSA mittlerer Schulabschluss PISA Programme for International Student Assessment TIMSS Trends in International Mathematics and Science Study VERA Vergleichsarbeiten ZP zentrale Prüfung ZP10 zentrale Prüfung zum Abschluss der 10. Klasse

Weitere Abkürzungen Anm. Anmerkung(en) Aufl. Auflage bzw. beziehungsweise d. h. das heißt ebd. ebenda et al. et alii f. folgend

Abkürzungsverzeichnis

ff. fortfolgend ggf. gegebenenfalls Hrsg. Herausgeberin/ Herausgeber o. J. ohne Jahr S. Seite u. a. unter anderem usw. und so weiter Verf. Verfasserin/ Verfasser vgl. vergleiche z. B. zum Beispiel

XVII

Abbildungsverzeichnis

Abbildung 2.1 Abbildung 4.1

Abbildung 5.1 Abbildung 6.1 Abbildung 7.1 Abbildung 9.1 Abbildung 10.1 Abbildung 10.2 Abbildung 13.1

Abbildung 13.2

Angestrebter Wirkungszusammenhang der zentralen Prüfung auf die Zertifikatsvergabe.. . . . . . . . . . 31 Angenommene multifaktorielle Beeinflussung der Leistungsbeurteilung im Kontext der zentralen Prüfung.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Zürcher Textanalyseraster. . . . . . . . . . . . . . . . . . . . . . . . . 90 Grundlegender Aufbau des Forschungsdesigns . . . . . . . . 130 Beispielhafte Darstellung eines eingesetzten Strahls. . . . 152 Ablaufmodell der Metaphernanalyse . . . . . . . . . . . . . . . . 236 Prozentuale Einschätzung der Nützlichkeit des Erwartungshorizontes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 Prozentuale Einschätzung der eigenen Nutzung des Erwartungshorizontes . . . . . . . . . . . . . . . . . 311 Konkretisierung der angenommenen multifaktoriellen Beeinflussung der Leistungsbeurteilung im Kontext der zentralen Prüfung auf der Grundlage der Ergebnisse dieser Studie. . . . . . . . . . . . . . . . . . . . . . . . . . 390 Potenzielle Prozessoptimierungen im Rahmen der zentralen Prüfungen zum Erwerb des MSA. . . . . . . . . . . 402

XIX

Tabellenverzeichnis

Tabelle 2.1 Tabelle 3.1

Tabelle 3.2 Tabelle 3.3 Tabelle 3.4 Tabelle 5.1 Tabelle 7.1 Tabelle 7.2 Tabelle 7.3 Tabelle 7.4 Tabelle 7.5 Tabelle 8.1 Tabelle 8.2 Tabelle 8.3

Einflussfaktoren im Kontext der Notenvergabe. . . . . . . . . . . 19 Erwerbsmöglichkeiten des mittleren Schulabschlusses im allgemeinbildenden Schulsystem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Bestandteile der zentralen Prüfung zum Erwerb des mittleren Schulabschlusses . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Gestaltung der landeseinheitlich vorgegebenen Prüfungsklausur im Fach Deutsch. . . . . . . . . . . . . . . . . . . . . 48 Gestaltung der landeseinheitlich vorgegebenen Erwartungshorizonte im Fach Deutsch . . . . . . . . . . . . . . . . . 51 Forschungsbefunde zur Konfiguration und Anwendung von Erwartungshorizonten. . . . . . . . . . . . . . . . . 112 Notationen der Transkripte in Anlehnung an Kuckartz et al. (2008) und Dresing und Pehl (2018). . . . . . . . . . . . . . . 143 Struktur des Interviewleitfadens. . . . . . . . . . . . . . . . . . . . . . . 146 Kategorisierung der genutzten Ausschnitte aus Erwartungshorizonten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Gegenüberstellung des zentralen Prüfungsformats in BW und NW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 Zusammensetzung des Samples. . . . . . . . . . . . . . . . . . . . . . . 157 Übereinstimmungswerte der Doppelcodierung von Teil II und Teil III. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Exemplarische Konfiguration der Kategorien. . . . . . . . . . . . 173 Abbildung des Forschungsinteresses im Auswertungsprozess. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

XXI

XXII

Tabelle 10.1 Tabelle 10.2 Tabelle 11.1 Tabelle 11.2 Tabelle 12.1 Tabelle 12.2 Tabelle 12.3

Tabellenverzeichnis

Wahrnehmungen der Lehrkräfte hinsichtlich der Nützlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Bundeslandspezifische Tendenzen der Gestaltung des Erwartungshorizontes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Ausgewählte Metaphern des Quellbereichs Sehen . . . . . . . . 338 Metaphern des Quellbereichs Gefangenschaft. . . . . . . . . . . . 351 Übersicht der Fälle des Typus tendenziell vorschriftenorientierte Lehrkraft. . . . . . . . . . . . . . . . . . . . . . 363 Übersicht der Fälle des Typus tendenziell kompetenzorientierte Lehrkraft. . . . . . . . . . . . . . . . . . . . . . . 367 Beispielhafte Konzeptualisierung des Erwartungshorizontes durch die konträren Typen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372

1

Einleitung

Im deutschen Berechtigungssystem dienen schulische Abschlusszertifikate der Bescheinigung von erbrachten Leistungen sowie vorhandenen Kompetenzen der Absolventinnen bzw. Absolventen und regeln den Zugang zu weiterführenden Institutionen, wie z. B. Ausbildungsbetrieben und Universitäten (vgl. Ackeren, Klemm & Kühn, 2015, S. 177). Folglich stellt „der Erwerb eines allgemeinbildenden Schulabschlusses […] eine wichtige Weichenstellung der weiteren Bildungs- und Erwerbsbiografie [dar]“ (Autorengruppe Bildungsberichterstattung, 2016, S. 96). Im letzten Jahrzehnt verweisen insbesondere die Entwicklungen im Kontext der Hochschulzulassung auf ein gewisses Aufbrechen des deutschen Berechtigungssystems. Einen diesbezüglich wichtigen Ausgangspunkt bildet die 2005 in Kraft getretene siebte Hochschulrahmengesetz-Novelle. Anstelle der bisherigen bundesweiten Studienplatzvergabe einiger Studienfächer über die Zentralstelle für die Vergabe von Studienplätzen dürfen die Hochschulen seit dem Wintersemester 2005/2006 einen Großteil dieser zulassungsbeschränkten Studienplätze in Eigenverantwortung vergeben (vgl. Täger, 2010, S. 13 f.). Seither haben sich zahlreiche hochschuleigene Auswahlverfahren entwickelt, in welchen nicht ausschließlich die Hochschulzugangsberechtigung bzw. die Abiturdurchschnittsnote über die Zulassung entscheidet. Stattdessen soll die Eignung der Bewerberinnen und Bewerber zusätzlich nach eigenen Standards der abnehmenden Institutionen festgestellt werden, indem beispielsweise Eignungstests, Talentprüfungen oder Bewerbungsgespräche durchgeführt werden (vgl. Koch, 2014). Bislang sind derartige Entwicklungen einer verstärkten Selektion durch die abnehmenden Systeme insbesondere am Übergang von der Sekundarstufe II zur Hochschule sowie beim Eintritt in den Beruf sichtbar. Es ist jedoch nicht auszuschließen, dass zukünftig ähnliche Tendenzen am Übergang von der Sekundarstufe I zur Sekundarstufe II oder von allgemeinbildenden zu berufsbildenden Schulen © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_1

1

2

1

Einleitung

entstehen. Angesichts dessen scheint es umso wichtiger, dass Abschlusszertifikate die Leistungen der Absolventinnen bzw. Absolventen möglichst realistisch sowie umfassend abbilden und von den abnehmenden Institutionen als glaubwürdig wahrgenommen werden. Denn „qualifizierte Schulabschlüsse garantieren [zwar] schon lange nicht mehr automatisch gute Berufspositionen. Gleichzeitig ist es [allerdings] ohne qualifizierten Bildungsabschluss kaum möglich, eine anspruchsvolle und gut dotierte Position auf dem Erwerbsarbeitsmarkt zu erreichen.“ (Ackeren et al., 2015, S. 200). Trotz des vermehrten Vorhandenseins weiterer Zulassungsvoraussetzungen neben schulischen Abschlusszertifikaten, wie u. a. spezielle Eignungstests bzw. Aufnahmeprüfungen, das erfolgreiche Absolvieren eines Vorstellungsgesprächs oder Assessment-Centers (vgl. z. B. Borowski, Schauberger & Weimar, 2018; Schwibbe et al., 2018; Stumpf, Leenen & Scheitza, 2017), bilden schulische Abschlüsse folglich nach wie vor wesentliche Voraussetzungen für den Zugang zu unterschiedlichen Schulzweigen sowie universitären bzw. beruflichen Laufbahnen (vgl. Autorengruppe Bildungsberichterstattung, 2018, S. 120 ff.; Müller-Benedict, 2010, S. 452). Aktuelle empirische Befunde verweisen zudem auf eine Korrelation zwischen der Höhe des erworbenen Schulabschlusses und dem Brutto-Monatseinkommen sowie dem Risiko von Arbeitslosigkeit betroffen zu sein (vgl. zusammenfassend Allmendinger, Ebner & Nikolai, 2018, S. 61 f.). Demnach ist es von besonderer Bedeutsamkeit, dass eine vergleichbare, leistungsorientierte Abschlussvergabepraxis sichergestellt wird (Ackeren et al., 2015, S. 105), welche eine Grundlage für eine leistungsbasierte Selektion bzw. Allokation im Rahmen des staatlichen Berechtigungssystems schafft. Auf diese Weise soll ein Zugang zum weiterführenden, studienqualifizierenden Schulwesen als auch zu berufsbildenden Institutionen begünstigt werden, der möglichst unabhängig von den individuellen Herkunftsfaktoren ist und hierdurch Bildungsbenachteiligungen an schulischen Übergängen reduziert sowie einen wichtigen Beitrag zur Erreichung von Bildungsgerechtigkeit leistet (vgl. zusammenfassend Berkemeyer et al., 2014; Blömeke, Herzig & Tulodziecki, 2007; Schäfer, 2016). Bedingt durch die Kulturhoheit der Länder erfolgte die Abschlussvergabe nach der Sekundarstufe I und II in Deutschland bis in das frühe 21. Jahrhundert hinein stark uneinheitlich. Während die Mehrheit der Bundesländer eine dezentrale Prüfungspraxis besaß, existierte in einigen Bundesländern eine längere zentrale Prüfungstradition. So führten die südlichen Bundesländer Bayern, Baden-Württemberg und das Saarland zentrale Prüfungsformate bereits kurz nach dem Zweiten Weltkrieg ein und die eher östlich gelegenen Bundesländer Mecklenburg-Vorpommern,

1

Einleitung

3

Sachsen, Sachsen-Anhalt und Thüringen implementierten zentrale Abschlussverfahren zeitnah nach der deutschen Wiedervereinigung (vgl. Kühn, 2010, S. 41 ff.; Kühn, 2013, S. 91 f.). Da die dezentrale Abschlussprüfungspraxis das Erfordernis einer vergleichbaren Zertifizierung aufgrund schulstruktureller Ausdifferenzierungen zwischen und innerhalb der Bundesländer nicht zufriedenstellend erfüllen konnte (vgl. z. B. Baumert & Watermann, 2000; Hochweber, 2010; Köller, Baumert, Cortina, Trautwein & Watermann, 2004; Neumann, Nagy, Trautwein & Lüdtke, 2009), wurden im Rahmen der sogenannten neuen Steuerung nahezu deutschlandweit teilzentrale1 Abschlussprüfungen für den Erwerb des mittleren Schulabschlusses2 (im Folgenden: MSA) sowie des Abiturs implementiert (vgl. Kühn, 2013; Maag Merki, 2012b). Lediglich Rheinland-Pfalz besitzt als einziges Bundesland weiterhin eine dezentrale Prüfungspraxis (vgl. Mathes & Kühn, 2016). Im Kontext einer verstärkten Outputorientierung ist an die Stelle der teils kumulativen bzw. dezentralen Abschlussvergabe ein Bündel schulexterner und -übergreifender Steuerungselemente getreten. Hiermit streben die zuständigen Landesbildungsministerien neben einer erhöhten Leistungsvergleichbarkeit außerdem die Förderung der schulischen Qualitätssicherung und -entwicklung an (vgl. Klein, Krüger, Kühn & Ackeren, 2016). Im Sinne einer summativ bilanzierenden Evaluation soll mithilfe zentraler Abschlussprüfungen festgestellt werden, ob und in welchem Ausmaß die Schulen die bundesweit gültigen Bildungsstandards erreichen (vgl. Kühn, 2010). Die Kultusministerkonferenz (im Folgenden: KMK) gibt anhand dieser Regelstandards die erwarteten abschlussbezogenen Kompetenzen in ausgewählten Fächern vor (vgl. KMK, 2004a). Im Kontext der zentralen Prüfungen sollen die Bildungsstandards anhand der landeseinheitlich vorgegebenen Prüfungsaufgaben sowie der zugehörigen Erwartungshorizonte operationalisiert werden, um überprüfen zu können, inwieweit die Schülerinnen und Schüler diese erfüllen (vgl. Kühn & Drüke-Noe, 2013). Anhand der beiden Steuerungsinstrumente Prüfungsklausur und Erwartungshorizont sollen sowohl ein landesweit identisches Anforderungsniveau als auch eine einheitliche, kriteriale Leistungsbeurteilung im 1 Es

handelt sich um ein teilzentrales Abschlussverfahren, da sich dieses neben den zentralen schriftlichen Prüfungen aus weiteren dezentralen Elementen zusammensetzt (z. B. mündliche Prüfungen oder Jahresnote aus dem vorgelagerten Schuljahr), deren Noten in Abhängigkeit des Bundeslandes und des Prüfungsfachs zu unterschiedlichen Anteilen bei der Berechnung der Abschlussnote berücksichtigt werden (vgl. vertiefend Abschnitt 3.1). 2 Orientiert an der Begriffswahl der KMK verwendet die Autorin im Rahmen dieser Studie durchgängig die Bezeichnung mittlerer Schulabschluss (vgl. KMK, 2003). Die alternativen, länderspezifischen Bezeichnungen Fachoberschulreife, mittlere Reife und Realschulabschluss werden mit Blick auf eine gute Lesbarkeit bzw. Verständlichkeit der Arbeit nicht genutzt.

4

1

Einleitung

Rahmen der Prüfung realisiert werden (vgl. Disdorn-Liesen, 2016). Welche Wahrnehmungen die Lehrkräfte hinsichtlich der Steuerungsinstrumente besitzen bzw. wie sie mit diesen umgehen und inwieweit die standardisierte Prüfungspraxis folglich tatsächlich einen Beitrag zur Vergleichbarkeit der Abschlusszertifikate leistet, lässt sich auf Grundlage der gegenwärtig nur rudimentär vorhandenen, empirischen Befunde jedoch nicht abschließend beantworten (vgl. vertiefend Kapitel 5). Fokus der Studie Die vorliegende Arbeit greift das Forschungsdesiderat auf (vgl. vertiefend Kapitel 5). Analog zu dem von der Deutschen Forschungsgemeinschaft (im Folgenden: DFG) geförderten Projekt Konfiguration und professionelle Nutzung kriterialer Bewertungsvorgaben in zentralen Abschlussprüfungen, in dessen Rahmen die Studie entstanden ist (vgl. vertiefend Kapitel 6), erfolgt eine Betrachtung des zentralen schriftlichen Prüfungsteils zum Erwerb des MSA. Dieser allgemeinbildende Schulabschluss stellt trotz unterschiedlicher bildungspolitischer Entwicklungen bzw. Reformen auch aktuell ein bedeutsames Zertifikat dar, welches den Zugang zur Sekundarstufe II sowie der beruflichen Bildung maßgeblich mitbestimmt (vgl. Kühn, 2013; Mathes & Kühn, 2016). Der untersuchungsspezifische Fokus liegt auf der explorativ-deskriptiven Betrachtung der Leistungsbeurteilung, welche im Gegensatz zur Prüfungsdurchführung „nach wie vor dezentral in den einzelnen Schulen durch die einzelnen Lehrpersonen realisiert [wird]“ (Maag Merki, 2016b, S. 164 f.) und folglich das Risiko einer variierenden, konkreten Umsetzung birgt (vgl. Mathes & Kühn, 2016). Das grundlegende Ziel dieser Arbeit besteht darin, Aufschlüsse über die Wahrnehmungen der beteiligten Lehrkräfte zum Beurteilungsverfahren zu erhalten, da diese Akteursgruppe für die Zertifizierung der Prüfungsarbeiten und demnach maßgeblich für eine vergleichbare Abschlussvergabe verantwortlich ist. Ein besonderes Augenmerk liegt hierbei auf der Erfassung von Einschätzungen bezüglich des Erwartungshorizontes, dessen Gestaltung und Nutzung. Unter Bezugnahme auf die Educational Governance-Forschung ist davon auszugehen, dass die Wahrnehmungen und der Umgang mit dem landesweit vorgegebenen Instrument nicht einheitlich sind, sondern vielmehr in Abhängigkeit der beurteilenden Lehrkraft sowie der landes- und schulspezifischen Rahmenbedingungen variieren (vgl. vertiefend Kapitel 4). Zur gezielten Begrenzung von potenziellen Einflussfaktoren bezüglich der Beurteilungspraxis konzentriert sich die Studie auf ein Prüfungsfach sowie zwei Bundesländer im Kontext der zentralen Prüfung zum Erwerb des MSA. Das ausgewählte Fach Deutsch besitzt als durchgängig vermitteltes Hauptfach eine

1

Einleitung

5

hohe schulische Relevanz und bildet ein Prüfungsfach, welches in allen beteiligten Bundesländern anhand einer landeseinheitlichen schriftlichen Klausur zentral abgefragt wird (vgl. Kapitel 3). Es erscheint insbesondere aufgrund dessen komplexer Beurteilungspraxis im Kontext von offenen, komplexen Langtextaufgaben mit umfangreichen fachspezifischen Anforderungen hinsichtlich der Gestaltung eines Erwartungshorizontes interessant (vgl. vertiefend Abschnitt 5.1.1). Im Hinblick auf die Leistungsfeststellung sind die sprachlichen und inhaltlichen Leistungen in den Schreibprodukten der Schülerinnen und Schüler in der Regel miteinander verknüpft sowie kaum völlig isoliert voneinander zu betrachten bzw. schwierig einzeln darzustellen oder zu gewichten. Darüber hinaus ist es nicht möglich, im Fach Deutsch alle Einzelleistungen dichotom als richtig und falsch zu bewerten (z. B. sprachliche Darstellungsleistungen). Stattdessen ist häufig eine weniger eindeutige Einschätzung notwendig, inwieweit die Leistung unter Berücksichtigung des jeweiligen Kontexts angemessen ist (z. B. hinsichtlich des Adressatenkreises oder der Textfunktion). Die zusätzliche Fokussierung auf die Bundesländer Baden-Württemberg und Nordrhein-Westfalen bietet neben der Chance einer vertieften, detaillierten Deskription der Beurteilungspraxis zudem eine Vergleichsmöglichkeit der Wahrnehmungen von Lehrkräften aus einem traditionell zentral prüfenden Bundesland sowie von Lehrpersonen aus einem Bundesland mit einer vergleichsweise jungen zentralen Prüfungspraxis. Während Baden-Württemberg eine lange zentrale Prüfungstradition seit 1962 besitzt, wurden die zentralen Prüfungen zum Erwerb des MSA in Nordrhein-Westfalen erst 2007 und somit 45 Jahre später implementiert (vgl. Kühn, 2013). Insgesamt zielt die Studie darauf, einen Einblick in die schulische Umsetzung der Reform zu ermöglichen und die vorhandenen Wahrnehmungen der Lehrkräfte im Kontext des Beurteilungsverfahrens bzw. speziell hinsichtlich des Erwartungshorizontes inklusive eingeschätzter Chancen, Herausforderungen und Anpassungsbedarfe sichtbar zu machen. Die Befunde sollen die bisherigen empirischen Wissensbestände zur Ausgestaltung der zentralen Prüfungen erweitern und einen Ausgangspunkt für weiterführende Forschung sowie die Modifikation bzw. Weiterentwicklung des Prüfungsverfahrens bilden. Zudem wurden die empirische Überprüfung der theoretischen Annahme einer uneinheitlichen, multifaktoriell beeinflussten Beurteilungspraxis sowie erste Hinweise auf die Steuerungswirksamkeit des Erwartungshorizontes bzw. die Zielerreichung einer vergleichbaren Abschlussvergabe angestrebt. Vor dem Hintergrund, dass das grundlegende Forschungsziel in einer sorgfältigen, systematischen Deskription der Wahrnehmungen von Lehrkräften im Kontext der Leistungsbeurteilung in zentralen Prüfungen zum Erwerb des MSA

6

1

Einleitung

im Prüfungsfach Deutsch liegt, entschied sich die Autorin3 für ein qualitatives Forschungsdesign (vgl. Schumann, 2018, S. 151 ff.). Die Studie soll zwar im Zuge dessen auch Hinweise auf die Gültigkeit der Annahme einer multifaktoriell beeinflussten Nutzungspraxis des Erwartungshorizontes sowie diesbezüglicher Einflussfaktoren geben und auf diese Weise zum Verständnis des Handelns der Lehrkräfte beitragen (vgl. vertiefend Kapitel 4), der Fokus liegt jedoch nicht auf einer Hypothesenprüfung oder Kausalerklärung, wofür sich ein quantitatives Vorgehen anbieten würde. Zudem erscheint ein qualitatives Design angesichts eines eingeschränkten Forschungsstandes hinsichtlich der Leistungsbeurteilung in zentralen Prüfungen sowie der Konfiguration und Anwendung von Erwartungshorizonten sinnvoll. Die gering standardisierte, offene und flexible Herangehensweise qualitativer Forschung erlaubt eine differenzierte, realitätsnahe Erfassung und Abbildung der Wahrnehmungen der Lehrpersonen sowie anschließend eine diesbezügliche Hypothesenbildung (vgl. Flick, Kardorff & Steinke, 2017, S. 25 ff.). Ein weiterer Grund für die Auswahl qualitativer Forschungsmethoden bildet deren spezielle Subjektorientierung, wonach das Subjekt und dessen Wahrnehmungen den Mittelpunkt der Forschung bilden (vgl. Schumann, 2018, S. 154 ff.). Der Anspruch, Lebenswelten aus der Perspektive der beteiligten Menschen zu beschreiben (vgl. Flick et al., 2017, S. 14) ist deckungsgleich mit dem eigenen Forschungsinteresse einer detaillierten Deskription im Kontext der Leistungsbeurteilung der zentralen Prüfungen zum Erwerb des MSA aus der Sicht der beteiligten Lehrkräfte. Die Autorin entschied sich für leitfadengestützte, problemzentrierte Einzelinterviews, die ein gleichermaßen offenes wie auch strukturiertes Gespräch ermöglichen (vgl. Witzel, 2000). Ein flexibler, den Gesprächen zugrundeliegender Leitfaden diente der Zusammenfassung des relevanten theoretischen Wissens und der zu thematisierenden Inhalte (vgl. Abschnitt 7.3.1). In einem mehrschrittigen, zirkulären Entscheidungsprozess wurde im Rahmen der Datenerhebung ein Sample von jeweils fünf Deutschlehrkräften aus Baden-Württemberg und NordrheinWestfalen bestimmt (vgl. vertiefend Abschnitt 7.4). Die Auswertung der erhobenen Daten anhand der qualitativen Inhaltsanalyse zielte primär auf die inhaltliche Ebene des Gesagten (vgl. Kuckartz, 2018). Die angestrebte Deskription der beschriebenen Wahrnehmungen von Lehrerinnen und Lehrern im Rahmen der Leistungsbeurteilung erfolgte unter Rückgriff auf die Variante der inhaltlichstrukturierenden qualitativen Inhaltsanalyse. Speziell vor dem Hintergrund des „Kern[s] der inhaltlichstrukturierenden Vorgehensweise […], am Material ausgewählte inhaltliche Aspekte zu identifizieren, zu konzeptualisieren und das Material 3 Die Begrifflichkeiten Autorin und Interviewerin werden im Folgenden synonym verwendet und rekurrieren auf die unterschiedlichen Rollen der Erstellerin dieser Arbeit.

1

Einleitung

7

im Hinblick auf solche Aspekte systematisch zu beschreiben […]“ (Schreier, 2014, S. 3), erschien diese methodische Variante besonders geeignet. Die zusätzliche Anwendung der typenbildenden Inhaltsanalyse sollte zu einer weiteren Verdichtung der Ergebnisse beitragen und die interviewten Lehrkräfte zu Gruppen zusammenfassen, die hinsichtlich ihrer Wahrnehmungen bezüglich des Erwartungshorizontes starke Ähnlichkeiten aufweisen (vgl. Kuckartz, 2018, S. 143 ff.). Orientiert an der systematischen Metaphernanalyse nach Schmitt (2017b) erfolgte abschließend eine ergänzende Betrachtung der sprachlichen Ebene. Unter Bezugnahme auf das grundlegende Verständnis der kognitiven Metapherntheorie ist anzunehmen, dass es sich bei Metaphern nicht ausschließlich um rhetorische Stilmittel handelt, vielmehr wird „ein Phänomen in Eigenschaften eines anderen verstanden und erlebt“ (Schmitt, 2017a, S. 1). Es ist anzunehmen, dass Metaphern die menschliche Wahrnehmung, das Handeln sowie das Denken lenken und strukturieren (vgl. Kruse, Biesel & Schmieder 2011, S. 75). Entsprechend dient die systematische Identifikation und Analyse von Metaphern dazu, vertiefende Erkenntnisse über die Denkprozesse bzw. Wahrnehmungen der Lehrkräfte zu erhalten und die Beurteilungspraxis möglichst differenziert zu beleuchten. Aufbau der Studie Die Struktur dieser Arbeit ist grundsätzlich zweigeteilt und lässt sich in einen theoretischen sowie einen empirischen Teil differenzieren. Der erstgenannte Teil bildet eine Zusammenfassung von relevanten Grundlagen für diese Studie und umfasst schulgeschichtliche Daten, theoretische Konzepte bzw. Annahmen sowie empirische Befunde, die im Hinblick auf die nachfolgende Untersuchung bedeutsam erscheinen. Für ein möglichst umfassendes Verständnis der Funktionen und des Ablaufs der schulischen Abschlussvergabe soll das teilzentrale Prüfungsformat zum Erwerb des MSA zunächst in den historischen Kontext der Abschlussvergabe eingebettet werden (vgl. Kapitel 2). Bedingt durch die Vielzahl und Komplexität schulgeschichtlicher Entwicklungen konzentriert sich die Autorin hierbei auf die Entstehung des Berechtigungswesens sowie die Implementation einer teilzentralen Abschlussvergabe und führt Chancen und Herausforderungen an, die mit der leistungsorientierten Ausrichtung des Bildungssystems verbunden sind. Im Anschluss stellt sie grundlegend das Abschlussverfahren zum Erwerb des MSA dar (vgl. Kapitel 3). Aufgrund der starken Variation der Prüfungsgestaltung (z. B. hinsichtlich des Schulabschlusses, des Bundeslandes, des Prüfungsfaches) wäre ein vollständiger Überblick über das teilzentrale Prüfungswesen in Deutschland im Rahmen dieser Arbeit zu umfangreich, folglich liegt das Hauptaugenmerk mit Blick auf das Forschungsinteresse auf den zentralen schriftlichen Prüfungen zum Erwerb des

8

1

Einleitung

MSA im Fach Deutsch sowie den landeseinheitlich vorgegebenen Instrumenten Prüfungsklausur und Erwartungshorizont. Nach der Darstellung der schulhistorischen und -theoretischen Grundlagen erörtert die Autorin unter Rückgriff auf das Konzept der Educational Governance sowie ausgewählter Befunde aus der pädagogischen Professionsforschung, der Arbeitspsychologie bzw. Lehrerbelastungsforschung und der Implementationsforschung die Annahme einer multifaktoriell beeinflussten Beurteilungspraxis im Kontext der zentralen Prüfungen, die trotz der Vorgabe eines landeseinheitlichen Erwartungshorizontes nicht einheitlich durchgeführt wird (vgl. Kapitel 4). Anknüpfend an die theoretischen Überlegungen zur Leistungsbeurteilung in der zentralen Prüfung stellt sie den aktuellen Forschungsstand hinsichtlich der Leistungsbeurteilung anhand von Erwartungshorizonten dar (vgl. Kapitel 5). Der Fokus wird diesbezüglich auf weitere (de-)zentrale Prüfungsformate sowie unterrichtliche Settings erweitert, in welchen ein Erwartungshorizont mit dem Ziel einer möglichst objektiven Zertifizierung zum Einsatz kommt. Der empirische Teil bildet den Kern dieser Arbeit. Dieses zweite große Segment gibt einen Überblick über die inhaltliche bzw. methodische Konzeption der empirischen Untersuchung sowie die Durchführung und Ergebnisse der vorgenommenen Analysen. Die Präsentation der zentralen Fragestellungen und Ziele der Studie sowie deren Umsetzung in ein spezifisches Forschungsdesign markiert den Ausgangspunkt dieses Teils (vgl. Kapitel 6). Hierauf folgen in separaten Kapiteln die Ausführungen bezüglich der methodischen Überlegungen bzw. Vorgehensweisen (z. B. Begründung der Methodenwahl, Instrumentenentwicklung): im Rahmen der Datenerhebung über leitfadengestützte, problemzentrierte Interviews (vgl. Kapitel 7) sowie im Rahmen der Datenauswertung anhand der qualitativen Inhaltsanalyse (vgl. Kapitel 8) und der Metaphernanalyse (vgl. Kapitel 9). Unter Bezugnahme auf die zentralen Fragestellungen werden schließlich die inhaltsanalytischen Ergebnisse (vgl. Kapitel 10), die metaphernanalytischen Interpretationen (vgl. Kapitel 11) und die gebildeten Lehrkräfte-Typen inklusive einer Triangulation ausgewählter Ergebnisse der Typenbildung und der Metaphernanalyse (vgl. Kapitel 12) vorgestellt. Die Zusammenfassung der zentralen Befunde und die Diskussion von theoretischen Erträgen bzw. praktischen Implikationen wie auch Grenzen der Studie bilden den Abschluss der Arbeit (vgl. Kapitel 13).

Teil I Theoretischer Teil

There is no guarantee that more standardized or standards-based grading systems substantially reduce teacher subjectivity in assigning grades […] Therefore, understanding the beliefs and values that influence teachers’ summative assessment decision making continues to be a relevant and rich area of research. (Chen & Bonner, 2017, S. 33) Die Vergleichbarkeit von Bildungsabschlüssen stellt ein zentrales bildungspolitisches Ziel dar (vgl. KMK, 2005, S. 5), welches im deutschen Bildungssystem in nahezu allen Bundesländern über die Durchführung zentraler schriftlicher Prüfungen angestrebt wird (vgl. Klein et al., 2016). Entgegen der Bezeichnung handelt es sich hierbei jedoch nicht um ein bundesweit homogenes Verfahren, sondern ein Konstrukt mit einer teils stark variierenden länderspezifischen Ausgestaltung (vgl. ebd., S. 83). Folglich sollen im theoretischen Teil dieser Studie die zentralen Prüfungen genauer betrachtet werden. Mit Blick auf das Forschungsinteresse liegt der Fokus speziell auf der intendierten bzw. tatsächlichen Ausgestaltung sowie den Herausforderungen im Kontext der Leistungsbeurteilung der zentralen Prüfungen zum Erwerb des MSA unter besonderer Berücksichtigung der landeseinheitlichen Erwartungshorizonte. Konkret gliedert sich der theoretische Teil wie folgt: – Kapitel 2: Skizzierung der Entwicklung eines schulischen Berechtigungssystems und einer teilzentralen Abschlussvergabe in Deutschland – Kapitel 3: Darstellung des teilzentralen Vergabeverfahrens des MSA unter besonderer Berücksichtigung der zentralen Prüfungen im Fach Deutsch – Kapitel 4: Erörterung einer potenziell multifaktoriell beeinflussten Beurteilungspraxis im Kontext der zentralen Prüfungen mit einem spezifischen Fokus auf den landeseinheitlichen Erwartungshorizont sowie den Umgang mit diesem – Kapitel 5: Zusammenfassung von deutsch- und englischsprachig zugänglichen Studien hinsichtlich der Wahrnehmung, der Gestaltung und des Umgangs mit Erwartungshorizonten, die der Objektivierung der Leistungsbeurteilung dienen

2

Schulische Abschlussvergabe in Deutschland

Das deutsche Bildungssystem stellt ein wichtiges „Instrument der Lebensplanung“ (Fend, 2008a, S. 53) dar, welches durch die Vergabe von Abschlusszertifikaten dazu beiträgt, die Schülerinnen und Schüler zu selektieren sowie auf bestimmte gesellschaftliche Positionen zu verteilen (vgl. ebd., S. 44 ff.). Allerdings regelte der Erwerb eines Bildungsabschlusses nicht immer bzw. in unterschiedlichem Ausmaß den Zugang zu Aus- und Weiterbildungseinrichtungen sowie den Einstieg in den Beruf. Stattdessen variiert der Stellenwert von schulischen Zertifikaten in Abhängigkeit der jeweiligen gesellschaftlichen Anforderungen. Dieses Kapitel gibt einen Überblick über ausgewählte historische Entwicklungen bezüglich der schulischen Abschlussvergabe. Bedingt durch die Komplexität und den Umfang der deutschen Schulgeschichte erfolgt hierbei eine Begrenzung auf ausgewählte schulstrukturelle und -organisatorische Entwicklungen im Kontext der Abschlussvergabe.1 Die Ausführungen sind speziell auf zwei bedeutsame Wendepunkte auf dem Weg zur heutigen Abschlussvergabe fokussiert: In einem ersten Schritt wird die verbindliche Einführung der Abiturprüfung in Preußen thematisiert, die im Zuge des Übergangs von der Ständegesellschaft zur leistungsorientierten Gesellschaft als Ursprung der leistungsgebundenen Abschlussvergabe bzw. des schulischen Berechtigungswesens verstanden werden kann (vgl. Abschnitt 2.1). In einem zweiten Schritt wird gezielt auf die Einführung des heutigen teilzentralen Abschlussverfahrens im Kontext der neuen Steuerung sowie diesbezügliche Beweggründe eingegangen (vgl. Abschnitt 2.2). Die Autorin verzichtet bewusst darauf, die unterschiedlichen bundeslandspezifischen Entwicklungen und Resultate, die sich aus der Kulturhoheit der Länder ergeben, im Einzelnen zu präsentieren, da dies eine 1 Für

einen Gesamtüberblick über die Entwicklung des deutschen Bildungssystems werden die folgenden Publikationen empfohlen: Ackeren et al. (2015) und Geißler (2011).

© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_2

11

12

2

Schulische Abschlussvergabe in Deutschland

große, wenig zweckdienliche Informationsfülle bedeuten würde. Im Hinblick auf das Ziel, einen Überblick über die Entwicklung hin zu einem Berechtigungswesen anhand zentraler Abschlussprüfungen zu geben sowie davon ausgehend ein differenziertes Verständnis aktueller Diskussionen im Kontext der Abschlussvergabe zu ermöglichen (vgl. Dietrich, 2008, S. 10 f.), entschied sie sich für eine Beschreibung der Entwicklungen auf der Bundesebene. Diese wird fallabhängig durch das Aufzeigen von länderspezifischen Besonderheiten ergänzt, sofern dies für das Verständnis notwendig erscheint.

2.1

Die schulische Abschlussvergabe aus historischer Perspektive: Von der Stände- zur Leistungsgesellschaft

Die zentrale formale Funktion des deutschen Bildungssystems, Abschlüsse zu vergeben und auf dieser Grundlage „[Schülerinnen und] Schüler im Hinblick auf verschiedene Schullaufbahnen und Lebenschancen [zu sortieren]“ (Rekus & Mikhail, 2013, S. 122), hat ihren Ursprung im frühen 19. Jahrhundert (vgl. Ackeren et al., 2015, S. 201 f.). Zwar besitzt das deutsche Prüfungswesen und die damit verbundene Zertifikatsvergabe eine wesentlich längere Tradition, jedoch regelte es zunächst nicht den Zugang zu (weiterführenden) schulischen und beruflichen Bildungseinrichtungen (vgl. Herdegen, 2009, S. 45). Prüfungspraxis und Zertifikatsvergabe vor der Existenz eines Berechtigungswesens Bis zum Ende der Frühen Neuzeit 2 entschied die Zugehörigkeit zu einem gesellschaftlichen Stand über die möglichen schulischen und beruflichen Perspektiven. Im Prüfungswesen dieser Epoche waren ausschließlich vereinzelte Tendenzen einer leistungsbezogenen Auslese erkennbar, wie z. B. im Rahmen von Prüfungen zur Klassenversetzung sowie zur Festlegung der Sitzordnung in der Kirche (vgl. Nagel, 2017): Das bedeutet, dass die Gymnasiasten nach den Examen einen bestimmten Platz in der Kirche zugewiesen bekamen, der ihren Leistungen entsprach. Sicherlich dürften dabei nach wie vor auch ständische Unterschiede zwischen Adeligen, Bürgerund Handwerkskindern berücksichtigt worden sein, aber die Obrigkeit versuchte wohl

2 Die

Bezeichnung Frühe Neuzeit bezieht sich auf eine geschichtliche Epoche von 1500 bis 1800 (vgl. vertiefend Vocelka, 2017).

2.1 Die schulische Abschlussvergabe aus historischer Perspektive …

13

zumindest innerhalb der verschiedenen Funktionssysteme (Adel, Bürgertum) das Leistungsprinzip durch die Bindung der Platzvergabe an die Prüfungen durchzusetzen. (ebd., S. 274)

Auch im Kontext des Schulübergangs liegen Befunde zu leistungsorientierten Entscheidungen vor. Beispielsweise existierte teils eine staatliche Stipendienpolitik, d. h. die Städte wählten mithilfe von Prüfungen Lernende aus, denen sie ein Universitätsstudium finanzierten, um im Anschluss mit dem qualifizierten Personal eigene Bedarfe zu decken (vgl. ebd., 263 ff.). Dennoch bildete die Leistung bei den schulischen Auswahlentscheidungen maximal ein untergeordnetes Entscheidungskriterium. Hinzu kam außerdem, dass es sich bei den vorgestellten Regelungen häufig um Einzelfälle handelte, die nicht flächendeckend umgesetzt wurden (vgl. ebd.). Wie zuvor angedeutet, besitzt auch die Zeugnisvergabe eine lange Tradition, die im deutschsprachigen Raum bis in die Frühe Neuzeit zurückreicht. Ähnlich wie das Prüfungsverfahren wurde jedoch auch mit diesem Instrument zunächst keine leistungsbezogene Verteilung der Schülerschaft angestrebt. Bereits im 16. Jahrhundert entstand die erste Variante des Schulzeugnisses, das sogenannte Benefizienzeugnis im Rahmen der protestantischen Reformation. Das Zertifikat enthielt Informationen zu ausgewählten Charaktereigenschaften eines Schülers (z. B. Fleiß, Frömmigkeit) und fungierte als „Empfehlungsschreiben für bedürftige Schüler, die um wirtschaftliche Unterstützung bzw. die Befreiung vom Schulgeld für den Besuch einer höheren Schule […] bitten“ (Urabe, 2009, S. 138). Das Jesuitenzeugnis diente demselben Zweck und bildete das katholische Äquivalent. Der einzige Unterschied bestand darin, dass in der katholischen Variante nachweislich erstmalig Ziffernnoten zur Abbildung der Charaktereigenschaften genutzt wurden (vgl. ebd., S. 28 ff.). Im 17. Jahrhundert existierten schließlich Bemühungen auch den Übergang von der Schule zur Universität mithilfe von Zeugnissen zu regeln. Das sogenannte Testimonium zertifizierte vereinzelt die Erlaubnis, eine Universität zu besuchen. Während die Benefizien- und Jesuitenzeugnisse aktiv von ärmeren Schülern beantragt werden mussten und ausschließlich Aussagen zu deren Charaktereigenschaften enthielten, wurden die Testimonia kollektiv an eine größere Schülergruppe vergeben und thematisierten zusätzlich die schulischen Leistungen der jeweiligen Personen (vgl. Nagel, 2017, S. 275 ff.). Die Leistung fand somit in einem ersten Schritt im Zeugnis Berücksichtigung, das Zeugnis bildete jedoch in einem zweiten Schritt keine verbindliche Grundlage für den Zugang zur Universität: „Die praktische Bedeutung eines solches Zeugnisses kann mit der eines heutigen nicht annähernd verglichen werden. Der augenfälligste Unterschied ist, daß ihm nahezu jeder Berechtigungseffekt fehlte“ (Breitschuh, 1991, S. 510).

14

2

Schulische Abschlussvergabe in Deutschland

Einführung eines leistungsorientierten Berechtigungswesens Der Zugang zu einem Hochschulstudium blieb bis in das beginnende 19. Jahrhundert weiterhin ungeregelt (vgl. Urabe, 2009, S. 35). Erst mit dem Zusammenbruch der ständischen Gesellschaftsordnung veränderte sich der Stellenwert bzw. die Funktion von schulischer Bildung (vgl. Herrlitz, 1973, S. 11 f.). Im Zuge der Industrialisierung gewann der materielle Besitz für die soziale Stellung einer Person an Bedeutung und „die Adligen [verloren] mit ihrem geburtsständisch legitimierten Paradigma von Macht immer weiter an Einfluss, woran vor allem die zunehmende Orientierung am reinen Leistungsgedanken durch Bildung ihren Anteil hatte“ (Piaschinski, 2009, S. 78). Während das Geburtsrecht in den Hintergrund trat, gewann sukzessive das sogenannte Leistungsprinzip bzw. meritokratische Prinzip an Bedeutung, „welches Chancen und Positionen nach Leistung zuweist – nicht etwa nach Abstammung, Bekanntschaft, weltanschaulicher Nähe usw.“ (Sacher, 2014, S. 15). Gemäß diesem Prinzip kann eine gerechte Verteilung von Lebenschancen über die Belohnung einer individuellen Leistung durch eine entsprechende Gegenleistung erfolgen (z. B. in Form der Ausübung eines begehrten Berufs). Die soziale Ungleichheit, die aus der unterschiedlichen Aufteilung von Gütern und Positionen resultiert, gilt hierbei nicht nur als unumgänglich, sondern im Sinne eines Belohnungssystem für entsprechende Leistungen als erwünscht (vgl. Birkelbach, 2010, S. 107 f.). Das grundlegende Ziel einer meritokratischen Gesellschaft besteht folglich darin, „eine Anreizstruktur und legitime Allokationsmechanismen zu entwickeln, um die Positionen in der Gesellschaft mit den leistungsfähigsten, begabtesten und am besten qualifizierten Personen zu besetzen“ (ebd., S. 107). Diesbezüglich besaß das Bildungswesen fortan einen hohen Stellenwert und die schulische Bildung bildete nicht mehr primär ein privates Gut, sondern wies eine Art Investitionscharakter auf (vgl. Büchner, 2003, S. 9 f.), da sie von nun auch der Statuserlangung bzw. -abgrenzung diente (vgl. Piaschinski, 2009, S. 79 f.). Ausgehend von der staatlich festgelegten Abhängigkeit eines Amts von einem Studium wurde entsprechend auch die Regelung des vorgelagerten Zugangs zur Universität diskutiert (vgl. Herrlitz, 1973, S. 11 f.). Im Rahmen der preußischen Maturitätsverhandlungen fokussierte das Oberschulkollegium, welches 1787 als staatliche Aufsicht des höheren Schulwesens gegründet wurde, die Einführung einer Abiturprüfung als Voraussetzung für die Aufnahme eines Studiums bereits im Dezember desselben Jahres (vgl. Ackeren et al., 2015, S. 15 ff.). Mit der Regelung des Zugangs zur Universität sollte gemäß dem preußischen „Reglement für die Prüfung an den Gelehrten Schulen“ zukünftig sichergestellt werden, dass die Schulabsolventen ein ausreichendes Vorwissen für ein Hochschulstudium besitzen (vgl. Bölling, 2010, S. 25 f.). Bedingt durch die weiterhin vorhandenen Widerstände bezüglich des „Abbau[s] des ständischen Studienprivilegs“ (vgl. Herrlitz, 1973, S. 109) und die Sorge

2.1 Die schulische Abschlussvergabe aus historischer Perspektive …

15

vor Reaktionen privilegierter Eltern auf die staatliche Regelung des Zugangs zur Universität konnte das Abitur als zwingende Zulassungsvoraussetzung für den Universitätsbesuch nur schrittweise über drei Abiturreglements festgelegt werden (vgl. Bölling, 2010, S. 25 ff.): 1. Abiturreglement: Mit dem Erlass eines ersten Abiturreglements im Jahr 1788 wurde zunächst die Prüfungsdurchführung grob vorgeschrieben, jedoch bildete das Abitur zu diesem Zeitpunkt lediglich eine verbindliche Voraussetzung für den Erhalt eines Stipendiums. Entsprechend wiesen in der Zeit von 1789 bis 1806 nur etwas mehr als die Hälfte der Studienanfängerinnen und -anfänger das erfolgreiche Bestehen des Abiturs über ein schulisches Reifezeugnis nach, sodass von einem geringen Steuerungseffekt dieses ersten Abiturreglements ausgegangen werden kann (vgl. ebd., S. 26 f.). 2. Abiturreglement: Der Erlass des zweiten Abiturreglements im Jahr 1812 differenzierte die inhaltlichen Vorgaben für die Prüfungsdurchführung aus (vgl. ebd., S. 30). Darüber hinaus bildete das Abitur fortan sowohl eine obligatorische Zugangsvoraussetzung für ein Stipendium als auch für die Aufnahme eines Amtes im Staatsdienst (vgl. Urabe, 2009, S. 36 f.). Obwohl das Zertifikat weiterhin nicht zwingend für einen Universitätsbesuch erforderlich war, wurde das Absolvieren der Abiturprüfung zur Pflicht (vgl. Bölling, 2010, S. 30). 3. Abiturreglement: Erst mit der Verabschiedung des dritten Abiturreglements im Jahr 1834 bildeten das Bestehen einer Abiturprüfung sowie der zugehörige Nachweis in Form des Reifezeugnisses die verbindlichen Voraussetzungen für die Aufnahme an einer Universität3 (vgl. Urabe, 2009, S. 38 f.). Die grundsätzlichen Bestimmungen dieses Reglements blieben bis etwa zur Mitte des 20. Jahrhunderts erhalten (vgl. vertiefend Bölling, 2010, S. 38 ff.). „Die Tatsache, dass für den Eintritt in bestimmte Berufe und die Aufnahme eines Studiums das Zeugnis einer allgemeinbildenden Schule [zwingend] erforderlich, dieses nicht durch eine etwaige Auswahlprozedur ersetzbar ist, [markiert den Ursprung des schulischen Berechtigungswesens, einem bislang] […] herausstechenden Merkmal des deutschen Bildungs- und Ausbildungssystems“ (Geißler, 2011, S. 136). Unter Bezugnahme auf das zuvor thematisierte meritokratische Prinzip bestand der grundlegende Anspruch des Berechtigungswesens darin, dass der 3 Die Abiturprüfung bildete seit 1834 die Zugangsvoraussetzung für alle männlichen Schüler.

Der Zugang zu einem Hochschulstudium war für Frauen erst Anfang des 20. Jahrhunderts möglich (vgl. Urabe, 2009, S. 38). Im niederen Schulwesen erfolgte die Einführung von leistungsgebundenen Zeugnissen und Zensuren in der zweiten Hälfte des 19. Jahrhunderts (vgl. Fiegert, 2001, S. 24 f.).

16

2

Schulische Abschlussvergabe in Deutschland

Zugang zu einem Studium bzw. Beruf leistungsorientiert erfolgt (vgl. vertiefend Becker & Hadjar, 2017). Für die Schule ergab sich somit die neue zentrale Aufgabe, fortan „aufgrund der gezeigten individuellen Leistungen Berechtigungen und Zertifikate [zu vergeben]“ (Keller, 2014, S. 28) und auf dieser Grundlage Schülerinnen und Schüler auszuwählen bzw. auf berufliche Laufbahnen zu verteilen (vgl. Fend, 2008a, S. 50). Fend (1980) vergleicht das schulische Vorgehen in diesem Kontext mit dem eines „Rüttelsiebes“, welches die Schülerschaft leistungsorientiert filtert. Die Schule erfüllte somit neben der Qualifikation der Schülerschaft über die Vermittlung von Wissen und Kompetenzen außerdem eine sogenannte Selektionsbzw. Allokationsfunktion. Diese neu entstandene Zuteilungsfunktion kann gleichermaßen als Resultat der gesellschaftspolitischen Entwicklungen gewertet werden, wie auch als Beitrag zur Etablierung eines meritokratischen Systems (vgl. Kuper & Thiel, 2018, S. 593). Durch den entsprechend erweiterten Aufgabenbereich entwickelte sich die Schule zu einer bedeutenden „bürokratischen Zuteilungsapparatur von Lebens-Chancen“ (Schelsky, 1967, S. 18).

2.2

Die schulische Abschlussvergabe aus aktueller Sicht: Von der input- zur outputorientierten Steuerung

Das schulische Berechtigungswesen ist unabhängig von den unterschiedlichen Entwicklungen im deutschen Bildungssystem bis in das 21. Jahrhundert erhalten geblieben und spielt auch in der Gegenwart eine bedeutende Rolle (vgl. Waldow, 2014). Dennoch existieren heutzutage neben schulischen Abschlusszertifikaten häufig weitere Zulassungsvoraussetzungen, wie u. a. spezielle Aufnahmeprüfungen, das erfolgreiche Absolvieren eines Vorstellungsgesprächs oder Assessment-Centers (vgl. z. B. Borowski et al., 2018; Schwibbe et al., 2018; Stumpf et al., 2017). Ein Aufbrechen des Berechtigungssystems lässt sich insbesondere im Kontext der Hochschulzulassung beobachten. Ausgehend von der 2005 in Kraft getretenen siebten Hochschulrahmengesetz-Novelle erhielten die Hochschulen mehr Verantwortung bei der Studienplatzvergabe und es entwickelten sich zahlreiche hochschuleigene Auswahlverfahren, in welchen neben der Hochschulzugangsberechtigung bzw. der Abiturdurchschnittsnote, die Eignung der Bewerberinnen und Bewerber im Sinne der eigenen Standards der abnehmenden Institutionen anhand von weiteren Bausteinen wie Eignungstests, Talentprüfungen oder Bewerbungsgesprächen festgestellt werden soll (vgl. Koch, 2014). Als aktuelles Beispiel kann auf die beschlossene Neugestaltung des Hochschulzugangs zu medizinischen Studiengängen verwiesen werden (vgl. KMK, 2018). Das bisherige Auswahlverfahren war

2.2 Die schulische Abschlussvergabe aus aktueller Sicht …

17

zuvor insbesondere dahingehend kritisch diskutiert worden, dass im Zuge der Eignungsfeststellung bzw. der Zulassung die Abiturnote und die Wartezeiten für einen Studienplatz eine hohe Relevanz besitzen, wie z. B. die bildhaften Darstellungen in Zeitungsartikeln veranschaulichen, welche die unerwünschte Funktion der Abiturnote mit einem Fallbeil vergleichen (vgl. Munzinger, 2017; Schnurr, 2018) oder die wünschenswerte Bedeutung der Abiturnote für das Studium als Krücke relativieren (vgl. Wagner, 2010). Den Ausgangspunkt für die Neugestaltung der Studienplatzvergabe bildete schließlich ein Urteil des Bundesverfassungsgerichts. Dieses stufte das bisherige Verfahren u. a. aufgrund des Kritikpunktes als verfassungswidrig ein, dass „für einen hinreichenden Teil der Studienplätze neben der Abiturdurchschnittsnote keine weiteren Auswahlkriterien mit erheblichem Gewicht Berücksichtigung finden“ (Bundesverfassungsgericht, 2017). Als Reaktion hierauf einigten sich „der Bundesgesundheitsminister, die Bundesforschungsministerin sowie Vertreterinnen und Vertreter der Gesundheits- und der Kultusministerkonferenz der Länder und der Koalitionsfraktionen des Deutschen Bundestages am 31.3.2017“ (Brehm & Brehm-Kaiser, 2017, S. 215) im Rahmen des Masterplans Medizinstudium 2020 u. a. darauf, dass im Auswahlverfahren der Hochschulen neben der Abiturnote zwei weitere Auswahlkriterien berücksichtigt werden, welche „insbesondere die sozialen und kommunikativen Fähigkeiten sowie die Leistungsbereitschaft der Studienbewerberinnen und -bewerber einbeziehen“ (Wissenschaftsrat, 2018, S. 124). Der Stellenwert von Abschlusszertifikaten bzw. der Abiturnote wird durch derartig veränderte Zugangsbedingungen zwar reduziert, dennoch bleibt „die Abiturnote auch weiterhin ein wichtiges Auswahlkriterium im Zulassungsverfahren“ (ebd.), d. h. Abschlüsse bzw. Abschlussnoten bilden trotz des Einbezugs weiterer Aspekte nach wie vor wesentliche Bedingungen für den Zugang zu Bildungseinrichtungen sowie beruflichen Positionen (vgl. Autorengruppe Bildungsberichterstattung, 2018, S. 120 ff.; Müller-Benedict, 2010, S. 452). Entsprechend ist es besonders wichtig, dass „die Länder, schon gar in ihrer Einbindung in das heterogene föderale System, Sorge dafür tragen, dass die Wirkung schulischer Arbeit überall da, wo gleiche Zertifikate vergeben werden, tatsächlich vergleichbar ist“ (Hillbrandt & Sintzen-Königsfeld, 2009, S. 15). Herausforderungen der leistungsorientierten Abschlussvergabe Es zeigte sich zu unterschiedlichen Zeitpunkten und an unterschiedlichen Stellen, dass die Umsetzung des meritokratischen Prinzips im Sinne einer leistungsorientierten Abschlussvergabe nicht unproblematisch ist und es sich vielmehr um ein Leitideal handelt, das bisher nicht erreicht wurde (vgl. Waldow, 2012, S. 171).

18

2

Schulische Abschlussvergabe in Deutschland

Eine potenzielle Schwierigkeit besteht in der Existenz weiterer Verteilungsprinzipien neben dem Leistungsprinzip, welche mit diesem konkurrieren und einen Einfluss auf die Verteilung von Lebenschancen besitzen (vgl. zusammenfassend Sacher, 2014, S. 17 ff.). Empirische Befunde verweisen darauf, dass das „Geburtsrecht“ im Sinne der ethnischen und soziökonomischen Herkunft im Kontext von schulischen Übergängen und der Zuteilung beruflicher Chancen weiterhin durchaus bedeutsam ist (vgl. zusammenfassend Büchner, 2003, S. 14 f.; Holtappels, 2017). Dies wird beispielsweise anhand Peiserts (1967) symbolischer Kunstfigur des katholischen Arbeitermädchens vom Lande und der Kurzformel des muslimischen Jungen aus der Innenstadt deutlich, welche in den 1960er Jahren bzw. aktuell relevante Kategorien der Benachteiligung zusammenfassen und veranschaulichen (vgl. vertiefend Baumert, Cortina & Leschinsky, 2008, S. 92 ff.; Geißler, 2013). Auch die Umsetzung des meritokratischen Prinzips selbst birgt Herausforderungen, die sich u. a. daraus ergeben, dass zunächst entschieden werden muss, was als Leistung anerkannt wird (vgl. zusammenfassend Jürgens, 2010, S. 26 ff.): Jedes Handeln ist zunächst, was es ist. Zur Leistung wird ein Handeln erst durch die Bewertung und Anerkennung dieses Handelns als Leistung. […] Nun können die zur Leistungsfeststellung und zur Leistungsbemessung unentbehrlichen Wertungen nicht wahr oder falsch sein, sie können nur gelten oder nicht gelten. Geltung aber hängt nicht von der intersubjektiv nachprüfbaren Wahrheit eines Arguments, sondern von der sozialen Macht dessen ab, der bestimmen kann, was (sozial) gilt oder gelten soll. (Heid, 2003, S. 41)

Die selektionsrelevanten schulischen Leistungen sind somit nicht naturgegeben festgelegt (vgl. vertiefend Ziegenspeck, 1999), sondern soziale Konstrukte, die von definitionsmächtigen Mitgliedern und Institutionen der Gesellschaft definiert werden (vgl. Solga, 2013, S. 25 f.). Entsprechend besteht eine starke Abhängigkeit der Anwendung des meritokratischen Prinzips von der zugrundeliegenden gesellschaftlichen Situation und den geltenden Machtverhältnissen. Hieraus resultiert, dass sich der Leistungsbegriff im Zuge fortwährender gesellschaftlicher Entwicklungen immer wieder verändert (vgl. Fiegert, 2001) und ein schulisches Vorgehen orientiert am Leistungsprinzip nicht zwangsläufig eine gerechte Auslese bzw. Zuteilung von Schülerinnen und Schülern gewährleistet (vgl. Sahli Lozano, 2012, S. 24 ff.): Das Leistungsprinzip kann offenbar lediglich dann eine gerechte Verteilungspraxis begründen, wenn Chancengleichheit bereits gegeben ist. Somit ist es nur bedingt als ein Instrument zum Abbau von Chancenungleichheit anzusehen. Bei bestehender Chancenungleichheit wird es leicht zum strategischen Instrument von Gruppen und Schichten, die über die Macht verfügen zu definieren, was als hohe Leistung gelten soll. (Sacher, 2014, S. 16)

2.2 Die schulische Abschlussvergabe aus aktueller Sicht …

19

Folglich besteht die Gefahr einer erheblichen Ideologieanfälligkeit des meritokratischen Prinzips (vgl. ebd., S. 15 ff.), diese zeigte sich beispielsweise konkret im Kontext des Dritten Reichs. Die Nationalsozialisten instrumentalisierten die schulische Auslesepraxis dahingehend, dass der Zugang zur höheren Bildung für die jüdische bzw. weibliche Schülerschaft begrenzt wurde (vgl. Ackeren et al., 2015, S. 35 f.). Eine gesellschaftliche Chancengleichheit bildet somit die notwendige Grundvoraussetzung für eine Abschlussvergabe, die der leistungsorientierten Selektion und dem Grundsatz der Chancengleichheit genügt (vgl. Lange, 2005, S. 85 ff.). Unabhängig davon, ob entsprechende gesellschaftliche Bedingungen geschaffen werden, ist außerdem die Zertifizierung der Leistungen fehleranfällig. Genau genommen, ist nämlich „nicht die Leistung, sondern der Leistungsnachweis (in Form von Bildungszertifikaten) […] eine notwendige Voraussetzung für den Zugang zu den gehobenen Positionen“ (Solga, 2005, S. 30). In einer Vielzahl von Studien wird angemerkt, „dass die Beurteilungen, die zu den Selektionen führen, weder objektiv noch gerecht sind“ (Munsch, 2009, S. 114). Sie unterliegen vielmehr Beurteilungsfehlern und Verzerrungen, welche die Zertifizierung der Leistungen unbewusst (z. B. durch Wahrnehmungsfehler) oder bewusst (z. B. durch die Orientierung an alternativen Verteilungskriterien) beeinflussen können.4 Insbesondere die Schulnoten stehen seit Jahrzehnten in der Kritik, die zugrundeliegenden Leistungen nicht korrekt abzubilden (vgl. vertiefend Ingenkamp, 1995). Empirische Befunde belegen, dass die Notenvergabe u. a. durch die folgenden leistungsfremden Faktoren beeinflusst werden kann (vgl. zusammenfassend Mathes & Kühn, 2016, S. 170; Tabelle 2.1): Tabelle 2.1 Einflussfaktoren im Kontext der Notenvergabe Einflussbereich

Einflussfaktor

Beispielhafte empirische Befunde

föderale und schulische Faktoren

Bundesland

Neumann et al. (2009) zeigen anhand von Mehrebenenanalysen, dass in BW und HH auf vergleichbare Abiturleistungen im Fach Mathematik unterschiedliche Noten folgen.

Schulform

Die ethnographische Untersuchung von Breidenstein und Zabarowski (2013) verweist darauf, dass Fünftklässler in der Sekundarschule strenger benotet werden als im Gymnasium. (Fortsetzung)

4 Die Herausforderungen einer möglichst objektiven Leistungsbeurteilung diskutiert die Auto-

rin ausführlich in Kapitel 4.

20

2

Schulische Abschlussvergabe in Deutschland

Tabelle 2.1 (Fortsetzung) Einflussbereich

Einflussfaktor

Beispielhafte empirische Befunde

Schule

Anhand der empirischen Analyse von Daten der PISA-E-Studiea zeigt sich, dass die Benotungsstandards nicht nur zwischen den Bundesländern und Schulformen, sondern auch zwischen den Einzelschulen variieren (Klieme, 2003).

Klasse

In der quantitativen Studie von Trautwein und Baeriswyl (2007) variiert die Beurteilung bzw. Übertrittsempfehlung der einzelnen SuSb in Abhängigkeit des mittleren Leistungsniveaus der jeweiligen Klasse.

Fach

In Abhängigkeit des Unterrichtsfachs kann eine unterschiedlich strenge Zensierung festgestellt werden, z. B. erfolgt eine tendenziell mildere Beurteilung in Fächern, in welchen keine schriftlichen Leistungsüberprüfungen stattfinden (vgl. zusammenfassend Jürgens, 2010, S. 67).

personenbezogene Expertise und Faktoren der Erfahrung beurteilenden Lehrkraft

Barkaoui (2011) stellt in seiner quantitativen Untersuchung fest, dass erfahrene Lehrkräfte signifikant strenger beurteilen als Berufsanfänger_innen.

Alter

In der quantitativen Studie von Song et al. (2014) beurteilt die Gruppe der 26- bis 39-jährigen Personen genauer als die Beurteiler_innen unter 26 Jahren.

Geschlecht

Die quantitative Analyse von Link (2018) zeigt, dass weibliche und männliche Lehrkräfte verschieden streng beurteilen.

Persönlichkeitsmerkmale Es kann nicht vollständig vermieden werden, dass persönliche Werte, Eigenschaften usw. in die Leistungsbeurteilung einfließen (vgl. zusammenfassend Sacher, 2014, S. 47 ff.). personenbezogene Geschlecht Faktoren der beurteilten SuS

Han, Elsäßer, Lang und Ditton (2017) stellen in einer Längsschnittstudie fest, dass Mädchen in der Primarstufe im Fach Mathematik tendenziell besser bewertet werden. (Fortsetzung)

2.2 Die schulische Abschlussvergabe aus aktueller Sicht …

21

Tabelle 2.1 (Fortsetzung) Einflussbereich

Einflussfaktor

Beispielhafte empirische Befunde

Charaktereigenschaften

Rausch, Karing, Dörfler und Artelt (2016) verweisen im Kontext ihrer quantitativen Studie darauf, dass die Leistungen von SuS, die eine ähnliche Persönlichkeit wie die Lehrkraft besitzen, tendenziell positiver beurteilt werden.

physische Attraktivität

Dunkake, Kiechle, Klein und Rosar (2012) kommen im Rahmen ihrer quantitativen Studie zu dem Ergebnis, „dass die physische Attraktivität der Schüler signifikant und substanziell ihre Fachnoten beeinflusst“ (S. 142).

ethnische Herkunft und sozioökonomischer Hintergrund

Maaz, Baeriswyl und Trautwein (2013) stellen in ihrer quantitativen Untersuchung fest, dass Herkunftseffekte die Notenvergabe beeinflussen (z. B. sozialer Status der Eltern).

a Die PISA-E Studie bildet eine Erweiterung der internationalen Schulleistungsstudie, mit dem Ziel „die Situation innerhalb der Länder genauer zu beschreiben und die Ergebnisse länderübergreifend zu vergleichen“ (Stanat et al., 2002, S. 4). b In Abbildungen und Tabellen wird für die Begriffskombination Schülerinnen und Schüler im Folgenden die Abkürzung SuS genutzt.

Die Fehleranfälligkeit des meritokratischen Prinzips sowie speziell der Notenvergabe sind insbesondere mit Blick auf die Vergleichbarkeit der Abschlussvergabe bedenklich, da hierdurch das Risiko besteht, dass der schulische Selektionsund Allokationsprozess verfälscht und die Bildungsverläufe der Schülerinnen und Schüler (negativ) beeinflusst werden (vgl. Maaz et al., 2013, S. 304). Folglich können Bildungsbenachteiligungen insbesondere an schulischen Übergängen entstehen oder verstärkt werden (vgl. Ditton, 2013). Die Reformen der Bildungsexpansion in den 1960er Jahren trugen zwar zu einer Nivellierung der festgestellten Benachteiligungen bedingt durch das Geschlecht, die Konfessionszugehörigkeit oder den Wohnort der Schülerinnen und Schüler bei, empirische Analysen verweisen jedoch weiterhin auf die Existenz von Bildungsbenachteiligungen bestimmter Personengruppen (vgl. Rogge & Groh-Samberg, 2015, S. 26). Demnach bestehen ethnische und schichtspezifische Ungleichheiten (vgl. zusammenfassend Ditton & Maaz, 2015; Stanat & Edele, 2015), aber auch das Geschlecht der Schülerinnen und Schüler sowie regionale Unterschiede bilden aktuell relevante Einflussfaktoren im Kontext der Bildungsbeteiligung (vgl. zusammenfassend Hannover, 2015; Kemper & Weishaupt, 2015).

22

2

Schulische Abschlussvergabe in Deutschland

Die vorliegenden Bildungsbenachteiligungen im Kontext von schulischen Übergängen erscheinen speziell vor dem Hintergrund des mehrgliedrigen Schulsystems problematisch (vgl. Ditton, 2010), welches eine Vielzahl solcher Schnittstellen aufweist und „[…] – im internationalen Vergleich besonders deutlich – wie ein Hindernisparcours strukturiert, mit vielen und besonders frühen Schaltstellen der Selektion [gestaltet ist]“ (Helsper & Kramer, 2007, S. 439). Dieser Problematik hat in den letzten Jahrzehnten die zunehmende Entkopplung von Schulform und Bildungsabschluss entgegengewirkt (z. B. Zusammenfassung von Schulformen zu Sekundar-, Gesamtund Gemeinschaftsschulen), die den Erwerb eines Abschlusszertifikates an unterschiedlichen Schulformen ermöglicht und dafür sorgt, „dass Bildungswege offen gehalten werden und Korrekturmöglichkeiten in größerem Umfang gegeben sind“ (Winkler, 2017, S. 279). Diesbezüglich ist jedoch relativierend darauf hinzuweisen, dass Schulen, die mehrere Bildungsgänge zusammenfassen, nach wie vor lediglich eine Ergänzung des gegliederten Schulsystems darstellen und dieses nicht vollständig ersetzen (vgl. Ackeren et al., 2015, S. 40). Bezüglich einer grundlegenden Strukturreform des gegliederten Schulsystems besteht bislang weder auf wissenschaftlicher noch auf politischer Ebene ein Konsens (vgl. Hurrelmann, 2013; Maaz, 2017). Bundesweite Einführung einer teilzentralen Abschlussvergabe Nach einigen Jahren der bildungspolitischen Stagnation sowie des Reformstaus entstand Ende der 1990er-Jahre eine verstärkte Diskussion der „Frage der sozialen Selektivität des Bildungswesens“ (Fend, 2008a, S. 44) mit deutlich sichtbaren Folgen für die heutige Abschlussvergabe (vgl. Bonsen & Priebe, 2016, S. 6). Die kritische Betrachtung des deutschen Bildungssystems wurde maßgeblich durch die Ergebnisse von Schulleistungsstudien um die Jahrhundertwende befördert (vgl. vertiefend Baumert, Cortina & Leschinsky, 2008, S. 115 ff.; Terhart, 2000). Neben einer „insgesamt mangelnde[n] Leistungsfähigkeit [des deutschen Schulsystems] und […] Defizit[en] im Bereich der Qualitätssicherung […] haben die Leistungsstudien auf die große Leistungsbandbreite zwischen den Schulen der Bundesländer und damit auf mangelnde Vergleichbarkeit der zu Berechtigungen führenden Zertifikate hingewiesen.“ (Hillbrandt & Sintzen-Königsfeld, 2009, S. 15). Mit Blick auf die schulischen Übergänge und Abschlüsse zeigt sich beispielsweise anhand der Daten der IGLU-Studie5 2001, dass bereits im Kontext des Übergangs von der Primar- zur Sekundarstufe keine leistungsgebundene Auslese gelingt: „[So] erhalten Kinder derselben Kompetenzstufe unterschiedliche Beurteilungen in Form 5 Bei

der IGLU-Studie handelt es sich um eine internationale Schulleistungsstudie, anhand welcher das Lesevermögen von Grundschülerinnen und -schülern der 4. Jahrgangsstufe erfasst wird. Das Akronym IGLU steht stellvertretend für Internationalen Grundschul-LeseUntersuchung (vgl. vertiefend Bos et al., 2003).

2.2 Die schulische Abschlussvergabe aus aktueller Sicht …

23

von Lese- bzw. Deutschnoten und auch von Übergangsempfehlungen“ (Bos et al., 2003, S. 18). In direkter Ergänzung hierzu verweisen die Ergebnisse der PISA-Studie6 aus dem Jahr 2000 auf migrationsbedingte Benachteiligungen hinsichtlich des Schulformbesuchs in der Sekundarstufe: Die Wahrscheinlichkeit eines Gymnasial- statt eines Hauptschulbesuchs bei Jugendlichen mit zugewanderten Eltern ist um ein Vierfaches niedriger als bei Jugendlichen, deren Eltern in Deutschland geboren sind (vgl. Baumert & Schümer, 2001). Im internationalen Vergleich wird deutlich, dass die soziale Herkunft im Kontext der schulischen Selektion in der Bundesrepublik trotz der Bildungsexpansion in Relation zu anderen Industrienationen besonders entscheidend ist7 (vgl. Terhart, 2002). Unter Bezugnahme auf die Ergebnisdaten erster Schulleistungsstudien verabschiedete das Sekretariat der KMK bereits im Jahr 1997 den sogenannten Konstanzer Beschluss. Mit dem Anspruch, „die Gleichwertigkeit der schulischen Ausbildung, die Vergleichbarkeit der Schulabschlüsse sowie die Durchlässigkeit des Bildungssystems [sicherzustellen]“ (KMK, 1997), wurden speziell die Entwicklung länderbezogener Maßnahmen zur Sicherung der Qualität der schulischen Bildung sowie ergänzend die Durchführung länderübergreifender Vergleichsuntersuchungen zum Lernund Leistungsstand der Schülerschaft vereinbart (vgl. ebd.). Im Zuge des schlechten Abschneidens im Rahmen der ersten deutschen Teilnahme an der PISA-Studie im Jahr 2000 und der starken medialen Aufbereitung entsprechender Ergebnisdaten erhöhte sich der Reformdruck weiter (vgl. Haase, 2015, S. 16 ff.; Michels, 2012; Tillmann, Dedering, Kneuper, Kuhlmann & Nessel, 2008 S. 101 f.). Infolgedessen leitete die KMK sukzessive Bildungsreformen ein, die teilweise bis heute kritisch diskutiert und weiterentwickelt werden (vgl. Bonsen & Priebe, 2016, S. 9 f.). Insgesamt verabschiedete die KMK sieben thematische Handlungsfelder, welche die einzelnen Maßnahmen bündeln, die von der KMK und den Bundesländern vorrangig umgesetzt werden sollen (vgl. KMK, 2002b, S. 6 f.): 1. Verbesserung der Sprachkompetenz bereits im vorschulischen Bereich 2. bessere Verzahnung von vorschulischem Bereich und Grundschule mit dem Ziel einer frühzeitigen Einschulung 6 Bei

der PISA-Studie handelt es sich um eine internationale Schulleistungsstudie der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (Organisation for Economic Co-operation and Development, kurz: OECD), anhand welcher die Kenntnisse und Kompetenzen von 15-jährigen Schülerinnen und Schülern erfasst werden. Das Akronym PISA steht stellvertretend für Programme for International Student Assessment (vgl. vertiefend für PISA 2000: Baumert et al., 2001 und für den aktuellen Stand: Odendahl, 2017). 7 Aktuelle Befunde verweisen darauf, dass Herkunftseffekte im Kontext der Bildungsbeteiligung auch heutzutage bedeutsam sind (vgl. vertiefend Baader & Freytag, 2017).

24

2

Schulische Abschlussvergabe in Deutschland

3. Verbesserung der Grundschulbildung und durchgängige Verbesserung der Lesekompetenz und des grundlegenden Verständnisses mathematischer und naturwissenschaftlicher Zusammenhänge 4. wirksame Förderung bildungsbenachteiligter Kinder, insbesondere auch der Kinder und Jugendlichen mit Migrationshintergrund 5. konsequente Weiterentwicklung und Sicherung der Qualität von Unterricht und Schule auf der Grundlage von verbindlichen Standards sowie eine ergebnisorientierte Evaluation 6. Verbesserung der Professionalität der Lehrertätigkeit, insbesondere im Hinblick auf diagnostische und methodische Kompetenz als Bestandteil systematischer Schulentwicklung 7. Ausbau von schulischen und außerschulischen Ganztagsangeboten mit dem Ziel erweiterter Bildungs- und Fördermöglichkeiten, insbesondere für Schülerinnen und Schüler mit Bildungsdefiziten und besonderen Begabungen Vor allem das fünfte Handlungsfeld hat in den folgenden Jahren eine vergleichsweise hohe Beachtung erfahren und „wird mit dem größten Finanz- und Personaleinsatz [u. a.] durch internationale und nationale Schulleistungsvergleiche und Vergleichsarbeiten bis heute konsequent und im Einvernehmen von Bund und Ländern realisiert“ (Demmer, 2014, S. 9). Im Hinblick auf die schulische Abschlussvergabe können zwei Reaktionen auf die Schulleistungsstudien, die auch diesem fünften Handlungsfeld zuzuordnen sind, als besonders bedeutsame Resultate hervorgehoben werden: die bundesweite Einführung von abschlussbezogenen Regelstandards (sogenannten Bildungsstandards), die Transparenz hinsichtlich der erwarteten Abschlusskompetenzen schaffen sollen und eine Grundlage für eine leistungsorientierte Selektion bilden sollen (vgl. Sahli Lozano, 2012, S. 46) sowie die hieran anschließende sukzessive Einführung „zentrale[r] Abschlussprüfungen am Ende der unterschiedlichen Bildungsgänge [in nahezu allen Bundesländern] – in der Hoffnung darauf, auf diesem Wege die Qualität zu steigern und die Vergleichbarkeit der Abschlüsse zwischen den Schulen in den Ländern und zwischen den Ländern zu sichern“ (Ackeren et al., 2015, S. 65). Das zentrale Prüfungsformat stellte im deutschen Bildungssystem jedoch keine vollständige Innovation dar. Speziell im berufsbildenden Bereich existiert eine lange Tradition bundeseinheitlicher Ausbildungsprüfungen (u. a. Zwischen-, Gesellenprüfungen), die in der Verantwortung der Kammern liegen (z. B. Industrie- und Handelskammer, Handwerkskammer). Die bundesweit identischen Prüfungsaufgaben dienen dazu, „auch bei der Feststellung der in der Ausbildung erworbenen Qualifikationen vergleichbare Anforderungen zu gewährleisten und zuverlässige Aussagen zur Berufsfähigkeit zu ermöglichen“ (Arbeitsgemeinschaft der Industrie-

2.2 Die schulische Abschlussvergabe aus aktueller Sicht …

25

und Handelskammern zu Flensburg, zu Kiel und zu Lübeck, o. J.). Die Beurteilung der Prüfungen erfolgt durch die örtlich zuständigen Prüfungsausschüsse der Kammern bestehend aus ehrenamtlichen Mitgliedern (vgl. Bundesinstitut für Berufsbildung, 2018).8 Auch im Kontext allgemeinbildender Abschlüsse besitzen einige Bundesländer eine lange zentrale Prüfungstradition (z. B. Baden-Württemberg, Bayern), im Großteil der Bundesländer existierte jedoch bisher eine kumulative oder dezentrale Abschlussvergabe (vgl. Ackeren, 2007). Die Forschergruppe um Tillmann (2008) verdeutlicht in ihren Ausführungen, dass es sich bei der Einführung von zentralen Prüfungen im Kontext der Abschlussvergabe um ein bildungspolitisch kontrovers diskutiertes Thema handelt, welches bereits vor der Entwicklung von Bildungsstandards zu langjährigen bildungspolitischen Auseinandersetzungen geführt hat. Die KMK (1995) äußerte in ihrem Abschlussbericht zur Weiterentwicklung der Prinzipien der gymnasialen Oberstufe und des Abiturs keine Präferenz bezüglich der dezentralen oder zentralen Prüfungsform und beschrieb die beiden Formate vielmehr als „funktionale Äquivalente“. Während die hauptsächlich unionsregierten Bundesländer ihre langjährigen zentralen Abiturprüfungsverfahren als Bestandteil einer leistungsorientierten Pädagogik wahrnahmen, verteidigten die sozialdemokratisch regierten Bundesländer ihre dezentrale Abiturvergabe u. a. mit der Begründung, hierdurch einen höheren schulischen Handlungsspielraum für individuelle Anpassungen und Weiterentwicklungen zu gewährleisten (vgl. Tillmann et al., 2008, S. 97 ff.). Erst im Zuge der Präsentation und Diskussion der Ergebnisse der PISA-Studie 2000 bzw. der daran anknüpfenden PISA-E Studie näherten sich die parteipolitischen Positionen an und „der Widerstand der SPD gegenüber zentralen Prüfungen [wurde] zunehmend schwächer“ (ebd., S. 99). Neben einer mangelhaften Umsetzung des meritokratischen Prinzips bzw. einer Benachteiligung von bestimmten Schülergruppen in Deutschland verwies die national vertiefende Untersuchung im Rahmen der PISA-E Studie außerdem auf das deutlich bessere Abschneiden der Bundesländer mit einer langen zentralen Prüfungspraxis. Im bundesweiten Vergleich befanden sich die Leseleistungen der 15-Jährigen in den zentral prüfenden Bundesländern Bayern, Baden-Württemberg und dem Saarland im oberen Drittel (vgl. KMK, 2002a, S. 4). Beispielsweise „hätte Bayern [mit einem Mittelwert von 510 Punkten] im internationalen Vergleich im Bereich der Lesekompetenz [sogar] Rang 10 erreicht, während Deutschland insgesamt mit einem Mittelwert von 484 Punkten nur auf Rang 21 von 32 getesteten Ländern kam“ (Rauch, 2010, S. 78). Auch wenn keine kausalen Hypothesen überprüft wurden und folglich das gute Abschneiden nicht eindeutig auf die 8 Der Fokus dieser Studie liegt auf den allgemeinbildenden Abschlüssen, weshalb der Bereich

der beruflichen Bildung im Folgenden nicht weiter thematisiert wird.

26

2

Schulische Abschlussvergabe in Deutschland

zentrale Prüfungspraxis zurückzuführen ist (vgl. Schwarz, 2004, S. 79 ff.), wurden relativ zeitnah im Anschluss an die Einführung der Bildungsstandards sukzessiv in nahezu allen Bundesländern landeseinheitliche schriftliche Prüfungen am Ende der Sekundarstufe I und II eingeführt.9 Ausschließlich in Rheinland-Pfalz werden Schulabschlüsse auch aktuell dezentral vergeben (vgl. vertiefend Kühn, 2013; Lorenz, 2017). Die Intentionen bezüglich der Implementation des zentralen Prüfungsformats unterscheiden sich teilweise zwischen den Bundesländern (vgl. Holmeier, 2013, S. 53), die primäre Funktion besteht jedoch bundesweit in einer verbesserten Selektion bzw. Allokation der Schülerinnen und Schüler (vgl. Krüger, 2015, S. 93). Die Realisierung einer vergleichbaren Abschlussvergabepraxis bildet hierbei ein grundlegendes Ziel aller beteiligten föderalen Staaten (vgl. Klein et al., 2016; Krüger, 2015). Im Zuge dessen soll sichergestellt werden, dass die schulische Qualität bundesweit bzw. über die Jahre gleichbleibend hoch ist (vgl. Ackeren, Block, Klein & Kühn, 2012). Außerdem soll die erhöhte Vergleichbarkeit, Transparenz und Qualität der Zertifikatsvergabe zu einer gesteigerten Akzeptanz der Abschlusszertifikate durch die abnehmenden Systeme beitragen (vgl. Wößmann, Lüdemann, Schütz & West, 2009, S. 26). Auch bezüglich des vorgelagerten Unterrichts werden positive Steuerungserwartungen diskutiert (vgl. vertiefend Ackeren et al., 2012). Anhand der zentral kommunizierten Prüfungsanforderungen und -ergebnisse besteht sowohl die Möglichkeit, die Unterrichtsqualität zu evaluieren und entsprechend zu verbessern (vgl. Schreven & Bentgens, 2006, S. 165) als auch die bundesweite Einführung (fach-)didaktischer Innovationen anzuregen (vgl. Klein, Krüger, Kühn & Ackeren, 2014, S. 13). Beispielsweise ist im Sinne eines backwash-Effekts10 die Weiterentwicklung der schulischen Aufgabenkultur ausgehend von innovativen Prüfungsaufgaben denkbar (vgl. Maier, Bohl, Kleinknecht & Metz, 2011; Rossa, 2016). Zudem sollen die landesweit zentralen Vorgaben identische Voraussetzungen hinsichtlich der Prüfungsvorbereitung schaffen und auf diese Weise einen Beitrag zur Bildungsgerechtigkeit leisten (vgl. Ackeren, 2007). Darüber hinaus besteht die Annahme,

9 Diese Aussage bezieht sich auf den Erwerb des MSA und der allgemeinen Hochschulreife. Der

Erwerb des Hauptschulabschlusses (alternative Bezeichnungen: Berufsbildungsreife, Berufsreife, erster allgemeinbildender Abschluss oder Mittelschulabschluss) erfolgt nicht in allen Bundesländern über das Absolvieren einer zentralen Prüfung, sondern z. B. über den erfolgreichen Besuch des 9. Schuljahres (u. a. in Sachsen-Anhalt, vgl. vertiefend Ministerium für Bildung des Landes Sachsen-Anhalt, o. J.). 10 Der backwash-Effekt bezeichnet Rückwirkungen von (Abschluss-)Prüfungen auf den vorgelagerten Unterricht (vgl. vertiefend Mogapi, 2016).

2.2 Die schulische Abschlussvergabe aus aktueller Sicht …

27

dass die landesweit zentrale Konfiguration der Prüfungen zu einer zeitlichen Entlastung der Lehrkräfte sowie zu einer Steigerung der extrinsischen Motivation der Schülerschaft beiträgt (vgl. Klein et al., 2009). Die zielgerichtete Prüfungsvorbereitung wird jedoch speziell unter dem Stichwort Teaching to the test nicht ausschließlich als Chance diskutiert. Kritiker formulieren in diesem Kontext die Gefahr eines hohen Leistungsdrucks auf die Lehrkräfte, die zentral formulierten Prüfungsanforderungen zu erfüllen und infolgedessen eine deutliche Verkürzung des Lernstoffs auf prüfungsrelevante Themen (vgl. zusammenfassend Böttcher, 2012; Oerke, Maag Merki, Maué & Jäger, 2013). Aus der reduzierten Themenvarianz des Unterrichts und der eingeschränkten Möglichkeit, schülerbezogene Interessen zu berücksichtigen, könnten außerdem eine sinkende intrinsische Motivation der Lernenden sowie ein Gefühl der Deprofessionalisierung der Lehrkräfte resultieren (vgl. Liermann, 2009). Speziell mit Blick auf die Leistungsbeurteilung erhoffen sich die Landesbildungsministerien mithilfe der Vorgabe eines landeseinheitlichen Erwartungshorizontes eine Verbesserung der diagnostischen Fähigkeiten der Lehrkräfte sowie eine vermehrte und sichere Beurteilung anhand der kriterialen Bezugsnorm11 (vgl. Ackeren et al., 2012, S. 4). Hervorzuheben ist in diesem Kontext, dass sich die anfänglichen Diskurse sowie die Einführung der zentralen Prüfungen weniger auf ein empirisch begründetes Fundament stützten, sondern vielmehr aus bildungspolitischen Diskussionen resultierten (vgl. Ackeren et al., 2012; Jürges & Schneider, 2008; Kühn, 2010, S. 42 f.). Speziell durch die langjährige zentrale Prüfungstradition im englischsprachigen Raum lagen zwar bereits vor der bundesweiten Implementation der zentralen Prüfungen internationale Befunde vor (vgl. vertiefend Kapitel 5), die Übertragbarkeit dieser auf das deutsche Bildungssystem ist allerdings bedingt durch die unterschiedliche Ausgestaltung der Prüfungsformate als problematisch einzuschätzen (vgl. Maué, 2018, S. 70 f.). Die einzelnen Länder verfolgen mit den zentralen Prüfungen variierende Steuerungsintentionen bzw. Ziele und gestalten die Prüfungen entsprechend verschieden, wodurch wiederum unterschiedliche Wirkungen der zentralen Prüfungen zu erwarten sind (vgl. Klein et al., 2016). Die Gemeinsamkeiten aller zentralen Prüfungen weltweit lassen sich auf lediglich zwei Aspekte reduzieren: „die zentrale Verwaltung des Verfahrens durch den Staat sowie mindestens eine schriftliche Prüfung, deren Aufgabe von einer Instanz außerhalb der Einzelschule erstellt wurde“ (ebd., S. 77). 11 Gemäß der kriterialen bzw. sachlichen Bezugsnorm erfolgt die Beurteilung einer Leistung anhand einer vorab festgelegten sachlichen Anforderung. In Abhängigkeit davon, ob und in welchem Umfang die Schülerinnen und Schüler die formulierten Lernziele erreicht haben, wird die Güte der Leistung bestimmt (vgl. Rheinberg, 2014).

28

2

Schulische Abschlussvergabe in Deutschland

Bezüglich der länderspezifischen Unterschiede werden insbesondere der variierende Standardisierungsgrad12 der Abschlussvergabe sowie der zentralen Prüfungen und die Existenz bzw. der Umfang prüfungsbezogener Sanktionen als potenziell folgenreiche Merkmale diskutiert (vgl. z. B. Bellmann, 2016). Wie bereits im Rahmen des einleitenden Kapitels angedeutet, bildet die zentrale Prüfung in Deutschland nur einen Bestandteil der Abschlussvergabe. Das Abschlusszertifikat setzt sich neben der Note der zentralen Prüfung aus weiteren Aspekten, wie z. B. Noten aus dezentralen Prüfungselementen (u. a. obligatorische oder fakultative mündliche Prüfungen) und einer bzw. mehreren Jahresnote(n) aus den vorgelagerten Schuljahren zusammen. Hierbei variiert die Zusammensetzung der Abschlussnote hinsichtlich der Anzahl, Art und Gewichtung der berücksichtigten Bestandteile wiederum in Abhängigkeit des Bundeslandes (vgl. Holmeier, 2013; Kühn, 2013). Dementsprechend ist die Abschlussvergabe in Deutschland vielmehr ein teilzentrales bzw. -standardisiertes Verfahren, wohingegen in einigen zentralen Verfahren im internationalen Raum (z. B. in Schottland und im Vereinigten Königreich) die schulischen Zertifikate ausschließlich auf der Grundlage einer zentralen Prüfung vergeben werden (vgl. Jones & Inglis, 2015, S. 339; Klein et al., 2009). Der niedrige Standardisierungsgrad bezieht sich in Deutschland allerdings nicht nur auf die Abschlussvergabe, sondern weiterhin auf den Bestandteil der zentralen Prüfung. Während im Vereinigten Königreich die Leistungsbeurteilung in Abschlussprüfungen anhand von Beurteilungsrastern durch externe Korrektorinnen bzw. Korrektoren der sogenannten Examination Boards13 erfolgt (vgl. Greatorex & Süt˝o, 2008), ist das Beurteilungsverfahren in Deutschland dezentral geregelt, d. h. die Lehrkräfte benoten die Prüfungsleistungen der teilweise von ihnen unterrichteten Schülerinnen und Schüler eigenständig anhand zentral vorgegebener Kriterien (vgl. Maag Merki, 2016b, S. 164 f.). Die prüfungsbedingten Konsequenzen stellen einen weiteren Unterschied bezüglich der internationalen Ausgestaltung des zentralen Formats dar, der in der empirischen Forschung verstärkt thematisiert wird. Im Hinblick auf die Überprüfung und Verbesserung der Ergebnisse im Kontext der zentralen Prüfungen in Deutschland erfolgt im Rahmen des Bildungsmonitorings zwar eine bundeslandabhängige Dokumentation, Auswertung und Veröffentlichung ausgewählter Daten, wie Prüfungsergebnisse oder Rückmeldungen von Lehrkräften (vgl. vertiefend Rürüp, Fuchs 12 In Anlehnung an Klein et al. (2009) wird unter der Bezeichnung Standardisierung „die vor-

herige inhaltliche Festlegung bestimmter Abläufe und Verfahren verstanden, so dass möglichst nach den gleichen Maßstäben entschieden und gehandelt wird“ (ebd., S. 598). 13 Die Examination Boards (auch: awarding bodies) sind staatlich anerkannte, eigenständige Institutionen im Vereinigten Königreich, die Abschlussprüfungen entwickeln und durchführen sowie die entsprechenden Abschlusszertifikate vergeben (vgl. Süt˝o & Nádas, 2008, S. 477).

2.2 Die schulische Abschlussvergabe aus aktueller Sicht …

29

& Weishaupt, 2016; Kahnert, Eickelmann, Lorenz & Bos, 2015), hieraus ergeben sich gemäß dem Verständnis eines High-Stakes-Verfahrens14 jedoch keine „personelle[n], finanzielle[n] oder sächliche[n] Konsequenzen für Lehrpersonen, Schulen und/oder Regionen“ (Maag Merki, 2016b, S. 164). Mit Ausnahme der direkten Folgen für die Prüflinge durch die Relevanz der zentralen Prüfungen für die Abschlussvergabe und die Zuteilung von Lebenschancen können die zentralen Prüfungen in Deutschland somit als sogenanntes Low-Stakes-Verfahren bezeichnet werden (vgl. Berkemeyer, 2016, S. 26 f.; Fend, 2011, S. 17 ff.). Das bedeutet u. a., dass die Prüfungsergebnisse keine Entscheidungsgrundlage für die finanzielle Unterstützung bzw. das grundsätzliche Fortbestehen einer Schule bilden (vgl. Tarazona & Brückner, 2016, S. 86). Bedingt durch die eingeschränkte Übertragbarkeit internationaler Befunde erscheint somit der nationale Forschungsstand zum Thema zentrale Prüfungen in besonderem Maße bedeutsam zu sein (vgl. vertiefend Abschnitt 5.1). Dieser beschränkt sich auch aktuell auf eine geringe Anzahl von Studien, die zudem primär auf das Zentralabitur fokussiert sind und aufgrund der unterschiedlichen Gestaltung vermutlich nicht direkt auf die Abschlüsse der Sekundarstufe I übertragbar sind (vgl. Demski, 2017, S. 99 ff.). Denn obwohl die zentralen Prüfungen in der Öffentlichkeit häufig als einheitliches Konzept thematisiert werden, existieren auch auf nationaler Ebene prüfungsstrukturelle und -organisatorische Differenzen (vgl. Klein & Ackeren, 2011; Kühn, Ackeren, Block & Klein, 2009). Beispielsweise erfolgt die Durchführung der zentralen Prüfung in Abhängigkeit des angestrebten Schulabschlusses bzw. der länderspezifischen Prüfungsorganisation in unterschiedlichen Fächern. Während zum Erwerb des mittleren Schulabschlusses in der Mehrzahl der Bundesländer ausschließlich die Fächer Deutsch, Mathematik und Englisch zentral geprüft werden (vgl. Kühn, 2013, S. 91 f.), ist im Zentralabitur in der Regel das Absolvieren einer zentralen Prüfung in einer Vielzahl von Unterrichtsfächern möglich (vgl. vertiefend Kühn, 2012, S. 29 ff.). Die heterogene Gestaltung von landeseinheitlichen Prüfungen zum Erwerb desselben Abschlusses führte schließlich dazu, dass „das Bundesverfassungsgericht schon Ende 2017 festgestellt hatte, dass die unterschiedlichen Abiturregelungen

14 High Stakes Verfahren werden insbesondere in den angloamerikanischen Ländern angewendet. Die Prüfungsergebnisse haben für die Beteiligten bedeutende Konsequenzen, z. B. Zugang zu weiterführenden Bildungseinrichtungen für die Lernenden, Auszeichnungen für besonders erfolgreiche Schulen oder Schließungen von nicht erfolgreichen Schulen (vgl. zusammenfassend Maag Merki, 2016b; Maier, 2010; Kubiszyn & Borich, 2007; Lewis, 2000).

30

2

Schulische Abschlussvergabe in Deutschland

gegen den Gleichheitssatz des Grundgesetzes verstießen, und auf die bundeslandabhängige Benachteiligung bei Abiturdurchschnitten für zulassungsbeschränkte Studiengänge verwies“ (Schmoll, 2019). Doch auch aktuelle Bemühungen der Vereinheitlichung, wie die Existenz eines bundesweiten Aufgabenpools sowie zugehöriger Bewertungsraster im Kontext des Zentralabiturs, konnten bislang keine vergleichbare Prüfungspraxis schaffen, da die Länder die Poolaufgaben bislang nicht nutzen müssen bzw. flexibel modifizieren dürfen (vgl. ebd.). Unabhängig von den zahlreichen Unterschieden setzen sich die zentralen Prüfungen bundesweit grundlegend aus zwei Instrumenten zusammen: einer zentral vorgegebenen Prüfungsklausur und einem zentral vorgegebenen Erwartungshorizont. Beide Instrumente werden in den beteiligten Bundesländern zentral durch eigens hierfür eingerichtete Kommissionen erstellt, welche sich in unterschiedlichen Anteilen aus schulpraktischen und wissenschaftlichen Expertinnen bzw. Experten zusammensetzen (vgl. Krüger, 2015, S. 92 f.). Bezüglich der inhaltlichen Konfiguration der Prüfung sind speziell die Bildungsstandards von Bedeutung (vgl. Kühn & Drüke-Noe, 2013). Im Sinne einer outputorientierten Steuerung standardisieren die Bildungsstandards nicht den vorgelagerten Lehr-Lernprozess, sondern geben die erwarteten abschlussbezogenen Leistungen in ausgewählten Fächern vor (vgl. KMK, 2004a). Folglich sollen sie die Grundlage zur Erstellung der landeseinheitlich vorgegebenen Prüfungsklausur bilden, um die Vergleichbarkeit der Anforderungen sowie die Qualität der Prüfungsaufgaben zu gewährleisten (vgl. Kühn & Drüke-Noe, 2013). Da die Schaffung identischer Prüfungsanforderungen für die angestrebte Vergleichbarkeit der Abschlusszertifikate zwar eine notwendige, jedoch keine hinreichende Maßnahme bildet (vgl. Köster, 2006), existiert außerdem der zentral vorgegebene Erwartungshorizont. Dieser soll ergänzend eine vergleichbare Leistungsbeurteilung anhand von objektiven Kriterien sicherstellen (vgl. Klein et al., 2016), sodass die zentrale Prüfung als ein Bestandteil der Abschlussvergabe zu einer vergleichbaren Zertifizierungspraxis beiträgt und eine leistungsorientierte Selektion bzw. Allokation ermöglicht. Die folgende schematische Darstellung veranschaulicht den intendierten Zusammenhang stark vereinfacht, d. h. unter Ausblendung potenzieller multifaktorieller Einflüsse (vgl. Kapitel 4; Abbildung 2.1):

2.2 Die schulische Abschlussvergabe aus aktueller Sicht …

landeseinheitliche Prüfungsklausur

+ landeseinheitlicher Erwartungshorizont

=

landesweit identische Leistungs- und Beurteilungsanforderungen

31

Beitrag zur vergleichbaren, leistungsorientierten Zertifikatsvergabe

Abbildung 2.1 Angestrebter Wirkungszusammenhang der zentralen Prüfung auf die Zertifikatsvergabe. (In Anlehnung an Mathes & Kühn, 2015)

Wie bereits angedeutet, variieren die weiteren Rahmenbedingungen der zentralen Prüfungen auch auf nationaler Ebene teilweise stark, u. a. hinsichtlich des Bundeslandes, des angestrebten Abschlusses und des konkreten Prüfungsfaches (vgl. Kühn, 2013; Kühn et al., 2009), weshalb an dieser Stelle auf eine umfangreiche Deskription der heterogenen Ausgestaltung aller zentralen Prüfungsformate in Deutschland verzichtet wird. Im Hinblick auf den Fokus dieser Untersuchung beschränken sich die Ausführungen im Folgenden bewusst auf die Beschreibung des Aufbaus der zentralen schriftlichen Prüfung zum Erwerb des mittleren Schulabschlusses (vgl. vertiefend Kapitel 3).

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

Zentrale Prüfungen bilden seit mindestens zehn Jahren einen bedeutsamen Bestandteil zum Erwerb des MSA in nahezu allen Bundesländern. Bedingt durch die föderale Struktur Deutschlands existiert kein bundesweit einheitliches Prüfungsformat, vielmehr variiert die Gestaltung und Durchführung der zentralen Prüfungen teilweise erheblich zwischen den beteiligten Bundesländern (vgl. Kühn, 2013). Dieses Kapitel soll einen bundesweiten Überblick über die landesspezifische Konfiguration der zentralen Prüfungen im Kontext des MSA ermöglichen. Obwohl das Forschungsinteresse diesbezüglich speziell auf der Beurteilungspraxis und dem landesweit vorgegebenen Erwartungshorizont liegt, erscheint es für ein möglichst umfangreiches Verständnis notwendig, zusätzlich das zentrale Prüfungsformat als einen Bestandteil in die Abschlussvergabe einzuordnen sowie die landeseinheitliche Gestaltung der Prüfungsklausur zu thematisieren. Auch die Annahme, eines untrennbaren Zusammenhangs zwischen den Prüfungsaufgaben bzw. deren Erstellung und der Konstruktion sowie Anwendung der Erwartungshorizonte trug dazu bei (vgl. Mietzel, 2017, S. 585 ff.; Zabka & Stark, 2010), dass sich die Autorin für eine umfangreichere Deskription entschied. Zunächst beschreibt sie die Abschlussvergabe mit einem Fokus auf den zentralen schriftlichen Prüfungsteil (vgl. Abschnitt 3.1). Im Anschluss stellt sie die Prüfungsdurchführung inklusive der landeseinheitlichen Prüfungsklausur (vgl. Abschnitt 3.2) wie auch die Prüfungsbeurteilung anhand des landesweit vorgegebenen Erwartungshorizontes dar (vgl. Abschnitt 3.3). Mit Blick auf das Forschungsinteresse liegt hierbei das Augenmerk insbesondere auf dem Vorgehen im Prüfungsfach Deutsch (vgl. vertiefend Kapitel 6). Die offiziellen landesweiten Erlasse und (Ver-)Ordnungen zur Ausgestaltung von Bildungsgängen bzw. zur Durchführung von Prüfungen ergänzt um die aktuellen Informationen der Internetpräsenzen der Landesbildungsministerien bilden © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_3

33

34

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

die Grundlage der folgenden Ausführungen. Des Weiteren wird sich auf einen Artikel von Kühn (2013) bezogen, in welchem eine differenzierte Darstellung der unterschiedlichen Prüfungskonzeptionen mit Blick auf deren bundesweite Vergleichbarkeit erfolgt. Der Artikel stellt einen Ausgangspunkt für die eigene Recherche und einen Vergleichspunkt für eine längsschnittliche Betrachtung dar.

3.1

Der mittlere Schulabschluss

Wie die vorangegangenen Ausführungen zeigen, hat das schulische Berechtigungswesen seinen Ursprung im höheren Schulwesen bzw. in der Einführung des Abiturs als Zugangsvoraussetzung für ein Hochschulstudium (vgl. Kapitel 2). Die Schulen, die mittlere Bildung vermittelten und nicht dazu berechtigt waren, ein Abitur zu vergeben (z. B. Mittel- und Realschulen), dienten zunächst lediglich der Entlastung bzw. Erhaltung des Gymnasiums (vgl. Piaschinski, 2009, S. 76). Auch heutzutage erscheint es, als liege die Aufmerksamkeit der breiten Öffentlichkeit wie auch der empirischen Forschung verstärkt auf den gymnasialen Bildungsgängen (z. B. Zentralabitur, G8-Debatte). In den letzten Jahren bildete insbesondere die gymnasiale Schulzeitverkürzung ein relevantes Wahlkampfthema (vgl. z. B. CDU, 2017, S. 67; SPD, 2017, S. 43 f.) und wurde auch in einigen Studien untersucht. Beispielsweise analysiert Homuth (2017) in seiner Arbeit die Auswirkungen eines verkürzten achtjährigen Gymnasialbesuchs auf das Vorliegen von Bildungsgerechtigkeit (u. a. die Existenz bzw. Veränderung der sozialen Ungleichheit im Kontext von Kompetenzerwerb und Bildungsentscheidungen). Blumentritt (2016) betrachtet wiederum die Wirkungen der gymnasialen Schulzeitverkürzung auf die Freizeit der Schülerschaft und Huebner und Marcus (2015) untersuchen den Einfluss des verkürzten Gymnasialbesuchs auf das Abiturientenalter und die Klassenwiederholungsquote. Die Einführung bzw. Durchführung des Zentralabiturs bildet in diesem Kontext ebenfalls ein relevantes Thema der empirischen Bildungsforschung (vgl. vertiefend Kapitel 5), das außerdem immer wieder medienwirksam diskutiert wird (vgl. Kauffeldt, 2017; Lorenz, 2017, S. 222). Im Vergleich hierzu ist der MSA in den öffentlichen und wissenschaftlichen Debatten kaum präsent (vgl. Kühn, 2010, S. 51 f.). Dennoch besitzt auch dieser allgemeinbildende Schulabschluss einen hohen Stellenwert, welcher sich u. a. anhand der folgenden Aspekte deutlich zeigt: – Quantitative Relevanz im Schulsystem: Begünstigt durch die gestiegenen Berufsund Arbeitsmarktanforderungen gewann auch der MSA an Bedeutung und entwickelte sich bis heute „faktisch zur Mindestnorm, [denn] kein oder ein niedriger

3.1 Der mittlere Schulabschluss

35

Schulabschluss birgt das Risiko unzureichender Berufschancen und sozialer Entsicherung für die Kinder“ (Holtappels, 2017, S. 14). Entsprechend hat sich der Anteil an Schulabgängerinnen und -abgängern, die einen MSA erworben haben, seit 1960 auffällig vergrößert (vgl. ebd., S. 31), sodass das schulische Zertifikat seit Jahren den quantitativ bedeutsamsten Abschluss in Deutschland darstellt (vgl. Kühn, 2013, S. 89). In der Zeitspanne von 2006 bis 2016 „stieg der Anteil an Jugendlichen mit mittlerem Abschluss von 46 auf 54 %“ (Autorengruppe Bildungsberichterstattung, 2018, S. 120). Folglich bildet der MSA auch heutzutage die größte Gruppe der Absolventinnen und Absolventen (vgl. Autorengruppe Bildungsberichterstattung, 2016, S. 96) – Qualitative Relevanz für die Absolventin bzw. den Absolventen: Mit dem Erwerb des MSA haben die Schülerinnen und Schüler automatisch ihre Vollzeitschulpflicht nach neun bzw. zehn Schuljahren abgeleistet und befinden sich an der schulischen Übergangsstelle von der Sekundarstufe I zur Sekundarstufe II (vgl. Ackeren et al., 2015, S. 67). Der MSA stellt in diesem Kontext bereits seit Jahrzehnten eine besonders wichtige Berechtigung dar, die sowohl den Zugang zum weiterführenden, studienqualifizierenden Schulwesen als auch zu berufsbildenden Institutionen regelt (vgl. Leschinsky, 2008, S. 422 ff.; Protsch, Gerhards & Mohr, 2017; Wurster, Richter & Lenski, 2017). Die Selektionsentscheidung ist in der Regel „weitreichend, oft lebensweg-bestimmend und selten revidierbar“ (Thurn, 2017, S. 6). Folglich besitzt das schulische Zertifikat einen hohen Stellenwert für die berufliche Zukunft der Einzelnen bzw. des Einzelnen. Zur Sicherung der Vergleichbarkeit des MSA existieren gegenwärtig in 15 Bundesländern zentrale schriftliche Prüfungen (vgl. Mathes & Kühn, 2016). Lediglich in Rheinland-Pfalz wird der Bildungsabschluss unter der Bezeichnung qualifizierter Sekundarabschluss I weiterhin auf der Grundlage des erfolgreichen Absolvierens der Jahrgangsstufe 10 an der Realschule plus, der Integrierten Gesamtschule und des Gymnasiums vergeben.1 Bis zur Einführung bundesweit geltender Bildungsstandards für den mittleren Schulabschluss erfolgte die Zertifizierung des MSA in der Mehrzahl der föderalen Staaten kumulativ bzw. über dezentrale Prüfungen, nur sieben Bundesländer besitzen eine wesentlich längere zentrale Prüfungstradition: die südlichen Bundesländer Baden-Württemberg, Bayern und das Saarland führten das zentrale Verfahren bereits kurz nach dem Zweiten Weltkrieg ein und die eher östlich gelegenen Bundesländer Mecklenburg-Vorpommern, Sachsen, Sachsen-Anhalt und 1 Die konkreten Versetzungsbedingungen eines erfolgreichen Abschlusses der 10. Jahrgangs-

stufe werden in der aktuellen Schulordnung geregelt (vgl. vertiefend Schulordnung für die öffentlichen Realschulen plus, Integrierten Gesamtschulen, Gymnasien, Kollegs und Abendgymnasien [Übergreifende Schulordnung] vom 12. Juni 2009, § 75).

36

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

Thüringen implementierten das zentrale Prüfungsformat zeitnah nach der deutschen Wiedervereinigung (vgl. Kühn, 2013, S. 91 f.). Im Anschluss an die Einführung der Bildungsstandards entstand in der Bundesrepublik schrittweis eine nahezu flächendeckende teilzentrale Zertifikatsvergabe im Rahmen des MSA. Im Jahr 2009 führte Schleswig-Holstein schließlich als bislang letztes Bundesland zentrale Prüfungen als Bestandteile der Abschlussvergabe ein (vgl. Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein, o. J.). Folglich kann angenommen werden, dass die grundlegende Implementationsphase, inklusive mehrerer vollständiger Durchgänge und ggf. erster Modifikationen zum gegenwärtigen Zeitpunkt der Untersuchung bereits abgeschlossen ist (vgl. Maag Merki, 2012b, S. 19). Unter Bezugnahme auf die Ergebnisse der jährlichen Meinungsumfrage im Kontext des ifo Bildungsbarometers 2017 bewertet der Großteil der erwachsenen Bevölkerung in Deutschland das zentrale Prüfungsformat als positiv. Im Jahr 2017 sprach sich sogar eine deutliche Mehrheit von 91 % der Befragten für eine weitere Standardisierung hin zu deutschlandweit einheitlichen Prüfungen zum Erwerb des MSA aus (vgl. Wößmann, Lergetporer, Grewenig, Kugler & Werner, 2017, S. 28 f.). Hinsichtlich einer bundesweiten Vereinheitlichung der Prüfungspraxis bildet die Zusammenarbeit von Berlin und Brandenburg jedoch bislang eine Ausnahme. Die beiden Bundesländer nutzen seit dem Schuljahr 2011/2012 landesübergreifend zentrale Prüfungsklausuren in allen drei Schulfächern, die zum Erwerb des MSA schriftlich geprüft werden (vgl. Mathes & Kühn, 2016, S. 173). Bedingt durch die unterschiedlichen Bildungstraditionen der Bundesländer sowie die voneinander abweichenden schulstrukturellen und organisatorischen Rahmenbedingungen (z. B. Heterogenität der Schulformen, unterschiedliche Prüfungs- und Ferientermine) existiert darüber hinaus auch gegenwärtig keine homogene Vergabepraxis des MSA in der Bundesrepublik (vgl. Klein et al., 2016; Neumann, 2014, S. 253 f.). Zwar plant die Bundesregierung mit dem Ziel einer höheren Vergleichbarkeit des Schulwesens aktuell die Gründung eines Nationalen Bildungsrates, welcher Empfehlungen zur Gestaltung bzw. politischen Zusammenarbeit im Bildungswesen erarbeiten soll, dieser wird allerdings im Hinblick auf dessen potenzielle Zusammensetzung und Rechte durchaus kritisch diskutiert (vgl. Gillmann, 2018; Klovert, 2018). Bislang bestehen nationale Binnenunterschiede zwischen den föderalen Staaten hinsichtlich der: – Schulformen, an welchen der MSA über zentrale Prüfungen vergeben wird – Zusammensetzung des MSA (z. B. Art und Anzahl der zentral geprüften Schulfächer, Anteil der schriftlichen Prüfungsnoten an den Abschlussnoten) – strukturellen und organisatorischen Rahmenbedingungen bezüglich der Durchführung und Beurteilung der zentralen schriftlichen Prüfungen

3.1 Der mittlere Schulabschluss

37

Bundesweite Erwerbssituation des mittleren Schulabschlusses Ausgehend von den verschiedenen Schulsystemen der Bundesländer existieren zwischen und innerhalb der Bundesländer unterschiedliche Bildungswege, an welchen Schulformen und auf welche Weise der MSA erworben werden kann (Tabelle 3.1). Tabelle 3.1 Erwerbsmöglichkeiten des mittleren Schulabschlusses im allgemeinbildenden Schulsystema Bundesland

Zentrale Prüfungen zum Erwerb des MSAb

Keine zentralen Prüfungen zum Erwerb des MSAc

BW

– Realschule – Werkrealschule – Gemeinschaftsschule

– Gymnasium

BY

– Mittelschule – Realschule

– Gymnasium

BE

– Integrierte Sekundarschule – Gemeinschaftsschule – Gymnasium

BB

– Oberschule – Integrierte Gesamtschule – Gymnasium

HB

– Oberschule

HH

– Stadtteilschule – Gymnasium

HE

– – – – – –

MV

– Regionale Schule – Gesamtschule

– Gymnasium

NI

– – – – –

Hauptschule Realschule Oberschule Integrierte Gesamtschule Kooperative Gesamtschule

– Gymnasium

NW

– – – – –

Hauptschule Realschule Sekundarschule Integrierte Gesamtschule Gemeinschaftsschule

– Gymnasium

– Gymnasium

Hauptschule Realschule Mittelstufenschule Integrierte Gesamtschule Kooperative Gesamtschuledd Gymnasium

(Fortsetzung)

38

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

Tabelle 3.1 (Fortsetzung) SL

– Gemeinschaftsschule

SN

– Oberschule

– Gymnasium

ST

– – – –

– Gymnasium

SH

– Regionalschulee – Gemeinschaftsschule

– Gymnasium

TH

– – – –

– Gymnasium

Sekundarschule Gemeinschaftsschule Integrierte Gesamtschule Kooperative Gesamtschule

Gemeinschaftsschule Regelschule Integrierte Gesamtschule Kooperative Gesamtschule

– Gymnasium

a Die Darstellung beschränkt sich auf den Erwerb des MSA an öffentlichen, allgemeinbildenden Schulen, die Zertifizierungsmöglichkeiten an Förderschulen, beruflichen Schulen sowie Ersatzschulen werden nicht berücksichtigt. b Hierunter fallen ausschließlich die zentralen Prüfungen zum Erwerb des MSA. Weitere zentrale Prüfungen, die am Ende der Jahrgangsstufe 10 bzw. 11 durchgeführt werden und nicht speziell auf den Erwerb des MSA ausgerichtet sind (z. B. die zentralen Klausuren am Ende der Einführungsphase der gymnasialen Oberstufe in Nordrhein-Westfalen), werden nicht berücksichtigt. c Die jeweiligen landesrechtlichen Schul- und Prüfungsordnungen geben Auskunft über die konkreten (Versetzungs-)Bedingungen, die den erfolgreichen Abschluss einer Jahrgangsstufe oder einer dezentralen Prüfung regeln (z. B. das Erreichen einer minimalen Durchschnittsnote). d In der kooperativen Gesamtschule werden die zentralen Prüfungen zum Erwerb des MSA länderübergreifend im Sekundarschulzweig angeboten. Im Gymnasialzweig der kooperativen Gesamtschule erfolgt eine identische Vergabepraxis wie am Gymnasium. e Die Schulform Regionalschule wird momentan in Schleswig-Holstein zur Gemeinschaftsschule umgewandelt. Der Schulbetrieb wird spätestens mit Ablauf des Schuljahres 2019/2020 eingestellt.

Auch mindestens zehn Jahre nach der Einführung zentraler Prüfungen gilt: Nicht an allen Schulformen, an welchen der MSA vergeben wird, existieren landesweit einheitliche Prüfungen im Kontext des Erwerbs dieses Schulabschlusses. Zwar bietet der Großteil der Schulformen zentrale Prüfungen zum Erwerb des MSA an, jedoch liegen innerhalb einer Schulform teilweise außerdem alternative Bildungswege vor, um den Schulabschluss zu erreichen. Beispielsweise können die Schülerinnen und Schüler an bayerischen Mittelschulen den MSA auch durch eine Kombination aus dem qualifizierenden Abschluss der Mittelschule und einem erfolgreichen Abschluss der Berufsausbildung inklusive eines Nachweises über mindestens ausreichende Englischkenntnisse erwerben.2 2 Weiterführende

Informationen zu den Erwerbsmöglichkeiten des MSA an bayerischen Mittelschulen bietet das Bayerische Staatsministerium für Unterricht und Kultus (o. J.).

3.1 Der mittlere Schulabschluss

39

Darüber hinaus existieren in der Mehrzahl der Bundesländer keine zentralen Prüfungen zum Erwerb des MSA an Gymnasien, anstelle dessen wird der MSA im Falle eines erfolgreichen Übergangs in die Jahrgangsstufe 11 zertifiziert. Insbesondere in den letzten Jahren gibt es jedoch Anzeichen einer zunehmenden Standardisierung. So wurden vereinzelt in der zehnten Klasse des Gymnasiums zentrale Prüfungsformate eingeführt, z. B. die zentralen Klausuren am Ende der Einführungsphase der gymnasialen Oberstufe in Nordrhein-Westfalen (vgl. vertiefend Ministerium für Schule und Bildung des Landes Nordrhein-Westfalen, o. J.) oder die besondere Leistungsfeststellung am Ende der Jahrgangsstufe 10 in Thüringen (vgl. vertiefend Ministerium für Bildung, Jugend und Sport, 2017, S. 6 f.). Des Weiteren ist die Implementation zentraler Prüfungen zum Erwerb des MSA an nordrhein-westfälischen Gymnasien im Kontext der Wiedereinführung des neunjährigen Gymnasialbesuchs geplant (vgl. Kellers, 2018). Aktuell haben dieses Vorhaben bereits drei Bundesländer mit einem unterschiedlichen Verbindlichkeitsgrad hinsichtlich der Teilnahme an den zentralen Prüfungen im Gymnasium umgesetzt. Im Rahmen eines Schulversuchs ist die Teilnahme an den zentralen Prüfungen zum Erwerb des MSA im verkürzten gymnasialen Bildungsgang in Hessen möglich (vgl. Hessisches Kultusministerium, o. J.). In Hamburg müssen die Gymnasiasten mit einem entsprechenden Vermerk im Halbjahreszeugnis der Jahrgangsstufe 10 die zentralen Prüfungen zum Erwerb des MSA absolvieren (vgl. Behörde für Schule und Berufsbildung, 2015, S. 19) und in Berlin sowie Brandenburg sind alle Schülerinnen und Schüler an Gymnasien seit dem Schuljahr 2014/2015 sogar zu einer Prüfungsteilnahme verpflichtet (vgl. Verordnung über die Schularten und Bildungsgänge der Sekundarstufe I [Sekundarstufe I-Verordnung – Sek I-VO] vom 31. März 2010, § 33; Verordnung über die Bildungsgänge in der Sekundarstufe I [Sekundarstufe I-Verordnung – Sek I-V] vom 2. August 2007, § 21). Neben den Erwerbsmöglichkeiten im allgemeinbildenden Schulsystem existieren außerdem im beruflichen Schulwesen und an Ersatzschulen (z. B. Abendschulen, Förderschulen, Waldorfschulen) weitere Bildungswege zum Erreichen des MSA, welche zusätzlich zur Heterogenität der Zertifikatsvergabe innerhalb der Länder beitragen. Im Folgenden wird sich mit Blick auf das Forschungsinteresse bzw. das Sample der Studie (vgl. vertiefend Abschnitt 7.4) bewusst auf die Betrachtung der Prüfungspraxis an staatlichen Regelschulen des allgemeinbildenden Schulsystems begrenzt. Die unterschiedlichen Erwerbsoptionen spiegeln sich in den landestypischen Bezeichnungen des Abschlusses wieder, da der MSA teilweise nach der (ehemaligen) Schulform benannt ist, an welcher dieser den höchsten zu erwerbenden Abschluss darstellt bzw. der Schulform, für welche der Schulabschluss die Eingangsvoraussetzung bildet. So wird in Baden-Württemberg, Hessen, Niedersachsen,

40

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

Sachsen, Sachsen-Anhalt und Thüringen weiterhin primär die Bezeichnung Realschulabschluss genutzt, wohingegen in Mecklenburg-Vorpommern üblicherweise von der mittleren Reife und in Brandenburg von der Fachoberschulreife gesprochen wird. In den übrigen Bundesländern (d. h. Bayern, Berlin, Bremen, Hamburg, Nordrhein-Westfalen und Schleswig-Holstein) gilt die schulformunspezifische Bezeichnung mittlerer Schulabschluss bzw. mittlerer Bildungsabschluss (Saarland). In längsschnittlicher Betrachtung der Bezeichnungen des MSA in den letzten Jahren zeigt sich zwar, dass nach wie vor eine begriffliche Vielfalt existiert, jedoch deutet sich auch eine Tendenz zur einheitlichen Nutzung der Bezeichnung mittlerer Schulabschluss an, welche auch durchgängig von der KMK verwendet wird (vgl. KMK, 2011, S. 10 f.). Zusammensetzung des mittleren Schulabschlusses Im Kontext der teilzentralen Vergabe des MSA bieten inzwischen alle beteiligten Bundesländer zentrale schriftliche Prüfungen in den Schulfächern Deutsch, Englisch und Mathematik an. Die Teilnahme an einer landeseinheitlichen Klausur in den Fächern Deutsch und Mathematik ist grundsätzlich länderübergreifend obligatorisch, wobei anstelle des Fachs Deutsch in landesspezifischen Sonderfällen eine schriftliche Prüfung in einem anderen Fach möglich ist. Beispielsweise kann in Sachsen an sorbischen Schulen alternativ das Schulfach Sorbisch gewählt werden (vgl. Schulordnung Mittel- und Abendmittelschulen [SächsGVBl. S. 277, 365] vom 11. Juli 2011, § 36). Das Schulfach Englisch wird lediglich in den Verordnungen von Bayern (vgl. Schulordnung für die Realschulen [Realschulordnung – RSO] vom 18. Juli 2007, § 35), Hamburg (vgl. Behörde für Schule und Berufsbildung, 2015, S. 18 f.), Nordrhein-Westfalen (vgl. Verordnung über die Ausbildung und die Abschlussprüfungen in der Sekundarstufe I [Ausbildungs- und Prüfungsordnung Sekundarstufe I – APO-S I] vom 2. November 2012, § 30), Sachsen (vgl. Schulordnung Mittel- und Abendmittelschulen [SächsGVBl. S. 277, 365] vom 11. Juli 2011, § 36) und Sachsen-Anhalt (vgl. Verordnung über die Abschlüsse in der Sekundarstufe I [Abschluss-VO Sek I] vom 9. Juli 2012, § 11) namentlich als verpflichtendes schriftliches Prüfungsfach angeführt. In den rechtlichen Vorgaben der Mehrzahl der Bundesländer ist dagegen eine obligatorische Teilnahme an einer landeseinheitlichen schriftlichen Klausur in der Pflichtfremdsprache bzw. ersten Fremdsprache festgelegt, hierbei handelt es sich zwar in der Regel um das Fach Englisch, jedoch ist in Abhängigkeit der individuellen Schullaufbahn des Prüflings beispielsweise auch eine zentrale Prüfungsklausur im Fach Französisch denkbar. Im Großteil der Bundesländer sind die schriftlichen Prüfungen zum Erwerb des MSA auf die drei genannten Fächer(-gruppen) beschränkt, nur in zwei Bundesländern existiert eine weitere verbindliche schriftliche Prüfung. In Abhängigkeit

3.1 Der mittlere Schulabschluss

41

der gewählten Wahlpflichtfächergruppe werden die Prüflinge in der vierten zentralen Prüfungsklausur in Bayern in einem der folgenden Fächer geprüft: Physik, Betriebswirtschaftslehre/ Rechnungswesen, Französisch, Kunst, Werken, Haushalt und Ernährung, Sozialwesen oder Soziallehre (vgl. Schulordnung für die Realschulen Realschulordnung – RSO] vom 18. Juli 2007, § 35). In Sachsen können die Schülerinnen und Schüler für ihre vierte schriftliche Prüfung zwischen den naturwissenschaftlichen Schulfächern Physik, Chemie oder Biologie wählen (vgl. Schulordnung Mittel- und Abendmittelschulen [SächsGVBl. S. 277, 365] vom 11. Juli 2011, § 36). Neben der Art und des Umfangs der schriftlich geprüften Fächer variiert in Abhängigkeit des föderalen Staates auch der Anteil, zu welchem die Note der landeseinheitlichen schriftlichen Prüfung in die Abschlussnote eingeht. Im Großteil der Bundesländer berechnet sich die Gesamtnote eines Fachs im Abschlusszertifikat zu gleichen Teilen von jeweils 50 Prozent aus der schriftlichen Prüfungsnote und der Jahresnote.3 In einigen Bundesländern besitzt die schriftliche Prüfungsnote jedoch einen geringeren Stellenwert. So liegt der Anteil der schriftlichen Prüfungsnote an der Gesamtnote in Brandenburg und Mecklenburg-Vorpommern bei 40 Prozent (vgl. Verordnung über die Bildungsgänge in der Sekundarstufe I [Sekundarstufe I-Verordnung – Sek I-V] vom 2. August 2007, § 26; Verordnung über die Durchführung von Prüfungen zum Erwerb der Mittleren Reife [Mittlere-Reife-Verordnung – MittReifVO M-V] vom 14. Juli 2013, § 11) und in Bremen, Hessen und Niedersachsen nur bei etwas mehr als 30 Prozent (vgl. Verordnung über die Prüfungen zu den Abschlüssen der Sekundarstufe I [Prüfungsverordnung Sekundarstufe I – PrüfV Sek. I] vom 20. Juni 2013, § 15; Verordnung zur Ausgestaltung der Bildungsgänge und Schulformen der Grundstufe [Primarstufe] und der Mittelstufe [Sekundarstufe I] und der Abschlussprüfungen in der Mittelstufe [VOBGM] vom 14. Juni 2005, § 61; Verordnung über die Abschlüsse im Sekundarbereich I der allgemein bildenden Schulen einschließlich der Freien Waldorfschulen [AVO – Sek I] vom 7. April 1994, § 29). In Hamburg ist die Bedeutung der schriftlichen Prüfungsnote mit einem Anteil von 20 Prozent an der Gesamtnote am geringsten, da zusätzlich eine verpflichtende mündliche Prüfung in den Fächern Deutsch, Englisch und Mathematik vorgesehen ist (vgl. Behörde für Schule und Berufsbildung, 2015, S. 24). Das Niedersächsische Kultusministerium begründet die vergleichsweise geringe Wertigkeit damit, dass die „Abschlussarbeit zum Abschluss des Bildungsabschnitts nicht ein zu großes Gewicht im Blick auf die Dauer des Schulbesuchs [erhalten soll]“ (Henke, 2015, S. 79). 3 In

Bayern liegt der Anteil der schriftlichen Prüfungsnote in Realschulen bei 50 Prozent und in Mittelschulen durch eine zusätzliche verpflichtende Prüfung bei nahezu 40 Prozent (vgl. vertiefend Schulordnung für die Mittelschulen in Bayern [Mittelschulordnung – MSO] vom 4. März 2013, § 31).

42

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

Während die Bedeutung der Note der zentralen Prüfungen im MSA in Relation zu lang zentral prüfenden Ländern im angloamerikanischen Raum vergleichsweise gering ist (vgl. z. B. Ofqual, 2017), erscheint der Anteil der schriftlichen Prüfungsnote an der Abschlussnote im nationalen Vergleich hoch. So wird bei der Berechnung der Gesamtnote im Abitur die Note der zentralen Abiturprüfungen nur zwischen 14,5 und 23 Prozent berücksichtigt (vgl. Klein et al., 2009, S. 608 f.). Zusätzlich zu den landeseinheitlichen schriftlichen Prüfungen existieren in allen beteiligten Bundesländern weitere dezentrale Prüfungselemente, deren Einsatz nicht auf die schriftlich geprüften Fächer begrenzt ist (Tabelle 3.2). Tabelle 3.2 Bestandteile der zentralen Prüfung zum Erwerb des mittleren Schulabschlusses Bundes- Zentrale Dezentrale Prüfungsbestandteile land Prüfungsbestandteile BW

drei schriftliche Prüfungen

drei mündliche Prüfungen: – mündliche Prüfung in einem zugelassenen Fach nach Wahl des Prüflings – mündliche Prüfung in der ersten Fremdsprache (EuroKomPrüfung) – Präsentation zu einem selbstgewählten Thema inklusive eines daran anknüpfenden Prüfungsgesprächs (Kompetenzprüfung)

BY

vier schriftliche Prüfungen

ggf. eine praktische Prüfung in den Fächern Kunst, Werken sowie Haushalt und Ernährung

BE

drei schriftliche Prüfungen

eine mündliche Prüfung: Präsentation zu einem selbstgewählten Thema inklusive eines daran anknüpfenden Prüfungsgesprächs (Präsentationsprüfung)

BB

drei schriftliche Prüfungen

eine mündliche Prüfung in einer Fremdsprache, die spätestens seit der Jahrgangsstufe 7 erlernt wird

HB

drei schriftliche Prüfungen

eine mündliche Prüfung in einem zugelassenen Fach nach Wahl des Prüflings

HH

drei schriftliche Prüfungen

drei bis vier mündliche Prüfungen: – mündliche Prüfung im Fach Deutsch – mündliche Prüfung im Fach Englisch – mündliche Prüfung im Fach Mathematik – Praxisorientierte Prüfunga

HE

drei schriftliche Prüfungen

eine mündliche Prüfung: Präsentation auf Grundlage einer Hausarbeit (Fortsetzung)

3.1 Der mittlere Schulabschluss

43

Tabelle 3.2 (Fortsetzung) Bundes- Zentrale Dezentrale Prüfungsbestandteile land Prüfungsbestandteile MV

drei schriftliche Prüfungen

zwei mündliche Prüfungen: – Präsentation und Verteidigung einer Jahresarbeit in einem zugelassenen Fach nach Wahl des Prüflings – mündliche Prüfung in einem zugelassenen Fach nach Wahl des Prüflings

NI

drei schriftliche Prüfungen

zwei mündliche Prüfungen: – mündliche Prüfung in der ersten Fremdsprache – mündliche Prüfung in einem zugelassenen Fach nach Wahl des Prüflings

NW

drei schriftliche Prüfungen

keine mündliche Prüfung

SL

drei schriftliche Prüfungen

eine mündliche Prüfung in einem zugelassenen Fach nach Wahl des Prüflings

SN

vier schriftliche Prüfungen

eine mündliche Prüfung in einem zugelassenen Fach nach Wahl des Prüflings

ST

drei schriftliche Prüfungen

zwei mündliche Prüfungen – mündliche Prüfung in einem naturwissenschaftlichen Fach – mündliche Prüfung in einem zugelassenen Fach nach Wahl des Prüflings

SH

drei schriftliche Prüfungen

eine mündliche Prüfung: Präsentation einer Projektarbeit

TH

drei schriftliche Prüfungen

eine mündliche Prüfung in einem zugelassenen Fach nach Wahl des Prüflings

a Die Praxisorientierte Prüfung

findet ausschließlich an Stadtteilschulen statt und bildet einen ergänzenden Teil zu einer der drei mündlichen Prüfungen, der separat benotet wird (vgl. vertiefend Behörde für Schule und Berufsbildung, 2015, S. 22).

Zusätzlich zu den vorgestellten zentralen und dezentralen Prüfungsbestandteilen, deren Bewältigung für die gesamte Schülerschaft obligatorisch ist, gibt es weitere mündliche Prüfungen, die optional bzw. situationsabhängig stattfinden. In Abhängigkeit des Bundeslandes existiert die Regelung, dass die Prüflinge die mündlichen Prüfungen freiwillig beantragen können (z. B. zur Verbesserung der Abschlussnote) und/ oder in Abhängigkeit der individuellen Ergebnisse der schriftlichen Prüfungen eine Festlegung durch die Schulen erfolgt (z. B. im Falle einer hohen Differenz zwischen der schriftlichen Prüfungsnote und der Jahresnote). Im Hinblick auf das Forschungsinteresse bzw. das Sample dieser Studie (vgl. vertiefend Abschnitt 7.4)

44

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

betrachtet die Autorin sämtliche dezentralen Prüfungsbestanteile im Folgenden nicht weiterführend, stattdessen fokussiert sie sich auf die landeseinheitlichen schriftlichen Prüfungen im Schulfach Deutsch.

3.2

Die zentrale Prüfungsklausur

Die Prüfungsklausur bildet mit ihren landeseinheitlich vorgegebenen Aufgaben ein bedeutsames Instrument zur Standardisierung der zentralen Prüfung. Um die angestrebten Ziele einer schulischen Qualitätssicherung sowie einer Erhöhung der Vergleichbarkeit hinsichtlich der Abschlussvergabe zu erreichen (vgl. KMK, 2004b), bestehen hohe Anforderungen an die Gestaltung der Prüfungsklausur. Wie in jeder sonstigen schriftlichen Klausur gilt es u. a. sicherzustellen, dass die Prüfungsaufgaben inhaltlich korrekt und verständlich formuliert sind sowie keine Schülergruppen aufgrund der Formulierung bzw. der thematischen Auswahl benachteiligt werden (vgl. zusammenfassend Sacher, 2014, S. 53 ff.). Im Kontext der zentralen Abschlussvergabe ist es zudem notwendig, die Prüfungsaufgaben auf der Grundlage der Bildungsstandards für den MSA zu erstellen und somit bundesweit vergleichbare Prüfungsanforderungen bzw. ein gleichbleibend hohes Anspruchsniveau zwischen den Prüfungsdurchgängen zu schaffen (vgl. Kühn & Drüke-Noe, 2013). Für das Prüfungsfach Deutsch wurden insgesamt vier Kompetenzbereiche festgelegt, welche die Schülerinnen und Schüler am Ende der Jahrgangsstufe 10 erworben haben sollen (vgl. zusammenfassend KMK, 2004b): – Sprechen und Zuhören: kommunikative Kompetenzen für das Führen privater und beruflicher Gespräche sowie das Vortragen von Inhalten (z. B. die Präsentation eines Themas) – Schreiben: Kompetenzen für das zielgerichtete, situations- und adressatenbezogene Verfassen und Gestalten von Texten (z. B. das Verfassen einer Erörterung) – Lesen – mit Texten und Medien umgehen: Kompetenzen für das Verständnis sowie die Nutzung von Texten und anderen Medien (z. B. die Recherche von bestimmten Inhalten aus einem Text) – Sprache und Sprachgebrauch untersuchen: Kompetenzen zur Reflexion über Sprache sowie zur Nutzung der gewonnenen Erkenntnisse für die eigene Sprachentwicklung (z. B. die Kenntnis und Anwendung von sprachlichen Mitteln)

3.2 Die zentrale Prüfungsklausur

45

Um zu überprüfen, ob die geforderten Kompetenzen beim einzelnen Prüfling vorliegen, bedarf es folglich deren Operationalisierung durch konkrete Prüfungsaufgaben. Konkret bedeutet dies, die Aufgaben sollen die Schülerinnen und Schüler „in Situationen […] bringen, die sie unter Rückgriff auf ihre Kompetenzen beziehungsweise ihre Handlungspotenziale bewältigen müssen“ (Schindler, 2015, S. 47). Zur weiteren Differenzierung, in welchem Ausmaß die Schülerinnen und Schüler die geforderten Kompetenzen besitzen, existieren darüber hinaus Anforderungsbereiche, anhand welcher drei Schwierigkeitsgrade unterschieden werden können und eine Orientierung im Kontext der Aufgabenerstellung möglich ist (vgl. KMK, 2004b, S. 17 ff.). Aufgrund der vergleichsweise hohen Bedeutsamkeit von sprachlichen Kompetenzen im Fach Deutsch schlägt die KMK (2004b) insbesondere den Einsatz von Aufgaben mit einer relativ offenen Aufgabenformulierung sowie offenen Antwortformaten vor, die keine Lösungsmöglichkeiten vorgeben und den Prüflingen Freiräume bei der Beantwortung erlauben. Speziell unter Bezugnahme auf die Kompetenzbereiche Schreiben sowie Sprache und Sprachgebrauch untersuchen fordern die vorgeschlagenen Aufgaben umfangreichere Fließtexte aus mehreren Sätzen (vgl. ebd., S. 20). Die Schülerinnen und Schüler sollen „[…] dem Schreibanlass und Auftrag entsprechende Texte verfassen, [welche] sie eigenständig, zielgerichtet, situations- und adressatenbezogen“ (ebd., S. 9) mit oder ohne Textgrundlage gestalten. Hieraus ergibt sich die besondere Schwierigkeit, Prüfungsaufgaben zu konstruieren, die auf der einen Seite genügend Spielräume bieten, damit die Prüflinge ihre inhaltliche Expertise bzw. ihre sprachlichen Kompetenzen abbilden können und auf der anderen Seite mithilfe von anleitenden Hinweisen im Rahmen der Aufgabenstellung ausreichend standardisiert sind, sodass anschließend auch eine möglichst objektive Auswertung der Antworten möglich ist (vgl. Köster, 2010a). Bedingt durch die hohen Anforderungen an die Konstruktion der Aufgaben sowie das Erfordernis, die Aufgaben bis zum Prüfungstag geheim zu halten, ist für die Erstellung der Prüfungsklausur in jedem Bundesland eine eigens hierfür eingerichtete Kommission zuständig, welche sich in unterschiedlichen Anteilen aus schulpraktischen und wissenschaftlichen Expertinnen bzw. Experten zusammensetzt (vgl. Krüger, 2015, S. 92 f.). In einigen Bundesländern sind darüber hinaus weitere interessierte Lehrkräfte eingebunden, indem die Möglichkeit besteht, in einem vorgelagerten Schritt Aufgabenvorschläge einzusenden, über welche die Kommission berät (vgl. BW5, Position 24). Neben der angestrebten Passung zu den Bildungsstandards weisen die Verordnungen einiger Bundesländer außerdem auf die Orientierung an den landesspezifischen Lehrplänen hin, z. B. „Die Aufgaben [der zentralen Prüfung] orientieren

46

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

sich an den durch Beschluss der Kultusministerkonferenz festgelegten überregionalen Standards und den Anforderungen der Bildungspläne“ (Behörde für Schule und Berufsbildung, 2015, S. 21). Die jeweiligen Kerncurricula enthalten ergänzende Informationen, wie beispielsweise die Festlegung eines literarischen Kanons, welcher nicht bundesweit im Rahmen der Bildungsstandards vorgegeben ist (vgl. Bremerich-Vos, 2013). Zur konkreten Überprüfung der geforderten Kompetenzen werden im Rahmen der zentralen Prüfungen des MSA in unterschiedlichem Ausmaß geschlossene, halboffene und offene Aufgabenformate eingesetzt (vgl. Otto & Kühn, 2014, S. 10). Hinsichtlich der Zusammensetzung der Prüfungsklausur kann grob zwischen zwei Gestaltungstypen unterschieden werden: 1. Umfangreicher Prüfungsaufsatz Die Prüfungsklausur dieses Typs besteht ausschließlich aus komplexeren Langtextaufgaben (z. B. Erörterungen, Interpretationen, gestaltendes Schreiben), die eine Verknüpfung von inhaltlichen und sprachlichen Kompetenzen in einem umfangreichen Fließtext fordern. Teilweise liegen den Aufgaben in der Prüfung ausgewählte Texte oder Materialien zugrunde, auf welche sich bei der Beantwortung bezogen werden soll. In Baden-Württemberg wird darüber hinaus in jeder Prüfung eine Aufgabe angeboten, für welche bereits in der 10. Jahrgangsstufe eigenständig Materialien in Form einer Textsammlung zu einem vorgegebenen Rahmenthema gesammelt und in der Prüfung genutzt werden können (das sogenannte Kompendium, vgl. Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2018). Aus den insgesamt zwei bis vier Wahlaufgaben einer Klausur muss von den Prüflingen eine Aufgabe ausgewählt und bearbeitet werden. Die vorgegebene Bearbeitungszeit4 beträgt in der Regel 240 Minuten, mindestens jedoch 180 Minuten. Neben den hohen Anforderungen bezüglich der Aufgabenkonstruktion ergeben sich bei diesem Prüfungsformat außerdem besondere Herausforderungen bezüglich der Leistungsbeurteilung (vgl. vertiefend Abschnitt 3.3). Zum einen führt die hohe Komplexität der Aufgaben dazu, dass die Differenzierung in wünschenswerte Teilleistungen erschwert ist und zum anderen wird durch die große Offenheit der Aufgaben die Antizipation sämtlicher Lösungen verhindert. Folglich sind die Festlegung von Beurteilungskriterien bzw. die Erstellung von zugehörigen Erwartungshorizonten sowie der anschließende Umgang mit diesen vergleichsweise anspruchsvoll (vgl. Köster, 2006). 4 Die

Bearbeitungszeit wird in den Bundesländern teilweise in einem Umfang von 10 bis 30 Minuten um eine Einlese- bzw. Aufgabenauswahlzeit ergänzt (vgl. z. B. Institut für Qualitätsentwicklung Mecklenburg-Vorpommern, 2017).

3.2 Die zentrale Prüfungsklausur

47

Bei den Bundesländern, die eine entsprechende Prüfungsklausur im Rahmen der zentralen Prüfungen zum Erwerb des MSA im Prüfungsfach Deutsch einsetzen, handelt es sich um Baden-Württemberg, Bayern, Mecklenburg-Vorpommern5 und Thüringen. Hierbei ist anzumerken, dass ausschließlich föderale Staaten mit einer längeren zentralen Prüfungstradition dieser Gruppe zuzuordnen sind. 2. Zweigeteilte Prüfungsklausur Der Großteil der Bundesländer ist dem zweiten Gestaltungstyp der Prüfungsklausur zuzuordnen: Berlin/ Brandenburg, Bremen, Hamburg, Hessen, Niedersachsen, Nordrhein-Westfalen, Saarland, Sachsen, Sachsen-Anhalt und Schleswig-Holstein. Die Prüfungsklausur dieses Typs besteht grob aus zwei Teilen. In einem ersten Teil werden gezielt ausgewählte Kompetenzen über Aufgaben erfragt, die eine kurze Antwort des Prüflings fordern. Hierzu zählen Aufgaben mit einer gebundenen Aufgabenbeantwortung, in deren Rahmen bereits sämtliche Antwortalternativen angeführt sind und lediglich die korrekte(n) Antwort(en) markiert werden müssen (z. B. Mehrfachwahl-, Richtig-Falsch-, Anordnungs- und Zuordnungsaufgaben). Des Weiteren werden in diesem ersten Teil Aufgaben mit einer freien Aufgabenbeantwortung eingesetzt, deren Beantwortung jedoch durch die Aufgabenstellung, einen zusätzlichen Hinweis (z. B. „Antworten Sie bitte in einem Satz.“) oder das Antwortfeld begrenzt ist. Teilweise beziehen sich die Aufgaben auf zugrundeliegende Texte oder andere Materialien. Niedersachsen kombiniert einen Teil der Aufgaben zusätzlich mit kurzen Hörtexten, um Kompetenzen im Bereich des Hörverstehens zu prüfen (vgl. Niedersächsisches Kultusministerium, 2017, S. 1). Die Anforderungen hinsichtlich der Konstruktion dieser Aufgabentypen sind ebenfalls anspruchsvoll. Speziell im Rahmen von gebundenen Aufgaben gilt es ausreichend realistische Antwortmöglichkeiten anzuführen, damit die Ratewahrscheinlichkeit gering ist (vgl. Kubinger, 2014). Im Hinblick auf die Leistungsbeurteilung bieten diese Aufgaben allerdings den Vorteil, dass sie klar und objektiv auswertbar sind, denn eine hohe Auswertungsobjektivität wird im Falle der Vorgabe von Lösungsmöglichkeiten bereits durch das Aufgabenformat erzeugt (vgl. Mietzel, 2017, S. 585 ff.).

5 Im Prüfungsdurchgang 2019 ändert sich in Mecklenburg-Vorpommern die Struktur der Prü-

fung für das Fach Deutsch dahingehend, dass kein umfangreicher Prüfungsaufsatz mehr gefordert wird, sondern ein Aufgabensatz mit unterschiedlichen Aufgaben(-formaten) vorliegt, sodass zukünftig eine Zuordnung zum Gestaltungstyp zweigeteilte Prüfungsklausur erfolgen muss (vgl. Institut für Qualitätsentwicklung Mecklenburg-Vorpommern, 2018, S. 1 f.).

48

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

Im zweiten Teil der Prüfungsklausur müssen die Schülerinnen und Schüler eine umfangreichere Langtextaufgabe beantworten. Mit Ausnahme der Prüfungsklausur aus Berlin/ Brandenburg können sich die Prüflinge zwischen mindestens zwei Wahlaufgaben entscheiden (vgl. z. B. Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein, 2017b, S. 17). Die vorgegebene Bearbeitungszeit für beide Teile variiert stark und beträgt insgesamt zwischen 135 und 240 Minuten. Diesbezüglich können grob drei Untergruppen gebildet werden: kurze Bearbeitungszeit von 135–155 Minuten (Hamburg, Nordrhein-Westfalen, Schleswig-Holstein), mittlere Bearbeitungszeit von 180 Minuten (Berlin/ Brandenburg, Bremen, Hessen, Niedersachsen) und lange Bearbeitungszeit von 210–240 Minuten (Saarland, Sachsen, Sachsen-Anhalt; Tabelle 3.3). Tabelle 3.3 Gestaltung der landeseinheitlich vorgegebenen Prüfungsklausur im Fach Deutsch Bundes- Prüfungszeita Prüfungsgestaltung Wahloptionen land BW

240 Minuten

umfangreicher Prüfungsaufsatz

Wahl zwischen vier Aufgaben durch die SuS

BY

240 Minuten

umfangreicher Prüfungsaufsatz

Vorauswahl von vier Themen durch die Lehrkraft und hiervon Auswahl von einem Thema durch die SuS

BE/ BB

180 Minuten

zweigeteilte Prüfungsklausur

keine Wahloption

HB

180 Minuten

zweigeteilte Prüfungsklausur

Wahl zwischen zwei Langtextaufgaben im zweiten Prüfungsteil durch die SuS

HH

155 Minuten

zweigeteilte Prüfungsklausur

Wahl zwischen zwei Langtextaufgaben im zweiten Prüfungsteil durch die SuS

HE

180 Minuten

zweigeteilte Prüfungsklausur

Wahl zwischen zwei Langtextaufgaben im zweiten Prüfungsteil durch die SuS

MV

270 Minuten

zweigeteilte Prüfungsklausur

Wahl zwischen drei Aufgaben durch die SuSb

NI

195 Minuten

zweigeteilte Prüfungsklausur

Vorgabe eines Basisteils und eines Wahlteils (Wahl zwischen zwei Themen durch die SuS)

NW

170 Minuten

zweigeteilte Prüfungsklausur

Wahl zwischen zwei Langtextaufgaben im zweiten Prüfungsteil durch die SuS (Fortsetzung)

3.3 Der zentrale Erwartungshorizont

49

Tabelle 3.3 (Fortsetzung) Bundes- Prüfungszeita Prüfungsgestaltung Wahloptionen land SL

240 Minuten

zweigeteilte Prüfungsklausur

Wahl zwischen drei thematisch unterschiedlichen Prüfungsaufsätzen durch die SuS

SN

255 Minuten

zweigeteilte Prüfungsklausur

Wahl zwischen drei Langtextaufgaben im zweiten Prüfungsteil durch die SuS

ST

240 Minuten

zweigeteilte Prüfungsklausur

Wahl zwischen zwei Langtextaufgaben im zweiten Prüfungsteil durch die SuS

SH

150 Minuten

zweigeteilte Prüfungsklausur

Wahl zwischen zwei Langtextaufgaben im zweiten Prüfungsteil durch die SuS

TH

210 Minuten

umfangreicher Prüfungsaufsatz

Wahl zwischen vier Aufgaben durch die SuS

a Die

verfügbare Prüfungszeit umfasst die Bearbeitungszeit sowie die zusätzliche Einlesebzw. Aufgabenauswahlzeit (sofern vorhanden). b Im Prüfungsdurchgang 2019 ändert sich die Struktur der Prüfung in MecklenburgVorpommern dahingehend, dass die Schülerinnen bzw. Schüler in einem ersten Schritt zwischen zwei thematisch unterschiedlichen Aufgabensätzen und in einem zweiten Schritt zwischen zwei Langtextaufgaben im zweiten Prüfungsteil eines Aufgabensatzes wählen dürfen (vgl. Institut für Qualitätsentwicklung Mecklenburg-Vorpommern, 2018, S. 1 f.).

Insgesamt zeigt sich gleichermaßen eine bundesweite Heterogenität der eingesetzten Aufgabentypen im Hinblick auf deren Auswertungsobjektivität wie auch ein bundesweiter Einsatz von komplexeren Langtextaufgaben, die hinsichtlich der Erstellung verbindlicher, objektiver Beurteilungskriterien als problematisch einzuschätzen sind (vgl. Köster, 2010a). Folglich ist die Vergleichbarkeit der zentralen Prüfung zum Erwerb des MSA und der hieraus resultierende Abschlusszertifikate an dieser Stelle bereits kritisch zu hinterfragen.

3.3

Der zentrale Erwartungshorizont

Zur Realisierung einer vergleichbaren Abschlussvergabe ist nicht nur die zentrale Vorgabe der Prüfungsklausur und des Erwartungshorizontes notwendig, sondern auch dass die beiden Instrumente aufeinander abgestimmt sind (vgl. Freudenberg, 2012). Die zentrale Funktion des Erwartungshorizontes besteht darin „[…] darüber Auskunft [zu geben], welche Leistungen erbracht werden müssen, um eine Aufgabe vollständig, teilweise oder in Ansätzen zu lösen“ (Köster, 2010b, S. 31).

50

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

Bedingt durch diese untrennbare Verbindung zwischen der Prüfungsklausur und dem Erwartungshorizont (vgl. Jost & Böttcher, 2018) erscheint ebenfalls ein verknüpft ablaufender Entwicklungsprozess der beiden Instrumente sinnvoll. Folglich kann es positiv bewertet werden, dass die Kommissionen deutschlandweit gleichermaßen für die Konfiguration der Prüfungsklausur und des Erwartungshorizontes zuständig sind. Abgesehen von der landeseinheitlichen Gestaltung existiert keine bundesweit einheitliche Form des Erwartungshorizontes im Kontext der zentralen Prüfungen zum Erwerb des MSA im Prüfungsfach Deutsch. Stattdessen ist die Konfiguration der Erwartungshorizonte „durch eine ausgeprägte länderspezifische Heterogenität gekennzeichnet“ (Mathes & Kühn, 2016, S. 174), die sich bereits auf der formalen Ebene anhand der variierenden Seitenzahl der Instrumente zeigt (vgl. ebd.). Des Weiteren lassen sich Unterschiede hinsichtlich der inhaltlichen Ausgestaltung feststellen. Beispielswiese besitzen die formulierten Lösungserwartungen in den landeseinheitlichen Erwartungshorizonten einen unterschiedlichen Detailliertheits- und Abstraktionsgrad, u. a. werden konkrete, aufgabenspezifische Musterlösungen (vgl. z. B. Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein, 2017a) sowie alternativ allgemeine Kriterien zur Beschreibung der geforderten Leistungen genutzt, die lediglich textsortenspezifische Angaben enthalten (vgl. Mathes & Kühn, 2016). Auch bezüglich der Anleitung der Leistungsbewertung existieren verschiedene Vorgehensweisen, z. B. eine kleinschrittige Festlegung und Zuordnung von Punkten (vgl. z. B. Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein, 2017a) oder die Vorgabe einer grundlegenden Gewichtung von Leistungen (vgl. Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2017, S. 5). Interessant erscheint hierbei, dass die Vorgaben innerhalb eines Bundeslandes nicht zwangsläufig konstant sind und unterschiedliche Regelungen für die einzelnen Prüfungsdurchgänge vorliegen. Beispielsweise ist die grobe Gewichtung der Leistungen in den baden-württembergischen Ausführungsbestimmungen für das Prüfungsjahr 2018 geregelt (vgl. ebd.), wohingegen die Ausführungsbestimmungen für das Prüfungsjahr 2019 keine Informationen enthalten, zu welchen Anteilen die Leistungen im Rahmen der Bewertung berücksichtigt werden sollen (vgl. Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2018). Ergänzend zu den unterschiedlichen Gestaltungsformen regeln die Verordnungen der zuständigen Landesbildungsministerien und unterstützenden Landesinstitute darüber hinaus unterschiedlich explizit den intendierten Umgang mit dem Instrument. So verweist die nordrhein-westfälische Variante beispielsweise ausdrücklich auf eine obligatorische Nutzung des unveränderten Erwartungshorizontes: „Die Beurteilungs- und Bewertungsvorgaben werden den Schulen mit der Übermittlung

3.3 Der zentrale Erwartungshorizont

51

der jeweiligen Prüfungsaufgaben zur Verfügung gestellt. Diese Vorgaben sind verbindlich ( APO S I § 33 (3)). Die Kriterien dürfen von den Korrigierenden nicht verändert oder angepasst werden.“ (Qualitäts- und UnterstützungsAgentur – Landesinstitut für Schule, o. J., S. 9) Im Vergleich hierzu bietet die Formulierung in der baden-württembergischen Version gegebenenfalls einen Interpretationsspielraum: „Die den Aufgabensätzen der schriftlichen Prüfung beigefügten Korrekturhinweise sind zu beachten […] sie dienen als Grundlage für die Korrekturbesprechung“ (Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2018). In Mecklenburg-Vorpommern wird neben der Unverbindlichkeit des Erwartungshorizontes darauf hingewiesen, dass die Bezugnahme auf den vorgelagerten Unterricht erwünscht ist: „Die Hinweise in den Erwartungsbildern sind lediglich eine Orientierung für die Notengebung unter Berücksichtigung der im Unterricht geschaffenen Voraussetzungen.“ (Institut für Qualitätsentwicklung Mecklenburg-Vorpommern, 2017, S. 3; Tabelle 3.4) Tabelle 3.4 Gestaltung der landeseinheitlich vorgegebenen Erwartungshorizonte im Fach Deutscha Bundes- Leistungsfeststellung land

Leistungsbewertung

BW

aufgabenspezifische Kriterien

keine Angabe

BY

aufgabenspezifische Kriterien

keine Angabe

BE/ BB aufgabenspezifische Kriterien

– Angabe von Bewertungseinheiten für Teilleistungen, Aufgabenbereicheb und Aufgaben – Bewertungsschlüssel zur Notenermittlung

HB

aufgabenspezifische Kriterien

– Angabe von Bewertungseinheiten für Teilleistungen, Aufgabenbereiche und Aufgaben – Bewertungsschlüssel zur Notenermittlung

HH

aufgabenspezifische Kriterien

– Angabe von Punkten für Teilleistungen, Aufgabenbereiche und Aufgaben – Bewertungsschlüssel zur Notenermittlung

HE

aufgabenspezifische Kriterien

– Angabe von Punkten für Leistungsbereiche und Aufgaben – Fehlerquotient zur Bewertung der Rechtschreibung – Bewertungsschlüssel zur Notenermittlung (Fortsetzung)

52

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

Tabelle 3.4 (Fortsetzung) Bundes- Leistungsfeststellung land

Leistungsbewertung

MV

aufgabenspezifische Kriterien

– Angabe von Wertigkeiten der Aufgaben – allgemeine Beschreibung der erwarteten Leistungen unter Bezugnahme auf die Anforderungsbereiche zur Notenermittlung

NI

aufgabenspezifische Kriterien

– Angabe von Punkten für Aufgaben – Bewertungsschlüssel zur Notenermittlung

NW

aufgabenspezifische Kriterien

– Angabe von Punkten für Teilleistungen und Aufgaben – Bewertungsschlüssel zur Notenermittlung

SL

aufgabenspezifische Kriterien

– Angabe von Punkten für Teilleistungen, Aufgabenbereiche und Aufgaben – Fehlerquotient zur Bewertung der Rechtschreibung – Bewertungsschlüssel zur Notenermittlung

SN

allgemeine Kriterien

Angabe von Bewertungseinheiten für Leistungsbereiche und Aufgaben

ST

aufgabenspezifische Kriterien

Angabe von Bewertungseinheiten für Leistungsbereiche

SH

aufgabenspezifische Kriterien

– Angabe von Punkten für Teilleistungen und Aufgaben – Fehlerquotient zur Bewertung der Rechtschreibung – Bewertungsschlüssel zur Notenermittlung

TH

aufgabenartspezifische – heterogene Anleitung über Bewertungseinheiten sowie Kriterien einen Bewertungsschlüssel zur Notenermittlung und eine Beschreibung der erwarteten Leistungen einer (Teil-)Note – Fehlerquotient zur Bewertung der Rechtschreibung – Angabe von Wertigkeiten der inhaltlichen und sprachlichen Teilbereiche

a Die Tabelle bezieht sich auf die vorliegenden Erwartungshorizonte aus dem Prüfungsjahr 2015. Die ergänzende Recherche auf den Internetplattformen der zuständigen Landesbildungsministerien hat keine zusätzlichen Hinweise auf Modifikationen der aktuellen Gestaltung ergeben. b Aufgabenbereiche fassen einzelne Teilleistungen zusammen, z. B. sprachliche Darstellung bestehend u. a. aus den sprachlichen Ausdrucksleistungen und dem Aufbau des Textes.

Zur Objektivierung der Leistungsbeurteilung existiert zusätzlich zur landeseinheitlichen Vorgabe von Erwartungshorizonten in allen Bundesländern ein Zweitkorrektur-Prinzip, d. h. die Prüfung wird neben der schulinternen Fachlehrkraft von einer weiteren schulinternen bzw. -externen Lehrkraft beurteilt (vgl. Kühn, 2013, S. 95 f.). Diesbezüglich können drei verschiedene Formen unterschieden werden:

3.3 Der zentrale Erwartungshorizont

53

– situationsabhängige schulinterne Zweitkorrektur: Eine Zweitkorrektur wird nur in Sonderfällen durchgeführt, z. B. sofern die erstkorrigierende Lehrkraft hinsichtlich der Beurteilung unsicher ist oder die Note ungenügend vergeben hat. Dies gilt für die Bundesländer Berlin/ Brandenburg (vgl. Verordnung über die Schularten und Bildungsgänge der Sekundarstufe I [Sekundarstufe I-Verordnung – Sek I-VO] vom 31. März 2010, § 40), Hessen (vgl. Verordnung zur Ausgestaltung der Bildungsgänge und Schulformen der Grundstufe [Primarstufe] und der Mittelstufe [Sekundarstufe I] und der Abschlussprüfungen in der Mittelstufe [VOBGM] vom 14. Juni 2005, § 46), Mecklenburg-Vorpommern (vgl. Verordnung über die Durchführung von Prüfungen zum Erwerb der Mittleren Reife [Mittlere-Reife-Verordnung – MittReifVO M-V] vom 14. Juli 2013, § 10), Saarland (vgl. Verordnung – Prüfungsordnung – über die staatliche Abschlussprüfung zum Erwerb des mittleren Bildungsabschlusses an Gemeinschaftsschulen vom 12. Juli 2000, § 13). – verpflichtende schulinterne Zweitkorrektur: Die Zweitkorrektur ist obligatorisch und wird unabhängig von der erstkorrigierenden Lehrperson durch eine weitere Lehrkraft der gleichen Schule durchgeführt. Dies gilt für die Bundesländer Bayern (vgl. Schulordnung für die Realschulen [Realschulordnung – RSO] vom 18. Juli 2007, § 38), Bremen (vgl. Verordnung über die Prüfungen zu den Abschlüssen der Sekundarstufe I [Prüfungsverordnung Sekundarstufe I – PrüfV Sek. I] vom 20. Juni 2013, § 13), Hamburg (vgl. Behörde für Schule und Berufsbildung, 2015, S. 21), Niedersachsen (vgl. Verordnung über die Abschlüsse im Sekundarbereich I der allgemein bildenden Schulen einschließlich der Freien Waldorfschulen [AVO – Sek I] vom 7. April 1994, § 31), Nordrhein-Westfalen (vgl. Verordnung über die Ausbildung und die Abschlussprüfungen in der Sekundarstufe I [Ausbildungs- und Prüfungsordnung Sekundarstufe I – APO-S I] vom 2. November 2012, § 33), Sachsen (vgl. Schulordnung Mittel- und Abendmittelschulen [SächsGVBl. S. 277, 365] vom 11. Juli 2011, § 38), Sachsen-Anhalt (Verordnung über die Abschlüsse in der Sekundarstufe I [Abschluss-VO Sek I] vom 9. Juli 2012, § 13), Schleswig-Holstein (vgl. Landesverordnung über Gemeinschaftsschulen [GemVO] vom 18. Juni 2014, § 13) und Thüringen (vgl. Ministerium für Bildung, Jugend und Sport, 2017, S. 38). – verpflichtende schulexterne Zweitkorrektur: Die Zweitkorrektur wird durch eine Lehrkraft an einer festgelegten Partnerschule durchgeführt, welche die Prüflinge nicht kennt und unabhängig von der erstkorrigierenden Lehrperson beurteilt6 6 Die

beiden Lehrkräfte beurteilen die Prüfungsleistung zwar unabhängig voneinander, dennoch kennt bzw. sieht die zweitkorrigierende Lehrkraft die Korrekturen sowie die vergebene Note der erstkorrigierenden Lehrkraft.

54

3

Zentrale Prüfungen zum Erwerb des mittleren Schulabschlusses

(vgl. Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2018). Dieses Vorgehen erfolgt ausschließlich in Baden-Württemberg und wird mit einer verpflichtenden Korrekturbesprechung kombiniert, an welcher sämtliche Korrektorinnen und Korrektoren der beiden Partnerschulen teilnehmen müssen. In diesem Rahmen wird die Leistungsbeurteilung auf der Grundlage der Erwartungshorizonte besprochen und Fragen geklärt (vgl. ebd., S. 4 f.). Insgesamt lässt sich somit auch für das Leistungsbeurteilungsverfahren im Kontext der zentralen Prüfungen zum Erwerb des MSA im Prüfungsfach Deutsch eine starke Heterogenität hinsichtlich der Ausgestaltung und intendierten Nutzung des Erwartungshorizontes feststellen, die im Hinblick auf die angestrebte Vergleichbarkeit kritisch zu betrachten ist. Analog zum Zentralabitur scheint auch im MSA „die Heterogenität der Steuerungen [, d. h. der Prüfungsaufgaben und Erwartungshorizonte] […] symptomatisch dafür zu sein, dass im deutschen Bildungssystem der Wille zur Vereinheitlichung und der Wille zur Diversifikation ein schwer durchschaubares Gemenge bilden“ (Zabka & Stark, 2010, S. 20).

4

Erwartungshorizonte als Steuerungsinstrumente in zentralen Prüfungen

Im Hinblick auf eine vergleichbare Abschlussvergabe spielen „die Beurteilungen von Leistungsfähigkeit und erbrachten Leistungen der Schüler durch ihre Lehrer [eine besondere Rolle], da diese die Basis der Allokations- und Selektionsprozesse bilden“ (Birkelbach, 2010, S. 109). In einem mehrteiligen Beurteilungsvorgang stellt die Lehrkraft die relevanten Leistungen fest und bewertet diese hinsichtlich ihrer Güte (vgl. zusammenfassend Sacher, 2014, S. 83 ff.). Im Anschluss übersetzt sie die Leistungen in den Abschlusszertifikaten in Noten, welche ein einheitliches und vereinfachtes Verständnis ermöglichen sollen (vgl. Holmeier, 2013, S. 117 ff.; Sacher, 2014, S. 27). Die Noten bilden somit das sichtbare Resultat des Leistungsbeurteilungsprozess sowie den Kern der Abschlusszertifikate, welche maßgeblich an der Regelung des Zugangs zu schulischen und beruflichen Institutionen beteiligt sind (vgl. Autorengruppe Bildungsberichterstattung, 2018, S. 120 ff.; Jürgens, 2010, S. 61 ff.; Krüssel, 2001, S. 123). Im Sinne einer summativen Leistungsbeurteilung handelt es sich bei den Noten der Abschlusszertifikate um endgültige Kodifizierungen über die gesamten Leistungen und Kompetenzen der Schülerinnen bzw. Schüler, die wiederum die Grundlage für weitreichende biographische Entscheidungen sind (vgl. Solga, 2013). Die Absolventinnen und Absolventen werden nicht nur auf Basis des Erreichens bzw. der Güte eines Abschlusszertifikats durch die Schule selektiert, sondern nutzen „auch Mechanismen der Selbstselektion, das heißt Prozesse, in denen die Schülerinnen und Schüler auf Basis der erzielten Ergebnisse ihre eigenen Pläne an das Erreichbare anpassen“ (Waldow, 2012, S. 172). Folglich ist der Anspruch im Kontext der Abschlussvergabe besonders hoch, dass die Noten die zugrundeliegenden Leistungen unverzerrt wiedergeben. Bedingt durch die Komplexität des Leistungsbeurteilungsprozess ist dieser jedoch stark fehleranfällig und entsprechend wird in der empirischen Forschung die Aussagekraft der Noten insbesondere „seit dem von © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_4

55

56

4

Erwartungshorizonte als Steuerungsinstrumente …

Karlheinz Ingenkamp herausgegebenen Reader ‚Die Fragwürdigkeit der Zensurengebung‘ (1971) kritisch diskutiert. Die Kritik setzt an Validität, Reliabilität und Objektivität der Zensuren an“ (Birkelbach, 2010, S. 109). Mit der Intention die selektionsrelevante Leistungsbeurteilung im Rahmen der Abschlussvergabe zu objektivieren und auf diese Weise zu einer vergleichbaren Vergabe von Zertifikaten beizutragen, existieren im Kontext der zentralen schriftlichen Prüfungen nicht nur die landesweit vorgegebenen Prüfungsaufgaben, sondern zusätzlich landeseinheitliche Erwartungshorizonte. Die zentrale Prüfungsklausur dient mit ihren landesweit identischen Aufgaben sowie der einheitlichen Festlegung weiterer Bedingungen (z. B. Bearbeitungszeit, erlaubte Hilfsmittel) in einem ersten Schritt dazu, die Anforderungen zu vereinheitlichen und somit die Durchführungsobjektivität zu erhöhen (vgl. Jürgens, 2010, S. 74). Mithilfe des Erwartungshorizontes soll in einem zweiten Schritt die Auswertungsobjektivität verbessert werden, indem Beurteilungskriterien definiert werden, um eine vergleichbare Beurteilungspraxis zu schaffen (vgl. Köster, 2006). Der Einsatz eines landeseinheitlichen Erwartungshorizontes zielt gleichermaßen darauf, dass die einzelne Lehrkraft die verschiedenen Schülerleistungen im zeitlichen Verlauf anhand konsistenter Maßstäbe benotet, wie auch auf eine Erhöhung der Übereinstimmung zwischen den Urteilen unterschiedlicher Lehrpersonen (vgl. zusammenfassend Böhme, 2011, S. 108 ff.). Dies kann allerdings nur gelingen, sofern eine einheitliche Nutzungspraxis des Erwartungshorizontes sichergestellt wird (vgl. Mathes & Kühn, 2016), da das beste Instrument nicht zielführend ist, wenn es nicht bzw. nur teilweise oder falsch angewandt wird (z. B. bedingt durch ein mangelhaftes Verständnis des Instruments oder aus opportunistischen Gründen, vgl. vertiefend Abschnitt 4.2). Aus diesem Grund soll die Schaffung einer einheitlichen Nutzungspraxis inklusive möglicher Herausforderungen unter Rückgriff auf den Forschungsansatz der Educational Governance erörtert werden, welcher die direkte Durchgriffssteuerung des Bildungssystems kritisch hinterfragt. Rekurrierend auf diese theoretische Perspektive ist anzunehmen, dass sich eine intendierte Umsetzung von bildungsadministrativen Reformen schwierig gestaltet, da die umsetzenden Akteurinnen bzw. Akteure keine passiven Steuerungsobjekte sind, sondern vielmehr aktiv handelnde Personen darstellen, welche Aufgaben vor dem Hintergrund ihrer jeweiligen Situation (z. B. persönliche Einstellungen und Wahrnehmungen, schulspezifische Rahmenbedingungen) individuell interpretieren und umsetzen. Folglich geht mit der landesweiten Vorgabe eines Erwartungshorizontes nicht zwangsläufig eine einheitliche Nutzungspraxis des Instruments einher. Vielmehr ist davon auszugehen, dass die Lehrkräfte die Anwendung des Erwartungshorizontes in Abhängigkeit ihrer spezifischen Situation (z. B. eigene Kompetenz, verfügbare Zeit für die Prüfungskorrektur, schulspezifische Verabredungen hinsichtlich der Leistungsbeurteilung) individuell anpassen.

4.1 Realisierungsprobleme einer einheitlichen Beurteilungspraxis …

57

Dieses Kapitel erläutert und konkretisiert zunächst die zentralen Annahmen des Educational Governance-Ansatzes bezüglich der Problematik einer einheitlichen Leistungsbeurteilung in der zentralen Prüfung zum Erwerb des MSA im Fach Deutsch (vgl. Abschnitt 4.1). Hiervon ausgehend erörtert die Autorin unter Einbezug ergänzender empirischer Befunde und theoretischer Annahmen aus der pädagogischen Professionsforschung, der Arbeitspsychologie bzw. Lehrerbelastungsforschung sowie der Implementationsforschung, potenzielle Einflussfaktoren hinsichtlich der Anwendung des Erwartungshorizontes (vgl. Abschnitt 4.2). Abschließend fasst sie die vermutete multifaktorielle Nutzungspraxis des Erwartungshorizontes anhand eines heuristischen Modells zusammen (vgl. Abschnitt 4.3).

4.1

Realisierungsprobleme einer einheitlichen Beurteilungspraxis vor dem Hintergrund steuerungstheoretischer Überlegungen

Der Educational Governance-Ansatz bildet den theoretischen Rahmen dieser Studie bzw. den Ausgangspunkt der grundlegenden Annahme einer heterogenen Beurteilungspraxis in den zentralen Prüfungen im Sinne einer divergierenden Anwendung des landeseinheitlichen Erwartungshorizontes. Das multidisziplinäre GovernanceKonzept hat sich „in den 90er Jahren in unterschiedlichen disziplinären und thematischen Zusammenhängen gleichsam parallel etabliert“ (Zürn, 2008, S. 553). Angesichts der verschiedenen inter- und intradisziplinären Verwendungskontexte (z. B. Soziologie, Geschichte, Philosophie) ist es nicht verwunderlich, dass unterschiedliche Verständnisse von Governance existieren (vgl. Benz & Dohse, 2010, S. 14; Schuppert, 2008, S. 17), die auch aktuell zu einer gewissen begrifflichen Unschärfe führen und keine allgemeingültige Definition des Konzepts erlauben (vgl. Blumenthal, 2005; Offe, 2009). Dennoch lassen sich übergreifend die folgenden Grundannahmen zusammenfassen: Governance bedeutet Steuern und Koordinieren (oder auch Regieren) mit dem Ziel des Managements von Interdependenzen zwischen Akteuren. […] Steuerung und Koordination beruhen auf institutionalisierten Regelsystemen, welche das Handeln der Akteure lenken sollen […] Governance umfasst [des Weiteren] auch Interaktionsmuster und Modi kollektiven Handelns, welche sich im Rahmen von Institutionen ergeben, ohne von ihnen determiniert zu sein (Netzwerke, Koalitionen, Tauschbeziehungen, wechselseitige Anpassung im Wettbewerb). (Benz & Dose, 2010, S. 25)

Anhand von wissenschaftlichen Studien (vgl. z. B. Brüsemeister, 2004; Schimank, 2005) wurde der Forschungsansatz auch für die empirische Bildungsforschung im

58

4

Erwartungshorizonte als Steuerungsinstrumente …

Schul- und Hochschulbereich nutzbar gemacht und gewann insbesondere unter der spezifischen Begriffskombination Educational Governance an Bedeutung (vgl. Brüsemeister & Heinrich, 2011; Maag Merki & Altrichter, 2016a). Insbesondere zu Beginn des 21. Jahrhunderts begannen Steuerungsüberlegungen eine wichtige Rolle zu spielen (vgl. Berkemeyer, 2016, S. 26), da in Folge des schlechten Abschneidens in internationalen Schulleistungsstudien (z. B. TIMSS1 1995, PISA 2000, IGLU 2001) „der Druck auf Bildungspolitik und -verwaltung, rasch wirksame Schulreformen umzusetzen, deutlich zugenommen [hatte]“ (ebd., S. 178). Im Rahmen der Implementation neuer Steuerungsmaßnahmen, wie u. a. der Einführung von Bildungsstandards sowie der Durchführung zentraler Tests und Prüfungen (vgl. vertiefend Abschnitt 2.2), stellte sich für das deutsche Bildungssystem verstärkt die Frage: Wie kann die Steuerungsstruktur des Schulwesens (die Art und Weise, wie seine Ordnung und seine Leistung zustande kommen und sich weiterentwickeln) rasch und zielgerichtet so verändert werden, dass qualitätsvolle Ergebnisse – und bessere Ergebnisse als bisher – ökonomisch erbracht werden können? (Altrichter & Maag Merki, 2016, S. 3)

Aktuell nutzen einige bildungswissenschaftliche Studien das Educational Governance-Konzept, um neue Steuerungsaspekte und deren Umsetzung zu analysieren, u. a. hinsichtlich der Anwendung kompetenzorientierter Bildungsstandards (vgl. Doff & Komoss, 2017) und des Orientierungsrahmens Schulqualität (vgl. Kasper, 2017), der Durchführung von Vergleichsarbeiten (vgl. Hahn, 2014) und Schulinspektionen (vgl. Arbeitsgruppe Schulinspektion, 2016) sowie bezüglich des Wandels in der Lehrkräfteausbildung (vgl. Kuhlee, Buer & Winch, 2015). Das Educational Governance-Konzept ist hierbei nicht mit einem theoretischen Modell gleichzusetzen, anhand welchem neue Forschungsbefunde abgeglichen werden sollen, sondern bildet vielmehr einen grundlegenden Rahmen, der den strukturierten Einbezug verschiedener relevanter Theorien ermöglicht (vgl. Maag Merki & Altrichter, 2016a, S. 181). Die relative Offenheit wird stellenweise als gewisse Beliebigkeit des Konzepts kritisiert (vgl. ebd., S. 186), bietet aber im Sinne einer Gegenstandsangemessenheit die Chance, den theoretischen Hintergrund möglichst passgenau auf den Forschungsgegenstand auszurichten. Rekurrierend auf die Ausführungen von Altrichter und Maag Merki (2016) ist das Educational Governance-Konzept in dieser Studie als analytische Perspektive bzw. 1 TIMSS bildet das Akronym für eine internationale Schulleistungsstudie, welche im vierjähri-

gen Turnus das mathematische und naturwissenschaftliche Verständnis von Schülerinnen und Schülern der vierten Jahrgangsstufe testet (vgl. vertiefend Mullis, Martin & Loveless, 2016).

4.1 Realisierungsprobleme einer einheitlichen Beurteilungspraxis …

59

spezifische Betrachtungsweise zu verstehen, mit welcher „das Zustandekommen, die Aufrechterhaltung und die Transformation sozialer Ordnung und Leistung im Bildungswesen unter der Perspektive der Handlungskoordination zwischen verschiedenen Akteuren in komplexen Mehrebenensystemen [analysiert wird]“2 (Altrichter & Maag Merki, 2016, S. 8). Das grundsätzliche Ziel besteht dabei in „eine[r] umfassendere[n] Beschreibung und Analyse von Steuerungs- und Umstrukturierungsfragen im Bildungswesen“ (Altrichter, Brüsemeister & Wissinger, 2007, S. 10). Im Gegensatz zu traditionellen Steuerungsmodellen, die von einer zentralistischen Systemsteuerung ausgehen und ihre Untersuchungen hauptsächlich auf einzelne entscheidungsberechtigte, vermutlich steuerungsmächtige Akteurinnen bzw. Akteure beschränken (vgl. ebd.), ermöglicht das Educational GovernanceKonzept eine erweiterte, multiperspektivische Betrachtung von bildungsadministrativen Maßnahmen und deren Umsetzung, indem es alle Beteiligten und deren Zusammenwirken in die Analyse einbezieht (vgl. Altrichter & Maag Merki, 2016, S. 10 ff.). Diesbezüglich wird angenommen, dass das Bildungssystem eine hierarchische Mehrebenenarchitektur aufweist. Grundsätzlich können verschiedene Mehrebenensysteme unterschieden werden (vgl. Abs, Brüsemeister, Schemmann & Wissinger, 2015, S. 8), ausgehend von der Definition relevanter Akteurinnen bzw. Akteure und deren Zuständigkeiten differenziert beispielsweise Brüsemeister (2007) in seinem schulischen Mehrebenenmodell zwischen den folgenden vier Ebenen3 : – Ebene der Zentrale: Dieser Ebene sind die Akteure Bildungspolitik, Bildungsmonitoring und Bildungsverwaltung zugeordnet, welchen allesamt die Aufgabe der Legitimation des Schulsystems zukommt (vgl. ebd., S. 72 ff.). – Intermediäre Ebene: Als Schnittstelle zwischen der vor- und nachgelagerten Ebene berichten die Beteiligten dieser Ebene sowohl der Ebene der Zentrale als auch der Schulebene. Konkret ist der Akteur Schulaufsicht hauptsächlich für die 2 Neben

dem Verständnis von Educational Governance als Forschungsperspektive existieren zwei weitere, hiervon abzugrenzende Verwendungsweisen: Zum einen wird die Begriffskombination auch als allgemeine „Bezeichnung von Regulierungs- und Steuerungsverhältnissen in Mehrebenensystemen [genutzt]“ (Altrichter & Maag Merki, 2016, S. 12). Zum anderen bezeichnet das Begriffspaar in einem engeren, normativen Verständnis „Steuerungs- und Regulierungsvorschläge und -modelle […], die versprechen, die ‚alten‘ Steuerungsverhältnisse hierarchischer Kontrolle zu verändern und zu verbessern“ (ebd., S. 13). Auf diese beiden eher strukturellen Verständnisse von Educational Governance wird sich in dieser Arbeit nicht bezogen. 3 Die folgenden Ausführungen beschränken sich auf die grundsätzliche Strukturierung des Mehrebenensystems, die Differenzierung innerhalb der einzelnen Ebenen wird an dieser Stelle nicht weiter ausgeführt (vgl. vertiefend Brüsemeister, 2007).

60

4

Erwartungshorizonte als Steuerungsinstrumente …

Kontrolle der Schulen zuständig und der Akteur Schulinspektion soll die Qualitätsentwicklung von Schulen über entsprechende Rückmeldungen anregen (vgl. ebd., S. 82 ff.). – Schulebene: Hierbei handelt es sich um „die eigentliche inhaltliche Leistungsebene des Schulsystems“ (ebd., S. 85), in deren Rahmen die Akteursgruppe der Lehrkräfte agiert und die primäre Aufgabe erfüllt, die Schülerinnen und Schüler zu qualifizieren. – Ebene der Zivilgesellschaft: Dieser Ebene umfasst die zahlreichen weiteren Beteiligten, die ebenfalls ein Bestandteil der schulischen Umwelt bilden und im Zuge von Analysen mitberücksichtigt werden sollen, wie z. B. Eltern oder Stiftungen (vgl. ebd., S. 70 f.). Das Mehrebenenmodell ordnet die beteiligten Personen und Institutionen formalen Ebenen zu, die dadurch gekennzeichnet sind, „dass Akteure einer hierarchisch höheren Ebene Akteuren auf unteren Ebenen rechtlich institutionalisierte Handlungsanweisungen geben können“ (Kussau & Brüsemeister, 2007, S. 32). Die Differenzierung des deutschen Bildungssystems in unterschiedliche Ebenen verdeutlicht zudem, die große Anzahl unterschiedlichster Akteurinnen und Akteure, die „an der Steuerung der Voraussetzungen und Wirkungen von Bildungsprozessen beteiligt [sind]“ (Schrader, Schmid, Amos & Thiel, 2015, S. 9). Das Modell bildet im Folgenden einen Analyserahmen, mit welchem sich die Wechselbeziehungen der Beteiligten sowie deren Umgang miteinander systematisch betrachten lassen (vgl. Kussau & Brüsemeister, 2007, S. 32). Die zentralen Prüfungen zum Erwerb des MSA bilden dahingehend ein Steuerungselement im Bildungswesen, da mit ihrer Implementation u. a. das Ziel der schulischen Qualitätssicherung bzw. der abschlussbezogenen Vergleichbarkeit verbunden ist (vgl. Klein et al., 2016). Konkret bezogen auf den Bereich der Leistungsbeurteilung in den zentralen Prüfungen ist anzunehmen, dass die Lehrkräfte als Akteurinnen bzw. Akteure der Schulebene von den zuständigen Landesbildungsministerien und -instituten als Akteure der höheren Ebene der Zentrale entsprechende Anweisungen erhalten, auf welche Weise bzw. mit welchen Instrumenten die Beurteilung der Prüfungsarbeiten abzulaufen hat (z. B. Nutzung des Erwartungshorizontes, Durchführung einer Zweitkorrektur), damit diese zu einer möglichst vergleichbaren Zertifizierung der Abschlüsse beiträgt. Allerdings resultiert aus dieser formal hierarchischen Struktur des Bildungssystems gemäß dem Educational Governance-Ansatz jedoch keine lineare Systemsteuerung. Stattdessen wird angenommen, dass zur tatsächlichen Bewältigung der Anweisungen komplexe Handlungsabstimmungen zwischen den unterschiedlichen Beteiligten innerhalb einer Ebene sowie ebenenübergreifend notwendig sind (vgl. ebd.):

4.1 Realisierungsprobleme einer einheitlichen Beurteilungspraxis …

61

Steuerung ist also nicht allein die Handlungsaufgabe der Organisationsspitze, sondern das Ergebnis der Handlungen verschiedener Akteure, die in vielfältigen Abhängigkeiten voneinander agieren und ihren spezifischen Einfluss auf das System besitzen. Das Bild von einer Machtausübung von oben nach unten wird ersetzt durch die Vorstellung komplexer gegenseitiger Abhängigkeiten und Einflussmöglichkeiten aller Akteure eines Systems. (Heise, 2008, S. 49)

Für die Umsetzung von bildungsadministrativen Maßnahmen sind somit neben den strukturellen Rahmenbedingungen insbesondere auch die „Vorstellungen, Kompetenzen und Kapazitäten der einzelnen Akteure [bedeutsam]“ (Maag Merki & Altrichter, 2016b, S. 482). Die beteiligten Personen nehmen die Maßnahmen und deren Instrumente in Abhängigkeit ihrer bisherigen Erfahrungen sowie ihres spezifischen Umfelds (z. B. Erwartungen der Schulleitung bzw. des Kollegiums und der Eltern) subjektiv wahr, interpretieren bzw. verarbeiten diese kontextbezogen und übersetzen sie in individuelle Handlungen. Diese komplexen Anwendungsvorgänge fasst Fend (2008a) unter der Bezeichnung Rekontextualisierungsprozesse zusammen und verweist darauf, dass es in Abhängigkeit der umsetzenden Akteurinnen bzw. Akteure „zu bedeutsamen empirischen Variationen des faktischen operativen Handelns [kommen kann]“ (ebd., S. 175). Angesichts der Umsetzung von bildungsadministrativen Maßnahmen durch ein dynamisches Beziehungsgeflecht zwischen zahlreichen, unterschiedlichen Beteiligten mit verschiedenen Wahrnehmungen kann folglich nicht automatisch davon ausgegangen werden, dass bildungsadministrative Maßnahmen exakt gemäß den entsprechenden Handlungsanweisungen durchgeführt werden (vgl. Brüsemeister, 2007, S. 63). Bezogen auf den Bereich der Leistungsbeurteilung in den zentralen Prüfungen bedeutet dies konkret: Sofern die Lehrkraft wahrnimmt, dass eine Nutzung des vorgegebenen Erwartungshorizontes entgegen ihrer eigenen bzw. der schulspezifischen Routinen nicht möglich oder sinnvoll ist (z. B. aufgrund der Gestaltung des Erwartungshorizontes, der Erwartung von guten Prüfungsergebnissen durch die Schulleitung, Klagebereitschaft von Eltern aufgrund von schlechten Noten), könnte es sein, dass die Lehrperson auf dessen Anwendung teilweise oder vollständig verzichtet und stattdessen zusätzlich oder alternativ andere Maßstäbe bzw. Kriterien heranzieht, um die Leistungen zu beurteilen (vgl. Klein, 2016). Das Educational Governance-Konzept versteht die Lehrkräfte demnach nicht als „Rollenmarionetten“ (Fend, 2008a, S. 175), sondern als aktive Personen, die mit anderen Akteurinnen bzw. Akteuren und Institutionen in Wechselbeziehung stehen und interagieren, um die jeweiligen Aufgaben ebenenüberschreitend zu bearbeiten. Durch den Erhalt bestimmter bildungsadministrativer Aufträge sowie zu nutzender Instrumente und die anschließende Umsetzung im schulpraktischen Kontext stellen Lehrkräfte ein aktives Verbindungsglied dar. Im Wechselspiel zwischen

62

4

Erwartungshorizonte als Steuerungsinstrumente …

unterschiedlichen äußeren Handlungskontexten als auch innerer, persönlicher Faktoren ist anzunehmen, dass sie nicht als passive Ausführungsorgane, sondern als (selbst-)reflexive Subjekte handeln, welche die vorgegebenen Erwartungshorizonte im Vorgang der Rekontextualisierung unter Berücksichtigung der bundesland- bzw. schulspezifischen Besonderheiten individuell interpretieren und nutzen (vgl. ebd.). Folglich zeigt sich gleichermaßen die Herausforderung der intendierten Umsetzung von bildungsadministrativen Maßnahmen wie auch die Bedeutsamkeit der Schulebene und des Agierens von Lehrkräften mit anderen Akteurinnen bzw. Akteuren in unterschiedlichen Kontexten für das „Schicksal von Steuerungsinnovationen“ (Altrichter & Heinrich, 2007, S. 65): Nur hier findet die eigentliche inhaltliche schulische Arbeit statt, alle schulischen Veränderungen hängen daher von der Durchführung auf der Schulebene ab […] Wer die pädagogische Praxis durch politische Steuerung verändern will, muss den Transfer auf der Handlungsebene als Knackpunkt schulischer Veränderung berücksichtigen. (Heise, 2008, S. 57)

Durch die Untersuchung der unterschiedlichen vorhandenen Akteurskonstellationen inklusive der vorhandenen Interdependenzen zwischen den Akteurinnen bzw. Akteuren (z. B. zwischen den beurteilenden Lehrkräften und der Schulleitung, der Eltern sowie den bildungsadministrativen Vertreterinnen bzw. Vertretern) sowie der konkreten Handlungskoordination (z. B. der konkreten Beurteilungspraxis in den zentralen Prüfungen anhand eines vorgegebenen Erwartungshorizontes) schafft der Educational Governance-Ansatz eine umfassende Betrachtungsmöglichkeit spezifischer bildungspolitischer Steuerungsmaßnahmen. Das Konzept nimmt die tatsächliche Umsetzung von bildungsadministrativen Maßnahmen möglichst differenziert in den Blick, indem es über die Erfassung von intendierten Vorgehensweisen hinausgeht und „auch die konkret in der Praxis festgestellten (Nicht-)Veränderungen, Problemzonen oder divergenten Umsetzungsformen [berücksichtigt]“ (Maag Merki & Altrichter, 2016a, S. 184).

4.2

Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes

Die bedeutsame Aufgabe der Leistungsbeurteilung liegt auch im Rahmen von schulischen Übergängen ausschließlich in der Hand der Lehrkräfte und somit auf der Schulebene. Während in Ländern mit einer längeren zentralen Prüfungstradition schulexterne Korrektorinnen und Korrektoren beauftragt werden, um den Beurteilungsprozess stärker zu standardisieren (z. B. in England, vgl. Klein et al., 2009),

4.2 Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes

63

erfolgt die Leistungsmessung, -bewertung und -benotung in den landeseinheitlichen schriftlichen Prüfungen zum Erwerb des MSA weiterhin dezentral (vgl. Demski, 2017, S. 99 f.; Maag Merki, 2016, S. 164 f.). Bundesweit übernimmt eine schulinterne Lehrperson an den beteiligten Einzelschulen die Erstkorrektur sowie im Großteil der Bundesländer auch die Zweitkorrektur (vgl. Mathes & Kühn, 2016). Folglich erfüllt die Lehrkraft die Rolle eines Gatekeepers, welcher die schulische und berufliche Zukunft der Schülerinnen und Schüler maßgeblich mitbestimmt (vgl. Birkelbach, 2007, S. 3). Sie ist im Prozess von der bildungspolitischen Intention zum Ergebnis in Form von (vergleichbaren) Abschlusszertifikaten als besonders entscheidender Akteur zu charakterisieren, da ihr individueller Umgang mit dem Erwartungshorizont maßgeblich zur Realisierung der intendierten Vergleichbarkeit von Abschlüssen beiträgt bzw. dieser entgegenwirkt. Demnach bleibt „die Perspektive der einzelnen Lehrkraft […] freilich bedeutsam, wenn es um die Frage geht, unter welchen Umständen Neuerungen […] aufgegriffen werden.“ (Brüsemeister, 2004, S. 299). Aufgrund des Verständnisses des Beurteilungsverfahrens als komplexen Prozess unter individuellen, interdependenten Einflüssen sind Abweichungen des Vorgehens in der Praxis von den bildungspolitischen Intentionen zu antizipieren (vgl. vertiefend Altrichter, Brüsemeister & Wissinger, 2007). Wie bereits thematisiert, ist unter Bezugnahme auf die Educational Governance-Forschung anzunehmen, dass die Lehrkraft in Abhängigkeit ihrer individuellen Wahrnehmungen und (Re-)Interpretationen des Instruments auf die Nutzung des Erwartungshorizontes vollständig oder teilweise verzichtet und die Leistungsbeurteilung anhand von alternativen Maßstäben bzw. Kriterien vollzieht (vgl. vertiefend Abschnitt 4.1). Im Folgenden sollen unter Einbezug ergänzender theoretischer Ansätze sowie empirischer Befunde mögliche Gründe erörtert werden, die zu einem modifizierten Umgang mit dem Erwartungshorizont oder dessen teilweisem bzw. vollständigem Nutzungsverzicht führen könnten. Bei den vorgestellten potenziellen Einflussfaktoren handelt es sich ausschließlich um Annahmen, die speziell für das konkrete Feld der Leistungsbeurteilung in zentralen Prüfungen einer empirischen Überprüfung bedürfen und keinen Anspruch auf Gültigkeit oder Vollständigkeit erheben. Die Überlegungen bilden gleichermaßen einen Ansatzpunkt zur Recherche relevanter empirischer Befunde sowie zur sensibilisierten Wahrnehmung der eigenen Untersuchungsergebnisse.

4.2.1

Gestaltung des Erwartungshorizontes

Die konkrete Gestaltung des Erwartungshorizontes besitzt vermutlich einen besonders bedeutsamen Einfluss auf dessen Nutzung: „the better the mark scheme the

64

4

Erwartungshorizonte als Steuerungsinstrumente …

more the marking procedure will maintain the quality of overall assessment“ (Ahmed & Pollitt, 2011, S. 276). Ausgehend von deutschdidaktischen und bildungswissenschaftlichen Analysen sind an dieser Stelle exemplarisch grundsätzliche Gestaltungsaspekte zusammengefasst, bei denen davon ausgegangen wird, dass sie für die einheitliche Anwendung des Erwartungshorizontes relevant sein könnten: – sachliche bzw. fachliche Korrektheit und Vollständigkeit (vgl. Freudenberg, 2012; Köster, 2010b): Sind die formulierten Beurteilungskriterien inhaltlich nicht korrekt oder weisen keine Passung hinsichtlich der zugrundeliegenden Aufgabe bzw. den in der Fragestellung geforderten Anforderungen auf, sieht sich die Lehrkraft gegebenenfalls nicht in der Lage die Prüfungsleistungen anhand des Erwartungshorizontes zu beurteilen und verzichtet teilweise oder vollständig auf dessen Nutzung bzw. modifiziert diesen. – Verständlichkeit (vgl. Appius & Holmeier, 2012, S. 358): Sind die Leistungserwartungen unverständlich formuliert sowie unübersichtlich oder nicht ausreichend differenziert dargestellt, könnte es sein, dass die Lehrkräfte den Erwartungshorizont nicht einheitlich nutzen oder sogar auf dessen Anwendung verzichten. Eine besondere Schwierigkeit bildet diesbezüglich der heterogene Nutzerkreis des Erwartungshorizontes von unterschiedlich erfahrenen bzw. kompetenten Lehrpersonen. Insbesondere im Bereich der Leistungsbeurteilung zeigen sich bei weniger berufserfahrenen Lehrerinnen und Lehrern Defizite (vgl. Terhart, 2014). Entsprechend besteht eine weitere Herausforderung darin, einen Erwartungshorizont zu gestalten, der auch für weniger beurteilungserfahrene Lehrkräfte verständlich ist. – Umfang (vgl. Abraham, 2008, S. 75; Grzesik & Fischer, 1984; Zabka & Stark, 2010): Ist der Erwartungshorizont mit dem Ziel einer hohen Verständlichkeit bzw. Verbindlichkeit sehr umfangreich gestaltet, könnte die Lehrkraft dessen Lesbarkeit und Anwendung als zeitaufwändig wahrnehmen und auf dessen Nutzung teilweise oder vollständig verzichten (vgl. Zabka & Stark, 2010). Der Deutschdidaktiker Baurmann (2017) bewertet eine große Anzahl von Kriterien auch vor dem Hintergrund der Praktikabilität kritisch: „Abgesehen von der knappen Zeit, die für die Bewertung von Klassenaufsätzen zur Verfügung steht, sind Beurteiler kaum in der Lage, allzu viele Kriterien bei der Beurteilung zu beachten und danach Texte differenziert zu beurteilen“ (S. 133). – Verbindlichkeit (vgl. Klein et al., 2016): Enthält der Erwartungshorizont wenig bis keine verbindlichen Vorgaben hinsichtlich der Leistungsfeststellung, -bewertung oder -benotung, bedarf es einer umfangreicheren Interpretation der Prüfungsarbeiten durch die Lehrkraft, die wiederum unterschiedlich ausfallen könnte (vgl. Johnson, Mehta & Rushton, 2015). Insbesondere im Kontext der Beurteilung von

4.2 Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes

65

Antworten auf offene Langtextaufgaben ist es nicht möglich sämtliche relevanten Leistungen zu antizipieren (vgl. Sacher, 2014, S. 46 f.). Folglich enthalten Erwartungshorizonte in der Regel einen gewissen Spielraum, dieser „trägt aber [unter Umständen] dazu bei, dass die Lehrpersonen die Kriterien an die eigene Benotungspraxis anpassen und die Korrekturkriterien rekontextualisieren“ (Holmeier, 2013, S. 376). Die Lehrkraft könnte alternative bzw. weitere Maßstäbe und (leistungsfremde) Kriterien zur Beurteilung heranziehen, die ebenfalls eine Variation bedingen. Standardisiert der Erwartungshorizont die Beurteilung hingegen stark und enthält keine Spielräume, könnte dies wiederum zu einer Deprofessionalisierung der Lehrkräfte beitragen, indem deren Arbeit im Kontext der Beurteilung derartig stark vorgegeben ist, dass ein Rückgriff auf die eigene Expertise bzw. Erfahrung nicht nötig ist und womöglich die Reflexion der eigenen Tätigkeit abnimmt (vgl. Bellmann & Weiß, 2009). Neben den genannten Faktoren könnten weitere Gestaltungsaspekte des Erwartungshorizontes dessen Nutzung beeinflussen, deren potenzielle Wirkungen jedoch nur schwer einzuschätzen sind, da die kriterialen Erwartungshorizonte „nur ein Faktor im komplizierten Beziehungszusammenhang des Beurteilungsprozesses sind und keine selbstständigen, unter allen Umständen in gleicher Weise wirkenden Größen. Was sie zu leisten vermögen, besteht deshalb allein in den Funktionen, die sie in diesem Beziehungszusammenhang erfüllen können“ (Grzesik & Fischer, 1984, S. 3). Durch die angenommene interdependente Beziehung zwischen dem Erwartungshorizont und weiteren potenziellen Einflussfaktoren ist es folglich nahezu unmöglich festzustellen, welche konkreten Variationen der Beurteilungspraxis auf die Konfiguration des Instruments zurückzuführen sind.

4.2.2

Implementation des Erwartungshorizontes

Neben der Konfiguration des Erwartungshorizontes könnten auch dessen Implementation sowie die Heranführung an das Instrument einen Einfluss auf die tatsächliche Beurteilungspraxis darstellen. Rekurrierend auf die Implementationsforschung ist die landeseinheitliche Vorgabe eines Erwartungshorizontes in den zentralen Prüfungen zunächst als Innovation zu verstehen, die in das deutsche Bildungssystem integriert werden soll (vgl. vertiefend Petermann, 2014). Dies ist erreicht, sobald „die auf Grundlage der Neuerung intendierten Verhaltensweisen bzw. Handlungen im System institutionalisiert sind und genutzt werden“ (Hasselhorn, Köller, Maaz & Zimmer, 2014, S. 141). Hierbei bleibt häufig unberücksichtigt, dass die Neuerung

66

4

Erwartungshorizonte als Steuerungsinstrumente …

in ein bestehendes System mit bereits vorhandenen Strukturen und Funktionsweisen zu implementieren ist und dieses im Kontext der Einführung modifizieren muss (vgl. Drewek, 2009, S. 181 f.). Das deutsche Bildungssystem besitzt eine vergleichsweise hohe Trägheit, weshalb Veränderungen längere Zeiträume bedürfen (vgl. Schober, 2011; Wacker, Maier & Wissinger, 2012). Neben der komplexen Ausgestaltung des Schulwesens liegt eine maßgebliche Ursache in den relativ veränderungsresistenten Überzeugungen von Lehrkräften nach Abschluss ihrer Ausbildung (vgl. zusammenfassend Kunter & Pohlmann, 2015, S. 272). Des Weiteren kommt erschwerend hinzu, dass „hierzulande […] viele Lehrkräfte die Veränderungsprozesse noch immer als autoritär angeordnet [empfinden]“ (Sliwka, 2010, S. 45) und sich nicht in die bildungsadministrativen Entscheidungen einbezogen fühlen: „Insbesondere von außen vorgegebene Reformen lösen bei vielen Lehrkräften eine Reihe negativer Emotionen wie Angst, Frustration und Ärger sowie Gefühle von Ausgeliefertsein aus“ (Oerke, 2012, S. 118). Folglich bedürfte es im Bildungssystem adressatenorientierter Implementationsstrategien, die systematisch umgesetzt werden, um die Bereitschaft der beteiligten Akteurinnen bzw. Akteure zu erhöhen und ein nachhaltiges Gelingen zu ermöglichen (vgl. Souvignier & Philipp, 2016). Aktuelle Studien verweisen in diesem Kontext außerdem auf die Bedeutsamkeit der schrittweisen Heranführung an eine solche bildungsadministrative Maßnahme im Hinblick auf die Realisierung einer positiven Wahrnehmung (vgl. Freudentaler & Specht, 2005, S. 24 ff.) sowie einer intendierten Umsetzung der Maßnahme durch die beteiligten Lehrkräfte (vgl. Böttcher & Dicke, 2008). Demgegenüber stehen in der Regel die Interessen der bildungsadministrativen Akteurinnen bzw. Akteure auf der Ebene der Zentrale, die eine möglichst schnelle Umsetzung von Maßnahmen favorisieren, um zeitnah auf Erfolge verweisen zu können (vgl. Meyer-Hesemann, 2010, S. 87). Beschleunigte Implementierungsprozesse könnten nicht nur vermehrt zu Umsetzungsproblemen führen (vgl. Wößmann et al., 2009, S. 2), sondern auch dazu, dass Funktionen und Ziele der Maßnahme nicht ausreichend an die Lehrkräfte kommuniziert werden. Die Unwissenheit hinsichtlich der Anwendung und des Sinns des Erwartungshorizontes, könnte negativ auf die vorhandene Veränderungsbereitschaft der Lehrkräfte wirken (vgl. Drewek, 2009, S. 182) sowie die Akzeptanz und Nutzungspraxis des Erwartungshorizontes beeinflussen. „Zahlreiche Studien zeigen [diesbezüglich], dass Veränderungen umso eher umgesetzt werden, je stärker sie von den Lehrkräften akzeptiert werden und je mehr die Maßnahmen als nützlich, realisierbar, wichtig usw. beurteilt werden“ (Gräsel & Parchmann, 2004, S. 203). Die Implementation landeseinheitlicher Erwartungshorizonte im Kontext der zentralen Prüfungen dürfte besonders anspruchsvoll sein, da es sich um eine bildungsadministrative Maßnahme handelt, bei der die Lehrkräfte vermutlich „ihr in

4.2 Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes

67

langen Jahren gewachsenes pädagogisches Handeln ändern sollen“ (Terhart, 2013, S. 77), d. h. statt der eigenständigen Festlegung von Kriterien sollen die Lehrpersonen nun anhand extern erstellter Vorgaben beurteilen, die ihren bisherigen Handlungsspielraum unterschiedlich stark beschränken. Während in anderen Ländern eine längere psychometrische Testkultur existiert (z. B. Schweden, Vereinigte Staaten von Amerika), standardisieren in Deutschland primär rechtliche Dokumente, wie Schulgesetze und Lehrpläne sowie die Lehrerausbildung die Leistungsbeurteilung (vgl. Waldow, 2012, S. 173). Die Rechtsdokumente thematisieren die Aufgabe der Beurteilung als höchstpersönlichen Akt, d. h. als individuellen Vorgang dem „ein individueller Beurteilungsspielraum zugestanden [wird]“ (Rademacher, 2014, S. 184), sodass die Beurteilungshoheit eindeutig bei den Lehrkräften liegt. Im Kontext der zentralen Prüfung „wird durch eine zentrale Definition und Offenlegung von Beurteilungskriterien die Deutungs- und Beurteilungshoheit der Lehrerinnen und Lehrer [allerdings unvermeidbar] begrenzt“ (Schreven & Bentgens, 2006, S. 165). Folglich könnte die zentrale Festlegung von Beurteilungskriterien über Erwartungshorizonte unter Umständen von der Lehrkraft als starker Eingriff in das eigene Handeln (vgl. Bellmann, 2016, S. 24) bzw. als Einschränkung der eigenen Professionalität wahrgenommen werden. So betont ein Lehrer in einem Erfahrungsbericht bezüglich des Zentralabiturs im Fach Geschichte: „nicht wenige Lehrkräfte empfinden es als Ärgernis, zu Anwendern fremden fachlichen und didaktischen Gedankenguts degradiert zu werden“ (Sturm, 2008, S. 228). Entsprechende Wahrnehmungen könnten sich auch auf die Nutzung des Erwartungshorizontes auswirken (vgl. zusammenfassend Waldow, 2012, S. 173 ff.).

4.2.3

Kontrolle der Anwendung des Erwartungshorizontes

Die vermeintlich naheliegendste Maßnahme, um eine einheitliche Nutzungspraxis des Erwartungshorizontes zu gewährleisten, bildet eine Überprüfung der Anwendung des Instruments. Unter Berücksichtigung theoretischer Modelle ist jedoch anzunehmen, dass auch anhand dieses potenziellen Einflussfaktors keine kausalen Schlüsse hinsichtlich der konkreten Beurteilungspraxis gezogen werden können. Rekurrierend auf die Principal-Agent-Theorie kann die Beziehung zwischen der Ebene der Zentrale und der Schulebene als Auftragsverhältnis verstanden werden, in welchem der bildungsadministrative Auftraggeber (Principal) der beauftragten Lehrperson (Agent) einen zu erfüllenden Arbeitsauftrag wie die Anwendung eines Erwartungshorizontes gibt (vgl. Brüsemeister, 2011, S. 56 ff.). Hierbei gilt: „Um selbst handlungsfähig zu bleiben, muss es mir in komplexen sozialen Systemen also

68

4

Erwartungshorizonte als Steuerungsinstrumente …

als ‚Steuernder‘ gelingen, andere davon zu überzeugen, diese Handlungen für mich auszuführen. Ansonsten werde ich mein Ziel nicht erreichen können“ (Heinrich, 2012, S. 37). Bei der tatsächlichen Umsetzung der Tätigkeit treten speziell dann Probleme auf, wenn die Lehrkräfte eine entsprechende Nutzung nicht vollziehen wollen bzw. können (z. B. Nutzungsverzicht des Erwartungshorizontes aufgrund einer mangelhaften Verständlichkeit des Instruments) und zusätzlich die bildungsadministrativen Akteurinnen bzw. Akteure unwissend hinsichtlich der konkreten Handlungen der Lehrpersonen sind (vgl. Wößmann et al., 2009, S. 25 ff.). Nur wenn Informationen über die tatsächliche Beurteilungspraxis vorliegen, ist es möglich abweichendem Verhalten präventiv oder interventiv entgegenzuwirken (vgl. Thiel et al., 2014, S. 124 f.). Dies erscheint besonders vor dem Hintergrund problematisch, dass die Leistungsbeurteilung im Wesentlichen als personal practice bzw. private act erfolgt, d. h. als eine eher persönliche Handlung, welche die Lehrkraft in der Regel eigenständig und allein durchführt (vgl. Terhart, 2008, S. 160; Wyatt-Smith & Castleton, 2005, S. 150). Stichprobenartige oder regelmäßige Kontrollen der Beurteilungspraxis bzw. speziell der Nutzungspraxis des Erwartungshorizontes inklusive entsprechender Sanktionen können eine gewünschte Umsetzung zwar wahrscheinlich machen, jedoch bedingt durch das komplexe Zusammenwirken im Mehrebenensystem nie vollständig gewährleisten oder sogar erzwingen (vgl. Fend, 2008b, S. 29; Terhart, 2002, S. 83): Kontrollen mögen angestrebt werden, um derartige Abweichungen zu verhindern, aber sie sind nur unvollkommen möglich, und in manchen Fällen verhindern hohe Kontrollkosten jeden echten Einblick. Es gibt Kontrollprozesse, die antizipiert und deswegen im Sinne der Organisation (um)funktionalisiert werden. Es gibt Kontrollen, die das kontrollieren, was Kontrolleure verstehen, und nicht das, was die Organisation tut oder tun soll. Es gibt Personen und Gruppen im Rahmen der Organisation, die sich absprechen, die sich wechselseitig die Bälle zuspielen, die Initiativen von außen oder von oben blockieren, die gemeinsam an einer vorteilhaften Inszenierung arbeiten und in Wahrheit ein Potemkinsches Dorf zimmern. (Prisching, 2011, S. 21)

Rolff (1995) bezeichnet Lehrkräfte bereits in seiner Beschreibung der Institution Schule als „unvollendete Professionelle“ (S. 128), die im Kontext ihrer beruflichen Tätigkeit eine gewisse Autonomie benötigen und durch Kontrollen, die sich u. a. aus ihrem Beamtenstatus ergeben, in ihrem professionellen Handeln verunsichert werden könnten. Auch aus professionstheoretischer Perspektive ist die Außenkontrolle somit nicht nur positiv zu bewerten, „weil sie die professionelle Autorität und damit Motivation [der beteiligten Lehrpersonen] infrage stellt“ (Thiel et al., 2014, S. 126 f.). Entsprechend ist es möglich, dass die Lehrkraft eine Überprüfung ihres Beurteilungsvorgehens bzw. speziell der Nutzungspraxis des

4.2 Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes

69

Erwartungshorizontes als erhöhtes Misstrauen bildungsadministrativer Akteurinnen und Akteure gegenüber sich selbst wertet (vgl. Kahnert, 2014, S. 74), was sich wiederum negativ auf ihre Wahrnehmungen und Handlungen auswirken und „Verweigerung, Unterlaufen, Umgehen, Aussitzen der Reform-Zumutungen“ (Terhart, 2011, S. 216) zur Folge haben könnte. Dementsprechend kann eine Kontrolle als potenziell bedeutsamer Einflussfaktor auf die Anwendung des Erwartungshorizontes wahrgenommen werden, welcher gleichermaßen zur Förderung einer verstärkten Nutzung des Instruments wie auch einem devianten Verhalten beitragen kann.

4.2.4

Landesspezifische Rahmenbedingungen der Prüfung

Auch die variierenden prüfungsstrukturellen bzw. -organisatorischen Rahmenbedingungen der Bundesländer könnten relevant sein und bezüglich der konkreten Umsetzung von bildungsadministrativen Maßnahmen förderlich oder hinderlich wirken (vgl. Maag Merki & Altrichter, 2016a, S. 183). Neben der unterschiedlichen Konfiguration des Erwartungshorizontes existieren weitere Maßnahmen, die nur in einzelnen Bundesländern vorliegen (z. B. obligatorische schulübergreifende Korrekturbesprechungen) oder heterogen gestaltet sind (z. B. schulinterne bzw. -externe Zweitkorrektur) und potenzielle Einflussfaktoren bezüglich der Beurteilungspraxis bilden. Speziell unter Bezugnahme auf die Lehrerbelastungsforschung handelt es sich bei diesen strukturellen Bedingungen um Faktoren, die das subjektive Beanspruchungsempfinden von Lehrkräften beeinflussen. Die alltäglichen Beurteilungstätigkeiten tragen bereits nicht unerheblich zu einer Beanspruchung der Lehrpersonen bei (vgl. Scharenberg & Rollet, 2013). Die jeweiligen prüfungsorganisatorischen Rahmenbedingungen könnten hierauf entlastend oder belastend wirken. Konkret sind beispielsweise Abstimmungserfordernisse mit Partnerschulen oder die Existenz von Stundenermäßigungen für die Leistungsbeurteilung landesspezifische Regelungen, welche als Entlastung oder Mehrarbeit wahrgenommen werden und das Beurteilungsvorgehen beeinflussen könnten (z. B. Differenziertheit bzw. Sorgfalt der Beurteilung in Abhängigkeit der zeitlichen Kapazitäten). Zudem ist es denkbar, dass die Rahmenbedingungen der Länder nicht nur auf die empfundene zeitliche Beanspruchung wirken, sondern auch ein unterschiedliches Ausmaß an Unterstützung oder Überprüfung hinsichtlich der Beurteilungstätigkeit leisten. Eine verpflichtende Korrekturbesprechung könnte beispielsweise zu einem umfangreicheren Austausch sowie einer stärkeren Vereinheitlichung der Beurteilungen von unterschiedlichen Lehrkräften führen, eine schulexterne Zweitkorrektur könnte wiederum eine gründlichere, leistungsorientiertere Erstkorrektur begünstigen.

70

4

4.2.5

Erwartungshorizonte als Steuerungsinstrumente …

Strukturelle und organisationale Effekte der Einzelschule

Neben den länderspezifischen prüfungsstrukturellen bzw. -organisatorischen Regelungen handelt es sich auch bei den individuellen Rahmenbedingungen der Einzelschulen (z. B. Zusammensetzung der Schülerschaft und des Kollegiums, schulorganisatorische Abläufe) um Faktoren, welche die Beurteilungspraxis in zentralen Prüfungen beeinflussen könnten. Zwar arbeiten Lehrkräfte insbesondere im Kontext von Unterricht häufig autonom, dennoch sind sie auch Mitglieder eines Kollegiums (vgl. Eder, Dämon & Hörl, 2011). Aus dem Zusammenschluss mit anderen Lehrkräften, die im Kontext der jeweiligen Einzelschule ähnliche Erfahrungen machen, ergibt sich eine spezifische Organisationskultur, d. h. eine gemeinsame Sichtweise dessen, was an der jeweiligen Schule wichtig ist, wo es ‚lang zu gehen hat‘, [dies] sorgt […] für Komplexitätsminderung, Stabilität und Orientierung. Sie bietet dem Einzelnen eine Heimat in einer Art verlässlichen ‚Glaubensgemeinschaft‘ und stiftet dadurch Sicherheit, Schutz, und Zuversicht. (Schönig, 2002, S. 825)

Die Bedeutsamkeit der individuellen Organisationskultur der Einzelschule resultiert insbesondere daraus, dass „sich im planmäßig koordinierten und zielgerichteten Handeln von Organisationsmitgliedern ein Netz aus Überzeugungen, Prinzipien und Normen als konstitutives Element von Kultur heraus [bildet], an dem die Mitglieder einer Organisation ihr individuelles und soziales Handeln ausrichten“ (Ackeren et al., 2015, S. 105). Folglich handelt es sich bei der Organisationskultur bzw. der konkreten Zusammenarbeit im Kollegium um einen möglichen Einflussfaktor, der sich förderlich oder hinderlich auf die erwartete Nutzungspraxis auswirken könnte (vgl. zusammenfassend Ackeren et al., 2011; Schönknecht, 2005, S. 24). Konkret denkbar wäre die Verabredung von schul- bzw. fachspezifischen Leistungs- und Beurteilungsstandards sowie Beurteilungspraktiken (vgl. Trautmann & Wischer, 2011), wie z. B. die Existenz einer gemeinsamen Handlungsorientierung im Rahmen der Notenvergabe durch die Diskussion von Begründungsmustern in Konferenzen (vgl. Maier, 2016, S. 155 ff.) oder die Entwicklung eines kollektiven schulspezifischen Leistungsverständnisses, welches ein eher strengeres oder nachsichtigeres Bewertungsvorgehen begünstigt (vgl. Breidenstein & Zabarowski, 2013, S. 305 ff.). Die Übernahme der jeweiligen schulinternen Beurteilungskultur bzw. der individuellen Beurteilungspraxis einer (erfahrenen) Lehrkraft (vgl. Herzog, 2013; Terhart, 1999, 2014; Wyatt-Smith & Castleton, 2005) könnten zu einem veränderten Umgang mit dem

4.2 Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes

71

Erwartungshorizont führen (z. B. eine Modifikation des Instruments oder Ergänzung durch weitere Kriterien in Abhängigkeit der schulischen Beurteilungskultur). Darüber hinaus kann der tatsächliche kollegiale Austausch im Kontext der Leistungsbeurteilung eine zusätzliche Unterstützung oder Hürde bilden. Ist dieser durch Konkurrenz bzw. Rechtfertigungszwänge geprägt, sehen sich die Lehrkräfte zu einem strategischen Umgang miteinander gezwungen (vgl. zusammenfassend Maier, 2016) und Unsicherheiten sowie Anwendungsprobleme bezüglich des Erwartungshorizontes werden vermutlich eher verschwiegen. Ein konstruktiver kollegialer Austausch stellt dagegen eine fachliche und arbeitsökonomische Entlastung dar (vgl. Baurmann & Kammler, 2012), die eine gegenseitigen Unterstützung bei der Anwendung des Erwartungshorizontes sowie eine Begrenzung von Spielräumen durch kollegiale Kontrolle schaffen könnte (vgl. Maier, 2016, S. 141).

4.2.6

Konsequenzen der zentralen Prüfung

Auch die Folgen des zentralen Prüfungsverfahrens könnten den Ausgangspunkt für eine modifizierte bzw. ausbleibende Nutzung des Instruments bilden. In HighStakes-Verfahren ist ein bewusstes deviantes Vorgehen zur Beschönigung der Ergebnisse unter dem Begriff des Teacher Cheatings bzw. der Teacher Malpractice bekannt (vgl. Koretz, 2017, S. 73 ff.; Phelps, 2017). Mit dem Ziel in den Schulrankings einen oberen Platz zu belegen und somit negative Folgen für die eigene Schule zu vermeiden (z. B. Schulschließungen) bzw. positive Folgen zu erreichen (z. B. höhere Geldzuweisungen für die Schulen und Lehrpersonen), weichen die Lehrpersonen von der intendierten Umsetzung ab (vgl. Maag Merki, 2016, S. 162 ff.; Yarker, 2008). Das Handlungsrepertoire der Lehrkräfte umfasst beispielsweise das unerlaubte Geben von Hinweisen während der Testdurchführung, das Bearbeiten von Tests für die Schülerinnen und Schüler oder das nachträgliche Berichtigen falscher Antworten (vgl. Kahnert, 2014, S. 72; Klein, 2016, S. 65). Da es sich bei den zentralen Prüfungen zum Erwerb des MSA um ein LowStakes-Verfahren handelt, kann ein abweichendes Verhalten nicht durch damit verbundene staatliche Konsequenzen begründet werden. Jedoch könnten die Lehrkräfte im Rahmen des Bildungsmonitorings in Deutschland daran interessiert sein, dass die Schülerinnen und Schüler gute Prüfungsergebnisse erzielen, da hieran der Unterrichtserfolg der Lehrkraft sowie die Qualität der gesamten Schule messbar wäre (vgl. Prisching, 2011, S. 25 f.; Schumacher, 2016, S. 164). Demnach wäre es möglich, dass sich eine hohe Anzahl von Absolventinnen und Absolventen positiv auf den Ruf der Einzelschule und entsprechend das Schulwahlverhalten von Eltern auswirkt.

72

4

Erwartungshorizonte als Steuerungsinstrumente …

Speziell an Schulformen mit Abschlüssen der Sekundarstufe I und II könnte zusätzlich eine inoffizielle Quote hinsichtlich der Vergabe des MSA existieren, um die notwendige Schülerzahl der zukünftigen Oberstufe abzusichern (vgl. HH1, Position 28). Es wäre zudem auch denkbar, dass eine modifizierte Anwendung des Erwartungshorizontes dazu dient, Notenabweichungen zwischen den beurteilenden Lehrkräften sowie eine zusätzliche mündliche Prüfung und somit Mehrarbeit zu vermeiden. Speziell bei schlechteren Schülerleistungen könnten Lehrkräfte einen höheren Legitimationsdruck hinsichtlich der vergebenen Note wahrnehmen (vgl. Breidenstein, Meier & Zaborowski, 2012) bzw. Befürchtungen bezüglich rechtlicher Einsprüche besitzen und eine Besserbewertung in Betracht ziehen. Folglich ist ein opportunistisches Handeln im Sinne einer besonders wohlwollenden Leistungsbeurteilung bzw. ein bewusster teilweiser oder vollständiger Verzicht hinsichtlich der Anwendung des Erwartungshorizontes somit auch in den zentralen Prüfungen des MSA nicht auszuschließen.

4.2.7

Spannungsfeld von Förderung und Selektion

Unter Bezugnahme auf Helsper (2004) ist davon auszugehen, dass im Kontext des Lehrerhandelns sogenannte Antinomien existieren, welche „idealtypische, einander widersprechende Anforderungen darstellen, die gleichermaßen relevant sind und Anspruch auf Gültigkeit erheben können […]“ (ebd., S. 61). Er unterscheidet konkret zwischen elf konstitutiven Antinomien, wovon im Hinblick auf die Leistungsbeurteilung insbesondere die Differenzierungsautonomie als bedeutsam einzuschätzen ist. Demnach sollen Lehrkräfte die Schülerinnen und Schüler sowohl gleichbehandeln (z. B. vergleichbare Abschlussvergabe mit identischen Anforderungen), wie auch zwischen ihnen differenzieren und die heterogenen Voraussetzungen bzw. Lernbiographien berücksichtigen (z. B. in Form von individueller Förderung, Nachteilsausgleichen) (vgl. ebd., S. 82). Diesbezüglich erscheint es problematisch, dass die Lehrkräfte die unterschiedlichen Antinomien lediglich reflexiv handhaben, aber nicht vollständig auflösen können: Damit aber ist deutlich, dass Antinomien hier keineswegs als logische Spiele, Denksport-Rätsel, Ergebnis mangelnder rationaler Stringenz der Argumentation und damit als durch eine umfassende Anstrengung der Vernunft behebbare Irrtümer begriffen werden […]. Vielmehr werden Antinomien im strukturtheoretischen Sinne als ein grundlegender, nicht aufhebbarer Bestandteil der Interaktion und insbesondere des professionellen pädagogischen Handelns begriffen (ebd., S. 61 f.)

4.2 Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes

73

In der konkreten Handlungssituation könnte die Vielzahl von verschiedenen, teils diffusen bzw. widersprüchlichen Verhaltenserwartungen, die unterschiedliche Bezugsgruppen (z. B. bildungsadministrative Vertreterinnen und Vertreter, Eltern, Schülerschaft) sowie die eigenen Ansprüche an die Lehrkraft herantragen, eine Dilemmasituation im Rahmen der Beurteilungspraxis in zentralen Prüfungen erzeugen und Einfluss auf die Anwendung des Erwartungshorizontes nehmen (vgl. Perkhofer-Czapek & Potzmann, 2016). Zwei gegensätzliche Anforderungen, die speziell im Kontext der Leistungsbeurteilung zu Konflikten und Handlungsdilemmata führen, sind das gleichzeitige schulische Förder- und Ausleseerfordernis (vgl. ebd.). „Lehrerinnen und Lehrer sind […] in der verzwickten Lage, dass sie die Schülerinnen und Schüler in vielen Fällen jahrelang auf diese Prüfung vorbereitet haben, dass sie für sie gleichzeitig ‚Coaches‘ und ‚Richter‘ darstellen“ (Prisching, 2011, S. 25). Die Lehrkräfte bekleiden somit parallel zwei gegensätzliche Rollen, die ein unterschiedliches Handeln bzw. eine variierende Beziehungsgestaltung fordern. Mit dem Ziel der Unterstützung und Motivation von Schülerinnen und Schülern wird im Kontext der förderorientierten Leistungsbeurteilung maßgeblich die individuelle Bezugsnorm genutzt, da anhand dieses Maßstabs die bisherigen Lernfortschritte honoriert und die weitere Leistungsentwicklung angeleitet werden können. Dementgegen steht eine sachliche Beurteilung anhand von objektiven Kriterien zur Erfüllung der nichtpädagogischen Auslese- bzw. Selektionsfunktion, die insbesondere bei leistungsschwächeren Lernenden weniger zu deren Ermutigung beiträgt (vgl. ebd., S. 36). „Während die summative Beurteilung [zu Selektionszwecken] Objektivität, Distanz, Autorität und Asymmetrie auf Beziehungsebene verlangt, sind bei [der Förderung und] Beratung Individualität, Nähe, Kooperation und Symmetrie gefragt“ (ebd.). Folglich steht die teilweise langjährige Förderung von Schülerinnen und Schülern im Gegensatz zur deren selektierender Benotung und könnte aufgrund der besonders hohen Reichweite von Selektionsentscheidungen an schulischen Übergängen ein Spannungsfeld für die Lehrkraft bilden (vgl. z. B. Deißner, 2010; Lötscher & Roos, 2014; Lüders, 2006; Streckeisen, Hänzi & Hungerbühler, 2007). Das häufig auch als „Anwalt-Richter-Dilemma“ (Nave-Herz, 1973) bezeichnete Spannungsfeld entsteht bzw. verstärkt sich speziell im Kontext der Negativselektion, d. h. sofern auf Grundlage der Schülerleistung schlechte Abschlussnoten oder kein Abschlusszertifikat vergeben werden und sich entsprechend Ausbildungs- und Berufschancen verschlechtern (vgl. Streckeisen et al., 2007, S. 263 ff.). Die Vorgabe eines Erwartungshorizontes könnte den Anspruch einer möglichst objektiven Selektion verstärken und auf diese Weise auch das Konfliktpotenzial erhöhen sowie zu einer Überforderung der Lehrkraft führen (vgl. Perkhofer-Czapek & Potzmann, 2016, S. 29). Sofern für die Lehrperson der Förderauftrag überwiegt,

74

4

Erwartungshorizonte als Steuerungsinstrumente …

wäre es denkbar, dass der Erwartungshorizont als belastender bzw. hinderlicher Faktor wahrgenommen wird, der die Verwirklichung der eigenen pädagogischen Ansprüche erschwert oder verhindert (vgl. Schönknecht, 2005, S. 27). Demnach ist anzunehmen, dass die Lehrkraft ergänzende bzw. alternative Kriterien heranzieht, um die individuelle Leistungsentwicklung der Prüflinge honorieren zu können: „Dieser Versuch des ‚Austarierens von Anforderungen‘ als Umgang mit dem Spannungsfeld kann z. B. dazu führen, dass, wie in einem Fall berichtet, aus Mitleid der Auswertungsschlüssel einer schriftlichen Arbeit zu Gunsten eines Schülers verändert wird“ (Kiel et al., 2016, S. 381). Der folgende Ausschnitt eines Blogs einer Lehrerin veranschaulicht überspitzt, wie es im Kontext des Spannungsfeldes von Selektion und Förderung zu einer Abweichung vom Erwartungshorizont kommen kann: Azra sieht mich an. „Frau Bachmayer, ich bin doch Ihre Lieblingsschülerin, oder?“ Mir wird schwer ums Herz. Denn ich weiß ja, dass sie in der Abschlussarbeit, die ich mittlerweile korrigiert habe, objektiv gesehen eine Fünf geschrieben hat. Und zwar als Einzige. Sie bekommt zwar ihren Hauptschulabschluss, aber eine Fünf in Deutsch, das ist doch mega demotivierend und sieht schlecht aus. […] Am nächsten Tag frage ich meinen Zweitprüfer Andreas, ob er die Arbeiten schon unterschrieben hat. „Ja, habe ich“, grinst er mich an. Zum Glück hat er nicht reingeschaut, sondern einfach nur seine Unterschrift drunter gesetzt. Ich schnappe mir die Arbeiten von Jegor und Azra und überprüfe diese nochmal. Wenn ich Azra im Schreibteil noch drei Punkte dazugebe und bei Jegor auch noch vier Punkte finde, verbessern sich ihre Noten. Ich überlege kurz, packe die Punkte dazu und ändere ihre Noten auf Vier bzw. Drei. Andreas erzähle ich davon nichts. Er wäre bei der Benotung knallhart und würde das nicht verstehen. (Bachmayer, 2018)

Verfolgt die Lehrkraft stattdessen primär das anspruchsvolle Ziel einer Selektion nach vergleichbaren Kriterien, kann dies die Nutzung des Erwartungshorizontes ebenfalls beeinflussen. Nimmt die Lehrperson beispielsweise die Grenzen eines Erwartungshorizontes hinsichtlich der Anleitung einer vergleichbaren Beurteilung wahr, könnte die Lehrkraft diesen modifizieren bzw. selbstständig einen differenzierteren Erwartungshorizont erstellen, welcher zu einer objektiveren Beurteilung beiträgt. Alternativ ist es ebenfalls denkbar, dass die Lehrperson im Kontext von Resignation auf dessen Nutzung verzichtet (vgl. Demmer, 2014, S. 11). Folglich besteht die Gefahr, dass die eigenen Ansprüche und Wünsche auf unterschiedliche Weise mit der Nutzung des Erwartungshorizontes konfligieren.

4.2 Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes

4.2.8

75

(Beurteilungs-)Kompetenzen und Persönlichkeitsmerkmale der Lehrkraft

Des Weiteren ist anzunehmen, dass eine einheitliche Beurteilungspraxis „nicht nur vom Wollen der Einzelnen und dem institutionellen Sollen ab[hängt] (informellen Erwartungen und rechtlichen Normen), sondern auch vom Können [der Lehrkräfte]“ (Brüsemeister, 2004, S. 301): Wenn ein Lehrer einen Aufsatz beurteilt, dann setzt er ein Kriterium [eines Erwartungshorizontes] mit dem Aufsatz in Beziehung […] Um diese Beziehung stiften zu können, muß der Lehrer das Kriterium verstanden haben, und er muß den Aufsatz mit Hilfe des verstandenen Kriteriums beurteilen können. Das Kriterienverständnis und das Urteil über den Aufsatz sind spezifische persönliche Leistungen des Lehrers. Sie setzen Fähigkeiten voraus, die der Lehrer für die Ausübung der Beurteilungsfunktion, die zu seiner Berufsrolle gehört, in möglichst hohem Maße besitzen muß. (Grzesik & Fischer, 1984, S. 24)

Der Leistungsbeurteilungsprozess ist grundsätzlich stark fehleranfällig. Die Komplexität der Feststellung, Interpretation und Benotung von Leistungen in Verbindung mit der selektiven menschlichen Wahrnehmung kann zu Verzerrungen führen, aus denen wiederum unterschiedlichste Beurteilungsfehler resultieren:4 Die Aufmerksamkeit bestimmt, welche Informationen Lehrerinnen und Lehrer in Bezug auf das Verhalten von Schülerinnen und Schülern bewusst wahrnehmen und welche Informationen keinerlei Aufmerksamkeit erhalten. […] Das, was Lehrerinnen und Lehrer [dann] letztendlich wahrnehmen, hängt, abgesehen von der Information, die sie erhalten, wenn die jeweiligen Rezeptoren stimuliert werden, davon ab, wer sie sind, mit wem sie zusammen sind und was sie erwarten, wünschen und schätzen. (Jürgens, 2010, S. 137)

Bereits aus der situativen Beurteilungssituation ergeben sich gewisse Fehlerpotenziale. So kann sich u. a. die Reihenfolge der korrigierten Prüfungen oder die nachlassende Motivation bzw. Konzentration der Lehrkraft im Beurteilungsprozess auf deren Wahrnehmung auswirken. Auch leistungsfremde Aspekte, wie die Textlänge oder das Schriftbild können die Bewertung einer Prüfung verzerren (vgl. ebd., S. 144 f.). Bedingt durch die Tatsache, dass die Erstkorrektur in den zentralen Prüfungen zum Erwerb des MSA bundesweit durch die schulinterne Fachlehrkraft erfolgt, 4 Im

Folgenden werden lediglich ausgewählte Fehlerquellen angeführt, die vermutlich hinsichtlich der Anwendung des Erwartungshorizontes eine Rolle spielen. Für einen umfassenden Überblick zu den möglichen Beurteilungsfehlern wird auf Ziegenspeck (1999) und Jürgens (2010) verwiesen.

76

4

Erwartungshorizonte als Steuerungsinstrumente …

welche die Schülerinnen und Schüler aus dem vorgelagerten Unterricht kennt, spielen darüber hinaus auch Einflussfaktoren eine Rolle, die sich aus der bisherigen Interaktion zwischen der Lehrperson und dem Prüfling ergeben (vgl. Holmeier, 2013; Maué, 2013). Mögliche Fehler können u. a. aus folgenden Aspekten resultieren: – Erwartungshaltung der Lehrkraft: Die Erwartungshaltung, die sich aufgrund der bisherigen Leistungen einer Schülerin bzw. eines Schülers oder der gesamten Klasse gebildet hat, kann die Aufmerksamkeit im Beurteilungsprozess lenken und dazu führen, dass gleiche Leistungen in Abhängigkeit des Prüflings oder der beurteilenden Lehrkraft unterschiedlich streng bewertet werden (vgl. z. B. Urhahne, Timm, Zhu & Tang, 2013). – Wahrnehmung und Berücksichtigung weiterer Merkmale der Prüflinge (vgl. vertiefend Abschnitt 2.2): Angesichts der meist langjährigen Kenntnis der Schülerinnen und Schüler sind den Lehrkräften häufig weitere leistungsfremde Aspekte (z. B. Charaktereigenschaften) oder leistungsirrelevante Merkmale (z. B. Leistungen in anderen Fächern, Anstrengungsbereitschaft) bekannt. Es besteht die Gefahr, dass die Lehrperson diese Informationen in Abhängigkeit ihrer habituell verankerten Überzeugungen bzw. deren Passung zum Schülerhabitus unterschiedlich bewertet und bei der Beurteilung einfließen lässt (vgl. vertiefend Helsper, 2018), sodass Prüflinge besser oder schlechter bewertet werden (vgl. z. B. Kaiser, Möller, Helm & Kunter, 2015; Randall & Engelhard, 2010). Wie bereits angedeutet, ist in diesem Kontext auch die Kenntnis situativer Besonderheiten problematisch (z. B. eine biographisch besonders folgenreiche Selektionsentscheidung für den Prüfling oder die Vermutung einer erhöhten Klagebereitschaft der Eltern, vgl. vertiefend Abschnitt 4.2.7), welche zusätzlich eine abweichende bzw. ausbleibende Nutzung des Erwartungshorizontes befördern könnte (vgl. Kiel et al., 2016; Lüders, 2006). Im Rahmen der Prüfungen zum Erwerb des MSA existiert zwar ein ZweitkorrekturPrinzip, die zusätzlich korrigierende Lehrkraft „stammt aber in den meisten Fällen aus der gleichen Schule, so dass die Zweitkorrektor/-innen vermutlich die entsprechenden Schüler/-innen kennen und ebenfalls Erwartungseffekten unterliegen können“ (Holmeier, 2013, S. 375 f.). Ausgehend von der selektiven menschlichen Wahrnehmung sowie der Vielzahl potenzieller Einflussfaktoren stellt die vollständig objektive Leistungsbeurteilung ein angestrebtes Idealbild dar, „das im Schulalltag nicht vollumfänglich umgesetzt werden kann und dem deshalb vergeblich nachgeeifert wird“ (vgl. Kiel et al., 2016, S. 376). Alternativ wird von einer kontrollierten Subjektivität ausgegangen (vgl. Bohl, 2008), d. h. die Lehrkraft strebt eine möglichst objektive Beurteilung an

4.2 Potenzielle Einflussfaktoren auf die Anwendung des Erwartungshorizontes

77

und reflektiert mögliche Fehlerquellen bzw. Verzerrungen, welche sie zu vermeiden versucht. In grober Anlehnung an Rosemann und Bielski (2001) sowie Sacher (2014) lässt sich eine kontrollierte subjektive Leistungsbeurteilung anhand der folgenden Merkmale beschreiben: – Beachtung von verbindlichen Vorgaben bzw. Vereinbarungen – Orientierung an Kriterien – Differenzierung von Persönlichkeitsmerkmalen und der Leistung einer Schülerin bzw. eines Schülers – Unterteilung des Beurteilungsprozess in die Feststellung und die Interpretation bzw. Bewertung von Leistungen – Vermeidung des Einflusses leistungsfremder Aspekte Angesichts des Anspruchs einer möglichst objektiven Beurteilung wird in der pädagogischen Professionsforschung gleichermaßen die Bedeutsamkeit der Lehrerbildung hervorgehoben wie auch deren heterogene Ausgestaltung bzw. der fehlende Konsens über verbindliche Ausbildungsinhalte kritisiert (vgl. Hattie, 2013, S. 131 ff.; Thiel, Cortina & Pant, 2014, S. 127). Aktuelle Forschungsarbeiten zeigen, dass vorrangig jüngere Lehrkräfte wenig über das Beurteilen von Schülerleistungen wissen, was auf entsprechende Defizite in der Ausbildung zurückgeführt wird und erst durch eine intensive, differenzierte Auseinandersetzung mit der Schülerbeurteilung in den ersten Berufsjahren kompensiert werden kann (vgl. Kaiser & Möller, 2017; Terhart, 2014). Folglich stellt insbesondere der Anspruch einer möglichst objektiven Beurteilung anhand einer kriterialen Bezugsnorm die Berufsanfängerinnen und -anfänger sowie gegebenenfalls die zunehmende Anzahl von Seiteneinsteigerinnen bzw. Seiteneinsteigern im Kontext der praktischen Umsetzung vor große Herausforderungen (vgl. Kiel et al., 2016; KMK, 2017, S. 35 f.). Zwar nimmt Barkaoui (2011) an, dass eine analytische Vorgehensweise anhand von einzelnen Beurteilungskriterien für unerfahrene Lehrkräfte kognitiv erleichternd ist. Dennoch kann ein Erwartungshorizont zumindest für komplexere Aufgaben vermutlich nicht derart gestaltet werden, dass dessen Anwendung in einem simplen Abhaken besteht und somit für jedermann möglich ist. Insbesondere bei offenen Langtextaufgaben können nicht sämtliche Lösungsmöglichkeiten antizipiert und im Erwartungshorizont angeführt werden (Köster, 2006, S. 87). Grundsätzlich wird von einer Effektivitätssteigerung des Einsatzes von Erwartungshorizonten durch ein entsprechendes Training ausgegangen, welches in Deutschland allerdings nicht gezielt stattfindet (vgl. zusammenfassend Böhme, 2011, S. 111; Ingenkamp 1980). Folglich wäre es denkbar, dass das Ausmaß der vorhandenen professionellen Beurteilungskompetenz Auswirkungen auf den Beurteilungsprozess sowie den Umgang mit dem vorgegebenen Erwartungshorizont hat

78

4

Erwartungshorizonte als Steuerungsinstrumente …

(vgl. Baird, Greatorex & Bell, 2004). Eine geringe Beurteilungskompetenz könnte somit ebenfalls unbewusst oder bewusst zu einer abweichenden Nutzungspraxis führen (vgl. Abraham, 2008, S. 57). Zusätzlich zu den Kompetenzen spielen auch die individuellen Persönlichkeitsmerkmale bzw. der Habitus eine bedeutende Rolle für das Handeln der Lehrkraft (vgl. zusammenfassend Helsper, 2018). Bereits als Schülerin bzw. Schüler entwickeln sich schulbezogene Orientierungen, welche vergleichsweise stabil sind und in die Entwicklung eines Lehrerhabitus einfließen (vgl. ebd.). Diese professionellen wie auch nicht wissenschaftlichen, habituell verankerten Überzeugungen besitzen im Kontext der Wahrnehmung eine Filterfunktion und „bestimmen, wie Ereignisse und Erfahrungen wahrgenommen und interpretiert werden und wie mit neuen Informationen umgegangen wird“ (Wilde & Kunter, 2016, S. 304). In Abhängigkeit der individuellen Überzeugungen werden identische Sachverhalte unterschiedlich bewertet sowie verschieden gehandhabt (vgl. ebd., S. 305). Folglich könnte die Ablehnung von bildungsadministrativen Vorgaben durch eine Lehrkraft dazu führen, dass sie einen kleinschrittigen Erwartungshorizont als Einschränkung empfindet und diesen nicht anwendet bzw. modifiziert. Wohingegen eine positive Einstellung gegenüber bildungspolitischen Reformen zur Folge haben könnte, dass die jeweilige Lehrperson den Erwartungshorizont als sinnvolles Instrument wahrnimmt und verstärkt nutzt.

4.3

Heuristisches Modell einer multifaktoriell beeinflussten Anwendungspraxis des Erwartungshorizontes

Insgesamt wird deutlich, dass durch das Zusammenwirken von zahlreichen unterschiedlichen Beteiligten auf verschiedenen Ebenen (z. B. bildungsadministrative Verantwortliche, heterogene Gruppe der Erstellerinnen bzw. Ersteller sowie der Anwenderinnen bzw. Anwender des Erwartungshorizontes) die einheitliche, leistungsorientierte Beurteilung in zentralen Prüfungen eine große Herausforderung bildet. Wie die vorangegangenen Ausführungen dieses Kapitels zeigen, könnten sich speziell aufgrund der beteiligten Lehrkräfte und deren situativen Rahmenbedingungen sowie der Komplexität schulischer Leistungsbeurteilung multifaktorielle Einflüsse ergeben, deren Relevanz in anderen Kontexten bereits empirisch gezeigt wurde und welche auch hinsichtlich der Anwendung des Erwartungshorizontes im Rahmen der zentralen Prüfungen zum Erwerb des MSA relevant sein könnten. Die angenommene multifaktoriell beeinflusste Beurteilungspraxis lässt sich folgendermaßen zusammenfassen:

4.3 Heuristisches Modell einer multifaktoriell beeinflussten …

79

landesspezifische Rahmenbedingungen der Prüfung -

Kontrolle der Anwendung des Erwartungshorizontes (z. B. stichprobenartiges Einsammeln korrigierter Prüfungsarbeiten) Existenz und Gestaltung prüfungsspezifischer Maßnahmen (z. B. Festlegung verbindlicher Korrekturbesprechungen, schulinterne oder -externe Ausgestaltung der Zweitkorrektur)

Einzelschule landesweit vorgegebener Erwartungshorizont -

Gestaltung (z. B. Umfang des Instruments, fachliche Korrektheit bzw. Vollständigkeit der Lösungsdarstellungen, Vorgabe von Punkten) Implementation (z. B. Heranführung der Lehrkräfte)

-

-

-

schulspezifische Sichtweisen und Regelungen (z. B. kollektives Leistungsverständnis, kritische Einschätzung von bildungspolitischen Reformen) schulspezifische Abläufe und Zusammenarbeit (z. B. gegenseitige Unterstützung oder Kontrolle im Kontext der Anwendung des Erwartungshorizontes)

Lehrkraft -

-

-

-

diagnostische Kompetenzen (z. B. Verständnis der Kriterien im Erwartungshorizont, Kenntnis von Beurteilungsfehlern) Orientierungen und Rollenverständnis (z. B. primäre Eigenwahrnehmung als unterstützende Lernbegleiterin der Prüflinge oder als objektive Prüfungsinstanz) Erfahrungen und Erwartungen (z. B. geringe Sinnhaftigkeit oder schwierige Umsetzbarkeit von bildungspolitischen Reformen) sozial-emotionale und physische Aspekte (z. B. Ausmaß der Konzentration und Motivation)

individuelle Beurteilungspraxis der Prüfungsarbeiten mit variierender Anwendung des Erwartungshorizontes

Abbildung 4.1 Angenommene multifaktorielle Beeinflussung der Leistungsbeurteilung im Kontext der zentralen Prüfung. (In grober Anlehnung an Mathes & Kühn, 2015)

80

4

Erwartungshorizonte als Steuerungsinstrumente …

Die Lehrkraft bildet in diesem Modell den Mittelpunkt. Ihre individuelle Persönlichkeit mit den jeweiligen Kompetenzen, Überzeugungen, Erfahrungen sowie der situativen Verfassung bildet den Ausgangspunkt (vgl. vertiefend Ingenkamp & Lissmann, 2008, S. 16 ff.). Die bisherigen Erfahrungen der Lehrperson, die sich aus den zuvor vorgestellten sowie weiteren Aspekten innerhalb und außerhalb des Prüfungskontexts ergeben und situationsspezifisch zusammenwirken, erzeugen „eine [individuelle] ‚Brille‘, mit der [Lehrerinnen und] Lehrer Dinge, Menschen, Situationen wahrnehmen, bewerten und die ihr Handeln beeinflusst“ (Voß, 2005, S. 53). Demnach ist anzunehmen, dass die Wahrnehmung der landesspezifischen Rahmenbedingungen und insbesondere des landeseinheitlichen Erwartungshorizontes nicht nur in Abhängigkeit deren Gestaltung, sondern zusätzlich in Relation zur beurteilenden Lehrkraft sowie des jeweiligen schulischen Umfelds (z. B. schulinterne Beurteilungskultur) variiert. Die jeweilige Lehrperson mit ihren unterschiedlichen dauerhaften und situativen Eigenschaften wie auch die verschiedenen Rahmenbedingungen5 (d. h. landes- bzw. schulspezifische Aspekte sowie insbesondere der Erwartungshorizont und dessen Gestaltung) und deren individuelle Wahrnehmung bilden potenzielle Einflussfaktoren auf die Anwendung des landeseinheitlichen Erwartungshorizontes und führen vermutlich zu einer individuellen Beurteilungspraxis der Prüfungsarbeiten im Rahmen der zentralen Prüfungen zum Erwerb des MSA. Folglich kann eine einheitliche, möglichst objektive Beurteilungspraxis anhand des landeseinheitlich vorgegebenen Erwartungshorizontes nicht als Selbstverständlichkeit betrachtet werden: Es ist nun […] deutlich, was auch bisherige Untersuchungen belegen, dass diese Innovationen Grundlage und förderliche Bedingung für eine verbesserte Systemsteuerung schaffen möge, jedoch keine „Selbstläufer“ in dem Sinn sind, dass sie den erhofften Ertrag gleichsam „automatisch“ erbringen. Vielmehr müssen sie im Bildungssystem verstanden, aufgegriffen und in neue Entwicklungsmaßnahmen auf verschiedenen Systemebenen umgesetzt werden. (Altrichter et al., 2007, S. 9)

5 Es ist anzunehmen, dass das private Umfeld die Lehrkraft und deren Eigenschaften ebenfalls

beeinflusst. Beispielsweise könnte sich die aktuelle familiäre Situation (z. B. ein kürzlicher Familienzuwachs) auf die Motivation und Konzentration der Lehrperson auswirken. Das private Umfeld wird im heuristischen Modell potenzieller Einflussfaktoren (vgl. Abbildung 4.1) bewusst nicht aufgegriffen, da dieses nicht zuletzt aus datenschutzrechtlichen Gründen auch im Rahmen der Datenerhebung nicht berücksichtigt wird. Der Fokus liegt ausschließlich auf dem schulischen Kontext.

4.3 Heuristisches Modell einer multifaktoriell beeinflussten …

81

Ein verstärkter Fokus auf die Schulebene sowie die Wahrnehmungen und Handlungen der Lehrkräfte scheint zur Deskription und zum Verständnis der Umsetzung bildungsadministrativer Maßnahmen sowie deren Optimierung demnach äußerst sinnvoll.

5

Aktueller Forschungsstand

Im Anschluss an die schulgeschichtliche Einbettung des Forschungsvorhabens sowie die Erläuterung der Annahme, einer multifaktoriell beeinflussten Beurteilungspraxis bzw. Nutzung des Erwartungshorizontes auf der Grundlage des Educational Governance-Ansatzes, schließt der theoretische Teil dieser Arbeit mit der Präsentation des aktuellen Forschungsstandes. Dieser resultiert aus einer Recherche im Rahmen der umliegenden Universitätsbibliotheken sowie der Datenbanken Education Research Complete, Educational Resources Information Center, Fachinformationssystem Bildung und Germanistik Online-Datenbank. Die Autorin nutzte insbesondere die folgenden deutschsprachigen Schlagworte zur Ermittlung der relevanten Quellen:1 – – – – – – – – – –

Bewertung (+ Deutsch, Kriterien, Objektivität, Schule, standardisiert)2 Bezugsnorm (+ kriterial, sachlich) Bogen (+ Beurteilungs-, Bewertungs-, Korrektur-) Erwartungshorizont Korrektur (+ Deutsch, Kriterien, Objektivität, Schule, standardisiert) Kriterienkatalog Leistungsbeurteilung (+ Deutsch, Kriterien, Objektivität, Schule, standardisiert) Mittlerer Schulabschluss Noten (+ Deutsch, Kriterien, Objektivität, Schule, standardisiert) Prüfung (+ Abschluss-, standardisiert, zentral)

1 Im

Sinne eines Schneeballsystems fanden weitere Suchvorgänge ausgehend von den recherchierten Publikationen und deren Literaturverzeichnissen statt. 2 Die Schlagworte in den Klammern bilden Ergänzungen bzw. Konkretisierungen, mit welchen der Suchbegriff im Kontext der Recherche kombiniert wurde. © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_5

83

84

– – – – – – – –

5

Aktueller Forschungsstand

Raster (+ Beurteilungs-, Bewertungs-, Korrektur-) Realschulabschluss Schulabschluss Skala (+ Beurteilungs-, Bewertungs-, Korrektur-) Standardisierung Test (+ standardisiert) Vorgabe (+ Beurteilungs-, Bewertungs-, Korrektur-) Zentralabitur

Um den Forschungsstand möglichst umfassend abzubilden, erfolgte außerdem eine Recherche anhand englischsprachiger Schlagworte, wie insbesondere: – – – – – –

exam (+ exit, final, standardized) GCSE (+ marking) grading marking (+ reliability, standardized) mark scheme test (+ exit, final, standardized)

Dieses Kapitel bildet eine Zusammenfassung relevanter empirischer Befunde zur Leistungsbeurteilung in zentralen Prüfungen sowie insbesondere zur Konfiguration bzw. Anwendung von Erwartungshorizonten in diesem Kontext. Im ersten Unterkapitel konzentriert sich die Autorin ausschließlich auf die Befunde hinsichtlich der landeinheitlichen schriftlichen Prüfungen in der Bundesrepublik Deutschland (vgl. Abschnitt 5.1): Zunächst gibt sie einen groben Gesamtüberblick über vorliegende Studien zu den zentralen Prüfungen und den sich hieraus ergebenden Forschungsschwerpunkten. In einem nächsten Schritt fokussiert sie sich auf den Bereich der Leistungsbeurteilung. Einleitend stellt sie Empfehlungen zur Entwicklung und Gestaltung von Erwartungshorizonten in Form von deutschdidaktischen Kriterienkatalogen und konkreten Hinweisen vor. Aufgrund der bislang überschaubaren Befundlage beschränkt sich der Fokus hierbei nicht nur auf eine geeignete Konfiguration für die zentralen Prüfungen, sondern auch für andere Beurteilungsanlässe, in welchen eine objektive Benotung angestrebt wird. Hierauf folgen Befunde zur tatsächlichen Gestaltung von Erwartungshorizonten in zentralen Prüfungen bzw. deren Wahrnehmung. Die Präsentation des nationalen Forschungsstandes schließt mit Erkenntnissen hinsichtlich der tatsächlichen Beurteilungspraxis in den zentralen Prüfungen. Sofern es möglich ist, sollen die Befunde sowie Erfahrungsberichte zu den Wahrnehmungen und Nutzungspraktiken des Erwartungshorizontes durch weitere Forschungsbefunde zur Beurteilungspraxis in zentralen Prüfungen ergänzt

5.1 Befunde für die Bundesrepublik Deutschland

85

werden (z. B. Wahrnehmung der prüfungsorganisatorischen Rahmenbedingungen, Beitrag zur Vergleichbarkeit), um ein möglichst umfangreiches Bild über die Leistungsbeurteilung in zentralen Prüfungen zu erhalten. Im Anschluss an die Präsentation der Befunde für die Bundesrepublik Deutschland folgt in einem zweiten Teil der Forschungsstand bzw. die Forschungsperspektive englischsprachig zugänglicher Befunde zur Leistungsbeurteilung in internationalen zentralen Abschlussformaten (vgl. Abschnitt 5.2).

5.1

Befunde für die Bundesrepublik Deutschland

Nach der Einführung der zentralen Prüfungen in Schleswig-Holstein als bislang letztes Bundesland in den Jahren 2008 (Abitur) bzw. 2009 (MSA) entstanden aufgrund der Aktualität der Reform in der darauffolgenden Zeit deutschlandweit zahlreiche Studien zu den landeseinheitlichen schriftlichen Prüfungen. Im Hinblick auf die angestrebte Qualitätssicherung und Standardisierung liegen u. a. Befunde vor, die sich primär auf die Prüfungsvorbereitung (vgl. z. B. Kahnert et al., 2015; Maag Merki, Holmeier, Jäger & Oerke, 2010; Oerke et al., 2013) oder die Prüfungsaufgaben beziehen (vgl. z. B. Florian, Schmiemann & Sandmann, 2015; Kahnert, 2014; Krüger, 2015; Lorenz, 2017), wohingegen die zentrale Beurteilungspraxis bislang weitestgehend unberücksichtigt geblieben ist (vgl. Mathes & Kühn, 2016). Einige Studien beschäftigen sich mit der Gestaltung und Qualität der zentralen Prüfungsklausur. Speziell mit Blick auf den MSA ist auf eine bundesweite Längsschnittstudie im Fach Mathematik zu verweisen, welche eine eingeschränkte Passung zwischen den Bildungsstandards und den Prüfungsaufgaben sowie eine länderspezifische Variation der zentralen Prüfungsklausur festgestellt hat (vgl. Kühn & Drüke-Noe, 2013). Weitere Analysen im Kontext des Zentralabiturs mit einem starken Fokus auf den mathematisch-naturwissenschaftlichen Bereich untersuchen die Gestaltung der Prüfungsaufgaben u. a. im Fach Biologie (vgl. Florian et al., 2015), im Fach Mathematik (vgl. Kahnert, 2014) oder in der naturwissenschaftlichen Fächergruppe Biologie, Chemie und Physik (vgl. Kühn, 2010). Ein größerer Strang beschäftigt sich mit den tatsächlichen bzw. durch die schulischen Akteurinnen und Akteure wahrgenommenen Auswirkungen auf der Unterrichtsebene (vgl. Klein et al., 2016). Einige Studien stellen diesbezüglich einen Teaching to the Test-Effekt im Rahmen des Zentralabiturs fest, welcher mit einer gezielten und verstärkten Thematisierung von prüfungsrelevanten Inhalten sowie gegebenenfalls darüber hinaus einer eingeschränkten Themenvielfalt einhergeht (vgl. Jäger, Maag Merki, Oerke & Holmeier, 2012; Kahnert et al., 2015; Oerke et al., 2013) bzw. von den Beteiligten entsprechend wahrgenommen wird (vgl. Ackeren

86

5

Aktueller Forschungsstand

et al., 2012; Brammer, 2017; Eickelmann, Kahnert, Lorenz & Bos, 2011). Brammer (2017) spricht ausgehend von „mehr Überprüfung, mehr Kontrolle, ausgerichtet auf Vergleichsdaten und Abschlüsse und als Folge eine Verdichtung von Unterrichtszeit und Inhalten, weniger Pädagogik, Lernen von vorgegebenen Inhalten und Fächern für Zensuren“ (S. 148) sogar von einer „Entpädagogisierung“ durch das Zentralabitur. Racherbäumer und Kühn (2013) kommen in ihrer quantitativen Befragung von Lehrkräften unterschiedlicher Schulformen dennoch zu dem Schluss, dass sich eine Standardisierung über zentrale Prüfungen und eine individuelle Förderung der heterogenen Schülerschaft aus der Perspektive der Lehrpersonen durchaus vereinbaren lassen. Insbesondere der Anteil von befragten Realschullehrkräften, welcher keine Einschränkung des differenzierten Unterrichts durch die landeseinheitlichen Prüfungen empfand, war vergleichsweise hoch (vgl. ebd., S. 38). Inwiefern die thematische Fokussierung darüber hinaus den teils positiven Einfluss von zentralen Prüfungen auf die Schülerleistungen begründet, der in ausgewählten Bundesländern bzw. Prüfungsfächern festgestellt werden konnte (vgl. Jürges & Schneider, 2010; Jürges, Schneider, Senkbeil & Carstensen, 2012; Maag Merki, 2012a; Wößmann, 2008) oder eine verbesserte Unterrichtsqualität den Ausgangspunkt bildet, lässt sich nicht eindeutig feststellen (vgl. Jürges & Schneider, 2008, S. 248 ff.). Ergänzend zu den unterrichtlichen Auswirkungen zentraler Prüfungen untersuchte die Forschergruppe um Maag Merki auch das emotionale Erleben von Lehrkräften in Bremen und Hessen (vgl. z. B. Appius, 2012; Maué, Maag Merki & Oerke, 2012; Oerke, 2012). Oerke (2012) resümiert, dass generell weder eine verstärkte Unsicherheit hinsichtlich des Zentralabiturs und dessen Anforderungen noch eine höhere Entlastung wahrgenommen wird. Die Wissenschaftlerin hebt diesbezüglich die Lehr- und Prüfungserfahrung sowie die Kooperation im Kollegium als bedeutsame Einflussfaktoren hervor. Ebenfalls begrenzt auf die beiden Bundesländer ergänzt Appius (2012), dass das zentrale Prüfungsformat zum Abschluss der Sekundarstufe II langfristig nicht zu einer signifikant intensiveren Zusammenarbeit unter den Lehrkräften geführt hat. Eine vertiefende Analyse der Daten zeigt für Bremer Lehrpersonen insgesamt eine Abnahme von Belastung sowie Arbeitsunzufriedenheit und einen Anstieg der Entlastung im fünften Durchgang des Zentralabiturs, was jedoch nicht für alle Lehrkräfte gilt (vgl. Maué et al., 2012). Zusätzlich zu den Wahrnehmungen der Lehrkräfte betrachten einige Studien ebenfalls die Gefühlswahrnehmungen der Schülerinnen und Schüler im Kontext der Implementation zentraler Abiturprüfungen (vgl. z. B. Baumert & Watermann, 2000; Maag Merki & Oerke, 2017; Maué, 2017; Oerke, 2012). So konnten Baumert und Watermann (2000) keinen signifikanten Unterschied von Prüfungsangst in dezentralen und zentralen Verfahren feststellen und auch Maué (2017) stellt

5.1 Befunde für die Bundesrepublik Deutschland

87

insgesamt lediglich eine veränderte Erfolgsunsicherheit in Abhängigkeit der Fähigkeiten der Prüflinge, jedoch nicht der Prüfungsform fest. Maag Merki und Oerke (2017) kommen in ihren Analysen zu dem Schluss, dass sich bundesland- und fachspezifische Effekte ergeben. Speziell in Bremen steigt das Schülerinteresse in Abhängigkeit des Schulfaches gleichzeitig mit der Zunahme unterstützender Lehrmethoden oder unabhängig hiervon langfristig an und bildet gegebenenfalls eine positive Auswirkung des zentralen Prüfungsformats. Rekurrierend auf das weitere Potenzial zentraler Prüfungen anhand der Ergebnisse den vorgelagerten Unterricht retrospektiv evaluieren zu können sowie entsprechende Entwicklungsprozesse zu initiieren (vgl. Racherbäumer & Kühn, 2013), liegen außerdem vereinzelt Studien vor, die eine evidenzbasierte Steuerung anhand zentraler Prüfungsergebnisse in den Blick nehmen. Zusätzlich zum teils unsystematischen Einfluss der zentralen Prüfung auf den vorgelagerten Unterricht verweist die Forschergruppe um Wurster (2017) in ihrer Untersuchung darauf, dass die Prüfungsergebnisse der landeseinheitlichen schriftlichen Prüfungen im Kontext des MSA außerdem gezielt für die evidenzbasierte Unterrichtsentwicklung genutzt werden. Beispielsweise finden die MSA-Ergebnisse „in der Mehrzahl der Fachkonferenzen [in Brandenburg] für die Weiterentwicklung von Aufgaben [Anwendung]“ (Wurster & Richter, 2016, S. 159). Neben den primär auf das Schulsystem bezogenen Effekten wurden unter einer bildungsökonomischen Perspektive u. a. auch die Auswirkungen von zentralen Prüfungen auf den Werdegang der Absolventinnen und Absolventen in den Blick genommen. Anhand eines empirischen Schätzmodells argumentieren Piopiunik et al. (2016) die Bedeutung von zentralen Abschlussprüfungen für den Arbeitsmarkt und kommen zu dem Schluss, dass sich der Erwerb eines Schulabschlusses in Bundesländern mit zentralen Prüfungsformaten positiv auf das zukünftige Arbeitseinkommen sowie das Arbeitslosigkeitsrisiko auswirkt. Eine differenziertere Betrachtung der Ergebnisse zeigt allerdings, dass die entsprechenden Befunde primär für den Hauptschulabschluss gelten und sich bezüglich des MSA keine statistisch signifikanten Zusammenhänge feststellen lassen. Zudem sind die Studienergebnisse vor dem Hintergrund einer angenommenen Multikausalität der Höhe des Arbeitseinkommens sowie des Arbeitslosigkeitsrisikos durchaus kritisch zu diskutieren. Die überblicksartige Vorstellung ausgewählter Befunde zu unterschiedlichen Forschungsperspektiven im Themenfeld der zentralen Prüfungen verweist bereits auf den starken Fokus bezüglich des Zentralabiturs, welcher auch in der folgenden, spezifischen Zusammenschau zur Leistungsbeurteilung deutlich erkennbar bleibt.

88

5.1.1

5

Aktueller Forschungsstand

Konfiguration von Erwartungshorizonten

Bevor die Autorin die Befunde und Erfahrungsberichte zur tatsächlichen Konfiguration von Erwartungshorizonten in nationalen zentralen Prüfungen vorstellt, gibt sie zunächst einen kurzen Überblick über Empfehlungen zur Entwicklung bzw. Gestaltung von Erwartungshorizonten. Hierzu stellt sie vorliegende, teils erprobte Kriterienkataloge des Fachs Deutsch vor. Im Anschluss legt sie den Fokus speziell auf die Gestaltung von Erwartungshorizonten im Fach Deutsch, welche im Kontext von summativen bzw. zentralen Prüfungsformaten zum Einsatz kommen sollen und fasst diesbezügliche Konfigurationshinweise zusammen. Deutschdidaktische Kriterienkataloge Aus deutschdidaktischer Perspektive bilden Erwartungshorizonte kein vollständig innovatives Instrument, welches erst im Kontext der zentralen Prüfungen entwickelt wurde. Vielmehr werden Kriterienkataloge neben Mehrfachbeurteilungen sowie der vergleichenden Beurteilung anhand einer Textkollektion seit Jahrzehnten als objektivierende Maßnahmen im Kontext der Leistungsbeurteilung diskutiert (vgl. Baurmann, 2017, S. 130 ff.). Bereits im Jahr 1974 spielten Kriterienkataloge in der Schreibdidaktik eine wichtige Rolle. In einer Umfrage nahm jede zweite Deutschlehrkraft „das Aufstellen eines verbindlichen Kriterienkataloges, in dem objektive Bewertungsschemata […] enthalten sein sollten“ (Beck, 1979, S. 127), als sinnvolle Maßnahme zur Verbesserung der Aufsatzbeurteilung wahr, woraufhin der Germanist Oswald Beck 18 Kriterienkataloge zur Aufsatzbeurteilung von unterschiedlichen Autorinnen bzw. Autoren analysierte (vgl. Beck, 1974). Anhand der systematischen Beschreibung der Varianten (z. B. hinsichtlich der Anzahl und des Differenzierungsgrad der Kriterien, Praktikabilität der Anwendung) sowie der kritischen Herausarbeitung möglicher Vor- und Nachteile wurde kein besonders geeigneter Kriterienkatalog identifiziert, jedoch eine Entscheidungsgrundlage für die situationsadäquate Auswahl einer Variante geschaffen. Beck (1974) bewertet u. a. eine detaillierte, gegenstandsbezogene Differenzierung in Einzelkriterien sowie eine überschaubare Strukturierung positiv. Er kritisiert die erschwerte Anwendbarkeit einzelner Kriterienkataloge aufgrund deren Unvollständigkeit und mangelhaften Differenzierbarkeit. Diesbezüglich ist jedoch einschränkend darauf hinzuweisen, dass es sich hierbei lediglich um die Einzelmeinung des Germanisten handelt und die Annahmen auch nicht in einem weiteren Schritt durch die konkrete Anwendung der Instrumente überprüft wurden. Grzesik und Fischer (1984) untersuchten in ihrer explorativen Studie zur Aufsatzbeurteilung die Anwendung zweier unterschiedlich umfangreicher Kriterienkataloge mit 17 bzw. drei Kriterien im direkten Vergleich mit Mehrfachbeurteilungen

5.1 Befunde für die Bundesrepublik Deutschland

89

nach globalem Ersteindruck3 . Hierbei zeigte sich eine höhere Beurteilerübereinstimmung im Kontext einer globalen Beurteilung als beim Einsatz eines Kriterienkatalogs. Diesbezüglich ist jedoch limitierend anzumerken, dass es sich bei den Studienteilnehmerinnen und -teilnehmern „um geübte Beurteiler handelte, die vermutlich auch beim globalen Ersteindruck ihre bewährten (und eventuell unbewussten) Bewertungskriterien zu Grunde legten“ (Neuland & Peschel, 2013, S. 115). Hinsichtlich der Anzahl der Kriterien ergab sich, dass eine deutliche Mehrzahl von Kriterien nicht zu einer wesentlich objektiveren Beurteilungspraxis führte (vgl. Grzesik & Fischer, 1984, S. 205 ff.). Baurmann und Kammler (2012) vermuten: die „Beurteiler sind wohl durch die Fülle der geforderten Einzelentscheidungen überfordert und verlieren – hermeneutisch gesprochen – das Zusammenspiel des Ganzen und seiner Teile aus dem Blick“ (Baurmann & Kammler, 2012, S. 11) und empfehlen hiervon ausgehend eine mittlere Anzahl von Kriterien (vgl. ebd.). Aus der Sicht der Autorin könnte die ähnlich hohe Beurteilerübereinstimmung bei einer geringen Anzahl von Kriterien jedoch ebenfalls primär aus der hohen Erfahrung der beurteilenden Personen resultieren, die gegebenenfalls kaum Anleitung benötigen. Folglich wäre eine erneute Durchführung der Untersuchung mit einem Sample aus ungeübten Beurteilerinnen und Beurteilern sinnvoll. Konkrete Erwartungshorizonte für das Prüfungsfach Deutsch liegen in Form einiger Orientierungsrahmen zur Beurteilung mit allgemeinen, relativ abstrakten Kriterien vor (vgl. z. B. Böttcher & Becker-Mrotzek, 2009; Büchel & Isler, 2002; Nussbaumer & Sieber, 1994). Diese unterscheiden in der Regel zwischen den drei grundlegenden Teilbereichen Inhalt, Aufbau und Sprache, die wiederum aufgabenspezifisch in Kriterien differenziert werden sollen (vgl. Baurmann, 2017, S. 133 ff.; Neuland & Peschel, 2013, S. 116 f.). Ein älteres Modell, auf welches in der Deutschdidaktik bis heute vermehrt Bezug genommen wird und welches den Ausgangspunkt für die Entwicklung weiterer Beurteilungsraster markiert, ist das Zürcher Textanalyseraster (vgl. vertiefend Nussbaumer & Sieber, 1994). Ausgehend von der Analyse authentischer Texte von Abiturientinnen bzw. Abiturienten und Studierenden sowie des Einbezugs text- und verstehenstheoretischer Erkenntnisse wurden Kriterien zur Beurteilung der Textqualitäten eines Schreibprodukts entwickelt und zu einem Raster zusammengefasst (vgl. Neuland & Peschel, 2013, S. 117 f.; Sieber, 2008, S. 273) (Abbildung 5.1).

3 Unter

der Bezeichnung Mehrfachbeurteilung nach globalem Ersteindruck wird „ein Verfahren [verstanden], in dem mehrere Beurteiler dem Aufsatz aufgrund des ersten Gesamteindrucks nach einmaligem zügigem Lesen sofort eine Note geben“ (Grzesik & Fischer, 1984, S. 3).

90

5

0. Korrelate/ Bezugsgrößen

A. Sprachsystematische und orthographische Richtigkeit

B. Angemessenheit

Aktueller Forschungsstand

0.1 Textlänge 0.2 types-Zahlen 0.3 Charakterisierung des Wortschatzes 0.4 Charakterisierung der Syntax 0.5 Charakterisierung der Kohäsionsleistung 0.6 Charakterisierung der Komplexität des Themas sowie der Komplexität der Behandlung des Themas im Text

O I M SY T SA SS SK

Orthographie Interpunktion Morphologie Syntax Textbau/ Satzverknüpfung Semantik von Inhaltswörtern/ Autosemantika Semantik von Funktionswörtern/ Synsemantika Semantik komplexer Ausdrücke

B.1 Funktionale Angemessenheit: Verständlichkeit/ Kohärenz B.2 Ästhetische Angemessenheit: Besondere formale Qualitäten B.3 Inhaltliche Relevanz: Besondere inhaltliche Qualitäten

Abbildung 5.1 Zürcher Textanalyseraster. (In Anlehnung an Nussbaumer & Sieber, 1994, S. 153 ff.)

Das Analyseraster zielt auf eine möglichst umfassende, stärkeorientierte Beschreibung eines Texts (vgl. Nussbaumer, 1996, S. 99) und fokussiert deutlich auf dessen sprachliche Leistungen, wie die grammatikalische und orthographische Korrektheit sowie die Verständlichkeit und Ästhetik eines Texts (z. B. Wortwahl, Textaufbau). Die inhaltliche Ebene wird lediglich in geringem Umfang als untergeordneter Bereich berücksichtigt und bleibt durch die Konkretisierung des Teilbereichs B.3 Inhaltliche Relevanz anhand der Anführung bzw. Erläuterung der Schlagworte Inhaltliches Wagnis und Inhaltliche Wegequalität abstrakt. Da das Zürcher Textanalyseraster ursprünglich nicht für den schulischen Gebrauch, sondern als wissenschaftliches Analyseinstrument entwickelt wurde, liegen des Weiteren keine Hinweise hinsichtlich der Gewichtung der Teilbereiche sowie der Notenvergabe

5.1 Befunde für die Bundesrepublik Deutschland

91

vor, was die unterrichtliche Anwendung erschwert (vgl. Nussbaumer, 1996, S. 103; Sieber, 2008). Es handelt sich somit um ein fundiertes Konzept, was zwar aufgrund der wissenschaftlichen Zielsetzungen und des hohen Anwendungsaufwands für den unmittelbaren schulischen Einsatz eher ungeeignet erscheint, jedoch eine Grundlage bildet und Impulse geben kann (vgl. Baurmann, 2017, S. 131 ff.). Neben der Realisierung einer vergleichbaren Beurteilungspraxis wird außerdem häufig die Eignung dieser Kriterienkataloge als Ausgangspunkt für differenzierte Leistungsrückmeldungen im Kontext einer förderorientierten Beurteilung diskutiert (vgl. Winter, 2015). Ausgehend vom Zürcher Textanalyseraster sind mit dem Ziel einer transparenten und förderorientierten Beurteilung in den letzten Jahren weitere Raster und Gestaltungshinweise für das Prüfungsfach Deutsch entstanden, z. B. das Linguoskop Schreiben mit dem Fokus auf die Beurteilung in der Grundschule (vgl. vertiefend Büchel & Isler, 2002) oder Kriterienkataloge, welche den Fokus der Beurteilung vom Schreibprodukt auf den Schreibprozess erweitern (vgl. vertiefend Böttcher & Becker-Mrotzek, 2009). Das Hauptaugenmerk liegt hierbei weniger auf einer erhöhten Objektivität von Beurteilungen, sondern auf der Realisierung einer transparenten, hinsichtlich der weiteren Leistungsentwicklung der Schülerin bzw. des Schülers förderlichen Beurteilungskultur, d. h. die differenzierte Beurteilung anhand von Kriterien dient als ausführliches individuelles Feedback und Ausgangspunkt für weitere Lernprozesse (vgl. Becker-Mrotzek & Böttcher, 2018). Bedingt durch die förderorientierte Zielperspektive und die daraus resultierenden alternativen Gestaltungserfordernisse wird an dieser Stelle nicht weiter auf derartige Raster eingegangen. Zudem liegt für die unterrichtspraktische Gestaltung und Anwendung von Erwartungshorizonten ergänzend spezielle Ratgeberliteratur vor, in welcher hauptsächlich exemplarische, aufgabenspezifische Konfigurations- und Nutzungshinweise gegeben werden, die nicht empirisch abgesichert sind (vgl. z. B. Möller, 2015; Paradies, Wester & Greving, 2018; Rogge, 2018 speziell für das Fach Deutsch: Beste, 2015; Dautel, 2007; Hoppe & Ukert, 2006; Stepath, 2008). Konfigurationshinweise im Kontext von zentralen Prüfungsformaten Speziell mit Blick auf summative bzw. zentrale Prüfungsformate und die Realisierung einer vergleichbaren Leistungsbeurteilung empfehlen einige fachwissenschaftliche und -didaktische Expertinnen bzw. Experten, die untrennbare Verbindung zwischen der Prüfungsklausur und dem Erwartungshorizont zu berücksichtigen und in einem ersten Schritt bereits bei der Konstruktion der Aufgaben anzusetzen (vgl. Freudenberg, 2012; Köster, 2006, 2010a; Zabka & Stark, 2010). Sowohl Wissenschaftlerinnen und Wissenschaftler als auch schulpraktische Akteurinnen bzw. Akteure verweisen darauf, dass sich die Konfiguration des Erwartungshorizontes

92

5

Aktueller Forschungsstand

in Abhängigkeit des Schulfachs und der zugrundeliegenden Aufgabenkultur unterschiedlich anspruchsvoll gestaltet (vgl. Kiel et al., 2016; Odendahl, 2008). Während die Bestimmung der geforderten Leistungen und deren kriteriale Formulierung für Aufgaben mit einem gebundenen Antwortformat vergleichsweise unkompliziert sind, da die möglichen Lösungen im Rahmen der Aufgabe bereits vorstrukturiert werden (vgl. Mietzel, 2017), erschweren die bundesweit in den zentralen Prüfungen eingesetzten Langtextaufgaben aus Sicht einiger Deutschdidaktiker die vollständige und differenzierte Erstellung von Erwartungshorizonten (vgl. Baurmann & Kammler, 2012; Köster, 2006). Dies führen die Germanistinnen und Germanisten u. a. auf folgende Eigenschaften von Langtextaufgaben zurück: – Komplexität der Aufgabe: Langtextaufgaben fordern vergleichsweise komplexe Antworten, welche unterschiedliche Teilleistungen in Form eines Fließtexts verknüpfen (z. B. kohärenter Aufbau der Inhalte, geeignete Wortwahl, Einhaltung der orthographischen und grammatikalischen Regeln). Insbesondere bei guten Schülerprodukten sind die unterschiedlichen Leistungen teilweise stark verschränkt und können nicht klar voneinander abgegrenzt werden (vgl. Freudenberg, 2012, S. 170). Bei der Erstellung eines zugehörigen Erwartungshorizontes ist es folglich schwierig einzelne Teilleistungen zu differenzieren sowie festzulegen, welche hiervon notwendig oder lediglich wünschenswert sind (vgl. Disdorn-Liesen, 2016, S. 46; Köster, 2010a, S. 8). Eine weitere Herausforderung besteht darin, die Gewichtung der Einzelbestandteile eines Schreibproduktes und die Bewertung in Abhängigkeit des Erfüllungsgrades eindeutig festzulegen (vgl. zusammenfassend Böhme, 2011, S. 109), da Langtextaufgaben „sowohl eine ‚eigenständige Konzeptions- und Strukturierungsleistung‘ einschließen als auch eine Vielzahl von Operatoren integrieren, erscheint eine inhaltlich festgelegte Codieranweisung, die linear quantifiziert, als Messinstrument nur bedingt bzw. eingeschränkt geeignet“ (Köster, 2006, S. 80). – Offenheit der Aufgabe: Mit steigender Offenheit der Aufgabenformulierung vergrößert sich auch das Spektrum von korrekten Lösungsmöglichkeiten. Entsprechend erscheint es unmöglich, sämtliche Lösungsvarianten für Langtextaufgaben zu antizipieren und im Erwartungshorizont anzuführen (vgl. Köster, 2006, S. 87). Der Anspruch „auf der einen Seite einer Bewertung unter Bedingungen größtmöglicher Annäherung an Testgütekriterien, auf der anderen Seite einer Honorierung der Individualität der Herangehensweise und Lösungsvariante des Prüflings [zu gewährleisten]“ (Freudenberg, 2012, S. 171), wird als ein nicht vollständig aufzulösendes, konzeptionelles Dilemma wahrgenommen (vgl. Disdorn-Liesen, 2016, S. 89 ff.). Hinzu kommt, dass eine Erprobung bzw. Pilotierung von Prüfungsaufgaben, welche Hinweise auf erwartbare Lösungen geben

5.1 Befunde für die Bundesrepublik Deutschland

93

könnte, in den zentralen Prüfungen aus Geheimhaltungsgründen erschwert ist (vgl. Köster, 2010a, S. 14). – Relevanz der sprachlichen Darstellungsleistung: Bei der Beantwortung einer Langtextaufgabe ist zusätzlich zur sprachlichen Korrektheit (d. h. der fehlerfreien Beherrschung der deutschen Rechtschreibung und Grammatik) die sprachliche Darstellungsleistung von Bedeutung (z. B. der adressaten- und textsortengerechte Einsatz sprachlicher Stilmittel, eine abwechslungsreiche Wortwahl). Während die Einhaltung sprachlicher Normen eindeutig anhand von verbindlichen Regelwerken geprüft werden kann (z. B. Dudenredaktion, 2017), ist die Festlegung der erwünschten sprachlichen Darstellung bzw. deren Differenzierung in Teilleistungen erschwert, da es sich um eine kreative Konstruktionsleistung handelt, die von Prüfling zu Prüfling variiert (vgl. Baurmann & Dehn, 2004). Zudem gestaltet es sich anspruchsvoll, die Bewertung und Benotung sprachlicher Leistungen anzuleiten. Während die sprachliche Korrektheit mithilfe der Dichotomie richtig und falsch eingeordnet werden kann, ist die Beurteilung der sprachlichen Darstellungsleistung weniger trivial und muss anhand einer Skala von angemessen hin zu unangemessen eingeordnet werden (vgl. Baurmann & Dehn, 2004). Demnach sind die klare Gewichtung und Bewertung von sprachlichen Leistungen, wie z. B. der Einhaltung einer adäquaten und abwechslungsreichen Wortwahl, schwierig zu bestimmen (vgl. Spinner, 2010). Sofern im Rahmen der Erwartungshorizonte der zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch für den sprachlichen Bereich eine Punktezuordnung bzw. eine Gewichtung vorgegeben wird, ist deren Anteil zwar nicht derartig hoch, dass eine mangelhafte Bewältigung zum Nichtbestehen der Prüfung führt, jedoch trotzdem einen nicht zu vernachlässigenden Anteil bildet. In einer deutschdidaktischen Analyse hinsichtlich der Bestimmung von relevanten Leistungen im Kontext von Überprüfungen im Lese- und Literaturunterricht verweist Köster (2010a) auf die hohe Auswertungsobjektivität und den vergleichsweise geringen zeitlichen Korrekturaufwand von geschlossenen und halboffenen Aufgabenformaten. Sie merkt weiter an, dass „der Anspruch, den Korrektoren deutliche Orientierung zu geben, ohne unzulässige Festlegungen zu treffen, […] bei komplexen und offenen Aufgaben nur schwer einlösbar [erscheint]“ (ebd., S. 14) und folglich die Konstruktion eines Erwartungshorizontes an dieser Stelle mit Blick auf die angestrebte Auswertungsobjektivität an ihre Grenzen gelangt. Um dieser Problematik vorzubeugen, plädiert Köster (2006) in ihrer Analyse von Erwartungshorizonten im Zentralabitur für eine weiterführende Konkretisierung der Aufgabe, z. B. über das deutliche Ausweisen der geforderten Bearbeitungsschritte oder die Formulierung relevanter Schwerpunkte. Nahezu analog schlagen Zabka und Stark

94

5

Aktueller Forschungsstand

(2010) in ihrer Analyse von schriftlichen Abiturprüfungsaufgaben und zugehörigen Erwartungshorizonten im Fach Deutsch vor, die Leistungserwartungen von komplexeren Langtextaufgaben durch die Untergliederung der Arbeitsaufträge und die Vorgabe von Schwerpunkten im Rahmen der Aufgabenstellung zu konkretisieren und auf diese Weise Entscheidungsspielräume zielgerichtet einzuschränken. Zur Überprüfung der Annahmen erscheint eine Konstruktion und anschließende Anwendung derartiger Aufgaben sowie der zugehörigen Erwartungshorizonte sinnvoll. Auch Zydatiß (2007) spricht sich in seinen Ausführungen dafür aus, nicht zugunsten einer möglichst vergleichbaren Beurteilung vollständig auf komplexe, offene Aufgaben zu verzichten. Er fordert stattdessen, dass die Lehrkräfte „Instrumente sowie sach- und kriterienbezogene Vergleichsnormen (= benchmarks)“ (ebd., S. 299) erhalten, um die Leistungen von offenen Aufgaben im Kontext der zentralen Prüfungen zum Erwerb des MSA bewerten zu können, spezifiziert jedoch nicht deren Gestaltung. Ausgehend von den bislang erfolgten Analysen unterschiedlicher Erwartungshorizonte im Kontext des Zentralabiturs für das Prüfungsfach Deutsch können die folgenden Konfigurationshinweise für die grundsätzliche Gestaltung eines Erwartungshorizontes, der eine leistungsorientierte Beurteilung ermöglicht, zusammengefasst werden: – möglichst knappe Darstellung der Lösungserwartungen, um eine hohe Übersichtlichkeit und eine gute Anwendbarkeit zu erzielen (vgl. Abraham, 2008) – detaillierte Angabe der einzelnen Teilleistungen einer Aufgabenlösung (vgl. Köster, 2006; Zabka & Stark, 2010) – Differenzierung zwischen zwingend notwendigen und fakultativen Leistungen (vgl. Zabka & Stark, 2010) – Vorgabe einer kleinschrittigen Punktezuordnung (vgl. Freudenberg, 2012) Folgende weiterführende Konfigurationshinweise beziehen sich speziell auf die Gestaltung eines Erwartungshorizontes für offene Aufgaben: – Anführen von verschiedenen, aufgabenspezifischen Lösungsmöglichkeiten (vgl. Köster, 2006) – Ergänzung der Lösungserwartungen um zusätzliche beschreibende und erläuternde Metakommentare (vgl. Zabka & Stark, 2010) – Verweise auf Ermessenspielräume bzw. „Möglichkeiten des begründeten Aussetzens von Items“ (Freudenberg, 2012, S. 417), um nicht antizipierte, alternative

5.1 Befunde für die Bundesrepublik Deutschland

95

Leistungen berücksichtigen zu können (vgl. Abraham, 2008, S. 58; Freudenberg, 2012; Zabka & Stark, 2010) Speziell hinsichtlich der Beurteilung des sprachlichen Bereichs empfiehlt Böhme (2011) in ihrer Studie zur Operationalisierung der Schreibkompetenz und der Bewertung von Schreibprodukten im Primarbereich im Kontext von Schulleistungsstudien und Vergleichsarbeiten den Einsatz einer „Skala, [die] auf allen Stufen durch klare Kriterien charakterisiert […] und durch Schülerbeispiellösungen illustriert [wird]“ (ebd., S. 253), um den Beurteilungsmaßstab zu vereinheitlichen. Unabhängig von der Konfiguration rät sie darüber hinaus zu Raterschulungen, in welchen sich die beurteilenden Personen mit den Erwartungshorizonten und deren Nutzung vertraut machen können. Zwar trägt dies nur bedingt zu einer hohen Reliabilität zwischen Urteilen der Lehrkräfte bei, jedoch kann auf diese Weise ein konsistentes Beurteilungsvorgehen der Einzelnen bzw. des Einzelnen unterstützt werden (vgl. ebd., S. 111). Des Weiteren plädiert Freudenberg (2012) anknüpfend an ihre ausschnitthafte Analyse eines Erwartungshorizontes im Zentralabitur für das Prüfungsfach Deutsch dafür, fachwissenschaftliche Expertinnen bzw. Experten bei der Erstellung des Erwartungshorizontes einzubeziehen, die Prüfungsklausur und den Erwartungshorizont zu pilotieren sowie eine schulexterne Zweitkorrektur ohne Kenntnis der Beurteilung der erstkorrigierenden Lehrkraft als zusätzliche Maßnahmen zur Sicherung der Vergleichbarkeit durchzuführen. Insgesamt kann festgehalten werden, dass gleichermaßen die bildungswissenschaftliche wie auch die fachdidaktische Forschung kaum konkrete Auskünfte darüber geben, wie eine Beurteilung von offenen, komplexen Aufgaben mithilfe des Erwartungshorizontes angeleitet werden kann, sodass eine höhere Objektivität besteht. Stattdessen existieren hauptsächlich abstrakte Kriterienkataloge sowie Vorschläge und Annahmen hinsichtlich der Gestaltung von Erwartungshorizonten, welche zwar auf der Grundlage von meist vergleichenden Dokumentenanalysen getroffen wurden, allerdings nicht durch weitere Analysen im Hinblick auf die Wirkungen oder Sinnhaftigkeit der jeweiligen Konfiguration untersucht wurden (z. B. eine Befragung von Lehrkräften hinsichtlich deren Einschätzung oder eine Analyse der Anwendung konkreter Gestaltungsvarianten). Zudem erlauben einige der Artikel lediglich geringe Aufschlüsse über das zugrundeliegende Studiendesign und das konkrete methodische Vorgehen, sodass außerdem eine gewisse Unklarheit besteht, inwiefern eine fundierte Herleitung der Annahmen erfolgt ist.

96

5

Aktueller Forschungsstand

Tatsächliche Konfiguration von Erwartungshorizonten in zentralen Prüfungen Mit Blick auf die Erwartungshorizonte in zentralen Prüfungen existieren bisher nur vereinzelte Untersuchungen, welche erste Hinweise auf eine Heterogenität der formalen und inhaltlichen Gestaltung von Erwartungshorizonten geben (vgl. Freudenberg, 2012; Klein et al., 2009; Köster, 2006; Mathes & Kühn, 2016; Zabka & Stark, 2010). Dahmen (2009) analysierte Ausschnitte aus zwei Erwartungshorizonten für das Fach Deutsch in nordrhein-westfälischen Abschlussprüfungen der Sekundarstufe I und II. Die stark variierende Gewichtung der Sprachrichtigkeit von über 40 Prozent im Rahmen der Prüfungen zum Erwerb des MSA und 10 Prozent im Kontext des Zentralabiturs lassen eine abschlussbezogene Gestaltung des Instruments vermuten. Hinsichtlich der speziellen Konfiguration von Erwartungshorizonten im Kontext der zentralen Prüfungen zum Erwerb des MSA kann bislang ausschließlich auf die Ergebnisse des DFG-Projekts „Konfiguration und professionelle Nutzung kriterialer Bewertungsvorgaben in zentralen Abschlussprüfungen“ zurückgegriffen werden. Im Rahmen dieses Forschungsprojektes erfolgte u. a. eine bundesweite, kategoriengeleitete Analyse der Erwartungshorizonte in den Fächern Deutsch und Mathematik über einen Zeitraum von fünf Jahren (Schuljahre 2010/2011–2014/2015). Das Ziel bestand darin, die Ausgestaltung der Erwartungshorizonte4 möglichst differenziert zu beschreiben sowie Ländertypen zu gruppieren, die vergleichsweise ähnliche Gestaltungsvarianten einsetzen (vgl. Mathes & Kühn, 2016). Erste Untersuchungsergebnisse für das Prüfungsfach Deutsch verweisen darauf, dass „die Ausgestaltung der Korrektur- und Bewertungsvorgaben durch eine ausgeprägte länderspezifische Heterogenität gekennzeichnet [ist]“ (ebd., S. 174). Auf der formalen Ebene zeigt sich die Unterschiedlichkeit der Erwartungshorizonte bereits an deren stark variierenden Umfängen von bis zu maximal 45 Seiten (vgl. ebd.). Bezüglich inhaltlicher Gesichtspunkte unterscheiden sich die Erwartungshorizonte ebenfalls deutlich, u. a. hinsichtlich des Konkretheitsgrades der angegebenen Lösungserwartungen (z. B. abstrakte Kriterien, aufgabenspezifische Musterlösungen) sowie des Differenziertheitsgrades der Anleitung von Bewertung und Benotung (z. B. grobe Gewichtungen, kleinschrittige Punktezuordnungen) (vgl. ebd., S. 174 f.). Die festgestellte Heterogenität begrenzt sich nicht nur auf die zentralen Prüfungen zum Erwerb des MSA, sondern kann auch im Kontext des Zentralabiturs festgestellt werden. Eine bundesweite Untersuchung von Erwartungshorizonten im Zentralabitur bezüglich ihrer Konfiguration ergab eine grobe Strukturierung in drei Gruppen von Gestaltungsvarianten in Abhängigkeit der Prüfungsfächer (vgl. Klein 4 Im

Rahmen des DFG-Projekts werden alternativ die Bezeichnungen Korrektur- und Bewertungsrichtlinien bzw. Korrektur- und Bewertungsvorgaben genutzt.

5.1 Befunde für die Bundesrepublik Deutschland

97

et al., 2009). Die umfangreichste Variante zeichnet sich durch eine detaillierte Punktevergabe für bestimmte Teilaufgaben sowie die Bestimmung der Endnote anhand einer Verrechnungstabelle aus und liegt hauptsächlich in den naturwissenschaftlichen Fächern vor. Eine weniger differenzierte Version wird u. a. in den fremdsprachlichen Fächern eingesetzt und gibt für bestimmte Bereiche inhaltliche Schwerpunkte mit groben Punkteverteilungen vor. Die dritte am wenigsten verbindliche Gestaltungsvariante kann z. B. dem Prüfungsfach Deutsch zugeordnet werden. Sie enthält lediglich inhaltliche Vorgaben und keine Punktvergabe, zudem unterscheidet sie sich teilweise in ihrer konkreten länderspezifischen Konfiguration (vgl. ebd., S. 605). In direkter Ergänzung zu diesen Befunden kann eine Analyse der Prüfungsklausuren und Erwartungshorizonte im Zentralabitur herangezogen werden, welche sich ausschließlich auf das Prüfungsfach Deutsch fokussiert. Zabka und Stark (2010) stellen in ihrer Untersuchung fest, dass anknüpfend an eine heterogene (Prüfungs-)Aufgabenkultur innerhalb des Fachs Deutsch auch unterschiedlichste Gestaltungsvarianten von Erwartungshorizonten existieren. Es sind sowohl starke formale Differenzen auszumachen, wie z. B. in der Gestaltung und Länge der Erwartungshorizonte zwischen den Ländern als auch inhaltliche Unterschiede hinsichtlich ihrer Verbindlichkeit. Die verschiedenartigen Erwartungshorizonte werden im Hinblick auf ihren Verbindlichkeitsgrad zu drei Typen zusammengefasst (vgl. ebd., S. 25 ff.): – Erwartungshorizonte mit geringer Verbindlichkeit: Die Erwartungshorizonte dieser Gruppe verweisen gezielt auf deren Hinweis- und Unterstützungscharakter. – Erwartungshorizonte mit hoher Verbindlichkeit: Die Erwartungshorizonte dieser Gruppe zeichnen sich dadurch aus, dass sie eine analytische, stärker kriteriengeleitete Beurteilung mit geringeren Spielräumen anleiten. – Erwartungshorizonte mit unklarer Verbindlichkeit: Die Erwartungshorizonte dieser Gruppe enthalten vage und diffuse Formulierungen, die keine eindeutigen Schlüsse auf deren Verbindlichkeit erlauben. Vertiefend hierzu stellt Köster (2006) in ihrer Analyse zwei Erwartungshorizonte gegenüber, die im Kontext von zentralen Abiturprüfungen im Prüfungsfach Deutsch in zwei Bundesländern eingesetzt wurden und sich auf einen identischen Aufgabentyp beziehen. Obwohl sich beide Erwartungshorizonte gleichermaßen auf eine vergleichende Gedichtinterpretation auf Leistungskursniveau beziehen, unterscheiden sich die zwei Varianten auch in diesem Fall stark hinsichtlich inhaltlicher und formaler Merkmale. Während der thüringische Erwartungshorizont aus dem

98

5

Aktueller Forschungsstand

Jahr 2005 wenig verbindlich ist und nur in einem geringen Umfang aufgabenspezifische Hinweise enthält, wird in der nordrhein-westfälischen Variante aus dem Jahr 2007 die Lösung in Teilschritte ausdifferenziert und durch die Zuordnung von Punktangaben gewichtet. Unabhängig von der unterschiedlichen Realisation sind in beiden Erwartungshorizonten Spielräume vorhanden, um alternative bzw. zusätzliche Lösungen zu berücksichtigen. Im Zuge einer weiteren qualitativen Studie, die sich ausschließlich auf das Zentralabitur 2007 im Prüfungsfach Deutsch in Nordrhein-Westfalen konzentriert (vgl. Freudenberg, 2012), wird ebenfalls der zugehörige Erwartungshorizont detailliert beschrieben sowie dessen Passgenauigkeit zu zwei zugrundeliegenden Wahlaufgaben untersucht. Unabhängig von dem zugrundeliegenden Aufgabentyp besteht für Freudenberg (2012) eine grundlegende Herausforderung darin, dass eine Passung zwischen den geforderten Leistungen in der Aufgabenstellung und den erwarteten Lösungen im Erwartungshorizont vorliegt. Das bedeutet konkret, es bedarf der Konstruktion eines Erwartungshorizontes, in dem nicht mehr, weniger oder andere Leistungen angegeben sind, als die, welche sich eindeutig aus der zugrundeliegenden Aufgabe ergeben. Freudenberg (2012) stellt insgesamt fest, dass die Anforderungen, die sich aus den Prüfungsaufgaben ergeben, nicht mit den Lösungserwartungen im Erwartungshorizont übereinstimmen und folglich die Leistungen der Prüflinge anhand des Instruments nicht korrekt ermittelt werden können. Sie kritisiert darüber hinaus, dass im Erwartungshorizont die Punktevergabe nicht exakt geregelt wird, Interpretationsspielräume bestehen und einige Aspekte unvollständig oder inkorrekt dargestellt werden (vgl. ebd., S. 172 ff.). Bezogen auf das nordrhein-westfälische Zentralabitur an beruflichen Gymnasien existiert darüber hinaus eine weitere Analyse von Erwartungshorizonten im Prüfungsfach Deutsch. Disdorn-Liesen (2016) untersucht ausgewählte Erwartungshorizonte im Verbund mit den jeweiligen Aufgaben sowie exemplarischen Schülerprodukten und betont das grundsätzliche Vorliegen einer wechselseitigen Abhängigkeit zwischen dem Erwartungshorizont und der entsprechenden Klausur, die sich in der zusätzlichen Funktion des Erwartungshorizontes zeigt, durch die Festlegung von Teilleistungen und deren Anordnung bzw. Gewichtung einen Beitrag zur Differenzierung des Aufgabenprofils zu leisten (vgl. ebd., S. 298). Eine vergleichende fachdidaktische Analyse der vorliegenden Gestaltungsvarianten im Kontext der Fachbereiche Wirtschaft und Verwaltung sowie Erziehung und Soziales verweist darüber hinaus auf deutliche formale und inhaltliche Konfigurationsunterschiede zwischen den zwei Formen. Dennoch resümiert die Wissenschaftlerin, dass es sich in beiden Fällen um punktbasierte Kriterienkataloge mit einer gewissen Offenheit handelt. Diese „ermöglicht es dem Korrektor mit Abweichungen individuell begründet umzugehen, verschleiert aber die Ausrichtung der Benotung an

5.1 Befunde für die Bundesrepublik Deutschland

99

der kriterialen Norm und erschwert das Entstehen von vergleichbaren Prüfungsergebnissen“ (ebd., S. 140 f.). Im Hinblick auf den praktischen Umgang mit den Instrumenten kritisiert die Wissenschaftlerin das vermehrte Fehlen von anleitenden Hinweisen, die ihres Erachtens zu Unklarheiten und Missverständnissen im Kontext der Anwendung führen (vgl. ebd., S. 300 ff.). Insgesamt zeigt sich, dass in den zentralen Prüfungen bislang keine bundeseinheitliche, optimale Gestaltungsvariante vorliegt. Stattdessen variiert die tatsächliche Ausgestaltung der Erwartungshorizonte stark länder-, fach- und aufgabenbezogen. Die einzige grundlegende Übereinstimmung zwischen allen bisher eingesetzten Erwartungshorizonten könnte gegebenenfalls darin bestehen, dass keine Gestaltungsvariante die Beurteilung verbindlich standardisiert und alle möglichen Ermessenspielräume eliminiert.

5.1.2

Beurteilungspraxis in zentralen Prüfungen

Die Heterogenität der Ausgestaltung schlägt sich in einem weiteren Schritt in der Wahrnehmung der Erwartungshorizonte durch die korrigierenden Lehrkräfte nieder. So deuten die vorliegenden Studien und Erfahrungsberichte eine ambivalente Einschätzung hinsichtlich der Qualität und Nützlichkeit des Instruments an (vgl. Appius & Holmeier, 2012; Dahmen, 2009; Disdorn-Liesen, 2016; Odendahl, 2008; Sturm, 2008). Appius und Holmeier (2012) stellen eine grundsätzlich positive Tendenz in der Wahrnehmung der Qualität der Korrekturbeschreibung im Rahmen des Zentralabiturs in den Bundesländern Bremen und Hessen heraus. Im Rahmen einer quantitativen Längsschnittstudie befragten die Wissenschaftlerinnen Lehrkräfte unterschiedlicher Fächer, die an der Beurteilung des Zentralabiturs beteiligt sind. Hierbei zeigte sich, dass die Einschätzung einer eher hohen Qualität bezüglich der landeseinheitlich vorgegebenen Erwartungshorizonte über die drei untersuchten Jahre relativ konstant bleibt und die Lehrkräfte aus Bremen ihre Erwartungshorizonte grundsätzlich als qualitativ hochwertiger einschätzen als die Lehrkräfte in Hessen. Auch die Wahrnehmungen, inwiefern die Erwartungshorizonte eine differenzielle Beurteilung ermöglichen, sind in beiden Bundesländern gleichermaßen positiv, verschlechtern sich jedoch von 2007 bis 2009 signifikant. Den Korrekturaufwand bewerten die Lehrkräfte in Relation zu dezentralen Abschlussprüfungsverfahren als vergleichbar. Ob bzw. inwiefern die Wahrnehmungen neben landesabhängigen Unterschieden auch fachspezifisch variieren, lässt sich anhand der Ergebnisse nicht differenzieren, da aus datenschutzrechtlichen Gründen nicht rekonstruiert werden kann, auf welche Fächer sich die Aussagen beziehen.

100

5

Aktueller Forschungsstand

In einer quantitativen Befragung an nordrhein-westfälischen Gesamtschulen und Gymnasien ist die grundsätzliche Einschätzung ebenfalls positiv. Ein Großteil der Lehrkräfte äußert, dass das Zentralabitur einen Beitrag zur Vergleichbarkeit leistet, d. h. mehr als die Hälfte der Lehrpersonen nehmen eine erhöhte Vergleichbarkeit der Notenvergabe zwischen den Schulen wahr (vgl. Lorenz, Kahnert, Eickelmann & Bos, 2011, S. 25). Im Gegensatz zu diesen positiven Wahrnehmungen sind die Einschätzungen einer Deutschlehrkraft aus Nordrhein-Westfalen sowie einer Geschichtslehrkraft aus Niedersachsen hinsichtlich des Erwartungshorizontes vorrangig negativ gefärbt (vgl. Odendahl, 2008; Sturm, 2008). Diesbezüglich erscheint es wichtig zu betonen, dass die Lehrpersonen ihre Wahrnehmungen im Rahmen von Erfahrungsberichten formuliert haben, die nicht auf empirische Untersuchungen rekurrieren sowie bereits älter sind. Trotz oder gerade angesichts der fehlenden Evidenzbasierung der Ausführungen nimmt die Autorin die Aussagen jedoch als Sensibilisierung hinsichtlich problematischer Einschätzungen von Erwartungshorizonten sowie als Impuls für die Interviewvorbereitung wahr (vgl. vertiefend Kapitel 7). In der fallstudienartigen Anwendung eines landeseinheitlichen Erwartungshorizontes der Abiturprüfungen in Nordrhein-Westfalen im Fach Deutsch aus dem Jahr 2007 beschreibt ein Gymnasiallehrer seine Wahrnehmungen hinsichtlich der Ausgestaltung des Instruments und dessen Nutzung (vgl. Odendahl, 2008). Neben fachlich inkorrekten Beurteilungskriterien hebt er speziell die Kryptik der Formulierungen hervor und kritisiert diesbezüglich, dass häufig unklar bleibt, welche konkreten Leistungen erwartet werden bzw. welche Punktzahl diesen zugeordnet werden soll (vgl. ebd.). Im Hinblick auf die angestrebte Vergleichbarkeit bewertet er des Weiteren die zahlreichen Spielräume sowie die nicht vorhandenen Überprüfungen im Kontext der Leistungsbeurteilung negativ: Hinzu kam die Erfahrung, dass man sich durch das System der rasternden Punktevergabe im Ermessenspielraum der Benotung weit weniger geknebelt und eingeschränkt fand als zunächst befürchtet; dass dieses System nämlich nicht unerhebliche kreative Freiräume ließ, deren Nutzung (und es blieb nichts übrig, als sie zu nutzen) es ermöglichte, eine Note zu produzieren, wie sie einem ohnehin im Sinne gelegen hatte. (ebd., S. 452)

Insgesamt kommt die Lehrkraft somit zu dem Schluss, dass ein Bewertungsraster speziell in den geisterwissenschaftlich-sprachlichen Fächern zur Anleitung einer vergleichbaren Beurteilungspraxis aus ihrer Perspektive ungeeignet ist (vgl. ebd., S. 457). In direkter Ergänzung hierzu kann erneut die Analyse von Dahmen (2009) angeführt werden. Die Verfasserin entwickelt als Konsequenz für ihre praktische

5.1 Befunde für die Bundesrepublik Deutschland

101

Arbeit als Deutschlehrkraft einen schrittweisen Ablaufplan für eine weitere Konkretisierung und Ergänzung der Kriterien des Erwartungshorizontes durch eine Zusammenarbeit der Fachkonferenz. Dieser Vorschlag deutet erneut darauf hin, dass die Kriterien in den Erwartungshorizonten im Kontext der Prüfungen zum Erwerb des MSA und Abiturs in Nordrhein-Westfalen im Fach Deutsch ihrer Ansicht nach für den praktischen Einsatz zu allgemein formuliert sind. Auch Sturm (2008) berichtet in seinen erfahrungsbasierten Ausführungen über eine Unzufriedenheit der Geschichtslehrkräfte in Niedersachsen, die er u. a. auf Mängel und Unklarheiten im Erwartungshorizont zurückführt und anhand der exemplarischen Analyse von zwei Erwartungshorizonten sowie zugehörigen Bewertungskriterien aus den Jahren 2006 und 2007 veranschaulicht. Als wesentliche Kritikpunkte hebt der Gymnasiallehrer die fachwissenschaftliche Inkorrektheit einiger Lösungserwartungen sowie deren mangelhafte Passung zu den Anforderungen der Prüfungsaufgaben hervor, die teilweise Abweichungen vom Instrument erforderlich machen und die Lehrkräfte verunsichern. Des Weiteren merkt er negativ an, dass die Bewertungskriterien keine eindeutige Übersetzung der Leistungen in eine Note ermöglichen (vgl. ebd., S. 226 ff.). Eine weitere qualitative Befragung zu den Erwartungshorizonten im nordrheinwestfälischen Zentralabitur für berufliche Gymnasien im Fach Deutsch deutet zudem eine fach- und bundeslandinterne Heterogenität der Wahrnehmungen an (vgl. Disdorn-Liesen, 2016). Demnach unterscheiden sich die Einschätzungen der Verständlichkeit und Anwendbarkeit der Erwartungshorizonte deutlich zwischen den befragten Lehrpersonen. Dennoch äußern sie kaum Sorgen hinsichtlich einer möglichen Überforderung im Beurteilungsprozess und erachten zusätzliche Erläuterungen zur Handhabung des Instruments eher für das Kollegium als für sich selbst als notwendig. Im Hinblick auf die Beurteilungspraxis zeigt sich die Tendenz, dass aus der Sicht der Lehrkräfte die Bewertungen anhand des Erwartungshorizontes besser ausfallen, als sie es aufgrund des globalen Ersteindrucks zuvor vermutet haben. Außerdem äußern einige Lehrkräfte, dass sie die vorgelagerte Leistung der Schülerinnen und Schüler bei der Beurteilung der Prüfungsarbeiten berücksichtigen. Folglich kann auch im Kontext des Zentralabiturs die Anwendung der individuellen Bezugsnormorientierung angenommen werden. An dieser Stelle muss jedoch relativierend darauf hingewiesen werden, dass die soeben vorgestellten Befunde aus einer ergänzenden, wenig umfangreichen Befragung stammen, die weiterführender Analysen bedarf. Neben diesen wenigen, teils älteren Erfahrungsberichten und Befunden zur Wahrnehmung liegen bislang keine empirischen Befunde zur Anwendung des Erwartungshorizontes sowie zur Ausgestaltung der konkreten Beurteilungspraxis

102

5

Aktueller Forschungsstand

im Kontext des Erwerbs des MSA vor. Mit dem Fokus auf das Zentralabitur untersuchen jedoch einige Studien die Vergleichbarkeit der vorgelagerten Halbjahres- und der zentralen Prüfungsnoten sowie der Anwendung der kriterialen Bezugsnorm vor und in den Abschlussprüfungen (vgl. z. B. Holmeier, 2013; Maué, 2013; Neumann, Nagy, Trautwein & Lüdtke, 2009; Neumann, Trautwein & Nagy, 2011). Obwohl in Abhängigkeit der gewählten Bezugsnorm die Einschätzung der Güte einer Leistung stark variieren kann (vgl. ebd.), liegen keine eindeutigen Regelungen vor, welche Bezugsnorm in welchen Situationen anzuwenden sind. Anstelle konkreter bildungsadministrativer Rahmenvorgaben wird vielfach eher implizit vorausgesetzt, dass eine Orientierung an der kriterialen Bezugsnorm erfolgt (vgl. zusammenfassend Waldow, 2012, S. 173 ff.). Holmeier (2012a) verweist jedoch darauf, dass die Lehrkräfte im Schulalltag verstärkt auf die soziale Bezugsnorm zurückgreifen, um Leistungen zu bewerten. Die experimentelle Studie von Holder & Kessels (2018) gibt zudem Hinweise darauf, dass zumindest im schulischen Vorbereitungsdienst eine Befürwortung der Bildungsstandards eine Beurteilung anhand der sozialen Bezugsnorm begünstigt und eine Ablehnung der Bildungsstandards zu einer verstärkten Orientierung anhand der individuellen Bezugsnorm führt. Eine Beurteilung im Sinne der kriterialen Bezugsnorm zeigte sich ausschließlich bei einer Person, diesbezüglich ist jedoch relativierend anzumerken, dass in der Untersuchung die Nutzung der kriterialen Bezugsnorm schwer von der Anwendung der sozialen Bezugsnorm zu unterscheiden ist und diese gegebenenfalls nicht in geeigneter Weise operationalisiert wurde (vgl. Holder & Kessels, 2018, S. 100 f.). Die Nutzung der sozialen oder individuellen Bezugsnorm ist vor dem Hintergrund der angestrebten vergleichbaren Zertifizierung von Abschlüssen problematisch zu werten, da in Abhängigkeit des klasseninternen Bezugssystems oder der individuellen Entwicklung des Prüflings gleiche Leistungen unterschiedlich beurteilt werden könnten (vgl. Rheinberg, 2014, S. 5 f.). Folglich erscheint im Rahmen der Leistungsbeurteilung in zentralen Prüfungen ein Rückgriff auf die kriteriale Bezugsnorm wünschenswert (vgl. Demski, 2017, S. 99 f.; Klein et al., 2016). Anhand der bundesweit vereinbarten Bildungsstandards sind normative Erwartungen hinsichtlich der durchschnittlichen Lernergebnisse bereits vorgegeben. Diese bedürfen einer Operationalisierung anhand von Prüfungsaufgaben und Erwartungshorizonten, um eine Bewertung anhand eines klassen- und schulübergreifenden Maßstabs zu ermöglichen (vgl. Klieme, 2005). Bezüglich des Beurteilungsprozesses im zentralen Prüfungsverfahren wird auf eine vermehrte Orientierung an der kriterialen statt an der individuellen und sozialen Bezugsnorm verwiesen (vgl. Ackeren et al., 2012; Neumann et al., 2009). Holmeier (2013) untersucht zudem vertiefend die Auswirkungen der zentralen Abiturprüfung

5.1 Befunde für die Bundesrepublik Deutschland

103

auf die unterrichtliche Anwendung der kriterialen Bezugsnorm sowie die Vergleichbarkeit der Abiturpunktzahlen für die Bundesländer Bremen und Hessen. Im Rahmen einer standardisierten Fragebogenerhebung gaben die befragten Lehrkräfte an, im vorgelagerten Unterricht weiterhin auf alle Bezugsnormen zurückzugreifen, jedoch die kriteriale Bezugsnorm sowohl in zentralen als auch in dezentralen Kursen am häufigsten anzuwenden. Die Hypothese einer verstärkten Orientierung an der kriterialen Bezugsnorm lässt sich anhand der Wahrnehmung der Lehrpersonen zumindest kurzfristig bestätigen, muss aber im Hinblick auf ein möglicherweise sozial erwünschtes Antwortverhalten kritisch betrachtet werden (vgl. ebd., S. 349). Holmeier (2013) regt infolgedessen sowie aufgrund sich andeutender länderspezifischer Entwicklungsverläufe sowie geschlechts- und fachgruppenspezifischer Differenzen längerfristige Untersuchungen mit fachspezifischen Auswertungsmöglichkeiten an. Mit Blick auf die Prüfungsergebnisse und die Vergleichbarkeit der Abiturpunktzahlen ergibt sich eine starke bundesland- und fachspezifische Variation (vgl. ebd., S. 356). Die diesbezüglichen Befunde verweisen auf einige positive Entwicklungen (z. B. Rückgang des Einflusses des Migrationshintergrundes auf die Notenvergabe in Bremen), jedoch lassen sich auch in diesem Fall keine generellen Befunde ableiten. Ebenfalls im Kontext der Prüfungsergebnisse untersuchten Neumann et al. (2009) in ihrer komparativen Analyse potenzielle Leistungs- und Bewertungsunterschiede zwischen dem traditionell zentral prüfenden Bundesland BadenWürttemberg und dem zu diesem Zeitpunkt dezentral prüfenden Bundesland Hamburg. Sie verweisen auf starke Leistungsunterschiede bzw. eine geringe Vergleichbarkeit der Zeugnisnoten im Abitur für die Fächer Englisch und Mathematik. Speziell für das Fach Mathematik kamen die Forschergruppe zu dem Schluss, „dass Noten aus zentralen Abschlussprüfungen unter dem Aspekt der Verteilungsgerechtigkeit ein objektiveres Auswahlkriterium darstellen als referenzgruppenbezogene Fachnoten“ (ebd., S. 711). Im Rahmen einer weiteren längsschnittlichen Untersuchung wurde außerdem die Korrelation zwischen der Entwicklung der Punktzahl in den schriftlichen Abiturprüfungen im Fach Mathematik sowie im Mathematikleistungstest über einen Zeitraum von fünf Jahren analysiert. Das Ziel bestand hierbei darin, Aufschlüsse über die Vergleichbarkeit der Abiturnoten in Bremen für das Fach Mathematik zu erhalten (vgl. Maué, 2013). In längerfristiger Perspektive konnte keine erhöhte Standardisierung im Kontext der Beurteilung festgestellt werden, sondern vielmehr, dass leistungsfremde Faktoren auch im zentralen Verfahren die Notenvergabe beeinflussen. Als mögliche Begründung führt Maué (2018) „weiterhin bestehende Spielräume bei der Benotung [an]“ (S. 80).

104

5

Aktueller Forschungsstand

Da neben der Prüfungsnote auch die Noten der vorgelagerten Qualifikationsphase zu festgelegten Anteilen in die Gesamtnote des Abiturs einfließen, untersucht Maué (2016) ergänzend den Einfluss des Zentralabiturs auf die Vergleichbarkeit der Halbjahresnoten im Fach Mathematik. Anhand des systematischen Vergleichs der vier abschlussrelevanten Halbjahresnoten im Kontext von dezentralen und zentralen Prüfungen wird deutlich, dass der sozioökonomische Hintergrund der Schülerinnen und Schüler die unterrichtliche Notengebung unabhängig von der Zentralität des abschließenden Prüfungsformats beeinflusst. Während sich die schlechtere Bewertung von Abiturientinnen und Abiturienten, die außerhalb Deutschlands geboren sind, im Rahmen des zentralen Prüfungsverfahrens reduziert und als Standardisierungseffekt gedeutet werden kann, „weitet sich der Vorteil von Abiturientinnen und Abiturientinnen mit überdurchschnittlich viel Büchern im Elternhaus von zwei Halbjahresnoten in 2007 auf alle Halbjahresnoten in 2011 aus“ (Maué, 2018, S. 85). Die vorgestellten Studien erlauben zwar erste Aufschlüsse darüber, inwiefern die angestrebte Vergleichbarkeit der Abschlusszertifikate durch den Einsatz eines zentralen Prüfungsformats erreicht wird, jedoch lässt sich nicht ableiten, welchen konkreten Beitrag der Erwartungshorizont zur Vergleichbarkeit der Abschlüsse leistet. Trotz der Existenz einiger Studien erscheint der Forschungsstand speziell mit Blick auf die Leistungsbeurteilung in zentralen Prüfungen lückenhaft. Abgesehen von den Untersuchungen im Rahmen des DFG-Projekts „Konfiguration und professionelle Nutzung kriterialer Bewertungsvorgaben in zentralen Abschlussprüfungen“ (vgl. Mathes & Kühn, 2016) beziehen sich die wenigen vorliegenden Befunde zur Leistungsbeurteilung in den zentralen Prüfungen des Weiteren ausschließlich auf das Zentralabitur (vgl. ebd.), weshalb eine Übertragbarkeit der Ergebnisse aufgrund bestehender struktureller und organisatorischer Differenzen zumindest kritisch hinterfragt werden muss.

5.2

Befunde für den internationalen Raum

Aufgrund von zahlreichen Unterschieden in der strukturellen Ausgestaltung des zentralen Prüfungsformats zwischen und innerhalb der Länder ermöglicht die internationale Forschungsliteratur keine Aufschlüsse, die unmittelbar auf die Beurteilungspraxis im Rahmen der zentralen Prüfungen zum Erwerb de MSA übertragbar sind (vgl. vertiefend Kapitel 2). Statt auf der Deskription der Beurteilungspraxis sowie der Konfiguration und Nutzung des Erwartungshorizontes liegt der Fokus der Studien für den internationalen Raum darüber hinaus vielmehr auf der Qualifikation der schulexternen Beurteilerinnen bzw. Beurteiler und der Gestaltung des Beurteilertrainings zur korrekten Anwendung der marking schemes (vgl. z. B. Ahmed & Pollitt,

5.2 Befunde für den internationalen Raum

105

2011; Elliott, 2017; Süt˝o & Nádas, 2008; Süt˝o, Nádas & Bell, 2011) sowie auf dem Vergleich personen- und computerbasierter Auswertungsverfahren hinsichtlich der Korrekturgenauigkeit und Reliabilität bei der Bewertung von Kurzantwortaufgaben (vgl. Butcher & Jordan, 2010; Johnson, Hopkin, Shiell & Bell, 2012). Dennoch können die internationalen Forschungsbefunde als sensibilisierende Hinweise für die eigene Untersuchung dienen bzw. einen Vergleichshorizont für nationale Ergebnisse bilden. Insbesondere „der Blick auf testerfahrenere Länder bietet die Möglichkeit, sich mit Chancen und Grenzen dieses Reformelementes auseinander zu setzen“ (Ackeren, 2005, S. 24), weshalb im Folgenden relevante, englischsprachig zugängliche Befunde für den internationalen Raum zusammengefasst dargestellt werden. Zunächst geht die Autorin auf Studien zur Konfiguration von Erwartungshorizonten ein, im Anschluss präsentiert sie Befunde zur Anwendung von Erwartungshorizonten sowie diesbezüglicher Einflussfaktoren und schließt dieses Unterkapitel mit einem kurzen Überblick über Studien hinsichtlich des Einsatzes einer zusätzlichen Computerunterstützung im Beurteilungsprozess. Konfiguration von Erwartungshorizonten Der Erwartungshorizont bzw. das marking scheme spielt vor allem im britischen Raum eine bedeutsame Rolle für die Vergleichbarkeit der Abschlusszertifikate: „The mark scheme holds a central position in the marking process, and is designed to hold the absolute standard against which all marking judgements are made“ (Elliott, 2017, S. 59). Wie bereits angemerkt, werden für eine möglichst objektive Beurteilung zusätzlich schulexterne Personen eingesetzt, die speziell hinsichtlich des Umgangs mit den Erwartungshorizonten geschult werden (vgl. vertiefend Abschnitt 2.2), da die Lösungserwartungen im Erwartungshorizont teilweise abstrakt formuliert sind (vgl. Elliott, 2017, S. 60). Allerdings wird aufgrund der großen Anzahl der Klausuren grundsätzlich auf die Durchführung einer Zweitkorrektur verzichtet (vgl. Baird et al., 2004), weshalb ein starkes Interesse an der Gestaltung von Erwartungshorizonten besteht, die zu einer hohen Beurteilerübereinstimmung führen. Mit dem Ziel der Illustration, wie Erwartungshorizonte gestaltet bzw. verbessert werden können, analysierten und klassifizierten Ahmed und Pollitt (2011) Aufgabenstellungen und Erwartungshorizonte aus den schottischen National Qualifications5 sowie den Prüfungen zum General Certificate of Secondary Education6

5 Die

National Qualifications sind Abschlussprüfungen am Ende der Secondary School. General Certificate of Secondary Education (im Folgenden: GCSE) ist ein Schulzertifikat, welches im Vereinigten Königreich vergeben wird und vergleichbar mit dem MSA in Deutschland ist (vgl. vertiefend Freitag, 2001).

6 Das

106

5

Aktueller Forschungsstand

für die drei Fächer Erdkunde, Betriebswirtschaftslehre sowie Design & Technology. Sie entwickelten eine allgemeine sowie drei aufgabenspezifische Taxonomien, die in Abhängigkeit der Güte7 von Erwartungshorizonten zwischen vier Levels unterscheiden: – Level 0: keine Hinweise für die Notenvergabe – Level 1: Beschreibung (vollständig oder teilweise) guter Leistungen – Level 2: Beschreibung (vollständig oder teilweise) guter und schlechter Leistungen – Level 3: Richtlinie zur Unterscheidung besserer von schlechteren Leistungen Hierbei ist hervorzuheben, dass Musterantworten einen Bestandteil von Level 0 bilden. Ahmed und Pollitt (2011) stufen diese grundsätzlich als nicht empfehlenswert ein, da es sich ihres Erachtens hauptsächlich um ideale Lösungen handelt, welche die tatsächlichen Schülerleistungen übersteigen und somit keine Orientierung bieten (vgl. ebd., S. 273). Gemäß der entwickelten Taxonomie enthalten hilfreichere Erwartungshorizonte in Abhängigkeit der Aufgabenstellung alle richtigen und/oder guten Antworten (Level 1) sowie zusätzlich alle falschen und/oder schlechten Antworten (Level 2). Im Kontext von komplexeren Aufgaben, bei deren Bearbeitung sprachliche Fähigkeiten neben Inhalten mindestens gleich bedeutsam sind, wird zudem darauf verwiesen, dass analytische Erwartungshorizonte mit einzelnen Kriterien geeigneter sind als holistischere Lösungserwartungen. Die optimalste Form von Erwartungshorizonten abstrahiert gemäß den Wissenschaftlern ein Stück weit von konkreten Beispielen und beschreibt auf einer Art Metaebene, nach welchen Gesichtspunkten die Güte von Leistungen differenziert bestimmt werden kann, um mithilfe des Instruments möglichst jede potenzielle Lösung beurteilen zu können. Zur Reduktion des Ausmaßes möglicher Lösungen und folglich des notwendigen Entscheidungsspielraums schlagen Ahmed und Pollitt (2011) ergänzend vor, an der Aufgabenkonstruktion anzusetzen und die Fragestellung wohlüberlegt zu formulieren bzw. ihren Einsatz einem Pretest zu unterziehen. Bramleys (2007) Analyse gibt ebenfalls Hinweise zur Konfiguration von Erwartungshorizonten, die eine vergleichbare Beurteilungspraxis schaffen. Ausgehend von einem Set doppelt beurteilter schriftlicher Prüfungsarbeiten aus unterschiedlichen zentralen Prüfungsformaten (u. a. GCSE) ermittelt der Wissenschaftler die Beurteilungsübereinstimmung zwischen den beiden Beurteilenden und setzt diese 7 Die

Güte eines Erwartungshorizontes bestimmt sich für Ahmed und Pollitt (2011) aus dem Grad der Unterstützung durch das Instrument hinsichtlich (1) einer vergleichbaren Beurteilung sowie (2) der möglichst realistischen Abbildung der individuellen Schülerleistung im Kontext der Beurteilung.

5.2 Befunde für den internationalen Raum

107

u. a. zur Gestaltung des Erwartungshorizontes in Relation. Hierbei ergibt sich eine negative Korrelation zwischen der Anzahl der vorgegebenen Punkte und der Beurteilerübereinstimmung, d. h. mit einer steigenden Anzahl verfügbarer Punkte sinkt die Vergleichbarkeit der Beurteilungen. Des Weiteren ist die Interrater-Reliabilität niedriger, sofern die Anzahl der vorgegebenen Teilleistungen die angegebene Punktzahl übersteigt. Demgegenüber kann die Beurteilerübereinstimmung durch die zusätzliche Angabe von inkorrekten Antworten positiv beeinflusst werden. Zusammenfassend verweist Bramley darauf, dass keine grundsätzlichen Gestaltungshinweise gegeben werden können, denn werden Erwartungshorizonte mit Blick auf eine möglichst hohe Reliabilität (um-)gestaltet, kann sich dies negativ auf die Validität der Prüfung auswirken: „The need for reliable marking leads to examination paper writers favouring short, structured items to ensure a limited pool of predictable responses from candidates“ (Jones & Inglis, 2015, S. 341). Folglich bildet die Gestaltung von Erwartungshorizonten eine Entscheidung, die situativ geprüft und getroffen werden sollte. Child et al. (2015) fokussieren sich in einer weiteren Studie auf die Betrachtung des Einflusses ausgewählter Gestaltungsmerkmale von Erwartungshorizonten auf die Beurteilungsqualität. Hierzu entwickelt die Forschergruppe einen Erwartungshorizont in Form eines levels-based mark schemes8 sowie eine modifizierte Variante, die grundsätzlich identisch ist, jedoch gezielt hinsichtlich ausgewählter Aspekte differiert (vgl. vertiefend ebd., S. 16 f.). Im Anschluss an die Einübung des Umgangs mit der jeweiligen Form des Erwartungshorizontes in Standardisation Meetings9 wendeten zwei unterschiedliche Gruppen jeweils eine Variante zur Beurteilung von Prüfungsarbeiten im Fach Englisch an und beantworteten im

8 Erwartungshorizonte

in Form von levels-based mark schemes beschreiben in holistischer Form unterschiedliche Niveaustufen von Schülerleistungen und werden meist zur Beurteilung von Aufgaben eingesetzt, die umfangreichere Schülerantworten fordern und schwierig in Teilleistungen differenziert werden können (vgl. Massey & Raikes, 2006). Aufgrund der relativ hohen kognitiven Belastung im Kontext der Nutzung dieser Variante sowie der eher interpretativen Zuordnung von Schülerleistungen zu Niveaustufen ist die Beurteilerübereinstimmung im Vergleich zum Einsatz der zweiten Variante von sogenannten points-based mark schemes geringer (vgl. Black, Süt˝o & Bramley, 2011). Erwartungshorizonte in Form von points-based mark schemes listen die relevanten Aspekte der erwarteten Lösung auf und ordnen diesen Punkte zu. Diese Variante wird in der Regel für Aufgaben verwendet, die kürzere Antworten mit einem Umfang von maximal einem Paragraphen fordern (vgl. Massey & Raikes, 2006). 9 Bei den Standardisation Meetings handelt es sich um eine Besprechung der Erwartungshorizonte inklusive einer praktischen Einübung des Umgangs mit diesen (vgl. Greatorex & Bell, 2008).

108

5

Aktueller Forschungsstand

Anschluss einen zugehörigen Fragebogen. Hieraus ergab sich eine höhere Beurteilerübereinstimmung bei der Anwendung der modifizierten Variante, was teilweise darauf zurückgeführt wird, dass die Lehrkräfte dazu angeregt wurden, das gesamte Spektrum an Niveaustufen bzw. zugehörigen Punktspannen bei der Beurteilung zu beachten bzw. zu nutzen. Dieses Ergebnis begrenzt sich allerdings auf die Korrektur der Prüfungsarbeiten zu ausschließlich einer der beiden Aufgaben und ließ sich nicht grundsätzlich feststellen. In direkter Ergänzung konnten anhand der anknüpfenden Fragebogenerhebung konkrete Gestaltungsaspekte des Erwartungshorizontes identifiziert werden, die aus Sicht der Beurteilerinnen bzw. Beurteilern dessen Anwendbarkeit positiv beeinflusst hatten: Fettdruck von Schlüsselbegriffen, die direkte Ergänzung von Niveaubeschreibungen um anleitende Hinweise und die formale Begrenzung der Lösungsdarstellung für eine Aufgabe auf eine Seite. Folglich kann angenommen werden, dass bereits geringe formale oder inhaltliche Veränderungen des Erwartungshorizontes relevante Auswirkungen auf dessen Anwendbarkeit bzw. Reliabilität haben können. An dieser Stelle ist ergänzend darauf hinzuweisen, dass der Erwartungshorizont auch im internationalen Raum nicht ausschließlich als Instrument zur Schaffung von Vergleichbarkeit betrachtet wird. Im Hinblick auf eine förderliche Leistungsbeurteilung existieren ebenfalls Studien hinsichtlich der gemeinsamen Erstellung eines Erwartungshorizontes durch Lehrende und Lernende, auf welche mit Blick auf das Forschungsinteresse dieser Arbeit jedoch nicht eingegangen wird (vgl. Leslie & Gorman, 2017). Anwendung von Erwartungshorizonten Ein weiterer größerer Forschungsstrang widmet sich den korrigierenden Personen und diesbezüglichen Einflussfaktoren auf die Vergleichbarkeit der Beurteilungen. Süt˝o und Nádas (2008) untersuchten die Beurteilungsgenauigkeit in Abhängigkeit der Expertise der Beurteilenden hinsichtlich der Vorbereitung und Beurteilung von GCSE-Prüfungen sowie der Aufgabenschwierigkeit bzw. Komplexität der erforderlichen Strategie, die für die Beurteilung der entsprechenden Lösung angewendet wird. Hierzu korrigierten je 13 Personen anhand von Erwartungshorizonten in Form von points-based mark schemes geschriebene Prüfungsarbeiten zum Erwerb des GCSE aus den Fächern Mathematik und Physik. Es zeigten sich lediglich geringe Unterschiede zwischen den Beurteilenden mit Unterrichts- und Korrekturerfahrung und Beurteilenden, die ausschließlich über einen relevanten Bachelorabschluss, jedoch keine Erfahrungswerte verfügen. Außer bei wenigen Einzelfällen stellten die Wissenschaftlerinnen eine nahezu identische Beurteilungsgenauigkeit fest. Des Weiteren konnte eine reziproke Abhängigkeit zwischen der Beurteilungsgenauigkeit und der Aufgabenschwierigkeit festgestellt werden: je komplexer die

5.2 Befunde für den internationalen Raum

109

Aufgabenstellung bzw. die geforderte Beurteilungsstrategie10 desto geringer die Beurteilungsgenauigkeit. Dies lässt sich in die zentralen Befunde weiterer Studien einordnen, die einen starken Einfluss der Prüfungsgestaltung auf die tatsächlich erreichbare Vergleichbarkeit zwischen den Beurteilungen feststellen11 (vgl. zusammenfassend He, Anwyll, Glanville & Deavall, 2013, S. 407). Trotz der geringen Unterschiede zwischen den Fächern erscheint eine Übertragbarkeit der Erkenntnisse von naturwissenschaftlichen Fächern auf das geistesswissenschaftliche Fach Deutsch ohne weitere Untersuchungen nicht realisierbar. Weitere Untersuchungen zur Anwendung unterschiedlicher kognitiver Beurteilungsstrategien im Kontext der Nutzung von Erwartungshorizonten (z. B. das Scannen von Schülerleistungen hinsichtlich bestimmter Schlüsselwörter oder die Einschätzung der Richtigkeit von Antworten unter Rückgriff auf das eigene Wissen bzw. Prüfungserfahrungen, vgl. vertiefend Süt˝o & Greatorex, 2006, 2008) verweisen darauf, dass die Nutzung bestimmter Strategien sich nicht eindeutig auf die Genauigkeit bzw. Vergleichbarkeit von Beurteilungen auswirkt (vgl. Crisp, 2008; Greatorex & Süt˝o, 2006). Baird, Greatorex und Bell (2004) betrachteten ergänzend, inwieweit sich die Genauigkeit von Beurteilungen im Fach Englisch verbessert, wenn den Beurteilenden neben dem Erwartungshorizont außerdem Beispielklausuren und Skripte mit ergänzendem Feedback an die Hand gegeben werden. Korrigierende Personen, die zusätzliche Materialien erhielten, beurteilten vergleichsweise strenger, es zeigte sich jedoch kein Einfluss auf die Beurteilungsgenauigkeit. In einer zweiten Teilstudie wurde darüber hinaus untersucht, inwiefern sich die Beurteilerübereinstimmung im Fach Geschichte erhöht, wenn zusätzlich zum Erwartungshorizont hierarchisch bzw. nicht hierarchisch organisierte Treffen stattfinden, in welchen die Beurteilung angeleitet wird. Auch in diesem Fall ergaben sich keine positiven Wirkungen auf die Reliabilität der Beurteilungen, in beiden Studien wurde allerdings der hohe standardisierende Effekt des Erwartungshorizontes deutlich. Des Weiteren muss relativierend bedacht werden, dass in den Studien bereits erfahrene Beurteilende die Prüfungen benoteten, was den standardisierenden Effekt verstärkt haben könnte. So stellen Fahim & Bijani (2011) in ihrer Interventionsstudie fest, dass ein Beurteilertraining in Form einer theoretischen Anleitung und praktischen Einübung des 10 Ein Beispiel für eine einfache Beurteilungsstrategie bildet der Abgleich von Ein-WortAntworten, komplexer wäre die Überprüfung von umfangreichen Aussagen hinsichtlich deren Korrektheit. Einen Überblick über mögliche Beurteilungsstrategien geben: Süt˝o & Nádas, 2008, S. 492. 11 Dieser Zusammenhang besteht insbesondere bei Prüfungen mit Aufgaben, die umfangreichere Antworten fordern (vgl. He et al., 2013, S. 407).

110

5

Aktueller Forschungsstand

Umgangs mit den Erwartungshorizonten dazu beiträgt, verzerrte Wahrnehmungen und die Strenge von Beurteilenden zu reduzieren sowie eine erhöhte Beurteilerübereinstimmung zu erreichen. Wohingegen Greatorex und Bell (2008) wiederum in ihrer Untersuchung zu dem Schluss kommen, dass Standardisation Meetings ohne weitere Maßnahmen sich speziell bei erfahrenen Beurteilenden nicht positiv auf die Beurteilungsgenauigkeit auswirken. Hinsichtlich der Vergleichbarkeit von Beurteilungen wurden auch unterschiedliche Formen der Zweitkorrektur analysiert. Hierbei zeigte sich, dass die Beurteilungsübereinstimmung wesentlich höher ist, sofern die Beurteilungen der erstkorrigierenden Person für die zweitkorrigierende Person sichtbar sind (vgl. Vidal Rodeiro, 2007). Die Wissenschaftlerin merkte diesbezüglich kritisch an, dass die hohe Reliabilität dadurch begründet sein könnte, dass die Zweitkorrektorin bzw. der Zweitkorrektor durch die Beurteilungen der Erstkorrektur beeinflusst wird und sich anstelle einer eigenen Meinungsbildung der vorhandenen Einschätzung anschließt (vgl. ebd., S. 15 f.). Allen vorgestellten Untersuchungen zu den beurteilenden Personen ist gemein, dass es sich um Befunde zu schulexternen Korrektorinnen und Korrektoren handelt, welche die jeweilige Schülerschaft nicht kennen. Neben den zentralen Prüfungen werden aber auch Kursarbeiten im Kontext des GCSE durchgeführt (z. B. Essays und Projektarbeiten), in welchen Lehrkräfte die Leistungen der Schülerinnen und Schüler beurteilen, die sie bislang unterrichtet haben. Zur weiteren Standardisierung dieser Formate im Fremdsprachenbereich wird seit 2009 ein sogenanntes Controlled Assessment Modell umgesetzt, in welchem ähnlich zu den zentralen Prüfungen in Deutschland die Beurteilung durch die Lehrkräfte anhand von durch die Awarding Bodies erstellten Erwartungshorizonte erfolgt. Im Rahmen ihrer Studie führten Johnson, Mehta und Rushton (2015) Gespräche mit Lehrkräften über ihre Wahrnehmungen hinsichtlich der Fremdsprachenprüfung im Kontext des GCSE durch. Mit Blick auf die Beurteilung äußerten die Lehrkräfte Unsicherheiten im Umgang mit bzw. der korrekten Interpretation des Erwartungshorizontes und fragten sich beispielsweise, ob es sich es sich bei den genannten Erwartungen um obligatorische oder fakultative Lösungsbestandteile handelt. Des Weiteren wünschten sich die Lehrpersonen eine weniger einseitige Kommunikation mit den Awarding Bodies sowie umfangreichere Rückmeldungen zu ihren Beurteilungen. Computerunterstützte Beurteilungsverfahren Ein weiterer Forschungsbereich, der in den letzten Jahren u. a. im Zuge der organisatorischen Vereinfachung bzw. Kostenreduktion stark an Bedeutung gewonnen hat, bildet die Evaluation des Einflusses neuerer Technologien auf die Beurteilungsqualität im Kontext der Leistungsbeurteilung in internationalen zentralen

5.3 Resümee

111

Prüfungsverfahren (vgl. Vergés Bausili, 2018, S. 463). Im Zuge von Modernisierungsprozessen wird in Großbritannien speziell das On-Screen Marking bzw. E-Marking, d. h. die computerunterstützte Beurteilung von Prüfungen in Form einer digitalen Kopie am Computer, vermehrt untersucht (vgl. Shaw, 2008; Süt˝o & Nádas, 2008). Während die Reliabilität auf diese Weise verbessert werden kann, indem beispielsweise den beurteilenden Personen leistungsfremde Merkmale des Prüflings vorenthalten werden (z. B. Geschlecht, Herkunft), die sich auf die Objektivität der Beurteilung negativ auswirken könnten (vgl. Meadows & Billington, 2005), zeigten sich in einigen Studien auch problematische Effekte. Die veränderte Darstellungsform führt zu negativen Auswirkungen auf die Beurteilungsgenauigkeit, sofern sich Lösungen zwar im lesbaren Bereich, aber außerhalb der Antwortfelder befanden (vgl. Black, 2010). Des Weiteren kann sich das veränderte Leseverhalten von digitalen Dokumenten ungünstig auf die Genauigkeit der Beurteilungen auswirken (vgl. Johnson et al., 2012). Anknüpfend an die digitale Beurteilung wird außerdem ein Online Training der Korrektorinnen und Korrektoren als mögliche Alternative zum herkömmlichen Training diskutiert (vgl. Chamberlain & Taylor, 2011).

5.3

Resümee

Der aktuelle Forschungsstand offenbart ein deutliches Desiderat hinsichtlich der Analyse der zentralen Prüfung zum Erwerb des MSA. Der Großteil der Befunde für die Bundesrepublik Deutschland thematisiert nicht den Bereich der Leistungsbeurteilung und bezieht sich außerdem primär auf das Zentralabitur. Zudem sind die meisten Studien relativ zeitnah im Anschluss an die nahezu bundesweite Einführung der zentralen Prüfungen entstanden und folglich bereits älter. Speziell in den letzten Jahren scheint der bildungswissenschaftliche Fokus von den zentralen Prüfungen abgerückt zu sein, da die Zahl der erscheinenden Publikationen nachgelassen hat. Bezüglich einer wünschenswerten Gestaltung von Erwartungshorizonten, die eine objektive Beurteilung fördern sollen, liegen primär abstrakte Kriterienkataloge vor, welche im Hinblick auf eine Anwendung einer deutlichen Konkretisierung bedürfen und somit keine direkten Konfigurationsempfehlungen geben. Die konkreten Gestaltungshinweise sind hauptsächlich Annahmen, die nicht weiterführend empirisch untersucht bzw. erprobt wurden. Lediglich eine Studie analysiert bislang die tatsächliche Gestaltung der Erwartungshorizonte in den zentralen Prüfungen zum Erwerb des MSA (vgl. Mathes & Kühn, 2016). Über die Beurteilungspraxis existieren kaum Aufschlüsse. Hinzu kommt, dass sich diese ausschließlich auf das Zentralabitur beziehen und teilweise nicht empirisch fundiert sind, sondern aus praktischen Erfahrungsberichten einzelner Lehrpersonen stammen.

112

5

Aktueller Forschungsstand

Die relevanten Studien für den internationalen Raum lassen sich durch die variierenden Rahmenbedingungen nicht auf die nationalen zentralen Prüfungen übertragen. Des Weiteren sind die Befunde, welche sich auf die Konfiguration und Anwendung von Erwartungshorizonten beziehen, ebenfalls bereits älter. Aktuell liegt der Fokus stattdessen stärker auf der Analyse computerunterstützter Beurteilungsverfahren. Die folgende tabellarische Zusammenstellung erlaubt einen abschließenden Überblick hinsichtlich der vorliegenden Befunde, die speziell Auskünfte über die geeignete Konfiguration eines Erwartungshorizontes geben, der zu einer leistungsorientierten, möglichst objektiven Beurteilung beitragen soll, sowie einen Einblick in die tatsächliche bzw. wahrgenommene Gestaltung des Instruments und dem Umgang mit diesem im Kontext von zentralen Prüfungen geben (Tabelle 5.1): Tabelle 5.1 Forschungsbefunde zur Konfiguration und Anwendung von Erwartungshorizonten Studie

Forschungsgegenstand

ausgewählte Befunde bzw. Erfahrungen

Ahmed & Pollitt (2011)

Analyse und Klassifikation von Aufgabenstellungen und Erwartungshorizonten aus den schottischen National Qualifications sowie den Prüfungen zum GCSE

Erstellung einer Taxonomie, die in Abhängigkeit der Güte von Erwartungshorizonten zwischen vier Levels unterscheidet; die optimalste Gestaltungsvariante beschreibt auf einer Art Metaebene, nach welchen Gesichtspunkten die Güte von Leistungen differenziert bestimmt werden kann

Appius & Holmeier (2012)

quantitative Befragung von Lehrkräften aus HB und HE bezüglich der Qualität von Abiturprüfungsaufgaben sowie der zugehörigen Korrekturhinweise

tendenziell positive Einschätzung der Erwartungshorizonte (z. B. Qualität des Instruments, Möglichkeit einer differenzierten Beurteilung), landesabhängige Unterschiede der Wahrnehmungen (z. B. Einschätzung einer höheren Qualität des Instruments von Lehrkräften in HB)

Beck (1974)

Analyse von 18 Kriterienkatalogen zur geeignete Gestaltung eines ErwartungshoriAufsatzbeurteilung zontes (im Hinblick auf dessen Anwendung): detaillierte, gegenstandsbezogene Differenzierung in Einzelkriterien sowie überschaubare Strukturierung (Fortsetzung)

5.3 Resümee

113

Tabelle 5.1 (Fortsetzung) Studie

Forschungsgegenstand

ausgewählte Befunde bzw. Erfahrungen

Bramley (2007)

quantitative Untersuchung der Beurteilerübereinstimmung anhand eines Sets doppelt beurteilter schriftlicher Prüfungsarbeiten aus unterschiedlichen zentralen Prüfungsformaten

negative Beeinflussung der InterraterReliabilität durch Erwartungshorizonte mit einer hohen Anzahl vorgegebener Punkte bzw. wenn die Anzahl der vorgegebenen Teilleistungen die angegebene Punktzahl übersteigt, positive Beeinflussung der Interrater-Reliabilität durch die zusätzliche Angabe von inkorrekten Antworten im Erwartungshorizont

Child et al. (2015)

standardisierte Befragung von Personen, die zuvor zwei unterschiedliche Gestaltungsvarianten von Erwartungshorizonten angewandt haben

Gestaltungsaspekte eines Erwartungshorizontes, welche aus Sicht der beurteilenden Person dessen Anwendbarkeit positiv beeinflussen: Fettdruck von Schlüsselbegriffen, die direkte Ergänzung von Niveaubeschreibungen um anleitende Hinweise und die formale Begrenzung der Lösungsdarstellung für eine Aufgabe auf eine Seite

Disdorn-Liesen (2016)

vergleichende fachdidaktische Analyse von zwei Erwartungshorizonten des Zentralabiturs in NW an beruflichen Gymnasien für das Fach Deutsch; ergänzende qualitative Befragung von Lehrkräften aus NW

deutliche inhaltliche und formale Konfigurationsunterschiede zwischen den beiden Varianten, Hinweis auf fach- und bundeslandinterne Heterogenität der Wahrnehmungen des Erwartungshorizontes (z. B. Verständlichkeit und Anwendbarkeit des Erwartungshorizontes)

Fahim & Bijani (2011)

quantitative Untersuchung der Unterschiede der beurteilenden Personen vor und nach einem Beurteilungstraining zur Anwendung von Erwartungshorizonten

das Beurteilungstraining leistet einen Beitrag zur Erhöhung der Interrater-Reliabilität (u. a. Reduktion der Strenge und der verzerrten Wahrnehmungen der beurteilenden Personen)

Freudenberg (2012)

Analyse eines Erwartungshorizontes des geringe Passung zwischen den AnforderunZentralabiturs in NW für das Fach Deutsch gen der Prüfungsaufgaben und den Lösungssowie der zugrundeliegenden Aufgaben erwartungen im Erwartungshorizont

Greatorex & Bell (2008)

quantitative Untersuchung der Beurtei- Beurteilungstrainings wirken sich speziell lungsgenauigkeit vor und nach einem bei erfahrenen Beurteiler_innen nicht auf die Training zur Anwendung von Erwartungs- Beurteilungsgenauigkeit aus horizonten (Fortsetzung)

114

5

Aktueller Forschungsstand

Tabelle 5.1 (Fortsetzung) Studie

Forschungsgegenstand

ausgewählte Befunde bzw. Erfahrungen

Grzesik & Fischer (1984)

explorative Studie zur vergleichenden Ermittlung der Beurteilerübereinstimmung von unterschiedlichen Verfahren: Einsatz von zwei Kriterienkatalogen und Anwendung des Verfahrens der Mehrfachbeurteilungen nach globalem Ersteindruck

geeignete Gestaltung eines Erwartungshorizontes: Differenzierung in eine mittlere Anzahl von Kriterien, da aus einer hohen Anzahl von Kriterien keine wesentlich objektivere Beurteilungspraxis resultiert und die Vielzahl von Einzelentscheidungen zu einer Überforderung führen können

Klein et al. (2009)

bundesweite Untersuchung von Erwar- fachspezifische Variation der Konfiguration tungshorizonten im Zentralabitur von Erwartungshorizonten, grobe Strukturierung in drei Gestaltungsvarianten: detaillierte Punktevergabe für bestimmte Teilaufgaben und Bestimmung der Endnote anhand einer Verrechnungstabelle (z. B. naturwissenschaftliche Fächer), inhaltliche Schwerpunkte mit einer groben Punkteverteilung für bestimmte Bereiche (z. B. fremdsprachliche Fächer), inhaltliche Vorgaben ohne Punktevergabe (z. B. Deutsch)

Köster (2006)

fachdidaktische Analyse von zwei Inter- heterogene Konfiguration der Erwartungshopretationsaufgaben inklusive der zugehö- rizonte aus NW und TH rigen Erwartungshorizonte des Zentralabiturs in NW bzw. TH im Fach Deutsch

Lorenz et al. (2011)

quantitative Befragung von Lehrkräften grundsätzlich positive Einschätzung des aus NW bezüglich Veränderungen des Zentralabiturs: über die Hälfte der BefragUnterrichts durch das Zentralabitur ten nehmen eine erhöhte Vergleichbarkeit zwischen den Schulen wahr

Mathes & Kühn (2016)

bundesweite, kategoriengeleitete Analyse der Erwartungshorizonte im Kontext der zentralen Prüfungen zum Erwerb des MSA in den Fächern Deutsch und Mathematik

Süt˝o & Nádas (2008)

qualitative Analyse der Beurteilungsge- die Unterrichts- und Korrekturerfahrung der nauigkeit im Kontext von Prüfungsar- beurteilenden Personen wirkt sich nur gering beiten zum Erwerb des GCSE in den auf die Beurteilungsgenauigkeit aus Fächern Mathematik und Physik anhand eines Erwartungshorizontes

Zabka & Stark (2010)

Dokumentenanalyse unterschiedlicher schriftlicher Abiturprüfungsaufgaben und der zugehörigen Erwartungshorizonte, die in unterschiedlichen Bundesländern im Fach Deutsch eingesetzt wurden

länderspezifische Heterogenität der formalen und inhaltlichen Gestaltung der Erwartungshorizonte (z. B. Seitenanzahl, Existenz einer Punktevergabe)

heterogene Konfiguration von Erwartungshorizonten im Fach Deutsch, Zusammenfassung zu drei Typen mit unterschiedlichen Verbindlichkeitsgraden (geringe, hohe und unklare Verbindlichkeit)

Teil II Empirischer Teil

Das eigentliche Messinstrument ist nicht die vorgegebene Zensurenskala, sondern die jeweils urteilende Lehrkraft. (Jürgens, 2010, S. 71) Rekurrierend auf die Grundlagen im theoretischen Teil beschreibt und begründet dieser zweite Teil der Arbeit das Forschungsinteresse, das methodische Vorgehen sowie die Ergebnisse der Studie. Konkret gliedert sich der empirische Teil wie folgt: – Kapitel 6: detaillierte Beschreibung des Forschungsvorhabens unter besonderer Berücksichtigung der Ziele, der zentralen Fragestellungen und des konkreten Studiendesigns – Kapitel 7: Erläuterung der Methodenwahl des problemzentrierten Interviews (vgl. Witzel, 2000) sowie Deskription der konkreten methodischen Umsetzung im Kontext der Datenerhebung – Kapitel 8: Deskription des inhaltsanalytischen Auswertungsvorgangs (vgl. Kuckartz, 2018) mit einem besonderen Schwerpunkt auf der Darstellung der Entwicklung und des Aufbaus des Kategoriensystems – Kapitel 9: Deskription der ergänzenden metaphernanalytischen Auswertung (vgl. Schmitt, 2017b) inklusive einer Erläuterung der Grundlagen bzw. -begriffe sowie der Vorteile und Limitationen dieser Methode – Kapitel 10: detaillierte Präsentation und Interpretation der Ergebnisse der inhaltsanalytischen Auswertung – Kapitel 11: vertiefende Darstellung der vorhandenen metaphorischen Konzepte im Hinblick auf die thematischen Zielbereiche Beurteilungsprozess und Beziehungskonstellationen sowie deren Interpretation – Kapitel 12: Vorstellung der gebildeten Lehrkräfte-Typen sowie Triangulation ausgewählter Ergebnisse der Typenbildung und der Metaphernanalyse – Kapitel 13: abschließende Zusammenfassung der Ergebnisse, hiervon ausgehend Diskussion der theoretischen bzw. praktischen Erträge sowie Reflexion der Grenzen der Studie und denkbarer Anknüpfungsmöglichkeiten für weitere Forschung

6

Forschungsvorhaben

Den Ausgangspunkt dieser Dissertation bildet das DFG-Projekt „Konfiguration und professionelle Nutzung kriterialer Bewertungsvorgaben in zentralen Abschlussprüfungen“1 , welches eine mehrperspektivische Betrachtung der Leistungsbeurteilung im Rahmen der zentralen Prüfungen zum Erwerb des MSA in den Prüfungsfächern Deutsch und Mathematik anstrebt (vgl. Mathes & Kühn, 2016). Mit dem Ziel, Aufschlüsse über die Gestaltung und die Nutzung der vorgegebenen Erwartungshorizonte zu erhalten, erfolgte in einem ersten Projektteil eine kategoriengeleitete Analyse der landesspezifischen Ausgestaltungen von Erwartungshorizonten aus allen beteiligten Bundesländern sowie eine Zusammenfassung von ähnlich ausgestalteten Erwartungshorizonten zu Ländertypen. Darüber hinaus fanden vertiefend hierzu bundesweite Experteninterviews mit einzelnen Vertreterinnen und Vertretern der zuständigen Landesbildungsministerien statt, in welchen die bildungsadministrative Ebene bezüglich der zugrundeliegenden Steuerungsintentionen befragt wurde. Der zweite Projektteil umfasst Interviews mit beteiligten Lehrkräften zu deren Wahrnehmungen und Nutzungspraktiken hinsichtlich der vorgegebenen Erwartungshorizonte. Die vorliegende Studie schließt sich an diesen zweiten Projektteil an und berücksichtigt in ihrem Sample ausgewählte Interviews mit Deutschlehrkräften2 , welche die Autorin im Rahmen des Projekts erhoben hat. Anhand einer inhaltsanalytischen 1 Das

zunächst an der Universität Duisburg-Essen und im Anschluss an der Universität Koblenz-Landau von Prof. Dr. Svenja Mareike Schmid-Kühn geleitete Projekt erhielt unter dem Kennzeichen KU 2798/1-2 eine Förderung durch die DFG (Förderung: 2011–2017). 2 Insgesamt beinhaltet das Sample sechs Interviews, die im Rahmen des Projektes erhoben wurden (jeweils drei mit Deutschlehrkräften aus Baden-Württemberg und aus NordrheinWestfalen). Ergänzend hierzu wurden vier weitere Interviews geführt (jeweils zwei mit Deutschlehrkräften aus Baden-Württemberg und aus Nordrhein-Westfalen). © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_6

117

118

6

Forschungsvorhaben

sowie einer metaphernanalytischen Auswertung sollen eine thematische Vertiefung der Projektergebnisse erfolgen und weitere Befunde zur Beurteilungspraxis von Deutschlehrkräften im Kontext der zentralen Prüfungen zum Erwerb des MSA gewonnen werden (vgl. Kuckartz, 2018; Schmitt, 2017b). Dieses Kapitel bildet eine detaillierte Beschreibung des Forschungsvorhabens. Zunächst präsentiert und erläutert die Autorin die verfolgten Ziele (vgl. Abschnitt 6.1), zentralen Fragestellungen (vgl. Abschnitt 6.2) und angestrebten Erträge (vgl. Abschnitt 6.3). Im Anschluss begründet sie die Entscheidung für ein qualitatives Vorgehen und skizziert überblicksartig das Forschungsdesign (vgl. Abschnitt 6.4).

6.1

Forschungsinteresse und Ziele

Diese Studie soll einen Einblick in schulische Prozesse ermöglichen sowie insbesondere einen Beitrag zum Verständnis der praktischen Umsetzung des Beurteilungsverfahrens in den zentralen Prüfungen leisten. Das spezifische Ziel des Dissertationsvorhabens ist es, die Wahrnehmungen von Lehrkräften im Kontext der dezentral geregelten Beurteilungspraxis in den zentralen Prüfungen zu erfassen sowie die Beschreibung und Begründung ihres Handelns insbesondere hinsichtlich des Umgangs mit den vorgegebenen Erwartungshorizonten zu analysieren. In Anknüpfung an das vorgestellte DFG-Projekt liegt der Fokus auch im Rahmen der vorliegenden Studie auf den zentralen Prüfungen zum Erwerb des MSA. Wie zuvor ausgeführt, stellt der MSA einen gleichermaßen qualitativ wie quantitativ bedeutsamen Abschluss dar (vgl. vertiefend Abschnitt 3.1). Das Abschlusszertifikat markiert eine zentrale Übergangsstelle zum berufs- und studienqualifizierenden Bildungswesen (vgl. Kühn, 2013, S. 89) und ist auch aktuell mit 56 Prozent der Absolventinnen und Absolventen an der gleichaltrigen Bevölkerung der am häufigsten erworbene Schulabschluss in Deutschland (vgl. Autorengruppe Bildungsberichterstattung, 2016, S. 96). Zusätzlich zur Fokussierung auf einen allgemeinbildenden Schulabschluss erfolgt zudem eine bewusste Begrenzung der Studie auf ein Prüfungsfach (vgl. vertiefend Abschnitt 7.4). Das ausgewählte Hauptfach Deutsch wird in allen beteiligten Bundesländern zentral geprüft und ist zudem aufgrund seiner komplexen Beurteilungspraxis mit umfangreichen fachspezifischen Anforderungen hinsichtlich der Gestaltung eines Erwartungshorizontes von Interesse (vgl. vertiefend Abschnitt 5.1.1). Trotz der großen Bedeutsamkeit des MSA existieren bislang kaum Befunde zu dessen zentraler Prüfungs- bzw. Beurteilungspraxis (vgl. zusammenfassend

6.1 Forschungsinteresse und Ziele

119

Kapitel 5). Die weiteren überschaubaren nationalen Ergebnisse bezüglich der Leistungsbeurteilung im Zentralabitur sowie die internationalen Befunde können zudem mit Blick auf die verschiedenen prüfungsorganisatorischen Rahmenbedingungen der zentralen Abschlussprüfungen sowie zusätzlicher prüfungsfachspezifischer Unterschiede keine unmittelbaren Hinweise auf die zentralen Prüfungen im Kontext des MSA im Prüfungsfach Deutsch geben (vgl. Klein et al., 2009). Folglich soll die vorliegende Studie einen Beitrag zur Erforschung dieses Bereiches und zur Minimierung der vorhandenen Leerstelle im Kontext der empirischen Forschung leisten. Das grundsätzliche Forschungsinteresse kann unter folgender Hauptfragestellung subsumiert werden: Welche Wahrnehmungen beschreiben Lehrkräfte hinsichtlich der Beurteilungspraxis in den zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch unter besonderer Berücksichtigung des landesweit vorgegebenen Erwartungshorizontes?

Konkret sollen die Wahrnehmungen von Lehrkräften zu den folgenden zwei aufeinander aufbauenden Bereichen erfasst werden: der Gestaltung des Beurteilungsverfahrens und der Durchführung des Beurteilungsverfahrens. Ein besonderer Fokus liegt hierbei auf der Wahrnehmung des Erwartungshorizontes sowie dessen Konfiguration und Anwendung, da das landeseinheitlich vorgegebene Instrument zu einer einheitlichen und möglichst objektiven Beurteilungspraxis beitragen soll. Damit die angestrebte leistungsorientierte Zertifizierungspraxis in den zentralen Prüfungen zum Erwerb des MSA realisiert werden kann, bedarf es eines hierauf ausgerichteten Beurteilungsverfahrens (vgl. Köster, 2010b). Demnach zielt diese Studie u. a. auf die Erfassung der Wahrnehmungen von Lehrkräften, inwieweit ihrer Meinung nach, die Gestaltung des Beurteilungsverfahrens zur Zielerreichung beiträgt. Hierzu soll in einem ersten Schritt analysiert werden, ob das Verfahren inklusive seiner Instrumente (z. B. Erwartungshorizonte, Korrekturbesprechungen, Zweitkorrekturen) aus der Perspektive der Lehrkräfte verständlich und umsetzbar ist. Dies erscheint speziell vor dem Hintergrund aktueller Forschungsergebnisse bezüglich der unterschiedlich ausgeprägten diagnostischen Kompetenzen von Lehrkräften sowie den Unsicherheiten und Problemen von Berufsanfängerinnen bzw. -anfängern im Bereich der Leistungsbeurteilung sinnvoll (vgl. z. B. Kiel et al., 2016; Terhart, 2014). In einem zweiten Schritt soll außerdem untersucht werden, inwieweit die Gestaltung des Verfahrens aus der Sicht der Lehrkräfte eine möglichst objektive Beurteilungspraxis ermöglicht. Hierbei stellt sich insbesondere die Frage, ob in den Erwartungshorizonten klare, verbindliche Regelungen zur Korrektur, Bewertung und Benotung vorliegen, die eine fachlich korrekte, einheitliche Beurteilung

120

6

Forschungsvorhaben

anleiten und den Einfluss leistungsfremder Aspekte bzw. die Orientierung an einer individuellen oder sozialen Bezugsnorm vermeiden. Die verständliche und zielführende Gestaltung des Verfahrens bildet zwar eine notwendige Voraussetzung, kann jedoch nicht zwangsläufig die Realisierung einer einheitlichen und möglichst objektiven Zertifizierungspraxis gewährleisten (vgl. Stanat, Becker-Mrotzek, Blum & Tesch, 2016, S. 53). Denn unabhängig von der Qualität des Verfahrens kann davon ausgegangen werden, dass schlussendlich dessen tatsächliche Durchführung ausschlaggebend ist: „Es kommt alles darauf an, wie der einzelne Beurteiler im jeweiligen Fach mit einem Kriterium [des Erwartungshorizontes] umgeht. Allein die Art und Weise des tatsächlichen Gebrauchs des Kriteriums entscheidet über seine faktischen Funktionen“ (Grzesik & Fischer, 1984, S. 7). Aufgrund der Einführung des zentralen Formats in allen beteiligten Bundesländern vor nahezu mindestens zehn Jahren wäre eine Herausbildung „nachhaltige[r] Standardisierungseffekte in der Beurteilungspraxis“ (Maag Merki, 2012b, S. 19) grundsätzlich denkbar. Unter Bezugnahme auf das theoretische Konzept der Educational Governance wird das Beurteilungsverfahrens jedoch als komplexer Prozess unter individuellen, interdependenten Einflüssen verstanden (vgl. vertiefend Kapitel 4). Rekurrierend auf diese theoretische Perspektive ist anzunehmen, dass sich eine intendierte Durchführung von bildungsadministrativen Reformen schwierig gestaltet, da die umsetzenden Lehrkräfte keine passiven Steuerungsobjekte sind, sondern vielmehr aktiv handelnde Akteurinnen bzw. Akteure darstellen, welche Aufgaben vor dem Hintergrund ihrer jeweiligen Situation (z. B. persönliche Einstellungen und Wahrnehmungen, schulspezifische Rahmenbedingungen) individuell interpretieren und umsetzen. Folglich sind Abweichungen im Rahmen der tatsächlichen Beurteilungspraxis von den bildungsadministrativen Intentionen zu antizipieren (vgl. vertiefend Altrichter, Brüsemeister & Wissinger, 2007), d. h. mit der landesweiten Vorgabe eines Erwartungshorizontes geht nicht zwangsläufig eine einheitliche Nutzungspraxis des Instruments einher. Vielmehr ist davon auszugehen, dass die Lehrkräfte die Anwendung des Erwartungshorizontes in Abhängigkeit ihrer spezifischen Situation (z. B. eigene Kompetenz, verfügbare Zeit für die Prüfungskorrektur, schulspezifische Verabredungen) individuell anpassen. Aus diesem Grund sollen ebenfalls die Wahrnehmungen der Lehrkräfte in diesem zweiten Bereich erfasst werden. Das Ziel besteht hierbei darin, die Beschreibungen und Begründungen der Lehrkräfte hinsichtlich des individuellen Umgangs mit dem Erwartungshorizont im Rahmen der Erst- und Zweitkorrektur zu analysieren.

6.2 Zentrale Fragestellungen

6.2

121

Zentrale Fragestellungen

Im Hinblick auf eine weitere Konkretisierung des Forschungsinteresses lässt sich dieses in die folgenden zentralen, erkenntnisleitenden Fragestellungen differenzieren Teil I: Wahrnehmung des Beurteilungsverfahrens 1. Wie nehmen die beteiligten Lehrkräfte die zentrale Prüfung zum Erwerb des MSA sowie die jeweiligen landesspezifischen Rahmenbedingungen wahr? Die erste Fragestellung zielt auf eine möglichst weiträumige Erfassung von Wahrnehmungen der Lehrkräfte bezüglich des zentralen Prüfungsformats zum Erwerb des MSA. Zwar liegt der untersuchungsspezifische Fokus auf dem Beurteilungsverfahren sowie insbesondere dem landeseinheitlichen Erwartungshorizont, die Autorin nimmt jedoch unter Bezugnahme auf den Educational Governance-Ansatz an, dass Rekontextualisierungsprozesse ablaufen und die Lehrpersonen den Erwartungshorizont in Abhängigkeit der jeweiligen Rahmenbedingungen unterschiedlich wahrnehmen bzw. nutzen (vgl. vertiefend Kapitel 4). Aufgrund des vermuteten Zusammenhangs zwischen dem Erwartungshorizont und weiteren Faktoren im Kontext der zentralen Prüfung wird anhand der ersten Fragestellung zusätzlich eine Berücksichtigung der Einschätzungen der Lehrkräfte hinsichtlich des gesamten Verfahrens sowie insbesondere der zentralen Prüfungsklausur angestrebt. Wie zuvor beschrieben, handelt es sich bei der Prüfungsklausur um ein wichtiges Steuerungsinstrument (vgl. vertiefend Abschnitt 3.2), das neben dem Erwartungshorizont einen Beitrag zur Vergleichbarkeit der Abschlussvergabe leisten soll (vgl. Berkemeyer, Bos, Manitius, Hermstein & Khalatbari, 2013; Klein et al., 2009; Kühn, 2013). Folglich erscheint zunächst eine Analyse der Wahrnehmungen von Lehrkräften interessant, inwiefern die Prüfungsklausur zur Zielerreichung beiträgt und diesbezüglich Chancen bzw. Herausforderungen existieren (z. B. hinsichtlich einer einheitlichen Prüfungsvorbereitung oder der Konfiguration der Klausur). Angesichts der zentralen Funktion des Erwartungshorizontes „[…] darüber Auskunft [zu geben], welche Leistungen erbracht werden müssen, um eine Aufgabe vollständig, teilweise oder in Ansätzen zu lösen“ (Köster, 2010b, S. 31), verweisen zudem bereits einige Studien auf eine wechselseitige Abhängigkeit zwischen der Prüfungsklausur bzw. den jeweiligen Aufgaben und dem Erwartungshorizont in deren Erstellungs- und Anwendungsprozessen und berücksichtigen dementsprechend beide Instrumente in ihren Analysen (vgl. vertiefend Kapitel 5, z. B. Ahmed & Pollitt, 2011; Freudenberg, 2012; Köster, 2006; Zabka & Stark, 2010).

122

6

Forschungsvorhaben

Vor diesem Hintergrund erscheint eine ganzheitliche Betrachtung der zentralen Prüfung zum Erwerb des MSA in einem angemessenen Umfang sinnvoll, um eine möglichst umfangreiche Deskription von Wahrnehmungen der Lehrkräfte sicherzustellen und erste Hinweise zu generieren, inwiefern die prüfungsstrukturellen Rahmenbedingungen sowie insbesondere die Prüfungsklausur und deren Gestaltung einen Einfluss auf die Wahrnehmung und Nutzung des Erwartungshorizontes ausüben. Teil II: Wahrnehmung des Erwartungshorizontes 2. Welche Wahrnehmungen besitzen die Lehrkräfte hinsichtlich der vorgegebenen Erwartungshorizonte sowie deren formaler und inhaltlicher Ausgestaltung? 3. Wie charakterisieren die Lehrkräfte mit Blick auf die zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch einen geeigneten Erwartungshorizont? Die Gestaltung des Erwartungshorizontes ist von besonderem Interesse, da ein Zusammenhang zwischen der Konfiguration bzw. deren Wahrnehmung und der Anwendung des Instruments angenommen wird (z. B. potenzieller Einfluss des Umfangs oder der Verständlichkeit des Erwartungshorizontes auf die Nutzungsbereitschaft der Lehrkräfte, vgl. vertiefend Abschnitt 4.2.1). Folglich sollen die Wahrnehmungen der Lehrpersonen hinsichtlich der Gestaltung des landesspezifischen Erwartungshorizontes und alternativer Varianten sowie diesbezüglicher Vorund Nachteile erfasst werden. Hiervon ausgehend erhofft sich die Autorin erste Hinweise darauf, ob sich die wahrgenommene Gestaltung des Instruments auf dessen Nutzung auswirkt sowie welche Gestaltungselemente diesbezüglich besonders relevant sind (z. B. Umfang des Erwartungshorizontes, Existenz von Musterlösungen oder einer Punktevergabe) und aus welchen Gründen. Des Weiteren wäre es wünschenswert, konkrete Verbesserungsvorschläge sowie die Charakterisierung eines im Hinblick auf die Zielerreichung optimalen Erwartungshorizontes für das Prüfungsfach Deutsch zu erhalten, da ein Zusammenhang zwischen dessen Qualität und der Vergleichbarkeit der Beurteilungen angenommen wird (vgl. Child, Munro & Benton, 2015; Welch, 2006), bislang jedoch kaum empirische Befunde hinsichtlich einer sinnvollen Konfiguration vorliegen (vgl. vertiefend Abschnitt 5.1.1). Speziell die Anleitung einer möglichst objektiven Beurteilung von komplexeren sprachlichen Produkten stellt eine große Herausforderung dar (vgl. Stanat et al., 2016, S. 53). Die praktischen Erfahrungen der Lehrkräfte könnten wichtige Impulse im Kontext der Diskussion der Gestaltung von Erwartungshorizonten bilden, die mit dem Ziel einer möglichst objektiven Beurteilung entwickelt

6.2 Zentrale Fragestellungen

123

werden. Hierbei erscheint es von besonderem Interesse, ob eine ähnliche Gestaltung gewünscht wird oder die diesbezüglichen Wahrnehmungen in Abhängigkeit der jeweiligen Rahmenbedingungen (z. B. Bundesland, Einzelschule) unterschiedlich sind. Teil III: Wahrnehmung der Beurteilungspraxis 4. Wie beschreiben die Lehrkräfte die eigene Beurteilungspraxis im Kontext der zentralen Prüfung sowie speziell den Umgang mit dem Erwartungshorizont? 5. Welche Begründungen führen die Lehrkräfte für ihre Nutzungspraxis des Erwartungshorizontes an? Wie bereits erwähnt, sollen neben den Einschätzungen der Lehrkräfte zur Gestaltung des Beurteilungsverfahrens sowie der eingesetzten Instrumente auch deren Wahrnehmungen bezüglich des eigenen Handelns erfasst werden (vgl. vertiefend Abschnitt 6.1). Unter Bezugnahme auf die Educational Governance-Forschung besteht das Ziel darin, erste Anhaltspunkte zu erhalten, inwiefern die tatsächliche Beurteilungspraxis einheitlich erfolgt oder sich heterogen gestaltet (vgl. vertiefend Abschnitt 4.1). Der Fokus liegt hierbei auf dem Umgang mit dem Erwartungshorizont im Kontext der Erst- und Zweitkorrektur. Es stellt sich konkret die Frage, ob bzw. in welchem Umfang dieser angewandt wird und inwiefern die beschriebene Nutzungspraxis zwischen den Lehrkräften variiert. Zusätzlich zur Deskription des eigenen Vorgehens sollen außerdem Hinweise auf die Gründe für die vermutlich individuellen Handlungen im Rahmen der Leistungsbeurteilung erfasst werden. Hiervon ausgehend erhofft sich die Autorin erste Anhaltspunkte, inwiefern und wenn ja, durch welche Aspekte die Anwendung der Erwartungshorizonte multifaktoriell beeinflusst wird. Die Ergebnisse sollen abschließend mit dem heuristischen Modell einer multifaktoriell beeinflussten Anwendungspraxis des Erwartungshorizontes abgeglichen werden, um dieses weiterzuentwickeln (vgl. vertiefend Abschnitt 4.3). Teil IV: Interpretation der Wahrnehmungen 6. Welcher sprachlichen Konstruktionen bedienen sich die Lehrkräfte zur Schilderung ihres Verständnisses der Leistungsbeurteilung in zentralen Prüfungen sowie insbesondere des Erwartungshorizontes? Welche Metaphern und welche metaphorischen Konzepte liegen vor?

124

6

Forschungsvorhaben

7. Wie konzeptualisieren die Lehrkräfte die Beziehung zu weiteren Beteiligten im Kontext der zentralen Prüfung zum Erwerb des MSA (z. B. Bildungsadministration3 , Kollegium, Schülerschaft, Eltern)? Ergänzend zur Deskription der verbalisierten Wahrnehmungen zielen die letzten beiden Fragestellungen auf die Erfassung weiterer Einschätzungen und Wissensbestände von Lehrkräften im Kontext der Leistungsbeurteilung in den zentralen Prüfungen zum Erwerb des MSA, zu deren Erfassung es eines stärker interpretativen Vorgehens bedarf (vgl. vertiefend Kapitel 9). Anhand der genutzten Metaphern soll in einem ersten Schritt untersucht werden, auf welche Weise die Lehrkraft die Leistungsbeurteilung konzeptualisiert und in einem zweiten Schritt interpretiert werden, wie die Lehrperson die Beurteilungspraxis im Kontext der zentralen Prüfungen sowie insbesondere den Erwartungshorizont wahrnimmt. Darüber hinaus ist die Konzeptualisierung des Umgangs mit weiteren Beteiligten im Kontext der zentralen Prüfungen zum Erwerb des MSA von Interesse (z. B. Bildungsadministration, Kollegium, Schülerschaft, Eltern). Es soll interpretiert werden, wie die Lehrkraft die Interaktion mit den Akteurinnen bzw. Akteuren sowie die Beziehung zu diesen beschreibt. Des Weiteren erhofft sich die Autorin Hinweise auf die empfundenen Ansprüche gegenüber der Lehrperson zu erhalten. Hierüber sind gegebenenfalls erste Aufschlüsse über die Wahrnehmung der eigenen Rolle der Lehrkräfte im Kontext der zentralen Prüfung möglich (vgl. zusammenfassend Nave-Herz, 1977; Schimank, 2016, S. 58 ff.). Dies erscheint insbesondere vor dem Hintergrund interessant, dass die mit der Leistungsbeurteilung verbundenen Selektionsentscheidungen im Rahmen schulischer Übergänge ein denkbares Konfliktpotenzial im bereits thematisierten gleichzeitigen schulischen Auslese- und Fördererfordernis von Lehrkräften bergen sowie aufgrund von konträren Erwartungen möglicherweise zu einem Rollenkonflikt führen bzw. sich auf die Anwendung des Erwartungshorizontes auswirken könnten (vgl. vertiefend Abschnitt 4.2.7). Die Autorin erhofft sich anhand der ergänzenden Analyse und Interpretation von sprachlichen Äußerungen, Hinweise auf zugrundeliegende, teils unbewusste Einstellungen bzw. Wissensbestände der Lehrpersonen bezüglich des Erwartungshorizontes, der Beurteilungspraxis und den Beteiligten im Rahmen der zentralen Prüfungen zum Erwerb des MSA sowie deren potenziellen Einfluss auf die Nutzung des Erwartungshorizontes (vgl. vertiefend Abschnitt 4.3). 3 Die

Bezeichnung Bildungsadministration wird in Anlehnung an Terhart als „Sammelbezeichnung für Einrichtungen auf Landes-, Bezirks- und kommunaler Ebene“ (Terhart, 2002, S. 134) verstanden. Im Rahmen dieser Studie bezieht sich der Begriff primär auf zuständige Landesbildungsministerien und -institute.

6.3 Erwartete Erträge

6.3

125

Erwartete Erträge

Mit dem Abschluss des Forschungsvorhabens werden anschlussfähige theoretische und praktische Erträge erwartet, die rekurrierend auf die Forschungsfragen anhand der generierten Daten erzeugt werden sollen. Auf theoretischer Ebene bietet die explorativ-deskriptive Betrachtung der Leistungsbeurteilung im Kontext der zentralen Prüfungen zum Erwerb des MSA im Unterrichts- bzw. Prüfungsfach Deutsch einen Einblick in die schulische Praxis. Die Studie soll Aufschlüsse über die Wahrnehmungen der besonders relevanten Akteursgruppe der beteiligten Lehrkräfte ermöglichen, welche für die Zertifizierung der Prüfungsarbeiten und folglich maßgeblich für eine vergleichbare Abschlussvergabe verantwortlich sind. Angesichts des Fokus auf die Einschätzung der Lehrpersonen hinsichtlich der Konfiguration und Anwendung des Erwartungshorizontes besteht zudem die Möglichkeit, erste Hinweise bezüglich der Steuerungswirksamkeit des Instruments zu erhalten und somit einen Beitrag zur Educational Governance-Forschung zu leisten (vgl. vertiefend Abschnitt 4.1). Insbesondere über die Analyse der Wahrnehmungen der beteiligten Lehrkräfte sowie die Begründung ihrer individuellen Handlungen wird die Generierung von Erklärungswissen im Sinne der schulischen Governance-Ansätze angestrebt, d. h. Aufschlüsse, wie die Lehrkräfte ihre eigene Nutzungspraxis des Erwartungshorizontes einschätzen und begründen. Durch die darüberhinausgehende Betrachtung der empfundenen Kompetenzen der Lehrkraft und den Umgang mit dem Erwartungshorizont könnte außerdem Erklärungswissen im Sinne der pädagogischen Professionsforschung erarbeitet werden. Spezifische Aussagen der Lehrperson, die auf eine Kenntnis und Reflexion von möglichen Beurteilungstendenzen und -fehlern verweisen, ermöglichen weitere Aufschlüsse hinsichtlich des Vorhandenseins und der Nutzung von diagnostischem Wissen. Im Kontext von Erträgen, welche sich in der Bildungs- und Schulpraxis niederschlagen könnten, wären sowohl Hinweise für die Bildungsadministration als auch für die unterrichtliche Bewertungspraxis wünschenswert. So sollten die Aussagen der befragten Lehrkräfte Chancen und Herausforderungen im Kontext der zentralen Prüfungen sichtbar machen, welche wiederum erste Ansatzpunkte zur Modifikation des aktuellen Erwartungshorizontes sowie des gesamten Beurteilungsverfahrens hinsichtlich der Realisierung einer erhöhten Vergleichbarkeit von Abschlusszertifikaten aus der Lehrerperspektive ergeben. Insgesamt könnten sich Anregungen für die fachdidaktische Diskussion bezüglich der Leistungsbeurteilung im Schulfach

126

6

Forschungsvorhaben

Deutsch ergeben, z. B. im Hinblick auf die Sinnhaftigkeit des Einsatzes kleinschrittiger, analytischer Erwartungshorizonte sowie Chancen und Herausforderungen einer Gewichtung von Leistungen über ein vorgegebenes Punktesystem. Neben der Weiterentwicklung des Verfahrens und der vorhandenen Instrumente ist zusätzlich eine Initiierung von Maßnahmen der Heranführung und des Trainings des Umgangs mit den Erwartungshorizonten denkbar. Diesbezüglich könnte die Bestimmung des Informations- und Förderbedarfs im Rahmen der Beurteilungspraxis in den zentralen Prüfungen durch die Erkenntnisse aus der vorliegenden Studie unterstützt werden (vgl. Thiel, Cortina & Pant, 2014, S. 126).

6.4

Qualitatives Forschungsdesign

Die vorangegangene präzise Bestimmung des Forschungsgegenstandes stellt eine notwendige Grundlage für die anschließende Auswahl eines geeigneten methodischen Vorgehens dar. Gemäß dem Grundsatz der Gegenstandsangemessenheit qualitativer Forschung sind das Forschungsziel sowie die sich hieraus ergebenden zentralen Fragestellungen ausschlaggebend für die Konstruktion des Forschungsdesigns (vgl. Steinke, 2017, S. 326 ff.). Den Ausgangspunkt der Überlegungen im Rahmen der Konzeption bildete die folgende Fragestellung: Wie sollen Datenerhebung und -analyse konzipiert und wie die Auswahl empirischen (Situationen, Fälle Personen etc.) gestaltet werden, damit die Fragestellung der Untersuchung beantwortet und dies auch in der zur Verfügung stehenden Zeit und mit den vorhandenen Mitteln erreicht werden kann? (Flick, 2017b, S. 252)

Die vorliegende Studie zielt weder auf ein Zählen noch ein Messen ausgewählter Aspekte, weshalb von einem quantitativ ausgerichteten Forschungsdesign abgesehen wird (vgl. Helfferich, 2011, S. 21 f.). Zwar bildet eine quantitative Untersuchung ein sinnvolles Vorgehen, um Kausalitäten zwischen der Anwendung des Erwartungshorizontes und ausgewählten Faktoren festzustellen (z. B. Gestaltung des Erwartungshorizontes oder landesspezifische Rahmenbedingungen, vgl. vertiefend Abschnitt 4.3) sowie hierdurch die Gültigkeit des heuristischen Modells einer multifaktoriell beeinflussten Anwendungspraxis des Erwartungshorizontes zu prüfen (vgl. Schumann, 2018), jedoch erscheint eine Zusammenhangsanalyse zum aktuellen Zeitpunkt wenig sinnvoll und vielmehr übereilt.

6.4 Qualitatives Forschungsdesign

127

Vor dem Hintergrund, dass bislang keine empirischen Forschungsergebnisse zur Leistungsbeurteilung im Kontext der zentralen Prüfung zum Erwerb des MSA vorliegen und eine individuelle, multifaktoriell beeinflusste Nutzungspraxis des Erwartungshorizontes lediglich eine Annahme auf der Grundlage des Educational Governance-Ansatzes bildet, bedarf es aus der Perspektive der Autorin zunächst einer grundlegenden Exploration und Deskription der Wahrnehmungen und Handlungen im Rahmen der Leistungsbeurteilung in den zentralen Prüfungen zum Erwerb des MSA. Auf diese Weise sollen grundlegende Informationen bzw. Wissensbestände erzeugt und eine Erkenntnisgrundlage geschaffen werden, die wiederum als Basis für weitere Forschung dient. Folglich sind die zentralen Fragestellungen der Studie auf die Exploration des Feldes ausgerichtet und zielen hauptsächlich auf eine Beschreibung der Wahrnehmungen der Lehrkräfte mit einem besonderen Interesse an der Anwendung des Erwartungshorizontes sowie der Existenz heterogener Nutzungspraktiken und diesbezüglich relevanter Einflussfaktoren. Im Hinblick auf die angestrebte umfangreiche Deskription ist der Betrachtungsfokus relativ breit angesetzt. Um Fehldeutungen zu vermeiden, dienen die theoretischen Annahmen nicht der klaren Vorstrukturierung der Thematik, sondern vielmehr der Sensibilisierung hinsichtlich potenziell relevanter Aspekte. Speziell unter Bezugnahme auf den theoretischen Hintergrund der Educational Governance-Forschung konzentriert sich die vorliegende Studie „auf Nutzungs- und Akzeptanzfragen bzw. auf Transformationsfragen bildungspolitischer Maßnahmen“ (Fend, 2011, S. 21) folglich muss sowohl bei der Datenerhebung als auch bei der anschließenden Auswertung die Möglichkeit bestehen, individuelle Wahrnehmungen der Lehrkräfte differenziert zu erfassen und zu beschreiben. Vor diesem Hintergrund erscheint die offene, kaum standardisierte Herangehensweise qualitativer Forschung sinnvoll. In Relation zu einer quantitativen Untersuchung erlaubt diese eine wesentlich flexiblere sowie konkretere Erfassung der untersuchten Lebenswelten und eignet sich besonders zur Analyse eines Feldes, zu welchem bislang nur wenige empirische Befunde vorliegen (vgl. Flick et al., 2017, S. 17 ff.). Durch die relative späte Reduktion der „Komplexität des Analysegegenstandes“ (Helfferich, 2011, S. 28 f.) wird eine umfassende Exploration und Deskription der Beurteilungspraxis in den zentralen Prüfungen ermöglicht, in deren Rahmen gleichermaßen vorhandene empirische Befunde und theoretische Modelle geprüft sowie neue, unerwartete Erkenntnisse erfasst werden können (vgl. Flick et al., 2017, S. 17 ff.).

128

6

Forschungsvorhaben

Die Eignung eines qualitativen Forschungsdesigns für die vorliegende Studie ergibt sich nicht nur aus dem offenen Forschungsprozess, sondern auch aus der Subjektorientierung, wonach das Subjekt und dessen Wahrnehmungen den Mittelpunkt der Forschung bilden (vgl. Schumann, 2018, S. 154 ff.). Unabhängig von der konkreten Vorgehensweise besteht der grundlegende „Anspruch [qualitativer Forschung stets darin], Lebenswelten ‚von innen heraus‘ aus der Sicht der handelnden Menschen zu beschreiben“ (Flick et al., 2017, S. 14). Es wird davon ausgegangen, dass keine homogene Sichtweise der Umwelt existiert, sondern eine Vielzahl unterschiedlicher subjektiver Wahrnehmungen vorliegen (vgl. Berger & Luckmann, 2009, S. 91). Unter Bezugnahme auf die Grundannahmen des symbolischen Interaktionismus ergeben sich die verschiedenen Wahrnehmungen nicht willkürlich (vgl. Helfferich, 2011, S. 78 f.), vielmehr konstruiert jede Person die eigene Perspektive selbst, indem diese den wahrnehmbaren Dingen subjektive Bedeutungen zuweist und wiederum auf der Grundlage dieser Bedeutungszuschreibung handelt (vgl. vertiefend Blumer, 2013, S. 64 ff.). Somit kann angenommen werden, „dass die den Menschen umgebende Wirklichkeit keine objektiv gegebene, sondern eine soz. konstruierte ist“ (Wirtz, 2014, S. 1562) und „sich als Ergebnis gemeinsam in sozialer Interaktion hergestellter Bedeutungen und Zusammenhänge verstehen [lässt]“ (vgl. Flick et al., 2017, S. 20). Rekurrierend auf diese konstruktivistischen Grundannahmen erscheint die geplante umfassende Betrachtung der individuellen Wahrnehmungen der Lehrkräfte hinsichtlich des Beurteilungsverfahrens in den zentralen Prüfungen zum Erwerb des MSA sowie insbesondere des Erwartungshorizontes und dessen Anwendung besonders gewinnbringend, um ein möglichst vollständiges Verständnis der beschriebenen Handlungen zu ermöglichen. Die Datenerhebung der Wahrnehmungen erfolgt anhand von leitfadengestützten Einzelinterviews orientiert an dem Vorgehen des problemzentrierten Interviews nach Witzel (1982), da mithilfe dieser Methode „ein wesentlich konkreteres und plastischeres Bild“ (Flick et al., 2017, S. 17) entsteht, wie die Leistungsbeurteilung in den zentralen Prüfungen aus der Perspektive der beteiligten Lehrkräfte abläuft (vgl. vertiefend Kapitel 7). Die offene, an den Aussagen der Interviewten orientierte Gesprächsform zielt darauf, neue bzw. nicht antizipierte Erkenntnisse zu gewinnen und Hypothesen zu bilden (vgl. Witzel & Reiter, 2012). Der flexible Einsatz eines Leitfadens erlaubt zusätzlich die Berücksichtigung von vorhandenem Vorwissen sowie theoretischen Annahmen und dient dazu Hinweise auf die Gültigkeit bestehender Hypothesen zu erhalten. Das Instrument ermöglicht eine

6.4 Qualitatives Forschungsdesign

129

gewisse thematische Fokussierung sowie Strukturierung und Konkretisierung der Gesprächsinhalte (vgl. Witzel, 2000). Die Bestimmung der Auswertungsmethode zur strukturierten Deskription der Wahrnehmungen ergab sich erst im Untersuchungsprozess. Angesichts der Annahme, dass eine vollständige Antizipation der erhobenen Daten aufgrund einer Komplexität der Realität nicht möglich ist, bildet eine frühzeitige Festlegung der Auswertungsmethode eine mögliche Einschränkung (vgl. ebd., S. 17 ff.). Dementsprechend erfolgte statt einer klaren Abgrenzung der einzelnen Phasen des Forschungsvorhabens eine zirkuläre Verbindung bzw. Abstimmung zwischen der Erhebung, der Auswertung und der Bezugstheorie, die zu einer permanenten Anpassung an das tatsächlich vorhandene Material führte (vgl. Witt, 2001). Hierbei wird nicht von der Existenz einer geeigneten Methode ausgegangen, „sondern ein methodisches Spektrum unterschiedlicher Ansätze [angenommen], die je nach Fragestellung und Forschungstradition ausgewählt werden können“ (Flick et al., 2017, S. 22). Im Prozess erfolgte schließlich die Entscheidung für eine inhaltsanalytische Auswertung nach Kuckartz (2018) (vgl. vertiefend Kapitel 8). Anhand dieser Methode sollen die Wahrnehmungen der Lehrkräfte systematisch aufbereitet und unter Bezugnahme auf die zentralen Fragestellungen dargestellt werden. Ausgehend von den verbal beschriebenen Wahrnehmungen erfolgt im Rahmen dieser Studie zusätzlich eine gezielte rekonstruktive Vertiefung, die im Hinblick auf das Forschungsinteresse sinnvoll und forschungsökonomisch bewältigbar erscheint. Die ausschnitthafte Betrachtung der sprachlichen Ebene in Anlehnung an das Verfahren der systematischen Metaphernanalyse nach Schmitt (2017b) bildet eine Ergänzung der Befunde, die ausschließlich auf der Ebene der Gesprächsinhalte gewonnen wurden (vgl. vertiefend Kapitel 9). Die sprachliche Untersuchung soll Hinweise auf zusätzliche zugrundeliegende, teils unbewusste Einstellungen bzw. Wissensbestände hinsichtlich des Erwartungshorizontes, der Beurteilungspraxis und den weiteren Beteiligten im Rahmen der zentralen Prüfungen zum Erwerb des MSA sowie auf deren potenziellen Einfluss auf die Nutzung des Erwartungshorizontes geben (vgl. vertiefend Abschnitt 4.3). Die folgende Übersicht des endgültigen Forschungsdesigns bietet einen Gesamtüberblick und dient in Kombination mit den vorangegangenen Erläuterungen als Grundlage für die anschließende detaillierte Beschreibung bzw. Begründung der methodischen Entwicklung und Durchführung (vgl. Kapitel 7–9) (Abbildung 6.1):

130

6

Forschungsvorhaben

Forschungsfragen Welche Wahrnehmungen beschreiben Lehrkräfte hinsichtlich der Beurteilungspraxis in den zentralen Prüfungen zum Erwerb des MSA im Prüfungsfach Deutsch unter besonderer Berücksichtigung des landesweit vorgegebenen Erwartungshorizontes? 1. 2. 3. 4. 5. 6.

7.

Wie nehmen die beteiligten Lehrkräfte die zentrale Prüfung zum Erwerb des MSA sowie die jeweiligen landesspezifischen Rahmenbedingungen wahr? Welche Wahrnehmungen besitzen die Lehrkräfte hinsichtlich der vorgegebenen Erwartungshorizonte sowie deren formaler und inhaltlicher Ausgestaltung? Wie charakterisieren die Lehrkräfte mit Blick auf die zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch einen geeigneten Erwartungshorizont? Wie beschreiben die Lehrkräfte die eigene Beurteilungspraxis im Rahmen der zentralen Prüfung sowie speziell den Umgang mit dem Erwartungshorizont? Welche Begründungen führen die Lehrkräfte für ihre Nutzungspraxis des Erwartungshorizontes an? Welcher sprachlichen Konstruktionen bedienen sich die Lehrkräfte zur Schilderung ihres Verständnisses der Leistungsbeurteilung in zentralen Prüfungen sowie insbesondere des Erwartungshorizontes? Welche Metaphern und welche metaphorischen Konzepte liegen vor? Wie konzeptualisieren die Lehrkräfte die Beziehung zu weiteren Beteiligten im Kontext der zentralen Prüfung zum Erwerb des MSA (z. B. Bildungsadministration, Kollegium, Schülerschaft, Eltern)?

Erhebung

Einzelinterviews mit insgesamt 10 Deutschlehrkräften (aus BW und NW) orientiert am Vorgehen des problemzentrierten Interviews nach Witzel (1982)

Auswertung Teil I

Auswertung Teil II

-

inhaltlich strukturierende Inhaltsanalyse nach Kuckartz (2018) zur thematischen Systematisierung und zum Vergleich der Daten typenbildende Inhaltsanalyse nach Kuckartz (2018) zur Gruppierung der Inhalte und Darstellung von Relationen

Metaphernanalyse orientiert am Vorgehen nach Schmitt (2017b) zur vertiefenden Rekonstruktion der Wahrnehmungen von Lehrkräften

Ziel Detaillierte Deskription der Wahrnehmungen von Deutschlehrkräften im Kontext des Beurteilungsverfahrens der zentralen Prüfungen zum Erwerb des MSA unter besonderer Berücksichtigung der landeseinheitlichen Erwartungshorizonte, deren Anwendung und diesbezüglicher potenzieller Einflussfaktoren

Abbildung 6.1 Grundlegender Aufbau des Forschungsdesigns

7

Qualitative Datenerhebung anhand von problemzentrierten Interviews

Der Zugang zu den individuellen Wahrnehmungen der Lehrkräfte soll mithilfe einer kommunikativen Datenerhebung gelingen. Anknüpfend an die bereits thematisierten forschungsleitenden konstruktivistischen Grundannahmen spielt in der interaktiven Bedeutungs- bzw. Sinnkonstruktion die Sprache eine wichtige Rolle (vgl. zusammenfassend Schramm, 2014, S. 35 ff.). Demnach bildet die Verwendung von Sprache „den zentralen sozialen Akt“ (Knoblauch, 2017, S. 72), d. h. das Individuum nutzt die Sprache als Instrument zur Vermittlung der subjektiven Wahrnehmungen und sorgt hierdurch dafür, dass „subjektiver Sinn […] soweit objektiviert [wird], dass auch der Andere versteht, was ich meine, selbst wenn er nicht das gleiche Erlebnis hatte wie ich“ (Schramm, 2014, S. 36). Anhand von sprachlichen Repräsentationen besteht somit die Möglichkeit der Annäherung, Analyse sowie des Verständnisses der unterschiedlichen Wahrnehmungen hinsichtlich der Beurteilungspraxis in den zentralen Prüfungen (vgl. Flick, 2017a, S. 154 f.). In Abstimmung auf die zentralen Fragestellungen dieser Studie wählte die Autorin einen Zugang über qualitative Interviews, welche eine systematische und zielgerichtete Datenerhebung anhand von gegenstandangemessenen Fragestellungen erlauben (vgl. Lamnek & Krell, 2016, S. 313 f.). Im Gegensatz zu quantitativen Ansätzen kann über den Einsatz qualitativer Interviews ein „offener Äußerungsraum“ geschaffen werden (vgl. Helfferich, 2011, S. 24), in welchem „[…] die Befragten die Kommunikation weitestgehend selbst strukturieren und damit auch die Möglichkeit haben, zu dokumentieren, ob sie die Fragestellung überhaupt interessiert […] und wenn ja, unter welchem Aspekt sie für sie Bedeutung gewinnt“ (Bohnsack, 2014, S. 22). Auf diese Weise ist eine umfassende Deskription von subjektiver Wirklichkeit mit ihren interdependenten, komplexen Strukturen möglich (vgl. Kuckartz, Dresing, Rädiker & Stefer, 2008, S. 66 f.), ohne dass von

© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_7

131

132

7

Qualitative Datenerhebung anhand von problemzentrierten …

der interviewenden Person alle relevanten Bereiche bereits durch konkrete Fragen antizipiert werden müssen. Dies erscheint insbesondere vor dem Hintergrund der ausgeprägten Leerstelle der Forschung im Bereich der Leistungsbeurteilung in zentralen Prüfungen sinnvoll (vgl. Kapitel 5). Im Sinne der Gegenstandsangemessenheit qualitativer Forschung, bedarf es der begründeten Auswahl und der optimalen Abstimmung der methodischen Elemente auf den Forschungsgegenstand (vgl. Steinke, 2017, S. 326 ff.). Bezogen auf die angestrebte Offenheit der Erhebung wären ebenfalls eine Beobachtung des Beurteilungsprozesses oder eine qualitative Analyse von korrigierten Prüfungen denkbar. Neben dem vermutlich erschwerten Feldzugang aufgrund von datenschutzrechtlichen Bestimmungen gelingt es mithilfe dieser beiden methodischen Vorgehensweisen jedoch nur sehr eingeschränkt, Hinweise auf die Sichtweisen der beteiligten Lehrkräfte zu erhalten (vgl. Witzel, 1982, S. 66). Um subjektive Wahrnehmungen und individuelle Handlungen sowie deren Einbettung in den Gesamtkontext der Leistungsbeurteilung anhand von Erwartungshorizonten innerhalb der zentralen Prüfungen zu erfassen, bilden vielmehr qualitative Interviews eine geeignete und forschungsökonomische Möglichkeit der Betrachtung dieses empirischen Feldes (vgl. Honer, 2011, S. 97 f.). Durch die Aufzeichnung des Gesagten ist neben inhaltlichen Aspekten zudem die Erfassung paraverbaler Elemente (z. B. Gesprächspausen, Lachen) möglich, die zusätzliche Hinweise auf subjektive Einstellungen erlauben (vgl. Helfferich, 2011, S. 98 ff.). In Abhängigkeit unterschiedlicher Merkmale wie beispielsweise der Anzahl der interviewten Personen, der Kommunikationsmuster oder des Standardisierungsgrads des Gesprächs sind eine Vielzahl verschiedener qualitativer Interviewformen zu unterscheiden (vgl. zusammenfassend Helfferich, 2011; Misoch, 2015). Mit Blick auf das Forschungsinteresse wurden für die Datenerhebung leitfadengestützte, problemzentrierte Einzelinterviews ausgewählt. Dieses Kapitel fasst zunächst die allgemeinen Grundlagen des problemzentrierten Interviews (im Folgenden: PZI) zusammen und begründet hieran die Orientierung an diesem spezifischen methodischen Vorgehen (vgl. Abschnitt 7.1). Unter Bezugnahme auf die eigene Untersuchung beschreibt die Autorin im Folgenden die konkrete methodische Umsetzung (vgl. Abschnitt 7.2) und stellt die hierbei genutzten Instrumente vor (vgl. Abschnitt 7.3). Anschließend bestimmt bzw. erläutert sie die Zusammensetzung des Samples (vgl. Abschnitt 7.4) und diskutiert potenzielle Limitationen, die aus der Anwendung der Methode resultieren (vgl. Abschnitt 7.5).

7.1 Begründung der Methodenwahl

7.1

133

Begründung der Methodenwahl

Die Anfänge des PZI gehen auf die methodischen Diskurse der qualitativen Forschung vor bereits etwa vierzig Jahren zurück (vgl. Mey & Mruck, 2007, S. 141). Im Rahmen der Dissertation mit dem Titel „Das problemzentrierte Interview. Eine methodologisch-methodische Begründung eines qualitativen Erhebungs- und Auswertungsverfahrens der empirischen Sozialisationsforschung“ entwickelte der Diplom-Psychologe Andreas Witzel eine erste Version des PZI1 (vgl. Witzel, 1982, S. 7 f.). Seither wurden zahlreiche Studien in unterschiedlichen Forschungsdisziplinen publiziert, in welchen eine Anwendung und Erprobung dieser Erhebungsmethode erfolgte (vgl. zusammenfassend Witzel & Reiter, 2012, S. 9), sodass neben theoretischen Abhandlungen auch ein Rückgriff auf praktische Erfahrungswerte möglich ist. Exemplarisch kann auf die folgenden aktuellen Studien aus unterschiedlichen wissenschaftlichen Domänen verwiesen werden: eine Qualifikationsarbeit im Bereich Geographiedidaktik, welche mithilfe des PZI die Lernervorstellungen bezüglich des Themenfeldes Plattentektonik erfasst (vgl. Conrad, 2014), das DFGProjekt „Bildungsbenachteiligung“ als Topos pädagogischer Akteure in Ganztagsschulen, welches anhand des PZI mit schulischen Akteurinnen bzw. Akteuren die Wahrnehmung der innerorganisationalen Zusammenarbeit rekonstruiert (Dollinger, Coelen, Buchna & Rother, 2016) sowie eine Qualifikationsarbeit im Bereich der Wirtschaftswissenschaften mit dem Ziel, den Organisationswandel in ausgewählten Fachbereichen der Freien Universität Berlin zu analysieren (vgl. Jacobs, 2009). Das PZI ist per Definition „a qualitative, discursive-dialogic method of reconstructing knowledge about relevant problems“ (Witzel & Reiter, 2012, S. 4). Es lässt sich als halbstrukturierte, aber dennoch weitestgehend offene Interviewform kategorisieren, die primär der Hypothesengenerierung und -prüfung dient (vgl. Kurz, Stockhammer, Fuchs & Meinhard, 2009, S. 465; Lamnek & Krell, 2016, S. 362). Mit dem Ziel einer gegenstands- und situationsorientierten Datenerhebung bezieht sich das PZI auf die drei folgenden Grundprinzipien (vgl. vertiefend Witzel, 1982, S. 67 ff.): – Problemzentrierung: Es erfolgt eine induktiv-deduktive Analyse hinsichtlich „einer vom Forscher wahrgenommenen gesellschaftlichen Problemstellung“ (ebd., S. 67). 1 Das

PZI umfasst ursprünglich „eine Methodenkombination bzw. -integration von qualitativem Interview, Fallanalyse, biographischer Methode, Gruppendiskussion und Inhaltsanalyse“ (Witzel, 1989, S. 230). Die vorliegende Studie bezieht sich ausschließlich auf das Teilelement des qualitativen Interviews.

134

7

Qualitative Datenerhebung anhand von problemzentrierten …

– Gegenstandsorientierung: Die betrachtete, gesellschaftlich relevante Problemstellung bildet den Ausgangspunkt hinsichtlich der Ausgestaltung und Kombination der eingesetzten Methoden. – Prozessorientierung: Es wird eine schrittweise und flexible Datenerhebung bzw. -analyse sichergestellt. Im Folgenden sollen die Grundzüge des PZI gleichermaßen erläutert wie auch dessen Einsatz im Rahmen dieser Studie begründet und beschrieben werden. Die Autorin orientiert sich an den Ausführungen von Witzel (vgl. Witzel, 1982, 1989, 1996, 2000; Witzel & Reiter, 2012) und argumentiert die Methodenwahl anhand von vier konkreten Merkmalen: Berücksichtigung des vorhandenen Vorwissens Das PZI verzichtet bewusst auf eine künstliche Ausblendung von empirischen Erkenntnissen und theoretischen Ansätzen. Stattdessen werden die vorhandenen Kenntnisse gezielt für die Konzeption und Durchführung von Interviews genutzt und fungieren somit als eine Art grundlegender Orientierungsrahmen (vgl. Witzel, 2000, S. 1 ff.) Diese Studie rekurriert sowohl auf den theoretischen Ansatz der Educational Governance als auch auf empirische Befunde zu zentralen Prüfungsformaten (vgl. vertiefend Kapitel 4 und 5). Diese geben Hinweise auf interessante bzw. problematische Aspekte, wie z. B. die Existenz stark differierender länderspezifischer Konfigurationsvarianten des Erwartungshorizontes im Kontext der zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch (vgl. Mathes & Kühn, 2016) oder die potenzielle Herausforderung, trotz möglicher individueller Rekontextualisierungsprozesse eine einheitliche Beurteilungspraxis zu schaffen (vgl. Fend, 2008a). Folglich bilden die theoretischen Annahmen und empirischen Ergebnisse eine Hilfestellung für die begründete Beschränkung auf für das Forschungsinteresse relevante Inhalte sowie einen Impuls, um konkrete Fragestellungen für den Gesprächsleitfaden abzuleiten. Auf diese Weise war es möglich, die neu erhobenen Befunde bereits im Rahmen der Datenerhebung mit dem Vorwissen abzugleichen, um gezielt vorhandene theoretische Annahmen zu überprüfen (vgl. Witzel, 1982, S. 68 f.), wie z. B. das Vorhandensein unterschiedlicher Wahrnehmungen des Erwartungshorizontes sowie einer heterogenen Beurteilungspraxis im Rahmen der zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch. Offenheit hinsichtlich neuer Erkenntnisse Trotz des Einbezugs von relevanten Vorkenntnissen darf das PZI nicht als rein deduktives Verfahren missverstanden werden. Es vollzieht sich vielmehr in einem

7.1 Begründung der Methodenwahl

135

induktiv-deduktiven Wechselverhältnis (vgl. Witzel, 2000, S. 1 f.; Witzel & Reiter, 2012, S. 28). Witzel und Reiter (2012) veranschaulichen dies, indem sie die Interviewenden mit gut vorbereiteten Reisenden vergleichen, die das vor Reisebeginn erworbene Hintergrundwissen zwar in den Gesprächen mit den Einheimischen einbringen, ihren Reiseverlauf bzw. -bericht hingegen maßgeblich in Abhängigkeit von den Erzählungen der angetroffenen Personen gestalten. Im übertragenen Sinne bedeutet dies, dass das Vorwissen die Gespräche in der Art von sogenannten sensitizing concepts vorstrukturiert (vgl. vertiefend Blumer, 1954), d. h. „offene Konzepte, die den Untersucher oder die Untersucherin für die Wahrnehmung sozialer Bedeutungen in konkreten Handlungsfeldern sensibilisieren und hinsichtlich ausgewählter Inhalte sensibilisiert“ (Kelle & Kluge, 2010, S. 29), jedoch die Gewährleistung von Offenheit bei der Durchführung der Interviews ermöglichen. Im eigenen Forschungsprojekt strukturiert zwar der zuvor erstellte Leitfaden die Interviews vor, dieser soll allerdings flexibel eingesetzt werden, um das Gespräch individuell auf die Schilderungen der Lehrkräfte abstimmen zu können (vgl. Witzel, 1982, S. 90 f.). Dies erscheint insbesondere vor dem Hintergrund sinnvoll, dass aufgrund der beschriebenen empirischen Leerstelle im Bereich der Leistungsbeurteilung in zentralen Prüfungen unklar bleibt, inwiefern der Erklärungsansatz der Educational Governance-Forschung (vollständig) hierauf übertragen werden kann. Die offene, flexible Interviewgestaltung kann einen Beitrag zur Vermeidung von Fehldeutungen des Gesagten leisten, welche im Falle einer starken Orientierung an theoretischen Ansätzen vermehrt auftreten könnten. Die Interviewvariante zielt darauf, neue Erkenntnisse bzw. Annahmen zu generieren und diese vertiefend, erweiternd oder modifizierend in die vorhandenen empirischen und theoretischen Wissensbestände zu integrieren (vgl. Lamnek & Krell, 2016, S. 345). Problemzentrierung Bei der Problemzentrierung handelt es sich um die zentrale Grundposition des PZI (vgl. Witzel, 1982, S. 67). Der Begriff bezieht sich nicht speziell auf Untersuchungen problematischer Aspekte, sondern zielt auf Forschungsvorhaben mit einer spezifischen, „gesellschaftlich relevante[n] Problemstellung“ (Witzel, 2000, S. 2). Anhand von Fragestellungen, die auf das konkrete Forschungsinteresse abgestimmt sind, sollen im Rahmen von Interviews gezielt Erkenntnisse gewonnen werden (vgl. ebd.). Im Kontext dieses Forschungsvorhabens ergibt sich folgende gesellschaftlich relevante Fragestellung: „Wie wird die Leistungsbeurteilung im Kontext der zentralen Prüfungen von den beteiligten Lehrkräften wahrgenommen und inwiefern deutet sich hierbei ein variierender Umgang mit dem Erwartungshorizont bzw. dessen Steuerungswirksamkeit hinsichtlich der Realisierung einer vergleichbaren und möglichst objektiven Zertifizierungspraxis an?“. Die hieraus abgeleiteten

136

7

Qualitative Datenerhebung anhand von problemzentrierten …

Interviewfragen sowie deren Zusammenfassung in Form eines Leitfadens sollen die diesbezüglichen Wahrnehmungen der beteiligten Lehrkräfte im Rahmen der Beurteilungspraxis sichtbar machen. Erfassung von subjektiven Wahrnehmungen und individuellen Handlungen Unter Bezugnahme auf die Individualisierungsthese2 (vgl. vertiefend Beck, 2000, S. 113 ff.) sowie das Konzept der Selbstsozialisation3 (vgl. Heinz & Witzel, 1995, S. 100 ff.) geht Witzel davon aus, dass sich das Handeln einer Person nicht mehr ausschließlich durch gesellschaftliche Zwänge antizipieren bzw. erläutern lässt, sondern vielmehr eine Folge der individuellen, selbstreflexiven Auseinandersetzung des Subjekts mit der Umwelt darstellt (vgl. Witzel, 2000, S. 1; Witzel & Reiter, 2012, S. 8). Entsprechend zielt das PZI unter der Berücksichtigung relevanter theoretischer Konzepte auf die Erfassung subjektiver Wahrnehmungen, welche wiederum eine Beschreibung und Erläuterung der individuellen Handlungsweisen in einem bestimmten Kontext ermöglichen. Dieser Fokus des PZI weist eine hohe Passung zu dem zentralen Erkenntnisinteresse der vorliegenden Studie auf, welches auf der Erfassung von Wahrnehmungen und Handlungsbeschreibungen von Lehrkräften im Rahmen der Leistungsbeurteilung in den zentralen Prüfungen unter besonderer Berücksichtigung des landeseinheitlichen Erwartungshorizontes liegt (vgl. vertiefend Kapitel 6).

7.2

Beschreibung der methodischen Durchführung

Das PZI gliedert sich grob in zwei Teile: die Kontaktaufnahme sowie das eigentliche Gespräch mit der Lehrkraft (vgl. Witzel, 2000, S. 3). Dieses Unterkapitel gibt einen Überblick über das konkrete Vorgehen der Datenerhebung orientiert an dessen chronologischer Abfolge. Um einen möglichst vollständigen Überblick über den gesamten Prozess zu schaffen, werden ergänzend die Interviewvorbereitung und -nachbereitung thematisiert.

2 Beck

(2000) geht im Rahmen der Individualisierungsthese davon aus, dass Menschen in modernen Gesellschaften selbstbestimmter handeln können bzw. müssen, da sie „aus traditionellen Klassenbindungen und Versorgungsbezügen der Familie herausgelöst [sind]“ (Beck, 1994, S. 44). 3 Gemäß dem Konzept der Selbstsozialisation ist das Individuum aktiv am eigenen Sozialisationsprozess beteiligt und gestaltet diesen mit (vgl. vertiefend Calmbach & Borgstedt, 2013).

7.2 Beschreibung der methodischen Durchführung

7.2.1

137

Vorbereitung der Interviews

In einem ersten Schritt bedurfte es der Konkretisierung und Planung der Interviews. Im Anschluss an die Diskussion unterschiedlicher Interviewgestaltungen und deren potenzieller Auswirkungen begrenzte die Autorin die Anzahl der Interviewpartnerinnen und -partner auf eine Person je Gespräch. Sie vermutete, dass eine derartige Zusammensetzung hilfreich ist, um sich optimal auf die interviewte Person und deren individuelle Darstellungen konzentrieren zu können (vgl. Gläser & Laudel, 2010, S. 43). Zudem erschien die Entscheidung für Einzelinterviews außerdem hinsichtlich der möglichen Brisanz der Thematik sinnvoll, da mit steigender Anzahl der Gesprächsbeteiligten die Generierung eines notwendigen Vertrauensverhältnisses erschwert sein könnte und liegt dieses nicht vor, besteht die Gefahr einer geringen Antwortbereitschaft sowie strategischer Gesprächsbeiträge auf Seiten der Interviewten (vgl. Lamnek, 2005, S. 87). Folglich zielten die Einzelinterviews darauf, eine kritische Erörterung der Leistungsbeurteilung in den zentralen Prüfungen sowie eine Thematisierung von abweichendem Handeln (wie z. B. eine modifizierte Nutzung des Erwartungshorizontes oder ein Verzicht hinsichtlich der Durchführung der Zweitkorrektur) zu fördern. Mit dem Ziel, frühzeitig den Aufbau einer vertrauensvollen Beziehung zur Erzählperson beginnen zu können, kontaktierte die Interviewerin die potenziellen Gesprächspartnerinnen und -partner persönlich (vgl. Kurz et al., 2009, S. 468 f.). Zur zeitnahen und weiträumigen Erreichung interessierter Lehrkräfte kombinierte sie zwei Zugangswege (vgl. Helfferich, 2011, S. 175): eine offizielle Kontaktanbahnung über Gatekeeper (z. B. zuständige Landesbildungsministerien und -institute) sowie die Initiierung eines Schneeballsystems über vorhandene Kontakte (z. B. Personen, die an der universitären und schulischen Ausbildung von Lehrkräften beteiligt sind bzw. selbst als Lehrkraft tätig sind). Zusätzlich zur mündlichen Anfrage fasste eine schriftliche Kurzinformation die wichtigsten Daten zusammen. Um den potenziellen Gesprächspartnerinnen bzw. -partnern eine thematische Orientierung zu ermöglichen, jedoch eine frühzeitige Vorbereitung und Lenkung des Interviews weitestgehend zu vermeiden (vgl. Kurz et al., 2009, S. 467), skizziert die Kurzinformation das Forschungsinteresse lediglich grob. Darüber hinaus beinhaltet diese eine kurze Charakterisierung geeigneter Interviewpartnerinnen bzw. Interviewpartner (vgl. vertiefend Abschnitt 7.4) sowie die organisatorischen Rahmendaten des Interviews (d. h. Ort, Zeitpunkt, Dauer und Zusicherung der Anonymität). Die digitale Form der Kurzinformation erlaubte zudem eine schnelle und unkomplizierte Weiterleitung an interessierte Lehrkräfte. Der Durchführungszeitpunkt und -ort des Interviews wurde individuell mit den Gesprächsbeteiligten abgestimmt, um deren Aufwand gering zu halten sowie die

138

7

Qualitative Datenerhebung anhand von problemzentrierten …

Teilnahmebereitschaft zu steigern. Die Interviewdurchführung in einer vertrauten Umgebung sollte darüber hinaus eine angenehme Gesprächsatmosphäre begünstigen (vgl. Misoch, 2015, S. 209). Im Kontext der Terminierung der Gespräche lag das Augenmerk neben den Präferenzen der Interviewpartnerinnen bzw. Interviewpartner zusätzlich darauf, dass zwischen den Interviews genügend Zeit für deren organisatorische bzw. inhaltliche Vor- und Nachbereitung besteht. Da keine der befragten Lehrkräfte auf bisherige Interviewerfahrungen zurückgreifen konnte, erfolgte zunächst ein kurzes informelles Gespräch, um vorab mögliche Fragestellungen zu klären. In einem ersten Schritt stellte sich die Interviewerin vor und betonte ihre Rolle als angehende Deutschlehrerin sowie das daraus resultierende Interesse an der schulischen Praxis. Die Entscheidung für einen legeren Kleidungsstil sollte zudem einer Hierarchisierung der Gesprächsbeteiligten vorbeugen und stattdessen eine Unterhaltung auf Augenhöhe begünstigen (vgl. Kurz et al., 2009, S. 470). In einem zweiten Schritt wurde das Forschungsinteresse grob erläutert und Hinweise zum Interview gegeben, um mögliche Hemmungen abzubauen und einen störungsfreien Gesprächsverlauf anzuregen. Neben dem erneuten Verweis auf die Gesprächsaufzeichnung und die Anonymisierung der Inhalte, erschien es besonders wichtig hervorzuheben, dass im Gespräch keine Wissensüberprüfung hinsichtlich der zentralen Prüfungen stattfindet. Vielmehr bekundete die Interviewerin ein Interesse an den individuellen Wahrnehmungen und Handlungen der Lehrkräfte und verwies auf die daraus resultierende Offenheit der Fragen (vgl. Witzel, 1982, S. 94 f.). In einem letzten Schritt verteilte sie die eingesetzten Stimuli in Form von zwei kontrastierenden Ausschnitten aus Erwartungshorizonten, damit die Lehrkräfte diese vorab in Ruhe lesen konnten. Jedoch zeigte sich nach einigen Durchgängen, dass die Erzählpersonen in der Regel gewillt waren, sich direkt hierzu zu äußern. Aufgrund der Befürchtung, dass durch das Zurückstellen der Thematik erste Eindrücke hinsichtlich der Ausschnitte verloren gehen könnten, wurde die Vorgehensweise im Verlauf der Datenerhebung geändert und die Stimuli nachfolgend erst während des Interviews vorgelegt.

7.2.2

Durchführung der Interviews

Die Grundstruktur des Interviews resultierte aus den offenen Fragen des Leitfadens sowie den eingesetzten Stimuli (vgl. vertiefend Abschnitt 7.3). Darüber hinaus blieb der Gesprächsverlauf in Anpassung an die Erzählpersonen weitestgehend offen, da das vorrangige Ziel nicht in der Überprüfung von Erkenntnissen, sondern in der Deskription der Beurteilungspraxis im Rahmen der zentralen Prüfungen zum Erwerb des MSA bestand. Anstelle einer starren Abarbeitung der vorformulierten

7.2 Beschreibung der methodischen Durchführung

139

Fragen, erfolgte ein flexibler Einsatz der Instrumente bezüglich der Reihenfolge und Vertiefung von relevanten Themen. Auf diese Weise wurde eine „befragtenzentrierte Kommunikationssituation“ angestrebt (vgl. Witzel, 2000, S. 2), in welcher „die Bedeutungsstrukturierung der sozialen Wirklichkeit […] dem Befragten allein überlassen [blieb]“ (Lamnek & Krell, 2016, S. 345). In Abhängigkeit des jeweiligen Interviewverlaufs fanden in unterschiedlichem Umfang erzählungsgenerierende und verständnisgenerierende Kommunikationsstrategien Anwendung, um gleichermaßen neue Informationen zu erfassen sowie zu verstehen (vgl. vertiefend Witzel, 1982, S. 92 ff.). Neben einem Rückgriff auf vorformulierte Fragen sowie Stichworte des Leitfadens (vgl. vertiefend Abschnitt 7.3.1) wurden außerdem situationsabhängig die Techniken der allgemeinen und spezifischen Sondierung genutzt, um den Erkenntnisgewinn zu maximieren (vgl. Witzel, 2000, S. 3 f.). Die allgemeine Sondierung zielt anhand der Formulierung von Nachfragen auf die Präzisierung von bisherigen Ausführungen und die Anregung von weiterführenden Beschreibungen bezüglich eines bestimmten Themas (vgl. Witzel, 2000, S. 4). Der Einsatz von Nachfragen ergab sich in Abhängigkeit des inhaltlichen Gehalts der Gesprächsbeiträge sowie der Aufrechterhaltung eines Erzählflusses: I4 : […] Wenn Sie jetzt für sich Kriterien festlegen würden, was einen nützlichen Erwartungshorizont ausmacht für Sie, könnten Sie irgendwelche Aspekte nennen, die für Sie sinnvoll wären in Erwartungshorizonten? B: (…) Möglichst eine knappe Aufzählung von allen Aspekten, die zur Beantwortung der Aufgabe möglich wären. (…) Möglich und dann aber auch nochmal die, die nötig sind, ja genau, das muss man irgendwie trennen. Einige müssen mit Sicherheit enthalten sein, und andere können enthalten sein, dass man sich dann da welche aussuchen kann. Und dann zusätzlich dazu die Verteilung der Punkte, meinetwegen, wie viel kriegt ein nötiger Punkt, also nötiges Kriterium und wenn jetzt ein mögliches kommt, vielleicht dann auch weniger Punkte. Aber dass man das irgendwie besser erklärt, wie die auf die Punktzahl gekommen sind. I: Und das dann in einer Stichpunktform oder/ B: Ja, am liebsten stichpunktartig. Also so wie hier. I: Schon aufgegliedert dann, ja. Was halten Sie von so authentischen Schülerlösungen, wenn die drin wären? […] B: (…) Ich finde es interessant, die zu lesen, weil man dann nochmal so ein bisschen einordnen kann, vor allem sprachlich auch, was die eigenen Schüler denn so (.) können. 4 Ergänzende

Anmerkungen zu den verwendeten Abkürzungen: das Kürzel I wird vor Gesprächsbeiträgen der Interviewerin genutzt und das Kürzel B wird vor Gesprächsbeiträgen der befragten Person eingesetzt. Weiterführende Erläuterungen zur Notation erfolgen im Kontext der Beschreibung der Transkription (vgl. Tablle 7.1).

140

7

Qualitative Datenerhebung anhand von problemzentrierten …

Man vertut sich ja vielleicht auch manchmal. Der eine ist strenger, der andere nicht so sehr, der eine legt mehr Wert auf Sprache und Satzbau und der andere wieder weniger. Und dann kriegt man nochmal so einen Eindruck, wie ist denn so ein, wie sind denn andere Schüler eigentlich, bin ich auf dem richtigen Weg. Aber das als einzige Lösung fände ich dann wieder nicht so gut, also dann müsste das ja schon qua/nee, das fände ich nicht so gut. Dann würde man jetzt alle anderen Schüler da drüber/ I: An einem Einzelfall B: scheren, ja. I: Gäbe es für Sie auch formale Punkte wie ein Erwartungshorizont aussehen müsste, also die beiden Beispiele sind ja auch schon, (.) ja, unterschiedlich ausgestaltet. Hätten Sie da Wünsche? B: (..) Ich nehme mal an, Sie haben den klein kopiert oder? Sonst würde ich auf jeden Fall sagen, eine größere Schrift. (…) Die Aufgabenstellungen sichtbar getrennt, also die (…) sagen wir mal, die Unteraspekte, hier ist jetzt ja eigentlich nur eine Aufgabenstellung, ne. Aber bei uns ist ja oft A, B, C, D, E, dass das deutlich getrennt ist. (…) Ja, sonst finde ich das so tabellenartig eigentlich schon gut. (NW4, Position 71–80)

Die spezifischen Sondierungen bilden Intervieweingriffe zur Herstellung eines möglichst vollständigen Verständnisses des Gesagten (vgl. Witzel, 1989, S. 247 f.). Im Interviewverlauf wurden hierzu Zurückspiegelungen und Verständnisfragen eingesetzt. Bei ersterem handelt es sich um die Zusammenfassung der Aussage einer befragten Lehrkraft durch die interviewende Person, sodass eine erneute Bestätigung oder Korrektur des Gesagten möglich sowie Missverständnisse vermieden werden (vgl. ebd.). In den Interviews diente die Anwendung dieser Technik häufig der Sicherung des Verständnisses von längeren Gesprächsbeiträgen der Befragten: B: Ja, es gab/Also ich habe den Kurs damals von einer Kollegin übernommen, die in Elternzeit gegangen ist, das heißt, wir haben eine Weile noch zusammen unterrichtet und sie hat mich dann natürlich ein bisschen an die Sache ran geführt. Das war sehr schön für mich, dass wir erst mal zu zweit waren. Wir hatten dann ganz gutes Material, das haben wir ja mit den Schülern zusammen durchgearbeitet. Das war auch eine lange Zeit für die Schüler. Also ich glaube, wir haben die komplette Zeit, ich habe im Februar angefangen, Ich habe dann im März, glaube ich, komplett übernommen und ab da haben wir nur noch für die ZP10 auch mit diesem Material gearbeitet. I: Okay, also doch eine sehr umfangreiche Vorbereitung. B: Das war eine sehr umfangreiche Vorbereitung, ja. (NW1, Position 16–18)

7.2 Beschreibung der methodischen Durchführung

141

Die Nutzung von Verständnisfragen erfolgt von Seiten der Befragten, wenn die Fragestellungen bzw. die zugrundeliegenden Konzepte der interviewenden Person unverständlich sind (vgl. Witzel, 1989, S. 248 f.). Der Großteil der Unklarheiten ergab sich in den Interviews aufgrund der Offenheit der Fragen (d. h. hinsichtlich des gewünschten Umfangs und des Fokus der Antwort) sowie aufgrund der Unwissenheit bezüglich des Vorgehens anderer (Bundes-)Länder im Kontext von Abschlussprüfungen: I: Für Sie als Lehrkraft, was bietet das für Herausforderungen und Chancen, dass Sie eine Prüfung, ich sag jetzt mal, von außen bekommen? B: (..) Was heißt von außen? I: Normale Klassenarbeiten bereiten Sie ja üblicherweise vor und/(kurzes Auflachen) B: Ja. Also grundsätzlich ist es so, dass/Gut, es/(…) Lassen Sie mich einen Moment nachdenken, ich möchte es an einem Beispiel darstellen. Gut. (..) Ich habe zum Beispiel eine ganz klare Planung, wie viel Zeit nehme ich mir für die Textbeschreibung eines lyrischen Textes, wie viel Zeit fürs Rahmenthema, wie viel Zeit für die Textbeschreibung nochmal eines Prosatextes, wie viel Zeit für die Lektüre, für das literarische Thema. (..) Und da ist natürlich ganz klar, dass ich mich abspreche zum Beispiel mit Kolleginnen und Kollegen, die in den parallelen Klassen unterrichten. Also wir haben da klare Absprachen. […] (BW2, Position 17–20)

Auf die Möglichkeit der Nutzung von Konfrontationen im Rahmen der spezifischen Sondierung wurde bewusst verzichtet, um einen Rechtfertigungsdruck bei den Befragten und eine damit einhergehende Verschlechterung der Gesprächsatmosphäre zu vermeiden (vgl. Witzel, 2000, S. 4). Zur Sicherstellung einer vollständigen und objektiven Dokumentation zeichnete ein Tonbandgerät sämtliche Interviews auf (vgl. Witzel, 2000, S. 3). Eine umfassendere videographische Aufnahme erschien aufgrund des erhöhten Aufwandes in Kombination mit einem geringen bzw. nicht vorhandenen Mehrwertes hinsichtlich des Forschungsinteresses nicht sinnvoll (vgl. Witzel, 1989, S. 237).

7.2.3

Nachbereitung der Interviews

Im Anschluss an die Interviews folgte in einem ersten Schritt ein kurzes Nachgespräch. In diesem informellen Rahmen gaben die Lehrkräfte eine Rückmeldung zum Interview und führten teilweise ihre Gesprächsbeiträge weiter aus. Die Interviewerin verwies abschließend auf das Angebot der Übermittlung von Forschungsergebnissen und bat um die Vermittlung von weiteren Kontakten zu interessierten Lehrkräften.

142

7

Qualitative Datenerhebung anhand von problemzentrierten …

Der zweite Schritt der Nachbereitung bestand in der stichpunktartigen Aufzeichnung der eigenen subjektiven Wahrnehmungen in Form eines Postskriptums als Ergänzung zur Dokumentation der Gesprächsinhalte (vgl. Witzel, 2000, S. 3). Das Postskriptum beinhaltet u. a. Informationen zu den Wahrnehmungen der Interviewerin bezüglich der Rahmenbedingungen (z. B. Gesprächsklima, verfügbare Zeit, Störungen), des grundlegenden Gesprächsablaufs, der thematischen Schwerpunktsetzungen sowie Auffälligkeiten und Problemen. In einem abschließenden Schritt der Nachbereitung erfolgte schließlich die vollständige Verschriftlichung der aufgezeichneten Interviews durch ein professionelles Transkriptionsbüro inklusive einer Korrekturschleife durch die Autorin, in welcher neben der Überprüfung der Verschriftlichung, unverständliche Passagen transkribiert und persönliche Daten anonymisiert wurden. Im Hinblick auf das Ziel einer Deskription der Wahrnehmungen von Lehrkräften unter Einbezug ihrer individuellen, sprachlichen Beschreibungen bedurfte es einer genauen wörtlichen Transkription des Gesagten. Da eine Verschriftlichung von paraverbalen Aspekten (z. B. Intonation, Sprechlautstärke oder -geschwindigkeit) nur einen eingeschränkten Mehrwert bezüglich des Forschungsinteresses vermuten ließ, wurde auf diese weitestgehend verzichtet. Lediglich emotionale Lautäußerungen, welche die Interpretation des Gesagten unterstützen (z. B. lachen, seufzen) sowie Gesprächspausen wurden notiert (vgl. ebd., S. 21 ff.). Die gegenstandsbezogene Entscheidung für eine vereinfachte Form der Transkription sollte gleichermaßen die Komplexität der Transkripte reduzieren und den Zugang zu den Gesprächsinhalten in der Analyse vereinfachen (vgl. Dresing & Pehl, 2018, S. 16 ff.). Um die Audioaufzeichnungen der Interviews so präzise wie notwendig zu verschriftlichen, erfolgte eine Orientierung an den Transkriptionsregeln nach Kuckartz et al. (2008) sowie an dem vereinfachten Transkriptionssystem nach Dresing und Pehl (2018). Konkret definiert sich die vorgenommene Transkription anhand der folgenden Merkmale: – Verzicht auf die Transkription para- und nonverbaler Aspekte (Ausnahme: Transkription von emotionalen Lautäußerungen und Gesprächspausen) – Verzicht auf die Transkription von Wort- und Satzabbrüchen sowie Wortdoppelungen (Ausnahme: die Erzählperson nutzt diese bewusst z. B. zur Imitation einer Person oder zur Hervorhebung eines Aspektes) – Verzicht auf die Transkription von bestätigenden Lautäußerungen der momentan zuhörenden Person (z. B. mhm, ja) – Übertragung von Dialekten und Akzenten ins Hochdeutsche – Übertragung von mündlichen Wortverschleifungen in die Schriftsprache

7.3 Vorstellung der Erhebungsinstrumente

143

– Anonymisierung sämtlicher Eigennamen von Personen und Orten, die einen Rückschluss auf die interviewte Person erlauben, durch den entsprechenden Interview-Code5 Die folgenden Notationen wurden verwendet, um die Transkripte zu vereinheitlichen (Tabelle 7.1): Tabelle 7.1 Notationen der Transkripte in Anlehnung an Kuckartz et al. (2008) und Dresing und Pehl (2018) Notation

Erläuterung

I:

Einleitung von Gesprächsbeiträgen der Interviewerin

B:

Einleitung von Gesprächsbeiträgen der Befragten

unv.

Kennzeichnung von unverständlichen Wörtern

(.)

Markierung von Pausen bis zu einer Sekunde

(..)

Markierung von Pausen für zwei Sekunden

(…)

Markierung von Pausen von mindestens drei Sekunden

#h:min:sek-m#a

Zeitmarke zur Dokumentation des zeitlichen Ablaufs (nach jedem Sprecherwechsel)

a Zum Verständnis der Abkürzungen: h = Stunde, min = Minute, sek = Sekunde und m = Hundertstelsekunde

Zur Strukturierung der Transkripte erfolgte eine Formatierung in Blocksatz. Die eingefügten Absätze und die Hervorhebung der Gesprächsbeiträge der Interviewerin durch Fettdruck sollten eine sichtbare Abgrenzung der Aussagen sowie eine verbesserte Lesbarkeit ermöglichen. Des Weiteren wurde im Anschluss an jeden Sprecherbeitrag die Angabe der entsprechenden Zeitmarke notiert, um gezielt ausgewählte Passagen nachhören zu können.

7.3

Vorstellung der Erhebungsinstrumente

Wie bereits im Rahmen der Beschreibung der methodischen Durchführung erwähnt, wurden Instrumente konzipiert, um das Gespräch grundlegend zu strukturieren (Leitfaden) bzw. Inhalte zu veranschaulichen (Ausschnitte aus Erwartungshorizonten, 5 Der

Code des Interviews setzt sich aus dem Kürzel des Bundeslandes, in welchem die Lehrkraft unterrichtet und einer chronologischen Nummerierung zusammen (z. B. NW1, BW4).

144

7

Qualitative Datenerhebung anhand von problemzentrierten …

Strahle zur Einschätzung der Nützlichkeit und Nutzung der Erwartungshorizonte). In den folgenden Unterkapiteln sollen die Instrumente differenziert betrachtet werden, hierzu wird ihre Entwicklung beschrieben und ihre Gestaltung erläutert.

7.3.1

Entwicklung und Aufbau des Leitfadens

Zur fundamentalen Gliederung des Interviews fasst ein flexibler, dem Gespräch zugrundeliegender Leitfaden das relevante theoretische Wissen wie auch die zu behandelnden thematischen Ausschnitte zusammen (vgl. Kruse, 2015, S. 206 f.). Die Verschriftlichung der Themen dient als Orientierung sowie als Absicherung, sodass trotz der Gewährleistung von Offenheit sämtliche relevanten Aspekte der Forschungsfragen thematisiert werden. Der Leitfaden beinhaltet offene, in Themenblöcke gegliederte Fragestellungen, welche im Gespräch zu einer fokussierten, inhaltlich bzw. zeitlich ökonomisierten Erhebung von Daten und deren erhöhter Vergleichbarkeit führen sollen (vgl. zusammenfassend Mayer, 2013, S. 37 ff.). Bevor die Autorin den Aufbau des Leitfadens genauer darstellt, zeichnet sie im Folgenden zunächst den vorgelagerten, untrennbar verbundenen Prozess von Entwicklung und Erprobung nach. Entwicklung und Erprobung des Leitfadens Im komplexen Prozess der Leitfadenentwicklung bedarf es der Berücksichtigung zahlreicher Aspekte, um eine möglichst genaue Ausrichtung des Instrumentes auf den Forschungsgegenstand zu erreichen und eine hohe Güte des Interviews zu ermöglichen (vgl. Kruse, 2015, S. 219 ff.). In Anlehnung an das SPSS-Prinzip6 nach Helfferich (2011) bestand der erste Entwicklungsschritt in einem offenen Brainstorming. Unter Berücksichtigung der theoretischen Grundlagen, des empirischen Forschungsstandes sowie der zentralen Fragestellungen der Studie wurden im Austausch mit weiteren Bildungswissenschaftlerinnen bzw. Bildungswissenschaftlern konkrete Fragen konstruiert, modifiziert und teilweise wieder verworfen. Ergänzend hierzu bot sich die Möglichkeit eines Rückgriffes auf einen im DFG-Projekt erstellten und erprobten Leitfaden für Interviews mit ausgewählten Vertreterinnen und Vertretern der bildungspolitischen Ministerien (vgl. Kapitel 6). Neben den gesammelten Erfahrungen bezüglich der Konstruktion und Nutzung dieses Leitfadens 6 Das

SPSS-Prinzip beschreibt ein praxisorientiertes Vorgehen der Leitfadenerstellung im Kontext von qualitativen Interviews und umfasst die vier Schritte: Sammeln (von Fragen), Prüfen, Sortieren und Subsumieren von Einzelaspekten (vgl. vertiefend Helfferich, 2011, S. 182 ff.).

7.3 Vorstellung der Erhebungsinstrumente

145

konnten aufgrund von teils ähnlichen Forschungsfragen einige der Fragestellungen in modifizierter Form übernommen werden. Im Anschluss galt es, den Korpus aller potenziellen Fragestellungen in verschiedene Themenbereiche zu differenzieren und innerhalb dieser eine nachvollziehbare Reihenfolge der Fragestellungen festzulegen, sodass abrupte Themenwechsel vermieden und ein möglichst „natürlicher“ Gesprächsverlauf unterstützt wird (vgl. Helfferich, 2011, S. 178 ff.). Mit dem Ziel eine hohe Verständlichkeit sowie Offenheit der Fragen zu gewährleisten, wurden außerdem die Fragestellungen eingehend hinsichtlich ihrer Formulierung geprüft. Nach der Fertigstellung eines ersten Leitfaden-Entwurfs erfolgte dessen Erprobung im Rahmen eines Pretests. Zwei Lehramtsstudierende, die vorbereitend eine Schulung bezüglich des Forschungsziels sowie der Gestaltung und Nutzung des Leitfadens erhalten hatten, führten insgesamt 14 Interviews mit Lehrkräften in Niedersachsen und Nordrhein-Westfalen durch. Anhand der Erfahrungen der Interviewerin sowie der Gesprächstranskripte konnte eine erneute Überarbeitungsschleife stattfinden. In einem abschließenden Schritt wurde der mehrfach modifizierte Leitfaden einer größeren Forschergruppe mit unterschiedlicher Expertise vorgestellt (u. a. Personen mit hoher Kompetenz hinsichtlich der Educational Governance-Forschung, der zentralen Prüfungspraxis, Interviewführung und Leitfadenerstellung sowie mit schulpraktischen Erfahrungswerten) und bezüglich inhaltlicher und methodischer Schwächen diskutiert. Dies leitete eine letzte umfangreichere Modifikation des Leitfadens ein. Im Sinne der Zirkularität qualitativer Forschung nahm die Interviewerin darüber hinaus auch im Durchführungsprozess kleinere Anpassungen ausgewählter Elemente vor (z. B. die Ergänzung oder Streichung weiterer Impulse), die aus der anschließenden Reflexion der Gespräche resultieren. Im Hinblick auf eine bundesweite Interviewdurchführung erschien es zusätzlich notwendig, länderspezifische Varianten von Leitfäden zu formulieren. Diese unterscheiden sich teilweise in den verwendeten Bezeichnungen (z. B. mittlerer Schulabschluss, Realschulabschluss) sowie in einigen gezielten Fragen und Impulsen, welche die Wahrnehmungen hinsichtlich spezifischer Vorgehensweisen (z. B. Einsatz eines schulexternen Zweitkorrektors in Baden-Württemberg) bzw. variierender Gestaltungen der Erwartungshorizonte (z. B. der Passus „Ein weiteres aufgabenbezogenes Kriterium wurde erfüllt.“ in Nordrhein-Westfalen) erfassen sollen. Aufbau des Leitfadens Der Leitfaden übernimmt im PZI die Funktionen einer Art „Hintergrundfolie“ und unterstützt den Interviewer bzw. die Interviewerin durch die Organisation des thematischen Vorwissens sowie die Vorformulierung möglicher Fragen (vgl. Witzel, 2000, S. 3). Damit ein flexibler, auf den Erzählstrang der Lehrkraft abgestimmter Einsatz

146

7

Qualitative Datenerhebung anhand von problemzentrierten …

des Leitfadens möglich ist, bedarf es einer übersichtlichen Struktur (vgl. Helfferich, 2011, S. 180). Der vorliegende Leitfaden ist unter Bezugnahme auf die verschiedenen Dimensionen des Forschungsgegenstandes grob in drei Themenblöcke unterteilt (vgl. Kruse, 2015, S. 213 ff.): – Zentrale Prüfung – Wahrnehmung des Beurteilungsverfahrens – Handlungen im Beurteilungsverfahren Die Gliederung der einzelnen Themenblöcke orientiert sich grundlegend am Aufbauprinzip eines Interviewleitfadens nach Kruse (2015). Als Darstellungsform wurde eine tabellarische Gestaltung mit drei Spalten gewählt (Tabelle 7.2): Tabelle 7.2 Struktur des Interviewleitfadens Ziele

Leitfragen

Aspekte und Fragen zur Aufrechterhaltung oder Sondierung

thematische Bereiche, zu welchen anhand der Fragen spezifische Informationen gesammelt werden sollen

vollständig ausformulierte Hauptfragestellungen

stichwortartige Sammlung von thematisch vertiefenden und weiterführenden Aspekten

Die mittlere Spalte bildet den Kern des Leitfadens und beinhaltet die ausformulierten Leitfragen. Diese Hauptfragen sind grundsätzlich offen formuliert und liegen niemals als dichotome Fragestellungen oder Suggestivfragen vor, um eine Einschränkung bzw. Lenkung der Erzählperson zu vermeiden. Jedoch variiert der Offenheitsgrad der Fragen gezielt innerhalb der Themenblöcke: Während die Fragen zu Beginn eines Bereiches bewusst sehr offen formuliert sind, um der Erzählperson eigene Schwerpunktsetzungen zu ermöglichen und die Wahrnehmungen möglichst ungesteuert zu erfahren, zielen die Fragen zum Ende eines Themenblockes wesentlich genauer auf bestimmte Aspekte und unterstützen so die Vertiefung sowie Nachvollziehbarkeit spezifischer Informationen (vgl. Kruse, 2015, S. 210). Zur Sicherung der Verständlichkeit strebte die Interviewerin eine kurze und präzise Formulierung der Fragestellungen an. Hierzu nutzte sie vermehrt sogenannte Plattformfragen, welche die Frage mit wenigen erklärenden Sätzen (= Plattform) einleiten. Anhand der kurzen vorgelagerten Erläuterung des Sachverhaltes soll eine grundlegende gemeinsame Wissensbasis geschaffen werden, die wiederum zur Eindeutigkeit der Fragestellung beiträgt (vgl. Gläser & Laudel, 2010,

7.3 Vorstellung der Erhebungsinstrumente

147

S. 140 ff.). Trotz der reflektierten Konstruktion der Leitfragen müssen diese nicht zwangsläufig vollkommen identisch im Interview eingesetzt werden, in Abhängigkeit des Gesprächsverlaufs sowie der Sprachkompetenz der Befragten erschien teilweise eine Reformulierung sinnvoll (vgl. Witzel, 1982, S. 87 f.). Ergänzend zu den Leitfragen gibt die rechte Spalte des Leitfadens einen Überblick über spezifische weiterführende oder vertiefende Elemente. Die stichwortartige Auflistung vermeidet eine Überfrachtung des Leitfadens und schafft eine Grundlage für Ad-hoc-Fragen, die in Abhängigkeit der Ausführlichkeit der Gesprächsbeiträge der Lehrkräfte situativ formuliert werden sollen (vgl. Witzel, 2000, S. 4). Die linke Spalte dient schließlich der thematischen Zusammenfassung einer Leitfrage sowie sich hieran anschließender inhaltlicher Aspekte aus der rechten Spalte. Die Formulierung des übergeordneten thematischen Ziels ermöglicht eine schnelle Orientierung innerhalb des Leitfadens. Inhaltliche Gestaltung des Leitfadens Neben der Konstruktion des Leitfadens soll auch dessen inhaltliche Gestaltung unter der Betrachtung ausgewählter Elemente7 genauer dargestellt werden. Wie bereits erwähnt, besteht der Leitfaden aus drei Bereichen und beginnt mit dem Themenblock Zentrale Prüfung. In diesem Rahmen erfolgt eine Verständigung über grundlegende Aspekte (u. a. die Aussprache des Danks für die Interviewteilnahme, die Absicherung des Einverständnisses bezüglich der Aufzeichnung und die Klärung offener Fragen) sowie eine Einführung in das Interview. Eine besondere Bedeutung kommt hierbei der Einstiegspassage zu, da in dieser „die Beziehung zwischen interviewender und erzählender Person geregelt werden [muss]“ (Helfferich, 2011, S. 70). In der vorliegenden Studie wurde ein gestuftes Vorgehen über zwei Einstiegsfragen gewählt. Während die Reihenfolge der Leitfragen grundsätzlich situativ im Gespräch variiert werden konnte, sollte die Abfolge der aufeinander aufbauenden Einstiegsfragen beibehalten werden, um eine schrittweise Heranführung an das Thema zu realisieren. Der Leitfaden schlägt zunächst eine Einleitung über eine biographisch geladene Erzählaufforderung zur beruflichen Vita in folgender Formulierung vor (vgl. Witzel, 1989, S. 236): „Zum Einstieg wäre es zunächst schön, etwas über Sie zu erfahren. Erzählen Sie doch einmal (kurz) etwas zu Ihrer Person und Ihrem Werdegang.“. Die Fragestellung weist für die Befragten einen geringen Schwierigkeitsgrad auf und ermöglicht die Erfassung persönlicher Daten, sodass auf den Einsatz eines vorgelagerten Kurzfragebogens verzichtet werden konnte (vgl. 7 Aufgrund der untrennbaren Verbindung des Leitfadens mit den eingesetzten Stimuli und der

Entwicklung des Kategoriensystems liegen in Abschnitt 7.3.2 sowie Kapitel 8 ergänzende Ausführungen vor.

148

7

Qualitative Datenerhebung anhand von problemzentrierten …

Witzel, 2000, S. 3). Darüber hinaus signalisiert die Einstiegsfrage ein Interesse an der Erzählperson und kann ein Gefühl der Wertschätzung erzeugen sowie frühzeitig eine positive Gesprächsatmosphäre unterstützen (vgl. Kurz et al., 2009, S. 472). Hieran anschließend folgt eine zweite Einstiegsfrage: „Nun beteiligt sich [Bundesland] seit einigen Jahren an den zentralen Prüfungen im Rahmen des [Bezeichnung Schulabschluss]. Welche Erfahrungen haben Sie denn bislang mit den zentralen Prüfungen gemacht?“. Anhand der sehr offen formulierten Frage soll ein möglichst befragtenzentrierter Einstieg in das Thema erfolgen. Für weiterführende Sondierungen enthält der erste Themenblock ergänzende Impulse zur Erschließung der Wahrnehmung der Lehrkräfte hinsichtlich der zentralen Abschlussvergabe sowie insbesondere der Prüfungseinführung, -vorbereitung und -durchführung. Während der erste Bereich des Leitfadens somit primär auf die Klärung organisatorischer Aspekte sowie einen thematischen Einstieg zielt, beziehen sich die weiteren beiden Themenblöcke konkret auf die Beantwortung der zentralen Fragestellungen der Studie. Der sich anschließende Bereich Wahrnehmung des Beurteilungsverfahrens fokussiert vorrangig auf die Wahrnehmung des jeweiligen landesspezifischen Erwartungshorizontes sowie alternativer Gestaltungsvarianten. Zum Einstieg wurde erneut eine sehr offene Fragestellung gewählt: „Jetzt gibt es zwei wichtige Elemente in den zentralen Prüfungen: Prüfungsaufgaben und Erwartungshorizonte. Ich möchte heute mit Ihnen den Fokus auf letzteres legen, da Sie ja für die Beurteilung der Abschlussarbeiten zuständig sind und somit die Expertin bzw. der Experte für diesen Bereich. Zunächst einmal ganz allgemein: Wie schätzen Sie die Erwartungshorizonte ein, die Sie zur Beurteilung erhalten?“. Mit Blick auf das Ziel einer detaillierten Deskription der Wahrnehmungen im Rahmen der Beurteilungspraxis soll die erzählungsgenerierende Frage einen Beitrag zur umfangreichen Materialgewinnung leisten und ein kleinschrittiges Abfragen forschungsrelevanter Aspekte vermeiden (vgl. Witzel, 1982, S. 76). Die weiteren Fragen und Sondierungsimpulse des Themenblocks dienen der vertieften Betrachtung des Erwartungshorizontes und zielen auf die Analyse der Wahrnehmungen bezüglich der Nützlichkeit und der Gestaltung des Instrumentes. Im Zuge dessen werden ebenfalls konkrete Verbesserungsvorschläge erbeten (z. B. Anmerkungen zur Gestaltung des Erwartungshorizontes) sowie vorhandene Möglichkeiten der Feedbackübermittlung erfragt. Die Beurteilung alternativer Erwartungshorizonte ist anhand von zusätzlichen Stimuli in Form von konkreten Ausschnitten vorgesehen (vgl. Abschnitt 7.3.2). Der dritte Themenblock Handlungen im Beurteilungsverfahren fokussiert insbesondere den Umgang mit dem Erwartungshorizont. Den Einstieg bildet erneut eine stark erzählungsgenerierende Frage: „Nun interessiert mich natürlich nicht nur Ihre Einschätzung des Erwartungshorizontes, sondern auch wie der Beurteilungsvorgang

7.3 Vorstellung der Erhebungsinstrumente

149

konkret abläuft. Versetzen Sie sich doch bitte nochmals in die zurückliegende Korrekturphase der Abschlussprüfungen und schildern Sie, wie der Beurteilungsprozess (einer Prüfung) abläuft.“. Die offen formulierte Anregung soll eine möglichst detaillierte Erinnerung an die eigene Beurteilungspraxis anregen und eine behutsame Einführung in eine gegebenenfalls brisante Thematik schaffen. Die darauffolgenden Leitfragen zielen neben der Nutzungspraxis der Erzählperson außerdem auf die Handlungen des Kollegiums ab, um möglichst umfangreiche Aufschlüsse hinsichtlich einer vermuteten Varianz des Einsatzes der Erwartungshorizonte zu erlangen. Von besonderem Interesse ist hierbei der Umgang mit dem Erwartungshorizont im Kontext von verfahrensbedingten Spielräumen (z. B. keine Festlegung der Gewichtung der erwarteten Lösungen) und Herausforderungen (z. B. Festlegung (zu) hoher Leistungserwartungen im Erwartungshorizont). Auch sollen anhand der formulierten Sondierungsaspekte mögliche Unterschiede zwischen der Nutzungspraxis des Instrumentes im Rahmen der Erst- und Zweitkorrektur in Erfahrung gebracht werden. Die weiteren Leitfragen beziehen sich ergänzend auf damit verbundene Aspekte, wie Unterstützungsangebote und Kontrollen hinsichtlich der Nutzung des Erwartungshorizontes, um vertiefende Aufschlüsse bezüglich der Schaffung einer einheitlichen Nutzungspraxis zu erfassen. Unabhängig vom konkreten Interviewverlauf schlägt der Leitfaden die folgende offene Ausstiegsfrage zur Beendigung des Gesprächs vor: „Hiermit wären wir von meiner Seite schon am Ende des Gesprächs angelangt. Alles in allem – haben Sie den Eindruck, dass wir noch Punkte vergessen haben, die aus Ihrer Sicht relevant sind? Hätten Sie noch etwas zu ergänzen?“. Die Frage übergibt die Interviewführung vollständig an die Erzählperson und es besteht abschließend eine letzte Möglichkeit, weitere Informationen und Schwerpunktsetzungen der Befragten zu erfassen (vgl. Kruse, 2015, S. 220).

7.3.2

Gestaltung und Einsatz von Stimuli

Die ergänzende Konstruktion von Stimuli zielt darauf, die Gesprächsinhalte zu veranschaulichen bzw. zu konkretisieren sowie weitere Gesprächsimpulse zu setzen. Die Entwicklung, wie auch der Einsatz von Stimuli und Leitfaden erfolgte parallel bzw. in untrennbarer Verbindung. In wechselseitiger Anpassung entwarf die Interviewerin zu jedem Stimulus eine zugehörige Fragenstellung, welche sie wiederum ausformuliert oder stichwortartig in den Leitfaden einordnete. Trotz der Verknüpfung der Elemente sollen die Stimuli zur differenzierten Beschreibung im Folgenden separat dargestellt werden.

150

7

Qualitative Datenerhebung anhand von problemzentrierten …

Ein bereits erwähnter Stimulus ist die Zusammenstellung von zwei Ausschnitten aus Erwartungshorizonten, welche zur Absicherung des Verständnisses um die zugrundeliegenden Prüfungsaufgaben ergänzt wurden.8 Mit dem Ziel, einer möglichst umfassenden Deskription der sinnvollen Konfiguration von Erwartungshorizonten aus der Perspektive der beteiligten Lehrkräfte, wurden den Erzählpersonen in den Interviews die zwei ausgewählten Gestaltungsvarianten vorgelegt und mit folgender Leitfrage kombiniert: „Ich habe Ihnen hier mal Ausschnitte aus zwei weiteren Erwartungshorizonten zur Beurteilung einer Erörterung mitgebracht, zu welchen mich Ihre persönliche Einschätzung interessieren würde. Wie beurteilen Sie diese?“. Die eingesetzten Ausschnitte stellen einen direkten Bezug zur Berufspraxis der Lehrkräfte dar und bilden in Kombination mit der Fragestellung einen offenen Impuls, welcher ein Gespräch initiiert ohne dieses stark zu lenken (vgl. Bohnsack, 2014, S. 22 f.). Die Befragten können sich präzise anhand von vorgegebenen Aspekten äußern und hierbei trotzdem ihre eigenen Schwerpunktsetzungen berücksichtigen, z. B. ihr praktisches Wissen zur Ausgestaltung hilfreicher Erwartungshorizonte anhand der vorliegenden Gestaltungsvarianten veranschaulichen bzw. Auskünfte über ihren individuellen Umgang mit diesen in der zentralen Prüfungspraxis geben. Die zwei ausgewählten Ausschnitte aus Erwartungshorizonten veranschaulichen die große Varianz an Gestaltungsmöglichkeiten. Zwar beziehen sich beide Versionen auf den Aufgabentyp Erörterung, sind jedoch hinsichtlich ihrer Gestaltung kontrastreich und weisen vermutlich einen unterschiedlichen Verbindlichkeitsgrad auf (Tabelle 7.3): Tabelle 7.3 Kategorisierung der genutzten Ausschnitte aus Erwartungshorizonten Merkmale

Variante 1

Variante 2

Form

stichwortartige Aufzählung von sechs Zeilen

stichwortartige Aufzählung von etwa hundert Zeilen

Lösungsdarstellung

abstrakte, aufgabentypbezogene Kriterien

abstrakte, aufgabentypbezogene Kriterien ergänzt um konkrete, aufgabenbezogene Beispiele

Bewertung und Benotung

keine Regelung der Gewichtung von Leistungen sowie keine Festlegung der Notenzusammensetzung

Festlegung und Zuordnung von Punkten zu Teilbereichen sowie Vorgabe eines Bewertungsschlüssels zur Notenvergabe

8 Bei

den ausgewählten Ausschnitten handelt es sich um originale Bestandteile der Prüfungsunterlagen im Rahmen der zentralen Prüfungen zum Erwerb des MSA von zwei ausgewählten Bundesländern. Aufgrund von verlagsrechtlichen Bestimmungen ist die Veröffentlichung dieser Dokumente zur Illustration des Vorgehens nicht möglich, alternativ sollen die wesentlichen Gestaltungselemente der Ausschnitte im Folgenden genauer beschrieben werden.

7.3 Vorstellung der Erhebungsinstrumente

151

Bei der ersten Gestaltungsvariante handelt es sich um eine kurze, stichwortartige Aufzählung von fünf Aspekten. Diese Version formuliert die erwartete Lösung abstrakt und weist mit Ausnahme der beispielhaften Nennung eines Merkmals keinen konkreten Aufgabenbezug auf, sodass die Lösungsdarstellung auch für die Korrektur von anderen Erörterungen eingesetzt werden könnte (z. B. „Der Schülertext ist adressaten- und aufgabenbezogen, d. h. er […] beachtet den Schreibanlass.“ [Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein, 2017a, S. 179 ]). Die Gewichtung der erwarteten Leistungen ist nicht geregelt. In Abgrenzung hierzu ist die zweite Variante wesentlich umfangreicher und umfasst eine stichwortartige Lösungsdarstellung von etwa drei A4-Seiten, die sich in die Bereiche Inhalt, Aufbau/Gedankenführung, Ausdruck und Sprachrichtigkeit unterteilt. Ergänzend zu den abstrakt formulierten Kriterien führt diese Version außerdem konkrete aufgabenbezogene Beispiele an, die vergleichbar detailliert wie der folgende Lösungshinweis sind: „Mögliche Wege bzw. Maßnahmen, die dazu beitragen, dass Menschen respektvoll mit Tieren umgehen: […] Aufklärung/Information über Lebensraum, Lebensweise, Ansprüche von Tieren sowie über Leistungen von Tieren und ihre Funktion im Ökosystem, z. B. im Biologieunterricht, in TV-Tiersendungen, in Sachbüchern und anderen Medien“ (ebd.). Des Weiteren sind die Gewichtung der Leistungen über die Festlegung von Punkten und die Notenvergabe über die Angabe eines Bewertungsschlüssels geregelt. Beide Gestaltungsvarianten wurden im Kontext der zentralen Prüfungen des MSA eingesetzt, jedoch liegen bisher keine empirischen Befunde zu deren Wahrnehmung und Nutzung vor. Neben der Unterstützung der Erfassung von Wahrnehmungen hinsichtlich der optimalen Gestaltung von Erwartungshorizonten über ausgewählte Ausschnitte entwickelte die Interviewerin außerdem Stimuli mit dem Ziel einer Konkretisierung der wahrgenommenen Nützlichkeit sowie Nutzung des landesspezifischen Erwartungshorizontes. Orientiert an dem methodischen Vorgehen nach Demski (2017) diskutierte sie zunächst den Einsatz einer Likert-Skala, anhand welcher die Lehrkräfte ihre wahrgenommene Nützlichkeit bzw. Nutzung des Erwartungshorizontes sichtbar machen sollten. Im Sinne einer größtmöglichen Offenheit für die Befragten wandelte sie diese jedoch in einen geometrischen Strahl um (Abbildung 7.1):

9 Ein

Teil der zentralen Abschlussprüfungen zum Erwerb des MSA inklusive der zugehörigen Erwartungshorizonte ist online verfügbar (vgl. z. B. Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein, 2017a).

152

0%

7

Qualitative Datenerhebung anhand von problemzentrierten …

50%

100%

Abbildung 7.1 Beispielhafte Darstellung eines eingesetzten Strahls

Die ausgewählte graphische Realisation enthält lediglich zur Orientierung Kennzeichnungen in Form von 0-, 50- und 100-Prozent-Marken. Auf diese Weise existieren keine festgelegte Strukturierung und keine Verknüpfung von Zahlenwerten mit inhaltlichen Aussagen (z. B. 1 = gar nicht nützlich). Im Rahmen der Interviews wurden die geometrischen Strahle den Lehrkräften in Verbindung mit folgender Bitte vorgelegt: „Nun würde ich gerne etwas genauer auf die Nutzung10 der Erwartungshorizonte eingehen. Hierfür habe ich einen Strahl mitgebracht: 0 Prozent würde gar keine Nutzung der Erwartungshorizonte bedeuten und 100 Prozent steht für eine sehr genaue Nutzung der Erwartungshorizonte. Bitte kleben Sie diesen Punkt doch einfach mal an die Stelle, wo Sie sich einordnen würden und erklären mir kurz, warum Sie sich an dieser Stelle sehen.“. Die Bestimmung eines Prozentwerts zielte darauf, eine reflektierte, jedoch möglichst ungesteuerte Entscheidung zu fördern, welche durch die uneingeschränkte Auswahl der Prozentwerte von 0 bis 100 Prozent auch eine Abbildung von geringen Nuancen zulässt. Außerdem bildet die Angabe der Prozentwerte einen grundlegenden Ausgangspunkt zur genaueren Explikation der individuellen Wahrnehmungen bezüglich der Nützlichkeit und Nutzung des Erwartungshorizontes, woran wiederum in Abhängigkeit des Gesagten mit weiteren konkreten Fragen angeknüpft werden kann.

7.4

Auswahl und Zusammensetzung des Samples

In qualitativen Studien ist die reflektierte Zusammenstellung eines Samples von besonderer Bedeutung. Aufgrund der geringen Anzahl von Fällen birgt eine Zufallsstichprobe das Risiko von starken Verzerrungen der Ergebnisse. Aus diesem Grund „müssen innerhalb qualitativer Studien bewusste, gezielte Auswahlverfahren zum Einsatz kommen, um möglichst zu garantieren, dass für die Fragestellung relevante Fälle erfasst werden“ (Lamnek & Krell, 2016, S. 183).

10 Die Formulierung wurde zur Erfassung der wahrgenommenen Nützlichkeit entsprechend angepasst.

7.4 Auswahl und Zusammensetzung des Samples

153

Die Berücksichtigung des untersuchungsspezifischen Fokus der Studie bildet den Ausgangspunkt für die Zusammenstellung des Samples. Mit dem Anspruch, eine möglichst facettenreiche Betrachtung der Beurteilungspraxis unter Berücksichtigung der limitierten zeitlichen Ressourcen vornehmen zu können, bedurfte es der gezielten Reduktion von Einflussfaktoren im Kontext der Untersuchung. Vor dem Hintergrund der Fachspezifika sowie der Strukturdifferenzen der zentralen Abschlussprüfungen am Ende der Sekundarstufe I und II (vgl. Klein et al., 2009) erfolgte eine bewusste Begrenzung der Studie auf die Analyse der zentralen Prüfungen im Rahmen des MSA im Schulfach Deutsch. Das ausgewählte Unterrichts- und Prüfungsfach Deutsch wird in allen beteiligten Bundesländern zentral geprüft. Es zeichnet sich nicht nur durch seine bedeutsame Stellung als durchgängig vermitteltes Hauptfach mit hoher Stundenzahl aus, sondern ist auch aufgrund seiner komplexen Beurteilungspraxis mit umfangreichen fachspezifischen Anforderungen hinsichtlich der Gestaltung eines Erwartungshorizontes (vgl. vertiefend Abschnitt 5.1.1) sowie seiner teils intransparenten Beurteilungstraditionen von Interesse (vgl. Kammler, 2012). Aus dieser gezielten thematischen Begrenzung der Studie resultierte eine grundlegende Eingrenzung des Samples auf Deutschlehrkräfte, die an der zentralen Prüfung des MSA beteiligt sind oder waren. Hiervon ausgehend sollte das Sample in Anlehnung an die zirkuläre Strategie qualitativer Forschung im Forschungsprozess hinsichtlich einer bestmöglichen Abstimmung auf den Forschungsgegenstand weiter konkretisiert werden (vgl. Witt, 2001). Orientiert am theoretischen Samplingverfahren nach Glaser und Strauss (2010) traf die Interviewerin eine erste Auswahl möglicher Gesprächspartnerinnen bzw. -partner auf der Grundlage von Annahmen, die zuvor aus den vorliegenden theoretischen und empirischen Befunden abgeleitet wurden (vgl. zusammenfassend Strübing, 2018). Die Spezifikation der Auswahlkriterien und die Bestimmung der endgültigen Zusammensetzung des Samples ergaben sich schrittweise anhand von ersten Untersuchungen der bereits erhobenen Daten (vgl. ebd.). Mit dem Ziel einer Analyse der Beurteilungspraxis anhand von vorgegebenen Erwartungshorizonten in zentralen Prüfungen erschien ein Sample sinnvoll, welches Lehrkräfte aus unterschiedlichen Bundesländern berücksichtigt und hinsichtlich der Konfiguration der länderspezifischen Erwartungshorizonte kontrastierend angelegt ist. Rekurrierend auf die Annahme, dass die Gestaltung des Erwartungshorizontes einen maßgeblichen Einfluss auf dessen Wahrnehmung und Nutzung haben könnte (vgl. vertiefend Abschnitt 4.2.1), wurden anhand der Ergebnisse der kategoriengeleiteten Analyse vier Bundesländer ausgewählt, die sich hinsichtlich des inhaltlichen Aufbaus der Erwartungshorizonte möglichst stark unterscheiden. In einem ersten Schritt führte die Interviewerin im Kontext des DFG-Projekts in

154

7

Qualitative Datenerhebung anhand von problemzentrierten …

Baden-Württemberg, Hamburg, Nordrhein-Westfalen und Sachsen im Zeitraum von September bis November 2016 insgesamt 13 Einzelinterviews11 mit Deutschlehrkräften (vgl. vertiefend Kapitel 6), aus welchen wiederum in einem zweiten Schritt in Teilen das tatsächliche Sample entstanden ist. Zur Definition von geeigneten Gesprächspartnerinnen bzw. -partnern, die für die Teilnahme am Interview in Frage kamen, wurden vorab die folgenden grundlegenden inhaltlichen und zeitlichen Merkmale formuliert: Alle Deutschlehrkräfte, … – die sowohl aktuell als auch ehemals nie direkt an der Erstellung der Erwartungshorizonte beteiligt sind bzw. waren (keine Mitglieder der Erstellungskommission). – die im Rahmen der zentralen Prüfungen zum Erwerb des MSA im Schulfach Deutsch gleichermaßen mindestens eine Erst- und eine Zweitkorrektur durchgeführt haben (Erfahrungen als erst- und zweitkorrigierende Lehrkraft). – die innerhalb der letzten fünf Jahre an der Vorbereitung, Durchführung und Beurteilung der zentralen Prüfungen zum Erwerb des MSA im Schulfach Deutsch beteiligt waren (möglichst aktuelle Beteiligung am zentralen Prüfungsverfahren). Darüber hinaus bestand der Anspruch darin, dass die Befragten an unterschiedlichen Schulen12 unterrichten, um ergänzend zur Analyse von länderspezifischen Differenzen auch schulspezifische Variationen in der Beurteilungspraxis der zentralen Prüfungen im Prüfungsfach Deutsch untersuchen zu können. Hinsichtlich weiterer Merkmale wie z. B. Geschlecht, Schulform, Alter, unterrichtetes Zweitoder Drittfach war ebenfalls eine möglichst heterogene Gruppe von Deutschlehrkräften wünschenswert, um ein facettenreiches Bild zu erhalten (vgl. Helfferich, 2016, S. 125). Im tatsächlichen Prozess der Zusammenstellung des Samples galt es jedoch die Zugänglichkeit der Kontakte zu berücksichtigen (vgl. Merkens, 2017, S. 288). Aufgrund der Anfrage von interessierten Lehrkräften über Dritte (z. B. zuständige Personen in den Landesbildungsministerien, Kontakte an den Universitäten) bestanden nur begrenzte Möglichkeiten der Einflussnahme auf die

11 Die Anzahl setzt sich folgendermaßen zusammen: jeweils drei Interviews in BadenWürttemberg, Hamburg und Nordrhein-Westfalen sowie vier Interviews in Sachsen. 12 Berücksichtigt wurden sämtliche staatliche Regelschulen im allgemeinbildenden Schulsystem, an denen zentrale Prüfungen zum Erwerb des MSA verpflichtend vorgesehen sind.

7.4 Auswahl und Zusammensetzung des Samples

155

Auswahl der angesprochenen Personen. Des Weiteren meldete sich trotz der Nutzung von mehreren Zugangswegen lediglich eine geringe Anzahl von interessierten Lehrkräften. Im Anschluss an die Auswahl der Befragten sowie die Durchführung der Interviews erfolgte eine weitere Konkretisierung des Samples. Im Kontext einer ersten Durchsicht der Transkripte wurden Auffälligkeiten im Sinne von Gemeinsamkeiten und Unterschiede der Schilderungen markiert. Hierbei ergaben sich sowohl erste Hinweise auf schulabhängige wie auch auf länderspezifische Variationen der Beurteilungspraxis. Zur Reduktion der Vielzahl von möglichen Einflussfaktoren erfolgte die bewusste Limitation des Samples auf Lehrkräfte aus ausschließlich zwei Bundesländern. Die Interviewerin erhoffte sich hierüber, eine stark fokussierte Analyse von länderspezifischen Gemeinsamkeiten und Unterschieden durchführen zu können sowie den Anspruch einer möglichst detaillierten Deskription trotz begrenzter Ressourcen einlösen zu können. Konkret liegt der Fokus auf Lehrkräften aus Baden-Württemberg und NordrheinWestfalen. Die beiden Bundesländer weisen hinsichtlich der zentralen Prüfungspraxis sowie dem Beurteilungsverfahren zahlreiche Differenzen auf und erschienen aufgrund dieser Unterschiede besonders interessant (Tabelle 7.4): Tabelle 7.4 Gegenüberstellung des zentralen Prüfungsformats in BW und NW Bundesland

Einführung der ZPa

Gestaltung der Prüfung

Einführung des EH

Gestaltung des EH

Beurteilungsprozess

Korrekturinstanzen

BW

1962

Langtextaufgaben

2014b

keine Punktevergabe

verpflichtende Korrekturbesprechung

schulexterne Zweitkorrektur

NW

2007

gemischt

2007

kleinschrittige Punktevergabe

kein verschulinpflichtender terne Austausch Zweitkorrektur

a Im

Zuge einer besseren Übersichtlichkeit werden in graphischen Darstellungen das Akronym ZP für den Ausdruck zentrale Prüfung sowie das Akronym EH für den Begriff Erwartungshorizont genutzt b Seit 2014 gibt es in Baden-Württemberg ausführliche Erwartungshorizonte. Davor gab es ausschließlich eine Übersicht mit allgemeinen Hinweisen zur Prüfung im Umfang von einer A4-Seite

156

7

Qualitative Datenerhebung anhand von problemzentrierten …

Während Baden-Württemberg eine lange zentrale Prüfungspraxis besitzt und ausschließlich Langtextaufgaben in den Prüfungsklausuren nutzt (vgl. Kühn, 2013, S. 92; Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2017, S. 4), gehört Nordrhein-Westfalen zu den jüngeren zentral prüfenden Bundesländern und setzt unterschiedliche Aufgabenformate ein, wie z. B. Multiple-Choice-, Kurzantwort- oder Langtextaufgaben.13 Durch die nachträgliche Einführung eines Erwartungshorizontes im Prüfungsfach Deutsch in Baden-Württemberg ist die Beurteilung anhand eines zentral vorgegebenen Instruments in beiden Bundesländern vergleichsweise neu (vgl. Ministerium für Kultus, Jugend und Sport BadenWürttemberg, 2013, S. 4). Insbesondere hinsichtlich der Bewertung der Leistungen unterscheiden sich die Erwartungshorizonte der Bundesländer beträchtlich: während in Nordrhein-Westfalen eine kleinschrittige Punktezuweisung zu den einzelnen (Teil-)Leistungen vorgegeben ist, existiert in Baden-Württemberg keine Regelung der Gewichtung von Leistungen, sodass dieser Vorgang vollständig der Lehrkraft überlassen bleibt.14 Auch bezüglich des Einsatzes weiterer Instrumente im Beurteilungsverfahren differieren die Rahmenbedingungen der zentralen Prüfungen in den zwei Bundesländern. In Baden-Württemberg bildet der Erwartungshorizont eine Grundlage für die verpflichtende Korrekturbesprechung, an welcher alle Lehrkräfte teilnehmen müssen, die an der Erst- oder Zweitkorrektur beteiligt sind (vgl. Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2017, S. 3 f.). Im Gegensatz dazu stellt der Erwartungshorizont in Nordrhein-Westfalen das zentrale Instrument zur Festlegung der Beurteilung dar (vgl. Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen, 2013, S. 9). Darüber hinaus existieren keine verbindlichen schulinternen bzw. -übergreifenden Besprechungen im Kollegium und ein Austausch unter Lehrkräften findet ausschließlich im informellen Rahmen statt. Ergänzend zum Erwartungshorizont ist in beiden Bundesländern eine Zweitkorrektur obligatorisch. Die erneute Beurteilung der Prüfungsarbeiten erfolgt in Nordrhein-Westfalen durch eine Fachlehrkraft derselben Schule und in Baden-Württemberg durch eine Fachlehrkraft der zugewiesenen Partnerschule (vgl. Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2017, S. 4; Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen, 2013, S. 9).

13 Eine Ansicht exemplarischer Aufgabenformate ist in prüfungsvorbereitenden Werken möglich (z. B. Volkhausen & Kammer, 2017). 14 Die Beschreibung der Bewertung in den Erwartungshorizonten erfolgt auf der Grundlage ihrer Analyse (Stand: Prüfungsunterlagen 2015). Zwischenzeitlich wurde in BadenWürttemberg die grobe Gewichtung der Leistungen in einem separaten Dokument vorgegeben (vgl. vertiefend Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2017, S. 5).

7.4 Auswahl und Zusammensetzung des Samples

157

Die soeben beschriebene Variation der Beurteilungsverfahren in den ausgewählten Bundesländern ermöglicht eine Deskription von vielfältigen Wahrnehmungen und vermeidet somit eine einseitige Darstellung des Forschungsgegenstandes (vgl. Kleining & Witt, 2000). Außerdem könnten erste Hinweise gewonnen werden, ob und inwiefern Zusammenhänge zwischen der Verfahrens- bzw. Instrumentengestaltung und den Wahrnehmungen bzw. Handlungen der Lehrkräfte bestehen. Bei der finalen Zusammenstellung des Samples konnte die Interviewerin auf sechs der bereits geführten Interviews zurückgreifen. Ergänzend führte sie vier weitere Gespräche anhand des identischen Leitfadens und beendet das Sampling im Sinne der sogenannten theoretischen Sättigung nach diesen zehn Interviews (vgl. vertiefend Glaser & Strauss 2010, S. 69), da im Rahmen der vorliegenden Interviews alle denkbaren Möglichkeiten des Umgangs mit den zentralen Steuerungsinstrumenten im Beurteilungsverfahren beschrieben wurden: eine vollständige, modifizierte und keine Nutzung des Erwartungshorizontes in der Erst- sowie der Zweitkorrektur. Folglich waren keine neuen Ausprägungen zu erwarten und das Sampling wurde unter Berücksichtigung der begrenzten Ressourcen abgeschlossen. Insgesamt ergibt sich somit die folgende Zusammensetzung des Samples (Tabelle 7.5):

Tabelle 7.5 Zusammensetzung des Samples Bezeichnung

Geschlecht

Berufs erfahrunga

unterrichtete Fächerb

Schulart

Interviewdauer (h:min:sek)

Interviewort

BW1

weiblich

>6 Jahre

Mathematik, Musik

Realschule

01:00:39

Staatliches Seminar

BW2

weiblich

>6 Jahre

Englisch

Realschule

00:48:45

Staatliches Seminar

BW3

männlich

>6 Jahre

Biologie, Chemie, Ethik

Realschule

00:36:35

Schule

BW4

männlich

>6 Jahre

Biologie, Chemie

Realschule

01:00:33

Staatliches Seminar

BW5

weiblich

>6 Jahre

Kunst, Technik

Realschule

01:18:57

Wohnsitz der Lehrkraft

NW1

weiblich

>6 Jahre

Englisch, Literatur

Gesamtschule

01:13:24

Wohnsitz der Lehrkraft

NW2

männlich

>6 Jahre

Geschichte

Realschule

01:14:46

Schule

NW3

weiblich

> 6 Jahre

Politik, katholische Religion

Realschule

01:16:16

Wohnsitz der Lehrkraft

NW4

weiblich

> 6 Jahre

Mathematik

Realschule

00:53:05

Wohnsitz der Lehrkraft

NW5

weiblich

> 6 Jahre

Sport

Realschule

00:46:19

Schule

a Bei

der Bestimmung der Dauer der Berufserfahrung dienen der Zeitpunkt des Erwerbs des zweiten Staatsexamens der befragten Lehrkraft sowie der Zeitpunkt des Interviews als Messzeitpunkte b Hierbei handelt es sich um die Fächer, welche die Lehrkräfte neben dem Fach Deutsch unterrichten bzw. unterrichtet haben

158

7

Qualitative Datenerhebung anhand von problemzentrierten …

Die angestrebte Variation des Samples hinsichtlich des Geschlechts sowie der unterrichteten Fächer der Lehrkräfte konnte realisiert werden. Eine Heterogenität der Befragten bezüglich ihrer beruflichen Erfahrung und der Schulart, an welcher sie beschäftigt sind, ist nicht gelungen. Die durchschnittliche Interviewdauer liegt bei etwa einer Stunde, wobei das kürzeste Interview etwa 36 Minuten und das längste etwa 75 Minuten umfasst. Die unterschiedliche Dauer der Gespräche begründet sich im individuellen Gesprächsverlauf sowie der verfügbaren Zeit der Lehrkraft.

7.5

Limitationen

Im Kontext der Datenerhebung resultieren mögliche Limitationen nicht nur aus der Durchführung der Interviews, sondern auch aus dem Prozess der Kontaktierung bzw. der Auswahl potenzieller Gesprächspartnerinnen und -partner. Wie bereits in Abschnitt 7.4 dargestellt, kommt der Bildung des Samples in qualitativen Studien eine große Bedeutung zu (vgl. Lamnek & Krell, 2016, S. 248 ff.). Anhand der Festlegung grundlegender Auswahlkriterien sowie dem prozesshaften Vorgehen orientiert am theoretischen Samplingverfahren wurde auch im Rahmen dieses Forschungsvorhabens eine reflektierte Zusammensetzung des Samples angestrebt. Bedingt durch das Erfordernis einer Kontaktanbahnung über Dritte (z. B. zuständige Personen in den Ministerien, Kontakte an den Universitäten) muss jedoch von einer ungewollten Vorabselektion der Befragten ausgegangen werden. Zum einen kontaktiert die vermittelnde Person nur einen ihr bekannten Personenkreis und zum anderen melden sich aus dieser Gruppe wiederum nur bestimmte Lehrkräfte zurück. Ein sichtbares Resultat ist u. a. das Fehlen von Berufsanfängerinnen und Berufsanfängern im endgültigen Sample. Insbesondere die fakultative Interviewteilnahme könnte einen Einfluss auf die Gruppenzusammensetzung der Gesprächsbeteiligten ausüben. Die Freiwilligkeit begünstigt zwar, dass die Gesprächsbereitschaft der Teilnehmenden hoch ist, könnte allerdings außerdem dazu führen, dass aufgrund des Erfordernisses einer selbstständigen Aktivierung der Befragten, ausschließlich sehr engagierte oder unzufriedene Lehrkräfte an den Interviews partizipieren (vgl. Helfferich, 2011, S. 175 f.; Merkens, 2017, S. 288 ff.). Auf Nachfrage begründeten die Lehrkräfte ihre Teilnahmemotivation mit simpler Neugierde oder in der Chance, sich zu den zentralen Prüfungen zu äußern und so an einem Forschungsprojekt mitzuwirken. Angesichts der Fokussierung auf die befragten Lehrkräfte und das hieraus resultierende Fehlen von „externen Vergleichspunkten“ können jedoch keine Aussagen darüber getroffen werden, inwiefern sich die interviewten Lehrkräfte hinsichtlich ihrer Motivation oder Zufriedenheit von der Grundgesamtheit unterscheiden (vgl. Brüsemeister, 2008, S. 96).

7.5 Limitationen

159

Neben der Gestaltung birgt auch der Umfang des Samples mögliche Limitationen hinsichtlich der Generalisierbarkeit der Ergebnisse (vgl. Patry & Dick, 2002, S. 78 ff.). Aufgrund der unzureichenden statistischen Repräsentativität der Studie können keine abschließenden Aussagen zur Gültigkeit des Educational GovernanceAnsatzes im Kontext des Beurteilungsverfahrens der zentralen Prüfungen zum Erwerb des MSA getroffen werden. Hierbei darf jedoch nicht unbeachtet bleiben, dass anhand der detaillierten Deskription der Wahrnehmungen bzw. Handlungen einer begrenzten, bewusst ausgewählten Gruppe von Lehrkräften ganzheitliche, realitätsnahe Aussagen zur Existenz bestimmter Typen möglich sind (vgl. Lamnek & Krell, 2016, S. 175). Die „nuancenreichere[n] und komplexere[n] Ergebnisse“ (Witzel, 1989, S. 239) können wiederum als Grundlage für weiterführende (hypothesenprüfende) Untersuchungen dienen. Weitere Limitationen dieser Studie zeigten sich in der tatsächlichen Interviewdurchführung. Trotz der Festlegung einer minimal erforderlichen Zeitkapazität von anderthalb Stunden und einer entsprechenden Kommunikation bzw. Berücksichtigung dieser im Rahmen der Terminierung der Interviews war das tatsächlich verfügbare Zeitbudget aufgrund von Folgeterminen der Befragten teilweise stark eingeschränkt. Dies hatte zur Folge, dass die informellen Vor- und Nachgespräche begrenzt werden mussten oder das Interview stellenweise stärker am Leitfaden orientiert geführt wurde. Folglich ergaben sich Herausforderungen bei der Gewährleistung einer offenen Gesprächsführung sowie bei der Herstellung einer angenehmen Atmosphäre. Aufgrund der kritischen Thematik des Interviews wurden bereits vorbereitend Maßnahmen getroffen, um ein Klima zu schaffen, in dem sich die Lehrkraft möglichst frei äußern kann und auf sozial erwünschte Aussagen verzichtet (z. B. Auswahl des Intervieworts durch die Lehrkraft, Hinweis auf die Anonymisierung des Gesprächs, Durchführung des Gesprächs in Form eines Einzelinterviews). Es ist allerdings davon auszugehen, dass ein fehlendes separates Kennenlernen sowie eine Vertrauensbildung unter Zeitdruck direkt vor dem Interview diesbezüglich kontraproduktiv wirken und die Gewinnung von Informationen schlussendlich einschränken könnten. Ergänzend hierzu wurde außerdem deutlich, dass sich die Offenheit des Interviews auf Seiten der Interviewerin und der Befragten nicht nur positiv auf die Datenerhebung auswirken könnte. Da eine vollständige Planbarkeit der Interviews weder erwünscht noch möglich war, ergaben sich im Gesprächsverlauf situative Entscheidungsnotwendigkeiten hinsichtlich der Auswahl und Formulierung von Fragestellungen (vgl. Gläser & Laudel, 2010, S. 131 ff.; Witzel, 1989, S. 235 ff.). Hierbei konnte ein Auftreten von Interviewfehlern, die zu einer Beeinflussung oder Störung des Kommunikationsprozesses führten (z. B. Formulierung geschlossener Fragen oder die Überbetonung von Themen des Leitfadens, die für die Befragten

160

7

Qualitative Datenerhebung anhand von problemzentrierten …

eine geringe Relevanz besitzen), nicht vollständig vermieden werden (vgl. Helfferich, 2011, S. 108). Zur Begrenzung hieraus resultierender Verzerrungen sollten die Interviewfehler im Rahmen der Auswertung bewusst „in ihren Konsequenzen analysiert [und reflektiert werden], so daß Interpretationen inhaltlich relativiert oder eliminiert werden“ (Witzel, 1989, S. 235) und eine Sensibilisierung für die Durchführung weiterer Interviews erfolgt. Nicht nur auf Seiten der Interviewerin führte die angestrebte Offenheit des Gesprächs zu Herausforderungen, auch die Lehrkräfte waren teilweise angesichts der offenen Fragen überfordert und verlangten stärker geschlossene Fragestellungen oder bezogen ihre Antworten nicht auf die formulierte Frage (vgl. Helfferich, 2011, S. 68 f.). Aufgrund der Offenheit des Gesprächs wurden somit nicht zwangsläufig in jedem Interview die identischen Inhalte in einem gleichen Umfang diskutiert, hieraus könnten sich grundsätzliche Herausforderungen für den anschließenden Auswertungsprozess sowie Einschränkungen bezüglich der Gegenüberstellung bzw. des Vergleichs der Inhalte aus unterschiedlichen Interviews ergeben.

8

Inhaltsanalytische Auswertung

Die Inhaltsanalyse stellt ein bewährtes Analyseverfahren dar, welches seit über hundert Jahren im Rahmen von quantitativ und qualitativ orientierten Studien genutzt wird (vgl. zusammenfassend Kuckartz, 2018, S. 13 ff.; Merten, 1995, S. 35 ff.), sowie außerdem in Form von Meta-Inhaltsanalysen evaluiert wird (vgl. zusammenfassend Wirth, Sommer, Wettstein & Matthes, 2015; Vogelgesang & Scharkow, 2012). Im qualitativen Kontext findet die empirische Methode vorrangig im Rahmen von Untersuchungen bezüglich sprachlicher Erzeugnisse und deren semantischer Eigenschaften Anwendung, wie z. B. massenmedialer Produkte (u. a. Zeitungsartikel, Rundfunkbeiträge), Beobachtungsprotokolle oder Interviewtranskripte (vgl. Lamnek & Krell, 2016, S. 447 f.). Grundsätzlich kann das Vorgehen im Kontext der Inhaltsanalyse als „Systematisierung des alltäglichen Verstehens“ (Groeben & Rustemeyer, 2002, S. 234) beschrieben werden. Die Strukturierung der erhobenen Daten mithilfe von genau definierten Kategorien soll auf der einen Seite zu einer Komplexitätsreduktion des Materials und einer daraus resultierenden kognitiven Entlastung der Forscherinnen bzw. Forscher beitragen, sowie auf der anderen Seite eine weitestgehend intersubjektiv nachvollziehbare Analyse anhand sachlich begründeter Kriterien ermöglichen (vgl. Früh, 2017, S. 42 ff.). Neben der groben Unterscheidung einer stärker quantitativ und einer eher qualitativ ausgerichteten Inhaltsanalyse kann eine weiterführende Differenzierung hinsichtlich unterschiedlicher Techniken und Verfahren der qualitativen Inhaltsanalyse vorgenommen werden (vgl. vertiefend Kuckartz, 2018; Mayring, 2015). Die Vielzahl möglicher Vorgehensweisen erlaubt eine flexible Auswahl einer oder mehrerer Varianten, die im Hinblick auf das verfolgte Erkenntnisinteresse sinnvoll erscheinen (vgl. zusammenfassend Schreier, 2014; Stamann, Janssen & Schreier, 2016). Im Rahmen der vorliegenden Studie erfolgte die Datenauswertung © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_8

161

162

8

Inhaltsanalytische Auswertung

in Anlehnung an eine Kombination aus einer inhaltlich strukturierenden qualitativen Inhaltsanalyse sowie einer typenbildenden qualitativen Inhaltsanalyse (vgl. Kuckartz, 2018). Dieses Kapitel bildet eine Zusammenfassung der methodischen Überlegungen sowie eine Beschreibung der inhaltsanalytischen Auswertung. Zunächst erörtert die Autorin die Gründe für die Methodenwahl (vgl. Abschnitt 8.1) und beschreibt die tatsächliche Durchführung der Analyse (vgl. Abschnitt 8.1 und 8.4). Ein besonderer Fokus liegt hierbei auf dem Kategoriensystem (bzw. der um Anwendungshinweise ergänzte Kategorienleitfaden), welches unabhängig von der ausgewählten Vorgehensweise das „Herzstück“ der Inhaltsanalyse bildet (vgl. Groeben & Rustemeyer, 2002, S. 239). Das Instrument wird gemäß dem Grundsatz der Gegenstandsangemessenheit speziell in Abstimmung auf die Forschungsfragen sowie das erhobene Material konzipiert (vgl. ebd., S. 239 ff.). In den folgenden Unterkapiteln zeichnet die Autorin den Prozess der Entwicklung und Erprobung des Kategorienleitfadens nach (vgl. Abschnitt 8.2) und beschreibt bzw. erläutert die finale Gestaltung des Instrumentes (vgl. Abschnitt 8.3). Unter Bezugnahme auf die konkrete inhaltsanalytische Auswertung der transkribierten Interviews diskutiert sie abschließend denkbare Limitationen, welche sich aus der Methodenwahl und -durchführung ergeben könnten (vgl. Abschnitt 8.5).

8.1

Inhaltlich strukturierende Inhaltsanalyse

Die strukturierende Inhaltsanalyse ist eine erprobte, vielfach eingesetzte Variante der qualitativen Inhaltsanalyse (vgl. Kuckartz, 2018, S. 97 f.; Mayring, 2015, S. 97 ff.). Anknüpfend an das Auswertungsziel dieser Studie, „am Material ausgewählte inhaltliche Aspekte zu identifizieren, zu konzeptualisieren und das Material im Hinblick auf solche Aspekte systematisch zu beschreiben“ (Schreier, 2014, S. 3), wird auf die Subversion der inhaltlich strukturierenden Inhaltsanalyse zurückgegriffen. Die konkrete Durchführung dieser Subversion variiert in Abhängigkeit der unterschiedlichen methodischen Vertreterinnen und Vertreter (vgl. ebd., S. 1 ff.). Im Rahmen der vorliegenden Untersuchung erfolgte eine vorrangige Orientierung an dem offenen, induktiv-deduktiven Ablaufplan nach Kuckartz (2018). Im Unterschied zu Mayring (2015), der eine primär theoriegeleitete Vorgehensweise sowie eine deduktive Kategorienbildung vorsieht, verweist Kuckartz (2018) auf die Sinnhaftigkeit einer (teilweise) induktiven Kategorienentwicklung am Material (vgl. Schreier, 2014, S. 1 ff.). Das offene, stärker am Material orientierte Vorgehen erscheint vor dem Hintergrund des begrenzten theoretischen und empirischen Vorwissens auch im Rahmen dieser Auswertung geeignet und ermöglicht die Identifikation relevanter, bislang unbeachteter Themenbereiche (vgl. Schmidt, 2013, S. 474 f.).

8.1 Inhaltlich strukturierende Inhaltsanalyse

163

In Anlehnung an Kuckartz (2018) kann die inhaltlich strukturierende Inhaltsanalyse in vier Phasen differenziert werden: – – – –

Lesephase: Analyse der Transkripte Entwicklungsphase: Kategorienbildung und -systematisierung1 Durchführungsphase: Anwendung des Kategorienleitfadens Auswertungsphase: Analyse der Daten und Darstellung der Befunde

Die Lesephase wird von Kuckartz (2018) unter dem Begriff initiierende Textarbeit subsumiert und umfasst die sorgfältige Auseinandersetzung mit den Transkripten (vgl. ebd., S. 56 ff.). Im Rahmen einer kleinschrittigen und mehrfachen Durchsicht der verschriftlichten Interviews notierte die Autorin unter Bezugnahme auf die zentralen Fragestellungen der Studie vorhandene Themen und markierte bzw. kommentierte inhaltliche und sprachliche Auffälligkeiten über stichwortartige Randbemerkungen an den betreffenden Textstellen. Hierbei bildete die ergänzende Berücksichtigung der Audioaufzeichnungen eine zusätzliche Unterstützung zum Verständnis des Gesagten. Die zentralen fallspezifischen Erkenntnisse (z. B. wünschenswerte Gestaltung des Erwartungshorizontes, Durchführung der Zweitkorrektur) wurden in einem separaten Dokument zu einer sogenannten Case Summary zusammengefasst und um die aufgezeichneten Wahrnehmungen aus dem Postskriptum ergänzt (vgl. vertiefend Abschnitt 7.2). Dies diente der Orientierung und Übersicht für die weitere Analyse (vgl. Kuckartz, 2018, S. 58 ff.). Im Anschluss an die erste Auseinandersetzung mit den Daten sowie deren Vorstrukturierung folgte die Instrumentenentwicklung im engeren Sinne. Wie bereits im Vorwort dieses Kapitels angekündigt, wurde hierfür ein induktiv-deduktives Vorgehen gewählt, welches die Vorzüge der beiden Herangehensweisen kombiniert: „Die theoriegeleitete Kategorienbildung sichert die Vollständigkeit bezüglich [der] Forschungsfrage […], die empiriegeleitete Kategorienbildung […] hinsichtlich des Untersuchungsmaterials“ (Früh, 2017, S. 80). Angesichts des hohen Stellenwerts und der Komplexität dieser Phase stellt die Autorin den Entwicklungs- und Erprobungsprozess des Kategoreinleitfadens (vgl. Abschnitt 8.2) sowie deren Resultat (vgl. Abschnitt 8.3) in separaten Kapiteln ausführlich dar. Im Zuge der Instrumentenentwicklung erfolgte außerdem eine genauere Definition der Bestandteile des zu codierenden Materials. Orientiert an dem Begriffsverständnis nach Kuckartz (2018) ergeben die zehn vollständig transkribierten

1 Die

Entwicklungsphase subsumiert die vier eigenständigen Phasen der Kategorienentwicklung nach Kuckartz (2018).

164

8

Inhaltsanalytische Auswertung

Interviews die sogenannte Auswahleinheit, d. h. das gesamte zu codierende Material. Jedes Transkript bildet wiederum eine eigenständige, thematisch in sich geschlossene Analyseeinheit, die Textstellen zur Zuordnung zu allen vorhandenen Kategorien beinhalten kann. Die Bestimmung der Gestalt der zuzuordnenden Textstellen stellt den gleichermaßen anspruchsvollsten und wichtigsten Vorgang für die einheitliche Durchführung des Ratings dar. In der vorliegenden Studie bestimmen sich diese sogenannten Codiereinheiten anhand von inhaltlichen und formalen Kriterien (Groeben & Rustemeyer, 2002, S. 239). Demnach ist es von besonderer Bedeutung, dass die zuzuordnende Textstelle ohne weitere Informationen verständlich ist. Zur Bestimmung ihrer Länge empfiehlt sich eine Orientierung an Themenwechseln, die als grobe Endpunkte der Codiereinheit verstanden werden können. In der Regel umfasst eine zuzuordnende Textstelle einen Haupt- bzw. Nebensatz oder mehrere Sätze. Die Durchführungsphase schloss sich nahtlos an die Entwicklungsphase an, da im Kontext der Überprüfung der Güte des Kategoriensystems bereits ein Teil des Materials durch zwei unabhängige Personen geratet wurde. Nach der Ermittlung der Übereinstimmung zwischen den codierenden Personen sowie der Bestimmung zufriedenstellender Reliabilitätskoeffizienten konnte das Rating durch die Autorin abgeschlossen werden. Die Analyse wurde computergestützt anhand des Programms MAXQDA2 durchgeführt, welches zur Vereinfachung des Ratingprozesses sowie der Auswertung beitrug, indem es eine Verknüpfung der analytischen Ebenen und hierdurch die gezielte Ansicht ausgewählter Kategorien oder Codierungen ermöglicht (vgl. Kuckartz, 2018, S. 163 ff.). Das hauptsächliche Ziel bestand in dieser Etappe in einer Reduktion der umfangreichen Beschreibungen der komplexen sozialen Wirklichkeit der Leistungsbeurteilung in den zentralen Prüfungen, die in Form von Transkripten vorlagen (vgl. Rössler, 2017, S. 18). Die Identifikation und Codierung von Informationen, die zur Beantwortung der zentralen Fragestellungen beitragen, erlaubte gleichzeitig das Ausblenden weniger forschungsrelevanter Aussagen. Auf diese Weise wurde in der finalen Auswertungsphase eine gezielte Deskription ausgewählter Wahrnehmungen von Lehrkräften sowie gegebenenfalls von Zusammenhängen zwischen den beschriebenen Wahrnehmungen und Handlungen im Beurteilungsverfahren realisierbar, die bei der ausschließlichen Betrachtung des vollständigen Datensatzes vermutlich untergegangen wären (vgl. Früh, 2017, S. 44).

2 Bei

dem Computerprogramm MAXQDA handelt es sich um eine Computer Assisted Qualitative Data Analysis Software (kurz: QDA-Software) zur Unterstützung der Datenanalyse bzw. -auswertung (vgl. vertiefend Kuckartz, 2010).

8.2 Entwicklung des Kategorienleitfadens

165

Ergänzend zur Generierung von Befunden auf der Grundlage der strukturierten Gesprächsinhalte berücksichtigte die Autorin stellenweise auffällige sprachliche Realisationen von Textstellen (vgl. Kuckartz, 2018, S. 48), die zusätzliche Aufschlüsse ermöglichen. Eine umfangreiche, vertiefende Betrachtung der sprachlichen Analyse erfolgte zudem in einer separaten metaphernanalytischen Auswertung (vgl. Kapitel 9 und 11).

8.2

Entwicklung des Kategorienleitfadens

Der Kategorienleitfaden bildet den Mittelpunkt der Inhaltsanalyse und ist maßgeblich für die gelungene Umsetzung der Methode verantwortlich (vgl. Kuckartz, 2018, S. 29 ff.). Demnach erscheint eine kleinschrittige und reflektierte Instrumentenentwicklung notwendig, um eine gegenstandangemessene Auswertung unter Einhaltung der Gütekriterien Validität und Reliabilität gewährleisten zu können (vgl. Mayring, 2015, S. 131; Wirth et al., 2015). Im Folgenden stellt die Autorin den Konstruktionsprozess des Kategorienleitfadens dar und unterteilt diesen zur besseren Übersicht in vier Phasen. Inhaltliche Konzeption Im Anschluss an die initiierende Textarbeit (vgl. Abschnitt 8.1) sowie unter Berücksichtigung deren Erkenntnisse erfolgte eine möglichst vollständige Zusammenstellung von Themen und denkbaren Ausprägungen für die Kategorienbildung. Neben der Identifizierung von relevanten Inhalten anhand der Transkripte und der Case Summaries wurde außerdem der Interviewleitfaden genutzt (vgl. vertiefend Abschnitt 7.3.1), um forschungsrelevante Aspekte zu bestimmen. Der Einbezug des Erhebungsinstruments in die Entwicklung des Auswertungsinstrumentes sollte dazu beitragen, dass „die Entwicklung, Durchführung und Interpretation […] ein einziger, lückenloser Argumentationszusammenhang [ist]“ (Früh, 2017, S. 27), sowie die zentralen Fragestellungen mithilfe des Kategorienleitfadens vollständig beantwortet werden können (vgl. Friebertshäuser & Langer, 2013, S. 439). Die gesammelten Inhalte wurden mit unbeteiligten Bildungswissenschaftlerinnen und -wissenschaftlern diskutiert sowie gegebenenfalls modifiziert, gestrichen oder um weitere Inhalte ergänzt. Strukturierung des Kategorienleitfadens Nachdem die Festlegung von relevanten Inhalten abgeschlossen war, erfolgte die eigentliche Konfiguration des Kategorienleitfadens. Das maßgebliche Ziel bestand in der Erfüllung der folgenden Anforderung: „The coding scheme must be so

166

8

Inhaltsanalytische Auswertung

objective and so reliable that, once they are trained, individuals from varied backgrounds and orientations will generally agree in its application“ (Neuendorf, 2010, S. 8 f.). Hierzu wurden die einzelnen Kategorien anhand der theoretisch und empirisch bedeutsamen Themen abgeleitet, in Abhängigkeit ihrer Relation zueinander angeordnet sowie schließlich zu einem Kategoriensystem zusammengefasst. Die Entwicklung der Kategorien und ihre Ausdifferenzierung in unterschiedliche Merkmalsausprägungen sowie weitere Subkategorien erfolgte in zirkulären Abläufen unter Berücksichtigung der Forschungsfrage sowie der Analyse der konkreten Daten (vgl. Kuckartz, 2018, S. 45 f.), hinsichtlich des Aufbaus des Kategoriensystems bot die Struktur des Interviewleitfadens eine erste Orientierung. Neben der vollständigen Abbildung des Forschungsinteresses über die Kategorien war ebenfalls die Realisierung von Trennschärfe innerhalb der Kategorien für deren Anwendung von besonderer Wichtigkeit. Es galt sicherzustellen, dass eine Textstelle eindeutig nur einer Merkmalsausprägung zugeordnet werden kann, sodass „eine exakte Identifizierung und Sortierung jedes Falls [möglich ist]“ (Brosius, Haas & Koschel, 2016, S. 160). Entsprechend führte die Autorin bereits im Entwicklungsprozess immer wieder Probecodierungen durch, um zu testen, ob sich die Merkmalsausprägungen gegenseitig ausschließen. Im Hinblick auf die Verständlichkeit des Kategoriensystems wurde bewusst auf die Nutzung fachsprachlicher Ausdrücke verzichtet. Das Kategoriensystem fungierte im Kontext der Analyse als eine Art Gebrauchsanweisung mit konkreten Handlungsaufforderungen für die Codiererinnen (vgl. MacQueen, McLellan, Kay & Milstein, 2009, S. 214), sodass die Autorin eine eindeutige Formulierung und eine leichte Lesbarkeit anstrebte. Auf der sprachlichen Ebene nutzte sie hierzu eine möglichst alltagsnahe Sprache und vermied komplexe grammatikalische Konstruktionen (z. B. Schachtelsätze). Zudem ergänzte sie das Kategoriensystem durch Anwendungshinweise sowie veranschaulichende Beispiele und erweiterte das Instrument auf diese Weise zu einem Kategorienleitfaden, welcher mögliche Unsicherheiten im Ratingprozesses durch zusätzliche Informationen minimieren soll (vgl. Früh, 2017, S. 84; Kuckartz, 2018, S. 38 ff.). Zur Realisierung einer möglichst genauen Anleitung des Ratings und gleichermaßen der Vermeidung einer kognitiven Überbelastung der ratenden Personen durch eine zu große Informationsfülle bestand das primäre Bestreben darin, eine Variante des Kategorienleitfadens zu erstellen, die mittig zwischen einer groben und detaillierten Gestaltungsform eingeordnet werden kann. Eine diesbezüglich gewinnbringende Unterstützung stellte das Lesen des Kategorienleitfadens durch Außenstehende dar, die über kaum inhaltlich und methodisch relevante Kenntnisse verfügen und folglich Unklarheiten sensibel wahrnehmen. Den Personen wurde der Kategorienleitfaden ohne weitere Erklärungen und verbunden mit der

8.2 Entwicklung des Kategorienleitfadens

167

Bitte übergeben, unverständliche Inhalte sowie Textstellen, deren doppeltes Lesen erforderlich war, zu markieren. Die Rückmeldungen bildeten den Ausgangspunkt weiterer Anpassungen zur Erhöhung der Verständlichkeit. Nach der Fertigstellung des Kategorienleitfadens wurde dessen Aufbau Bildungswissenschaftlerinnen bzw. -wissenschaftlern mit unterschiedlichen inhaltlichen und methodischen Schwerpunkten vorgestellt (vgl. Witzel, 1982, S. 111). In dieser Feedbackphase sollte weniger die Verständlichkeit des Instruments als „die Kohärenz und Plausibilität der Gesamtgestalt des Kategoriensystems“ (Kuckartz, 2018, S. 71) diskutiert werden. Hieraus ergaben sich hilfreiche Anmerkungen bezüglich einer Reduktion des Umfangs bzw. des Differenziertheitsgrads der Kategorien mit Blick auf das Forschungsinteresse sowie die Sicherstellung von Trennschärfe. Das Feedback bildete die Grundlage für eine abschließende Überarbeitungsphase (vgl. MacQueen et al., 2009, S. 218). Raterschulung Die vollständige Berücksichtigung des Forschungsinteresses bei der Konfiguration des Kategorienleitfadens (vgl. vertiefend Abschnitt 8.3) schafft die Grundvoraussetzung für eine valide Datenanalyse (vgl. Früh, 2017, S. 27 f.). Zur Gewährleistung der Güte bedarf es zusätzlich zur Validität des Auswertungsinstrumentes einer validen und reliablen Durchführung des Ratingprozesses (vgl. Brosius, Haas & Koschel, 2016, S. 161 ff.; Hak & Bernts, 2009; MacQueen et al., 2009). Folglich wurde in dieser Studie eine Doppelcodierung von 40 Prozent des gesamten zu ratenden Materials vorgenommen. Anhand dieser Qualitätssicherungsmaßnahme galt es zu überprüfen, ob eine intendierte Codierung gemäß dem Kategorienleitfaden erfolgt (Validität) und ob unterschiedliche Personen unabhängig voneinander den gleichen Textstellen identische Merkmalsausprägungen zuordnen (Intercoder-Reliabilität) (vgl. Früh, 2017, S. 179 ff.). Die Person, welche die Zweitcodierung durchführte (im Folgenden: Raterin B), wurde gezielt in Abstimmung auf das Forschungsvorhaben ausgewählt. Bei Raterin B handelt es sich um eine angehende Deutschlehrkraft mit schulischer Praxiserfahrung, die sich derzeit im Masterstudium befand. Es wurde angenommen, dass bedingt durch die bisherige berufliche Ausbildung ein gewisses Kontextwissen sowie ein erhöhtes thematisches Interesse vorhanden sind. Die Autorin zog die Beteiligung der Studentin an der Auswertung primär aufgrund deren inhaltlich und sprachlich hochwertiger Beiträge im Kontext eines Seminars in Betracht. Des Weiteren formulierte diese ihre Neugierde an der wissenschaftlichen Forschungspraxis sowie ihre Motivation, an einer empirischen Studie zu partizipieren. Die angeführten Aspekte wurden als positive Faktoren hinsichtlich einer sorgfältigen Zweitcodierung wahrgenommen (vgl. Gruber & Magin, 2015, S. 122 ff.).

168

8

Inhaltsanalytische Auswertung

Die Bestimmung des doppelt zu codierenden Materials erfolgte ebenfalls planvoll. Die Autorin wählte gleichermaßen transkribierte Interviews mit Lehrkräften aus Baden-Württemberg und Nordrhein-Westfalen aus und achtete darauf, dass sich diese in ihrer Dauer möglichst stark unterscheiden (d. h. kurze Dauer von 45 Minuten, mittlere Dauer von 60 Minuten und lange Dauer von 75 Minuten). Darüber hinaus berücksichtigte sie, dass die Interviews zu verschiedenen Zeitpunkten der Datenerhebung geführt wurden, sodass eine Reliabilitätsprüfung anhand der Zweitcodierung formal heterogener Interviewtranskripte vorgenommen wurde (vgl. Früh, 2017, S. 189). Trotz der genauen Instruktionen im Kategorienleitfaden (vgl. vertiefend Abschnitt 8.3) sowie des Vorliegens von ausschließlich niedrig bis mittel inferenten Kategorien, die eine geringe Interpretationsleistung fordern (vgl. Lotz, 2016, S. 154 ff.), erschien es sinnvoll, dass Raterin B eine Einführung in die methodische Arbeit mit dem Leitfaden und dem Material erhält (vgl. Hak & Bernts, 2009, S. 230 f.). Die Notwendigkeit einer zusätzlichen Schulung begründet sich insbesondere in der Mehrdeutigkeit von sprachlichen Zeichen3 bzw. Formulierungen in den Transkripten, welche zu gewissen Interpretationsspielräumen führen. Demnach besteht in Abhängigkeit der subjektiven Wahrnehmung der jeweiligen Person die Gefahr, dass identische Textstellen unterschiedlich interpretiert und codiert werden (vgl. Früh, 2017, S. 113 ff.). Die Kombination aus Raterschulung und Kategorienleitfaden sollte zur Sensibilisierung der Wahrnehmung sowie zur Minimierung des Interpretationsspielraums beitragen (vgl. ebd., S. 111). Die Schulung lässt sich grob in zwei Teile gliedern: – Theoretische Phase: Zu Beginn wurde das Forschungsvorhaben und der Kategorienleitfaden unter Bezugnahme auf die verfolgten Ziele vorgestellt sowie die grundlegende methodische Vorgehensweise der qualitativen Inhaltsanalyse erläutert. Darüber hinaus erfolgte eine Heranführung an die Bedienung des Computerprogramms MAXQDA, welches der Unterstützung des Ratings diente. – Praktische Phase: Bedingt durch die Vielzahl der Kategorien fand eine praktische Phase für die ersten beiden Teile des Kategorienleitfadens und eine separate praktische Phase für den dritten Teil des Kategorienleitfadens4 mit jeweils anschließender Zweitcodierung der entsprechenden Kategorien statt, um die kognitive Belastung von Raterin B zu reduzieren (vgl. MacQueen et al., 3 Die

Sprachwissenschaft beschäftigt sich speziell im linguistischen Teilgebiet der sogenannten Semantik mit der Ambiguität von sprachlichen Zeichen (vgl. vertiefend Löbner, 2012). 4 Der Aufbau des Kategorienleitfadens wird detailliert in Abschnitt 8.3 dargestellt.

8.2 Entwicklung des Kategorienleitfadens

169

2009, S. 218). Zur Heranführung an die konkrete Arbeit mit dem Material wurde ein exemplarisches Proberating von Transkripten durchgeführt, die nicht zur Doppelcodierung vorgesehen waren (vgl. Rössler, 2017, S. 176; Schmidt, 2013, S. 480 f.). Orientiert an der Methode des lauten Denkens verbalisierten die Codiererinnen ihre Denkprozesse im Kontext des Ratings, um ihre individuelle Vorgehensweise sichtbar zu machen (vgl. zusammenfassend Konrad, 2010). Während die Beschreibung des eigenen Vorgehens auf die Vermittlung von impliziten Praxiserfahrungen zielte, wiesen die Schilderungen von Raterin B u. a. auf Schwierigkeiten oder ein fehlerhaftes Vorgehen hin, welches im Anschluss diskutiert und korrigiert wurde (vgl. ebd., S. 482 f.). Ergänzend hierzu gab die Autorin konkrete Hinweise auf Herausforderungen im Ratingprozess. Ein Beispiel hierfür bilden die nahtlosen Themenwechsel der Lehrkräfte: So beziehen sich die Schilderungen der interviewten Person teilweise auf weitere zentrale Prüfungsfächer im MSA bzw. andere zentrale Prüfungsformate (z. B. das Zentralabitur oder die Vergleichsarbeiten), zu codieren sind jedoch ausschließlich Textstellen, die sich auf das Schulfach Deutsch im Rahmen der zentralen Prüfungen zum Erwerb des MSA beziehen. Zweitcodierung Sobald alle Fragestellungen von Raterin B im Kontext der Schulung geklärt waren, schloss sich die Zweitcodierung der ausgewählten Transkripte an. Die kleinschrittige Heranführung hatte zur Folge, dass es der Anwendung des detaillierten Kategorienleitfadens nur noch in Zweifelsfällen bedurfte und eine Codierung anhand des weniger umfangreichen Kategoriensystems5 möglich war (vgl. Früh, 2017, S. 177). Das Computerprogramm MAXQDA stellte dieses als Codierbaum dar und erlaubte eine vereinfachte Zuordnung von Textstellen über eine „Drag and Drop“-Funktion. Zur Unterstützung einer einheitlichen Codierung sowie einer Reduktion der kognitiven Anforderungen wurde ein kategorienweises Vorgehen gewählt, d. h. nach der Zuordnung der entsprechenden Textstellen aus allen Transkripten zu einer Kategorie erfolgte die Codierung der nächsten Kategorie. Sämtliche Anmerkungen (z. B. Auffälligkeiten, Probleme) konnten über eine Memo-Funktion direkt am Text notiert und in einer wöchentlichen Besprechung diskutiert werden. Der regelmäßige Austausch bildete eine Möglichkeit, frühzeitig bei Schwierigkeiten zu intervenieren und so das Vorankommen und die Motivation von Raterin B zu unterstützen (vgl. Gruber

5 Das

Kategoriensystem besteht ausschließlich aus den Bezeichnungen der Kategorien sowie der zugehörigen Merkmalsausprägungen. Es enthält keine ergänzenden Erläuterungen oder Beispiele.

170

8

Inhaltsanalytische Auswertung

& Magin, 2015, S. 126 f.). Dies erscheint besonders bedeutsam, da die Codiererinnen im sonstigen Ratingprozess räumlich und zeitlich unabhängig voneinander arbeiteten, um eine gegenseitige Beeinflussung zu vermeiden. Alle Codierungen wurden mithilfe des Computerprogramms SPSS6 dokumentiert, auf Vollständigkeit geprüft und abschließend bezüglich (Tipp-)Fehlern korrigiert (vgl. Rössler, 2017, S. 185 f.). Die Feststellung des Übereinstimmungsgrades der Codiererinnen erfolgte anhand des vielfach genutzten Reliabilitätskoeffizienten Cohens Kappa (κ) (vgl. Früh, 2017, S. 42). Im Gegensatz zu alternativen Übereinstimmungsmaßen berücksichtigt Cohens Kappa „das Verhältnis der beobachteten zu der bei Zufall erwarteten Übereinstimmung“ (Wirtz & Caspar, 2002, S. 55). Die Bereinigung der Werte um zufällige Übereinstimmungen erlaubt eine möglichst unverzerrte Bestimmung der Intercoder-Reliabilität (vgl. ebd., S. 55 ff.). Im Rahmen der konkreten Berechnungen berücksichtigte die Autorin nicht nur die Anzahl und Art der Codierungen, sondern prüfte außerdem, ob identische oder unterschiedliche Textstellen eines Transkriptes einer Merkmalsausprägung zugeordnet wurden. Sofern die Codiererinnen das Vorhandensein einer Merkmalsausprägung in einem Transkript durch variierende Textstellen belegten, wertete sie dies als zwei unterschiedliche Fälle, die nicht übereinstimmend codiert wurden. Die Textlänge der codierten Einheiten hatte keinen Einfluss auf die Bestimmung der Reliabilität, da begründet in der qualitativen Ausrichtung der Analyse die Inhalte der codierten Textstellen von Bedeutung sind und nicht deren identische Begrenzung (vgl. Kuckartz, 2018, S. 34). Die Beurteilerübereinstimmung für die gesamte zweitcodierte Stichprobe besitzt einen Wert von κ = 0.865. Bedingt durch ein Rating von ausschließlich niedrig bis mittel inferenten Kategorien und des folglich „geringeren Ausmaßes an interpretativen Schlussfolgerungen sind […] höhere Übereinstimmungen zwischen verschiedenen Kodierenden zu erwarten [gewesen] als bei hoch inferenten Ratings“ (Lotz, 2016, S. 156), dennoch ist der berechnete Reliabilitätskoeffizient erfreulich hoch. Unter Bezugnahme auf die „Orientierungshilfen zur Beurteilung der Güte von κ“ nach Wirtz und Caspar (2002) gilt, „dass ein κ > 0.75 als Indikator für sehr gute […] Übereinstimmung angesehen werden kann“ (S. 59). Eine differenziertere Betrachtung der Reliabilitätskoeffizienten zeigt sogar auf, dass hinsichtlich des Ratings von Teil I des Kategoriensystems eine vollständige Übereinstimmung von κ = 1.0 besteht. Die hohe Beurteilerübereinstimmung lässt sich durch die Zusammensetzung dieses Teils aus vier niedrig inferenten Faktenkategorien begründen, welche der Erfassung von Personenangaben dienen und entsprechend eine triviale Zuordnung von

6 Das Programm SPSS (kurz für: Statistical Package for the Social Sciences) ist eine Statistik-

Software zur Datenanalyse (vgl. vertiefend Janssen & Latz, 2017).

8.2 Entwicklung des Kategorienleitfadens

171

Codiereinheiten zu Textstellen aufweisen (vgl. Kuckartz, 2018, S. 34). Die weiteren beiden Teile des Kategoriensystems bestehen aus thematischen Kategorien und besitzen ebenfalls hohe Cohens Kappa Werte: für Teil II wurde κ = 0.905 und für Teil III κ = 0.846 berechnet. Zur Realisierung einer möglichst hohen intersubjektiven Nachvollziehbarkeit entschied sich die Autorin für einen detaillierten Bericht der Reliabilitätskoeffizienten aller Kategorien7 (vgl. Steinke, 2017) (Tabelle 8.1). Tabelle 8.1 Übereinstimmungswerte der Doppelcodierung von Teil II und Teil III Kategorie

Ergebnisse (κ)

3 Heranführung an die Prüfung

0.786

4.1 Chancen der zentralen Prüfungsklausur

0.722

4.2 Herausforderungen der zentralen Prüfungsklausur

0.877

5.1 Chancen der Prüfungsvorbereitung

1.000

5.2 Herausforderungen der Prüfungsvorbereitung

0.885

6 Ziele und Funktionen des Erwartungshorizontes

0.750

7.1 Existenz von Unterstützungsangeboten

0.706

7.2 Bedarf an Unterstützungsangeboten

1.000

8.1 Verbindlichkeit der Nutzung des Erwartungshorizontes

0.778

8.2 Überprüfung der Nutzung des Erwartungshorizontes

1.000

8.3 Allgemeine Nutzungspraxis des Erwartungshorizontes

0.706

8.4 Verbindlichkeit der Konfiguration des Erwartungshorizontes

1.000

8.5 Relevante Einflussfaktoren auf die Leistungsbeurteilung

0.785

9 Aufwand bezüglich des Erwartungshorizontes

0.831

10 Nützlichkeit des Erwartungshorizontes

1.000

11.1 Existenz von Feedbackmöglichkeiten

0.667

11.2 Nutzung von Feedbackmöglichkeiten

1.000

11.3 Berücksichtigung des Feedbacks

1.000

12.1 Formale Gestaltung des landesspezifischen Erwartungshorizon- 1.000 tes 12.2 Lösungsdarstellung im landesspezifischen Erwartungshorizont 0.654 (Fortsetzung)

7 Aufgrund

der vollständigen Beurteilerübereinstimmung bezüglich aller Faktenkategorien in Teil I, beinhaltet die Tabelle nur die Reliabilitätskoeffizienten für Teil II und Teil III des Kategorienleitfadens.

172

8

Inhaltsanalytische Auswertung

Tabelle 8.1 (Fortsetzung) Kategorie

Ergebnisse (κ)

12.3 Anleitung der Bewertung und Benotung im landesspezifischen 0.760 Erwartungshorizont 13.1 Chancen und Herausforderungen von stark differenzierten 0.578 Erwartungshorizonten 13.2 Chancen und Herausforderungen von gering differenzierten 1.000 Erwartungshorizonten 14.1 Wünschenswerte formale Gestaltung des Erwartungshorizontes 0.723 14.2 Wünschenswerte Lösungsdarstellung im Erwartungshorizont

0.689

14.3 Wünschenswerte Anleitung der Bewertung und Benotung im 0.845 Erwartungshorizont 15.1.1 Nutzungsintensität des Erwartungshorizontes

1.000

15.1.2 Begründung der starken Nutzung des Erwartungshorizontes

0.747

15.1.3 Begründung der geringen Nutzung oder Nicht-Nutzung des 0.786 Erwartungshorizontes 15.1.4 Umgang mit Spielräumen des Erwartungshorizontes

0.675

15.1.5 Erfordernis von Abweichungen vom Erwartungshorizont

0.727

15.2.1 Durchführung der Zweitkorrektur

0.722

15.2.2 Begründung der vollständigen Durchführung der Zweitkorrek- 1.000 tur 15.2.3 Begründung der reduzierten Durchführung oder der Nicht- 0.760 Durchführung der Zweitkorrektur 15.3 Umgang mit den beteiligten Lehrkräften

0.607

Unter Bezugnahme auf Wirtz & Caspar (2002) weist der Großteil der Kategorien mit Werten von κ > 0.6 eine gute bis sehr gute Übereinstimmung auf. Lediglich für Kategorie 13.1 Wahrnehmung von stark differenzierten Erwartungshorizonten wurde mit κ = 0.578 ein Wert berechnet, der nur „je nach Interesse und vor dem Hintergrund der Zuverlässigkeit alternativer Messverfahren als akzeptable Übereinstimmung toleriert werden [kann]“ (ebd., S. 59). Der niedrige Kappa-Wert resultiert vorrangig aus der Zuordnung einer vergleichsweise geringen Anzahl von Textstellen zu dieser Kategorie (d. h. fünf bzw. sechs Zuordnungen), weshalb einzelne Abweichungen stärker ins Gewicht fallen. Zudem handelt es sich um eine Kategorie, die auf der inhaltlichen Ebene für die Auswertung weniger bedeutsam ist. Folglich kann aufgrund der Werte von einer reliablen Durchführung des Ratings ausgegangen werden.

8.3 Aufbau des Kategorienleitfadens

8.3

173

Aufbau des Kategorienleitfadens

Der Kategorienleitfaden besteht grundsätzlich aus einem Kategoriensystem sowie zusätzlichen anleitenden Anmerkungen und Erläuterungen. Den einzelnen Kategorien und ihren spezifischen Anwendungshinweisen ist zunächst ein Vorwort mit allgemeinen Informationen vorangestellt. In diesem einleitenden Teil werden ausgehend von der Präsentation des Ziels, einer systematischen Analyse der geschilderten Wahrnehmungen sowie der beschriebenen Beurteilungspraxis, der Aufbau und die Nutzung des Leitfadens erläutert. Zur Sicherstellung des intendierten Umgangs mit dem Leitfaden sowie dem Material liegt ein besonderer Fokus auf der Definition der Codiereinheiten (vgl. vertiefend Abschnitt 8.1). Um eine möglichst einheitliche Bestimmung der zuzuordnenden Textstellen anzuleiten, enthält das Vorwort diesbezüglich konkrete Beispiele mit ergänzenden Erläuterungen. An das Vorwort schließen sich insgesamt 39 Kategorien an. Jede Kategorie beinhaltet eine Beschreibung ihrer Inhalte sowie ihrer Relevanz hinsichtlich des Forschungsinteresses. Außerdem werden erläuternde Hinweise zur Anwendung der Kategorie und sofern nötig zur Abgrenzung von anderen (Sub-)Kategorien gegeben. Die Kerninformationen der Kategorie liegen in tabellarischer Form vor, um im Hinblick auf das Rating eine schnelle Orientierung zu ermöglichen. Die Kategorie 2 Schulischer Kontext dient der exemplarischen Veranschaulichung des tabellarischen Aufbaus (Tabelle 8.2): Tabelle 8.2 Exemplarische Konfiguration der Kategorien ID

Merkmalsausprägung

Hinweise

Beispiel

11

Sekundarstufe I

Die Merkmalsausprägung umfasst Schulformen, an welchen kein Abschluss der Sekundarstufe II erworben werden kann: Realschulen und Sekundarschulen.

„[…] bin dann jetzt, wie ich vorhin erzählt, nur noch mit einer halben Stelle an der Realschule, Sekundarschule habe ich aufgegeben und (..) dann im Bildungsbüro.“ (NW4, Position 6)

12

Sekundarstufe I und II

Die Merkmalsausprägung umfasst „Also ich bin/ seit 2009 unterSchulformen, an welchen auch ein richte ich an einer Gesamtschule Abschluss der Sekundarstufe II […]“ (NW1, Position 6) erworben werden kann: Gemeinschaftsschulen und Gesamtschulen.

174

8

Inhaltsanalytische Auswertung

In grober Anlehnung an den vorgeschlagenen Aufbau nach Groeben & Rustemeyer (2002) besteht jede Kategorie aus8 : – Kennzeichnungen der unterschiedlichen Merkmalsausprägungen durch die Zuordnung von Identifikationsnummern (im Folgenden: ID)9 – Bezeichnungen der Merkmalsausprägungen anhand von einzelnen Begriffen oder stichwortartigen Formulierungen – Hinweise zur Zuordnung von Textstellen zu den einzelnen Merkmalsausprägungen – beispielhafte Transkriptausschnitte zur Veranschaulichung der Anwendung Zur Gliederung der einzelnen Kategorien wurde eine hierarchische Anordnung in Form von übergeordneten Hauptkategorien sowie zugehörigen, thematisch spezielleren Subkategorien gewählt (vgl. Kuckartz, 2018, S. 38 f.). Des Weiteren erfolgte eine Sortierung und Zuordnung der Kategorien zu den drei Teilen: Informationen zur interviewten Lehrkraft, Bereich Prüfungsklausur und Bereich Erwartungshorizont. Ausgehend von dieser Gruppierung stellt die Autorin die Inhalte der Kategorien im Folgenden genauer vor und begründet ihre Relevanz im Hinblick auf das Forschungsinteresse. Neben einer Übersicht hinsichtlich der Gestaltung des Kategoriensystems soll außerdem Transparenz geschaffen werden, „ob im Kategoriensystem tatsächlich alle Aspekte berücksichtigt wurden, die in der Forschungsfrage enthalten sind“ (Früh, 2017, S. 188) und somit Inhaltsvalidität gegeben ist.

8.3.1

Informationen zur interviewten Lehrkraft

Der erste Teil des Kategoriensystems setzt sich aus vier niedrig inferenten Faktenkategorien zusammen, mithilfe derer die Erfassung folgender Aspekte angestrebt wird: – das Geschlecht, – die Fächerkombination und – die Lehrerfahrung der interviewten Lehrkraft sowie 8 Die

Beschreibung der Tabelle erfolgt spaltenweise von links nach rechts.

9 Die Identifikationsnummern dienen lediglich der Klassifikation der Merkmalsausprägungen

und besitzen im Sinne einer Nominalskala keine natürliche Reihenfolge (vgl. Früh, 2017, S. 34 ff.). Die folgenden Werte werden einheitlich für bestimmte Merkmalsausprägungen verwendet: 777 = keine Zuordnung möglich, 999 = keine Angabe.

8.3 Aufbau des Kategorienleitfadens

175

– der jeweilige schulische Kontext bezogen auf die Schulform, an welcher die Lehrkraft unterrichtet. Das Ziel besteht in der Beschreibung allgemeiner und schulspezifischer Eigenschaften der interviewten Lehrkraft bzw. ihres Arbeitsumfeldes. Zwar ergeben die Kategorien isoliert betrachtet keine Hinweise, die mit Blick auf die Forschungsfrage relevant sind, jedoch könnte die anschließende Untersuchung des Zusammenhangs zu anderen (Sub-)Kategorien weitere Aufschlüsse ermöglichen.

8.3.2

Bereich Prüfungsklausur

Anhand des zweiten Teils des Kategoriensystems erfolgt ein Einstieg in die Analyse der Wahrnehmungen der Lehrkräfte hinsichtlich der zentralen Prüfung zum Erwerb des MSA. Bevor eine Betrachtung der Beurteilungspraxis vorgenommen wird, sollen in diesem Rahmen zunächst die Einschätzungen der Lehrkräfte hinsichtlich der vorgelagerten Prüfungsvorbereitung und -durchführung untersucht werden. Wie bereits in Abschnitt 5.1.1 thematisiert, besteht ein enger Zusammenhang zwischen der Prüfungsklausur und dem Erwartungshorizont. Der Erwartungshorizont lässt sich als Zusammenstellung der erwarteten Leistungen zur Lösung der (Prüfungs-) Aufgaben beschreiben. Entsprechend bedarf es einer wechselseitigen Entwicklung der Prüfungsklausur und des Erwartungshorizontes, um die beiden Instrumente bestmöglich aufeinander abzustimmen (vgl. Köster, 2010b). Folglich soll sich die kategoriale Analyse nicht auf die isolierte Betrachtung des Beurteilungsverfahrens beschränken, sondern die vorgelagerten Prüfungsprozesse zumindest in einem gewissen Umfang berücksichtigen. Unter Bezugnahme auf die zentrale Fragestellung hinsichtlich der allgemeinen Wahrnehmungen des zentralen Prüfungsformats und dessen Bestandteile werden im Rahmen der Kategorien dieses Teils folgende Bereiche analysiert: – Heranführung an die Arbeit mit bzw. in der Prüfung: Aktuelle Studien verweisen auf die Bedeutsamkeit der Heranführung an eine bildungsadministrative Maßnahme im Hinblick auf deren positive Wahrnehmung (vgl. Freudenthaler & Specht, 2005, S. 24 ff.) sowie einer intendierten Umsetzung der Maßnahme durch die beteiligten Lehrkräfte (vgl. Böttcher & Dicke, 2008; Maier, 2008). Folglich soll anhand dieser Kategorie analysiert werden, ob und wenn ja, durch wen (z. B. Landesbildungsministerium, Kollegium) bzw. auf welche Weise (z. B. über Informationsblätter, im Gespräch) die Lehrkräfte in ihren ersten Prüfungsdurchläufen an die zentrale Klausur sowie deren Vorbereitung und Durchführung angeleitet wurden.

176

8

Inhaltsanalytische Auswertung

– Chancen und Herausforderungen der zentralen Prüfungsklausur: Im Vergleich zu regulären Klassenarbeiten sind die Lehrkräfte nicht an der Erstellung der Klausur im Kontext der zentralen Prüfung beteiligt. Stattdessen erfolgt eine landesweite Vorgabe der Prüfungsklausur, sodass die konkreten Inhalte auch für die Lehrkraft bis zum Prüfungstag unbekannt bleiben (vgl. Holmeier & Maag Merki, 2012, S. 160). Anhand von zwei Kategorien sollen sämtliche positive Möglichkeiten wie auch problematische und negative Aspekte erfasst werden, die sich aus der Sicht der Lehrkräfte durch die Existenz und den Einsatz einer zentralen Prüfungsklausur eingestellt haben oder einstellen werden. – Chancen und Herausforderungen der Prüfungsvorbereitung: Unter Bezugnahme auf aktuelle nationale und internationale Forschungsbefunde resultiert aus der zentralen Prüfungsklausur eine veränderte Vorbereitung der Lernenden. Es wird insbesondere eine Beschränkung auf prüfungsrelevante Inhalte im vorgelagerten Unterricht (d. h. ein Teaching to the Test-Effekt) festgestellt und diskutiert (vgl. z. B. Kahnert et al., 2015; Lijia, Lai & Lo, 2016; Maag Merki, 2016a; Oerke et al., 2013; Stolz, 2017). Bislang liegen jedoch keine spezifischen Ergebnisse zu den Einflüssen der zentralen Prüfung zum Erwerb des MSA auf den vorgelagerten Unterricht vor. Entsprechend sollen analog zur Analyse der Prüfungsklausur sämtliche positive Möglichkeiten wie auch problematische und negative Aspekte erfasst werden, die sich aus der Sicht der Lehrkräfte im Rahmen der Vorbereitung einer zentralen Prüfungsklausur eingestellt haben oder einstellen werden.

8.3.3

Bereich Erwartungshorizont

Der dritte Teil umfasst ausschließlich Kategorien, welche sich auf die Wahrnehmungen der Lehrkräfte hinsichtlich des Beurteilungsverfahrens der zentralen Prüfung beziehen und ist somit im Hinblick auf das Forschungsinteresse von großer Wichtigkeit. Aufgrund der Bedeutsamkeit dieses Teiles sowie der vergleichsweise höheren Komplexität einiger Kategorien sollen sämtliche Kategorien präsentiert sowie ihre Relevanz hinsichtlich des Forschungsinteresses erläutert werden. Abschließend wird der Zusammenhang zwischen den Kategorien und den zentralen Fragestellungen der Studie zusammengefasst dargestellt. Kategorie 6: Ziele und Funktionen des Erwartungshorizontes Die erste Kategorie dieses Teils dient der Analyse, welche intendierten Ziele und Funktionen die Lehrkraft hinsichtlich des Einsatzes von Erwartungshorizonten wahrnimmt. Hierunter fallen sämtliche Ziele und Funktionen, welche die bildungsadministrative Ebene aus Sicht der Lehrkraft mit der zentralen Vorgabe von

8.3 Aufbau des Kategorienleitfadens

177

Erwartungshorizonten verfolgt, wie z. B. die Orientierung an einer kriterialen Bezugsnorm (vgl. Demski, 2017, S. 99 ff.), eine transparente Beurteilung (vgl. Ackeren, 2007) oder eine vergleichbare Abschlussvergabe (vgl. Klein et al., 2016; Maué, 2013). Hierbei ist zu beachten, dass die bildungsadministrativen Intentionen in Abhängigkeit des Bundeslandes variieren können (vgl. Holmeier, 2013, S. 53). Anhand dieser Kategorie sollen unter Bezugnahme auf die zweite zentrale Fragestellung der Studie erste Aufschlüsse zu den Wahrnehmungen des Erwartungshorizontes gewonnen werden sowie gleichermaßen überprüft werden, inwiefern die Intentionen des Instruments der beteiligten Lehrkraft bekannt sind. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet und orientiert an den in der Literatur formulierten Zielen der zentralen Prüfungen zusammengefasst und bezeichnet. ID

Merkmalsausprägung

Hinweise

Beispiel

38

Vergleichbarkeit des Schulabschlusses

Die Lehrkraft nimmt die Realisierung bzw. Erhöhung von Vergleichbarkeit als Ziel wahr (d. h. eine Beurteilung nach einheitlichen Kriterien, die Schaffung einer objektiven Beurteilungspraxis).

„Das ist so, glaube ich, so ein bisschen auch (.) ein Festklopfen, um zu sagen, so, um eine relativ objektive (.) Notengebung zu gewährleisten, müssen wir schauen, was muss jeder Schüler, jede Schülerin bringen, um eine Drei meinetwegen/ mindestens mit einer Drei eben diese Klausur zu bestehen.“ (BW2, Position 28)

39

Qualitätssicherung

Die Lehrkraft nimmt die Bestimmung und Sicherung des Niveaus der Unterrichts- bzw. Prüfungsinhalte als Ziel wahr.

„Also sicherlich geht es um die Sicherung von Standards auf einer gewissen Niveaustufe, das ist wahrscheinlich die Hauptintention […]“ (BW1, Position 16)

40

Aufwertung des Schulabschlusses

Die Lehrkraft nimmt die Aufwertung des MSA als Ziel wahr (z. B. durch das Festlegen oder Sichtbarmachen von Leistungserwartungen im Erwartungshorizont).

„Vielleicht hängt es auch damit zusammen, um (..) ja, um zu zeigen, der Realschulabschluss, der hat auch einen Wert, der hat auch einen Bildungswert, so einen intellektuellen Wert.“ (BW2, Position 28)

41

Vereinfachung der Zusammenarbeit

Die Lehrkraft nimmt die Verringerung von Diskussionen über inhaltliche Aspekte der Beurteilung bzw. die Vereinfachung der Zusammenarbeit zwischen den beurteilenden Lehrkräften als Ziel wahr.

„[…] aber auch die Erleichterung der Zusammenarbeit der verschiedenen Korrekturebenen, sag ich jetzt mal.“ (BW1, Position 16)

178

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

42

Unwissenheit

Die Lehrkraft kennt keine Ziele bzw. kann sich keine Ziele bezüglich des Einsatzes eines zentral vorgegebenen Erwartungshorizontes vorstellen.

„I: […] Sie haben ja nun ein gewisses pädagogisches Verständnis, ein gewisses Professionswissen, was meinen Sie, warum werden die Erwartungshorizonte auch zentral vorgegeben? B: Warum das der Fall ist, das weiß ich nicht, keine Ahnung.“ (NW2, Position 39–40)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Kategorie zugeordnet werden kann.

8.3 Aufbau des Kategorienleitfadens

179

Kategorie 7: Unterstützungsangebote bezüglich des Erwartungshorizontes In direkter Ergänzung zu Kategorie 6 werden mithilfe dieser Kategorie Aufschlüsse zu den Unterstützungsangeboten angestrebt, die aus Sicht der Lehrkraft vorhanden oder notwendig sind, um die intendierten Ziele zu realisieren. Wie bereits darauf hingewiesen (vgl. Abschnitt 8.3.2), ist die Heranführung an eine bildungsadministrative Maßnahme bzw. an die Arbeit mit den zugehörigen Instrumenten bedeutsam, um eine positive Wahrnehmung (vgl. Freudenthaler & Specht, 2005, S. 24 ff.) sowie einen intendierten Umgang mit diesen zu unterstützen (vgl. Böttcher & Dicke, 2008; Maier, 2008). Entsprechend vermutet die Autorin, dass eine Anleitung bezüglich der Gestaltung des Erwartungshorizontes bzw. bezüglich der Arbeit mit diesem hilfreich sein könnte. Anhand der beiden Subkategorien wird zunächst überprüft, inwieweit ein Angebot an Unterstützungsangeboten hinsichtlich des Umgangs mit dem Erwartungshorizont wahrgenommen wird und im Anschluss inwiefern ein individueller Bedarf an (weiteren) Unterstützungsangeboten besteht. Unter Bezugnahme auf die zweite zentrale Fragestellung der Studie sollen somit weitere Aufschlüsse zu den Wahrnehmungen des Erwartungshorizontes gewonnen werden. Auf der Grundlage der Befunde der beiden Subkategorien können Aussagen getroffen werden, ob der Umgang mit dem Erwartungshorizont (inklusive oder exklusive spezieller Unterstützungsangebote) als verständlich wahrgenommen wird und inwiefern folglich eine einheitliche Anwendung des Instrumentes möglich ist. 7.1 Existenz von Unterstützungsangeboten: Anhand dieser Subkategorie soll analysiert werden, welche Unterstützungsangebote zum Umgang mit dem Erwartungshorizont aus der Sicht der Lehrkraft vorliegen (z. B. Informationsblätter, Kontaktpersonen im Landesbildungsministerium usw.). Es ist zu beachten, dass mit dieser Subkategorie ausschließlich Unterstützungsangebote erfasst werden, die sich speziell auf die Arbeit mit dem Erwartungshorizont in den zentralen Prüfungen des MSA im Prüfungsfach Deutsch beziehen (d. h. keine Fortbildungen zur Beurteilung von Prüfungsarbeiten, keine allgemeinen oder fächerübergreifenden Informationen zu Erwartungshorizonten). Des Weiteren werden keine Angebote berücksichtigt, die lediglich der Rückmeldung hinsichtlich des Erwartungshorizontes dienen, diese werden in Subkategorie 11.1 analysiert. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet.

180

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

43

Unterstützung durch eine Kontaktperson

Die Lehrkraft nimmt die Existenz einer zentralen Kontaktperson, welche bei Fragen zur Verfügung steht, als Unterstützung hinsichtlich der Nutzung des Erwartungshorizontes wahr.

„Also ich glaube, dass es da irgendwie eine Hotline gibt oder sowas oder wenigstens eine E-Mail, an die man dann sich wenden kann. Wir hatten das, meine ich, bei Mathe mal, da war irgendwie ein Fehler im Bewertungsbogen oder in der Arbeit an sich, weiß ich nicht mehr so genau. Und da gab es auf jeden Fall irgendeinen Ansprechpartner, irgendwo da, aber ich weiß aber nicht genau, wie und wo das genau, wie das funktionierte, aber irgendwas gab es da.“ (NW5, Position 100)

44

Unterstützung durch die Fachberatung

Die Lehrkraft nimmt die jeweiligen Fachberaterinnen und Fachberater als Unterstützung hinsichtlich der Nutzung des Erwartungshorizontes wahr.

„Klar, Sie können bei den entsprechenden, heißt das Fachberatung, weiß ich gar nicht, ja, in NW2 dann anfragen.“ (NW2, Position 118)

45

Unterstützung durch das Kollegium

Die Lehrkraft nimmt die Zusammenarbeit mit den weiteren beteiligten Lehrpersonen als Unterstützung wahr (z. B. in Form eines informellen Austauschs, der gemeinsamen Beurteilung von Prüfungsarbeiten oder verpflichtenden Korrekturbesprechungen).

„Und ich glaube, das einzige Unterstützungssystem ist tatsächlich Teamarbeit. Kooperation mit Kolleginnen und Kollegen, die auch 10. Klassen haben […]“ (BW2, Position 100)

46

keine Unterstützungsangebote

Die Lehrkraft kennt keine Unter- „I: Jetzt ist es ja auch keine alltägstützungsangebote. liche Aufgabe, an externen Erwartungshorizonten zu beurteilen. Gibt es irgendwelche Unterstützungsangebote, die Sie nutzen können? B: (..) Das weiß ich gar nicht, ob wir da Leute anrufen können. Habe ich mir gar keine Gedanken drübergemacht. I: Aber wird jetzt nirgendwo drauf hingewiesen in den Erwartungshorizonten oder/ B: Nee, ich habe es zumindest nicht gelesen, nee.“ (NW4, Position 113– 116)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

8.3 Aufbau des Kategorienleitfadens

181

7.2 Bedarf an Unterstützungsangeboten: Anhand dieser Subkategorie soll analysiert werden, ob die Lehrkraft bei sich selbst einen Bedarf an (zusätzlichen) Unterstützungsangeboten zum Umgang mit dem Erwartungshorizont wahrnimmt und wenn ja, in welcher Form die benötigte Unterstützung erfolgen sollte (z. B. durch Informationsblätter, Kontaktpersonen). Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung Hinweise

Beispiel

47

Bedarf bezüglich einer Kontaktperson

Die Lehrkraft nimmt bei sich selber einen Bedarf hinsichtlich der Verfügbarkeit einer zentralen Kontaktperson zur Unterstützung des Umgangs mit dem Erwartungshorizont wahr.

„I: Bräuchten Sie da mehr Unterstützungsangebote? (…) B: Eigentlich nicht. (…) Eigentlich ist das so in Ordnung, also wenn es jemanden (..)/ Ja, mit diesem Ansprechpartner wäre das Problem vielleicht gelöst, dass man sagt, wir sitzen hier als Kollegen zusammen, rufen wir den nochmal an und fragen mal, wie ist es denn gemeint? I: Dass man auch konkret Fragen stellen kann. B: […]. Wenn es da eine klare Vorgabe geben würde oder man bei Fragen dann auch einfach jemanden anrufen könnte, der dann sagt, so und so sieht es aus, vielleicht eine E-Mail, in welcher Form auch immer, das würde schon helfen, ja.“ (NW1, Position 167–169)

48

Bedarf an speziellen Fortbildungen

Die Lehrkraft nimmt einen Bedarf an Fortbildungen wahr, in welchen der Umgang mit dem Erwartungshorizont angeleitet wird.

„Nee, aber so eine offizielle, also, ich sag mal, so eine (..) Deutsch für erstmals Korrigierende, eine Fortbildung oder so, gibt es nicht, was vielleicht auch mal ganz geschickt wäre. Aber gab es bisher, zumindest habe ich es noch nie gesehen, dass es sowas gibt.“ (BW4, Position 78)

49

kein Unterstützungsbedarf

Die Lehrkraft nimmt keinen (weiteren) Unterstützungsbedarf bei sich selbst wahr bzw. äußert, dass sie Unklarheiten und Probleme in Zusammenarbeit mit ihren Kolleginnen und Kollegen klärt.

„I: Ja, das heißt, von Seiten des Ministeriums kriegt man jetzt keine zusätzlichen Unterstützungsangebote, das ist jetzt schon schulabhängig, […], wo man unterstützt wird. B: Sicher. I: Würden Sie sich das wünschen, dass das noch eine externe Möglichkeit gibt? B: Nein, also ich auf keinen Fall.“ (BW2, Position 101–104)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

182

8

Inhaltsanalytische Auswertung

Kategorie 8: Verbindlichkeit bezüglich des Erwartungshorizontes Nachdem die wahrgenommene Verständlichkeit und entsprechend auch Anwendbarkeit des Erwartungshorizontes erfasst wurden, soll nun die wahrgenommene Verbindlichkeit des Erwartungshorizontes und dessen Nutzung untersucht werden. Die folgenden fünf Subkategorien erlauben, differenziert auf unterschiedliche Aspekte dieses Bereichs einzugehen. Unter Bezugnahme auf die zweite zentrale Fragestellung der Studie sollen somit weitere Aufschlüsse zu den Wahrnehmungen des Erwartungshorizontes gewonnen werden. 8.1 Verbindlichkeit der Nutzung des Erwartungshorizontes: Anhand der ersten Subkategorie soll analysiert werden, inwiefern sich die Lehrkraft verpflichtet sieht, den Erwartungshorizont im Rahmen der Leistungsbeurteilung zu nutzen. Es wird dichotom zwischen zwei induktiv gebildeten Merkmalsausprägungen unterschieden: – obligatorische Nutzung: Die Nutzung des Erwartungshorizontes wird als verbindlich bzw. obligatorisch wahrgenommen, d. h. die Nutzung wird als Vorgabe, Pflicht, Zwang usw. beschrieben. – fakultative Nutzung: Die Nutzung des Erwartungshorizontes wird als nicht verbindlich bzw. nicht obligatorisch wahrgenommen, d. h. der Erwartungshorizont wird als Hilfestellung oder Anhaltspunkt bezeichnet bzw. seine Nutzung als freiwillig beschrieben. Bei der Analyse der wahrgenommenen Verbindlichkeit der Nutzung ist zu beachten, dass anhand der Bezeichnung des Erwartungshorizontes als Hinweis oder Hinweise durch Lehrkräfte aus Baden-Württemberg keine Schlüsse hinsichtlich der wahrgenommenen Verbindlichkeit gezogen werden können, da es sich hierbei um die offizielle Bezeichnung in diesem Bundesland handelt. Des Weiteren ermöglicht die reine Beschreibung der individuellen Nutzungspraxis keine Aussage über die Wahrnehmung der Verbindlichkeit der Nutzung. Unter Bezugnahme auf das Konzept der Rekontextualisierung nach Fend (2008a) kann nicht von einem vorhersagbarem, schlichten Auftragshandeln der Lehrkräfte ausgegangen werden, d. h. die Lehrkraft könnte den Erwartungshorizont zwar als verbindlich wahrnehmen und dennoch auf dessen Nutzung verzichten. Entsprechend bedarf es konkreter Aussagen zur Wahrnehmung der Verbindlichkeit der Nutzung für die Zuordnung zu einer Merkmalsausprägung. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet.

8.3 Aufbau des Kategorienleitfadens Hinweise

183

ID

Merkmalsausprägung

50

obligatorische Nutzung Die Lehrkraft versteht den Erwar- „[…] ist ja nicht, dass sie das/ dass tungshorizont als Vorgabe, die uns vor Wut der Kamm schwillt, dann genutzt werden muss. wenn wir die anwenden müssen.“ (NW2, Position 24)

Beispiel

51

fakultative Nutzung

Die Lehrkraft versteht den Erwartungshorizont als Angebot und nimmt die Nutzung nicht als verbindlich wahr.

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

„Es ist ja auch nur ein Vorschlag und ich glaube, so wird es sogar formuliert auf dem Erwartungshorizont, dass es nicht, also dass es als Orientierungshilfe dienen soll und nicht als Maßgabe absolut verbindlich. Und so kann ich damit gut leben, ne.“ (BW5, Position 120)

8.2 Überprüfung der Nutzung des Erwartungshorizontes: Wie zuvor erörtert, geht die Autorin unter Bezugnahme auf die Educational Governance-Forschung davon aus, dass die Leistungsbeurteilung in der zentralen Prüfung des MSA u. a. durch die schul- und prüfungsspezifischen Rahmenbedingungen sowie die Wahrnehmungen und Kompetenzen der Lehrkraft multifaktoriell beeinflusst wird (vgl. vertiefend Abschnitt 4.2). Die beurteilende Lehrperson wird nicht als passives Ausführungsorgan verstanden, sondern agiert vielmehr als (selbst-)reflexives Subjekt, welches die vorgegebenen Erwartungshorizonte im Vorgang der Rekontextualisierung individuell interpretiert und mehr oder weniger nutzt (vgl. Fend, 2008a). Entsprechend besteht die Möglichkeit, dass die Lehrkraft trotz der wahrgenommenen verbindlichen Nutzung, den Erwartungshorizont im Rahmen der Leistungsbeurteilung anders als intendiert anwendet bzw. vollständig auf dessen Nutzung verzichtet. Um einem abweichenden Verhalten entgegenzuwirken und eine einheitliche Nutzungspraxis zu fördern, ist auch der Einsatz von Sanktionen denkbar (vgl. Fend, 2008b, S. 29), wie z. B. Lob oder die Option, der Übernahme der Position einer schulübergreifenden Ansprechperson für die Leistungsbeurteilung inklusive eines entsprechenden Deputats. Um positive bzw. negative Anreize in Abhängigkeit der Anwendung des Instruments verteilen zu können, bedarf es in einem vorgelagerten Schritt einer Überprüfung, inwiefern die Lehrkraft den Erwartungshorizont nutzt. Folglich soll mithilfe dieser Subkategorie überprüft werden, ob die Lehrkraft in irgendeiner Form eine externe Überprüfung der Nutzung des Erwartungshorizontes wahrnimmt (z. B. durch die Schulaufsichtsbehörde, das zuständige Landesbildungsministerium). Der Begriff extern bedeutet in diesem Fall, dass sämtliche interne

184

8

Inhaltsanalytische Auswertung

Kontrollen über andere beteiligte Lehrkräfte nicht berücksichtigt werden (z. B. in Form einer Zweitkorrektur durch eine Lehrkraft aus der eigenen Schule oder aus der zugewiesenen Partnerschule). Eine Betrachtung von internen Kontrollen sowie der grundsätzlichen Zusammenarbeit der Lehrkräfte im Kontext der Leistungsbeurteilung erfolgt gezielt in den Subkategorien 15.2 und 15.3. Die Merkmalsausprägungen wurden deduktiv gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

52

Überprüfung

Die Lehrkraft nimmt eine externe kein Beispiel vorhanden Form der Überprüfung der Nutzung des Erwartungshorizontes wahr (z. B. durch die Schulaufsichtsbehörde, das zuständige Landesbildungsministerium).

53

keine Überprüfung

Der Lehrkraft ist keine externe Form „I: Gibt es sonst noch irgendwelche der Überprüfung der Nutzung des stichprobenartigen Kontrollen, von Erwartungshorizontes bekannt. Ministeriumsseite oder sowas? B: Nicht, dass ich wüsste, nee.“ (BW1, Position 121–122)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

8.3 Allgemeine Nutzungspraxis des Erwartungshorizontes: Neben der Beschreibung und Begründung des eigenen Umgangs mit dem Erwartungshorizont berichtet die interviewte Lehrkraft teilweise auch über die wahrgenommene Nutzungspraxis des Erwartungshorizontes von weiteren beteiligten Lehrpersonen. Um ein möglichst umfangreiches Bild über die tatsächliche Nutzungspraxis zu erhalten, sollen mithilfe dieser Subkategorie entsprechende Aussagen analysiert werden. Hierbei ist zu beachten, dass ausschließlich die Nutzungspraxis des Umfeldes der befragten Lehrkraft untersucht wird. Die Beschreibung der eigenen Nutzungspraxis der interviewten Lehrkraft wird im Rahmen dieser Subkategorie nicht untersucht, sondern separat mithilfe der Subkategorie 15.1 analysiert. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet.

8.3 Aufbau des Kategorienleitfadens

185

ID

Merkmalsausprägung

Hinweise

Beispiel

54

mehrheitliche Nutzung

Die Lehrkraft nimmt eine starke Nutzung des Erwartungshorizontes durch das Kollegium an der eigenen Schule oder an anderen Schulen wahr.

„Es wird auf jeden Fall genutzt, also auch bei der (…) Nachbarschule beziehungsweise bei der Austauschschule wird es auf jeden Fall verwendet. Das ist was, dass jeder, der eine Korrektur hat, hat so einen, diesen/es sind ja drei, vier Blätter dann, diese Blätter und nutzt die auf jeden Fall.“ (BW4, Position 134)

55

vereinzelte Nicht-Nutzung

Die Lehrkraft nimmt wahr, dass Kolleginnen bzw. Kollegen oder ganze Schulen den Erwartungshorizont nicht (vollständig) nutzen.

„Und wenn ich Kollegen und Kolleginnen erlebt habe, die etwas, die so etwas lässiger da rangegangen sind, dann müssen sie das mit ihrem Gewissen vereinbaren, dann müssen sie es verantworten.“ (BW2, Position 114)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

8.4 Verbindlichkeit der Konfiguration des Erwartungshorizontes: Neben der Verbindlichkeit der Nutzung des Erwartungshorizontes kann auch bereits die Gestaltung des Erwartungshorizontes zu einer geringen oder hohen Verbindlichkeit führen und Auswirkungen auf die Qualität der Leistungsbeurteilung haben (vgl. Child, Munro & Benton, 2015; Welch, 2006). Es ist beispielsweise denkbar, dass die Existenz nicht-definierter Alternativlösungen oder der Verzicht auf eine vorgegebene Gewichtung der Leistungen die Verbindlichkeit einschränken. Mithilfe der vierten Subkategorie soll entsprechend analysiert werden, ob die Lehrkraft Spielräume im Rahmen der Gestaltung des Erwartungshorizontes wahrnimmt. Die Merkmalsausprägungen wurden deduktiv entwickelt.

186 ID

8

Inhaltsanalytische Auswertung

Merkmalsausprägung

Hinweise

Beispiel

56

Existenz von Spielräumen

Die Lehrkraft nimmt Spielräume bei der Darstellung der erwarteten Leistungen oder bei der Anleitung der Bewertung im Erwartungshorizont wahr (z. B. abstrakte Darstellung der beschriebenen Lösungen, keine klare Zuordnung von (Teil-)Punkten zu konkreten Kriterien). Die Lehrkraft spricht in diesem Kontext gegebenenfalls davon, dass der Erwartungshorizont unterschiedlich interpretiert oder ausgelegt werden kann bzw. dass Freiheiten, Offenheiten oder Variationsmöglichkeiten existieren.

„Genau, bestimmte Variationsmöglichkeiten gibt es, also nicht so, ja, nicht so viel, aber das liegt dann so/gewisser Spielraum.“ (BW4, Position 166)

57

keine Spielräume

Die Lehrkraft nimmt die Gestal- kein Beispiel vorhanden tung des Erwartungshorizontes als verbindlich wahr. Ihrer Meinung nach liegen keine Spielräume im Rahmen des Erwartungshorizontes vor.

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

999

8.5 Relevante Einflussfaktoren auf die Leistungsbeurteilung: In zahlreichen Studien hat sich gezeigt, dass die Leistungsbeurteilung fehleranfällig ist und die Noten nicht zwangsläufig die tatsächlich erbrachte Leistung des Prüflings abbilden (vgl. vertiefend Abschnitt 2.2): Neben Beurteilungsfehlern (vgl. zusammenfassend Jürgens, 2010, S. 135 ff.) können außerdem unterschiedlichste Aspekte auf die Leistungsbeurteilung wirken, wie z. B. klassen- oder schülerbezogene Faktoren (vgl. Holmeier, 2012b; Ingenkamp, 1995). Der Einsatz von Erwartungshorizonten in den zentralen Prüfungen des MSA soll dazu beitragen den Einfluss leistungsfremder Faktoren zu minimieren (vgl. Mathes & Kühn, 2016). Sofern das Instrument jedoch nicht ausreichend verständlich oder verbindlich gestaltet sowie seine Anwendung nicht verpflichtend ist, besteht die Möglichkeit, dass sich die Leistungsbeurteilung in den zentralen Prüfungen nicht von der alltäglichen Leistungsbeurteilung unterscheidet und weiterhin Einflussfaktoren existieren (vgl. Holmeier, 2012a, S. 242).

8.3 Aufbau des Kategorienleitfadens

187

Mithilfe der letzten Subkategorie soll ergänzend zu den vorangegangenen Subkategorien analysiert werden, ob und wenn ja, welche unbewussten oder vorsätzlichen Einflussfaktoren die Lehrkraft hinsichtlich der Leistungsbeurteilung trotz der Existenz eines Erwartungshorizontes wahrnimmt. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

58

schulabhängige Absprachen

Die Lehrkraft nimmt wahr, dass die verschiedenen Vereinbarungen bzw. Vorgehen von Schulen die Leistungsbeurteilung beeinflussen können.

„Die eine Schule ist vielleicht/ spricht sich ab, ist besonders streng in der Auslegung dieser Vorgaben. Die andere Schule nimmt es vielleicht etwas lockerer […]“ (NW1, Position 28)

59

Schwerpunkte der Prüfungsvorbereitung

Die Lehrkraft nimmt wahr, dass die Berücksichtigung von Schwerpunktsetzungen des vorgelagerten Unterrichts bei der Korrektur und Bewertung die Leistungsbeurteilung beeinflussen kann.

„[…] weil wie gesagt der Lehrer natürlich immer auch danach ja auch korrigiert, was habe ich mit meiner eigenen Klasse auch für Schwerpunkte gegliedert im Unterricht. Das wird sich natürlich immer in der individuellen Korrektur, gerade im Fach Deutsch, natürlich widerspiegeln.“ (BW3, Position 30)

60

Fachwissen der Lehrkraft

Die Lehrkraft nimmt wahr, dass das unterschiedlich ausgeprägte fachspezifische und -didaktische Wissen der Prüfenden (z. B. Fachlehrkräfte, fachfremde Lehrpersonen) die Leistungsbeurteilung beeinflussen können.

„Ich meine, möglicherweise würde das, wenn das ein Mathelehrer, der, (.) ist jetzt ein Gedankenspiel, der mit Deutsch nichts am Hut hat, mit Deutsch unterrichten nichts am Hut hat, völlig anders sehen und möglicherweise würde der zu anderen, (.) völlig anderen Ergebnissen kommen und die Schere dann weit auseinander klaffen in der Punkteverteilung.“ (NW2, Position 158)

61

Anspruchsniveau der Lehrkraft

Die Lehrkraft nimmt wahr, dass das variierende Anspruchsniveau der Lehrpersonen sowie der uneinheitliche Stellenwert von sprachlichen und inhaltlichen Leistungen die Beurteilung beeinflussen können (z. B. unterschiedliche Leistungsbeurteilung aufgrund der verschieden ausgeprägten Strenge der Lehrkräfte).

„[…] ich sehe das ja schon bei uns im Kollegium, der eine sieht das dann total streng, der andere sagt: ‚okay, der hat das Wort aber genannt‘ und ich sage: ‚ ja, aber da ist kein ganzer Satz und keine Begründung mit bei. Ja, nee, ne, kriegt den Punkt nicht.‘“ (NW3, Position 178)

188

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

62

Beurteilungsdauer

Die Lehrkraft nimmt wahr, dass bei der Beurteilung mehrerer Prüfungen in Folge die Einschätzung einer Lehrkraft nicht konstant bleibt und gleiche Leistungen unterschiedlich beurteilt werden können.

„[…] man hat auch einfach irgendwie einfach irgendwie auch bei der dreißigsten Arbeit, beim dreißigsten einen anderen Blick als beim ersten. Da müssen wir uns nichts vormachen. Das ist so, da können wir uns alle nicht von freisprechen.“ (NW3, Position 84)

63

Kenntnis der SuS

Die Lehrkraft nimmt wahr, dass die Kenntnis der zu beurteilenden SuS sowie gegebenenfalls ihrer schulischen bzw. privaten Situation die Beurteilung beeinflussen können (z. B. Besserbewertung aufgrund von Sympathie oder aufgrund von bisherigen guten Leistungen des Prüflings).

„Ja, natürlich, weil der die Schüler nicht kennt. Das ist schon ein absoluter Vorteil. Und wir, die wir länger an Schulen sind, wir kennen einfach die Schüler, auch wenn sie in anderen Klassen waren, und ich finde, das sichert schon ein Stück weit auch noch die Objektivität in die ein oder in die andere Richtung. Ich weiß von dem Kind, mein Gott, der hat schon eine Lehrstelle, und jetzt lassen wir den halt durch oder so. Also ich finde, diese Neutralität, die ist nicht gewährleistet […]“ (BW1, Position 86)

64

Entwicklung der SuS

Die Lehrkraft nimmt wahr, dass die Berücksichtigung der schulischen Entwicklung der SuS im Rahmen der Leistungsbeurteilung zu unterschiedlichen Beurteilungen von gleichen Leistungen führen kann.

„Wenn aber inhaltlich so toll gearbeitet wurde, kann es durchaus sein, dass da noch besser als eine Drei drin ist. Aber das kann nur ich beurteilen, weil ich die Entwicklung dieses Kindes sehe.“ (BW2, Position 80)

65

leistungsfremde Merkmale der SuS

Die Lehrkraft nimmt wahr, dass sichtbare, leistungsunabhängige Merkmale der Prüflinge die Leistungsbeurteilung beeinflussen können (z. B. die Schrift, das Geschlecht, die Herkunft).

„[…] Ich bin ja beeinflusst, ich kann ja nicht irgendwie objektiv eine Note geben. Auch als Zweitkorrektor bin ich beeinflusst. Allein die Tatsache, wenn da jemand eine Schrift hat, (.) die ich nicht lesen kann, macht mich/ da werde ich katzengrantig. Und was ich nicht lesen kann, wenn ich Stunde um Stunde an einem Aufsatz sitze, dann bin ich nicht bereit, dem besser als eine 4 zu geben.“ (BW2, Position 50)

8.3 Aufbau des Kategorienleitfadens

189

ID

Merkmalsausprägung

Hinweise

Beispiel

66

sprachliche Fähigkeiten der SuS

Die Lehrkraft nimmt wahr, dass die sprachliche Leistung die Einschätzung der inhaltlichen Leistung beeinflussen kann (d. h. gleiche inhaltliche Leistungen können in Abhängigkeit der sprachlichen Formulierung unterschiedlich wahrgenommen und beurteilt werden).

„[…] Kolleginnen und Kollegen lassen sich nach wie vor von der Rechtschreibung sehr blenden.“ (BW2, Position 48)

67

Subjektivität des Prüfungsfachs Deutsch

Die Lehrkraft nimmt das Prüfungsfach Deutsch als nicht vollständig objektiv wahr und vermutet, dass dies zu unterschiedlichen Beurteilungen von gleichen Leistungen führen kann.

„Es ist natürlich auch immer eine fachliche Begründung, aber trotzdem ist die in Deutsch nie rein objektiv. Das geht einfach gar nicht, weil so viele Aspekte in einen Aufsatz rein fließen, von Sprache über Wortwahl und Satzbau und Rechtschreibung und Inhalte letzten Endes natürlich auch. Die sind ja auch (..) verschieden interpretierbar.“ (BW1, Position 18)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

190

8

Inhaltsanalytische Auswertung

Kategorie 9: Aufwand bezüglich des Erwartungshorizontes Neben der Verbindlichkeit der Nutzung könnte auch der empfundene Aufwand der Anwendung des Erwartungshorizontes die Nutzungspraxis beeinflussen. Grundsätzlich gilt, dass das Empfinden eines geringen Aufwandes bei einer Tätigkeit dazu beiträgt, dass die entsprechende Maßnahme leichter implementiert und schließlich umgesetzt wird (vgl. Hasselhorn et al., 2014, S. 144). Die schulische Beurteilungstätigkeit wird insbesondere im Fach Deutsch als vergleichsweise zeitintensiv wahrgenommen (vgl. zusammenfassend König, 2017, S. 18 ff.), entsprechend könnte eine wahrgenommene Reduktion des Aufwandes durch den Einsatz eines Erwartungshorizontes die Nutzungsbereitschaft des Instrumentes bei den Lehrkräften unterstützen. Mithilfe dieser Kategorie soll untersucht werden, ob und wenn ja, in welcher Form sich der Einsatz eines vorgegebenen Erwartungshorizontes auf den Aufwand der Leistungsbeurteilung auswirkt, d. h., inwiefern die Existenz eines Erwartungshorizontes den wahrgenommenen Aufwand reduziert oder erhöht. Unter Bezugnahme auf die zweite zentrale Fragestellung der Studie sollen somit weitere Aufschlüsse zu den Wahrnehmungen des Erwartungshorizontes gewonnen werden. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

68

Reduktion des Aufwandes

Die Lehrkraft nimmt die Existenz eines vorgegebenen Erwartungshorizontes als kognitive und/ oder zeitliche Entlastung im Rahmen der Leistungsbeurteilung wahr.

„Ist vielleicht ein bisschen weniger Arbeit, wenn mir jetzt oder wenn der Schule gesagt wird, macht eine Prüfung, dann klar müssen wir uns hinsetzen und irgendwie was da erstellen.“ (NW5, Position 34)

69

Erhöhung des Aufwandes

Die Lehrkraft nimmt die Existenz eines vorgegebenen Erwartungshorizontes bzw. die Arbeit mit diesem als zusätzlichen Aufwand wahr (z. B. durch die Länge oder die schlecht verständliche Gestaltung des Erwartungshorizontes).

„Das ist so vom Aufwand der Sache einfach nicht angemessen. Letztendlich, was schreiben die Schüler da (seufzt), zwei Seiten Text. Und ich habe zwanzig Seiten Korrektur an Material.“ (NW1, Position 128)

70

keine Veränderung des Aufwandes

Die Lehrkraft nimmt die Existenz eines vorgegebenen Erwartungshorizontes weder als Entlastung noch als Belastung wahr, d. h., der Erwartungshorizont hat keinen relevanten Einfluss auf den Aufwand der Leistungsbeurteilung.

„[…] ist das (lachend) für einen Deutschlehrer ist sowas nicht hilfreich, ihm das zu sagen. (..) Eventuell mag es, […] in Fächern wie Mathematik vielleicht sehr hilfreich sein, weil da ist es eine wirkliche Arbeitsentlastung, wenn die gut sind.“ (BW3, Position 116)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Kategorie zugeordnet werden kann.

8.3 Aufbau des Kategorienleitfadens

191

Kategorie 10: Nützlichkeit des Erwartungshorizontes Trotz der Ziele und Funktionen, die durch den Einsatz eines Erwartungshorizontes angestrebt werden, kann nicht zwangsläufig davon ausgegangen werden, dass die beteiligte Lehrkraft den Erwartungshorizont als nützliches Instrument wahrnimmt. Mögliche Gründe sind u. a. eine eingeschränkte Verständlichkeit oder Nutzbarkeit des Erwartungshorizontes bzw. sein mangelhafter Beitrag zur Zielerreichung. So könnte die Lehrkraft beispielsweise aufgrund einer abstrakten, offenen Formulierung des Erwartungshorizontes die Vergleichbarkeit der Beurteilung als nicht gegeben wahrnehmen. Folglich soll anhand dieser Kategorie die eingeschätzte Nützlichkeit analysiert werden. Hierbei wird dichotom zwischen einer hohen und einer geringen Nützlichkeit unterschieden. Der festgelegte Trennwert, welcher zusätzlich zur Unterscheidung der beiden Merkmalsausprägungen dient, wurde induktiv anhand des Materials bestimmt und beträgt 70 Prozent. Unter Bezugnahme auf die zweite zentrale Fragestellung der Studie sollen somit weitere Aufschlüsse zu den Wahrnehmungen des Erwartungshorizontes gewonnen werden. ID

Merkmalsausprägung Hinweise

Beispiel

71

hohe Nützlichkeit

Die Lehrkraft nimmt die Nützlichkeit des Erwartungshorizontes als hoch wahr. Sofern die Lehrkraft eine prozentuale Einschätzung der Nützlichkeit vornimmt, bewertet sie diese mit mindestens 70 Prozent.

„Also ich würde, ja, irgendwo hier gehen. Bisher so weit zufrieden, ja, also irgendwo Richtung, das könnte so um die 90 % sein, denke ich schon.“ (BW4, Position 122)

72

geringe Nützlichkeit

Die Lehrkraft nimmt die Nützlichkeit des Erwartungshorizontes als niedrig wahr und beurteilt den Einsatz von vorgegebenen Erwartungshorizonten in zentralen Prüfungen als nicht zwingend notwendig. Sofern die Lehrkraft eine prozentuale Einschätzung der Nützlichkeit vornimmt, bewertet sie diese mit unter 70 Prozent.

„Ja, also vielleicht ein bisschen mehr als 50 %, weil wie gesagt, es unterscheidet sich nicht wirklich von dem, was die Kommissionen auch besprochen haben.“ (BW3, Position 24)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Kategorie zugeordnet werden kann.

192

8

Inhaltsanalytische Auswertung

Kategorie 11: Feedbackmöglichkeiten bezüglich des Erwartungshorizontes Eine Besonderheit der zentralen Prüfungen zum Erwerb des MSA ist, dass sich die Gruppe der erstellenden Personen und der Nutzerinnen bzw. Nutzer der Erwartungshorizonte unterscheidet: Während die Erstellung durch eine eigens hierfür eingerichtete Kommission erfolgt (vgl. Krüger, 2015, S. 92 f.), wird die Nutzung im Rahmen der Leistungsbeurteilung durch die unterrichtende Lehrkraft durchgeführt. Folglich könnten konkrete Rückmeldungen der beurteilenden Lehrkräfte hinsichtlich der Gestaltung und Anwendung des Erwartungshorizontes für die Weiterentwicklung des Verfahrens hilfreich sein (vgl. Hattie & Timperley, 2007). Die Existenz einer derartigen Feedbackmöglichkeit böte darüber hinaus die Chance, die beteiligten Lehrkräfte auch bei der Erstellung der Erwartungshorizonte zu involvieren, was sich – sofern die Rückmeldungen berücksichtigt werden – positiv auf die Akzeptanz des Verfahrens und insbesondere des Erwartungshorizontes auswirken könnte. Die Austauschmöglichkeit zwischen den beteiligten Lehrkräften und den Kommissionen würde außerdem „zu einem stärkeren Transfer relevanter Fragestellungen aus der Schulpraxis in die Wissenschaft und Bildungspolitik beitragen“ (Demski, 2017, S. 394). Mithilfe der nachfolgenden Subkategorien soll untersucht werden, ob die Möglichkeit einer Rückmeldung hinsichtlich des Erwartungshorizontes angeboten wird bzw. der Lehrkraft bekannt ist. Sofern dies der Fall ist, soll darüber hinaus analysiert werden, ob die Lehrperson die Feedbackmöglichkeiten nutzt, sowie ob sie wahrnimmt, dass ihre Anmerkungen in den Folgejahren berücksichtigt werden. Unter Bezugnahme auf die zweite zentrale Fragestellung der Studie sollen somit weitere Aufschlüsse zum Beurteilungsverfahren in den zentralen Prüfungen gewonnen werden. 11.1 Existenz von Feedbackmöglichkeiten: Anhand dieser Subkategorie soll überprüft werden, inwieweit der Lehrkraft Möglichkeiten bekannt sind, hinsichtlich des Erwartungshorizontes und dessen Nutzung (z. B. Korrektheit und Verständlichkeit des Erwartungshorizontes) ein Feedback an die Verantwortlichen (d. h. die Kommission oder die zuständigen Personen im Landesbildungsministerium) zu geben. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet.

8.3 Aufbau des Kategorienleitfadens

193

ID

Merkmalsausprägung

Hinweise

Beispiel

73

Existenz von Feedbackmöglichkeiten

Die Lehrkraft nimmt die Möglichkeit wahr, eine Rückmeldung hinsichtlich des Erwartungshorizontes und dessen Anwendung an die Verantwortlichen (d. h. die Kommission oder die zuständigen Personen im Landesbildungsministerium) zu geben.

„Nach jeder Prüfung dürfen wir, je nachdem, wo jetzt das Fach angesiedelt wird, Deutsch beispielsweise ist im Regierungspräsidium Tübingen, darf man da Rückmeldungen geben.“ (BW3, Position 86)

74

keine Feedbackmöglichkeiten

Der Lehrkraft ist keine Möglichkeit „I: […] Gibt es denn Möglichkeiten, bekannt, eine Rückmeldung an die das auch irgendwie an die AufVerantwortlichen zu geben. gabenkommission oder die Erstellungskommission weiter zu geben, Ihre Hinweise aus der Praxis? B: Ich bin noch nicht gefragt worden.“ (NW2, Position 89–90)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

11.2 Nutzung von Feedbackmöglichkeiten: Sofern Feedbackmöglichkeiten hinsichtlich des Erwartungshorizontes von der Lehrkraft wahrgenommen werden, soll anhand dieser Subkategorie geprüft werden, ob die Lehrkraft diese auch nutzt. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

75

Nutzung der Feedbackmöglichkeiten

Die Lehrkraft nutzt die angebotenen Feedbackmöglichkeiten hinsichtlich des Erwartungshorizontes.

„B: Ich fürchte, es wird zu wenig genutzt. Also weil (..) natürlich auch immer die, (seufzt), wie/ was irgendwie auf politischer Ebene Politikverdrossenheit ist, ist, glaube ich, auf schulischer Ebene eine ähnliche Sache, das, was wir wollen, das kommt sowieso nicht an und das hört keiner. Aber es wäre wichtig, wenn da mehr geschrieben würde. I: Mehr Austausch. Haben Sie schon mal eine Rückmeldung gegeben? B: Ja. Nicht nur einmal.“ (BW1, Position 64–66)

76

keine Nutzung

Die Lehrkraft nutzt die angebotenen Feedbackmöglichkeiten grundsätzlich nicht, d. h. maximal in Ausnahmefällen.

„I: Haben Sie das Gefühl, das wird genutzt, also nutzen/ B: Das kann ich jetzt weniger sagen, wir nutzen es im Regelfall nicht (lacht).“ (BW3, Position 87–88)

194

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

777

keine Zuordnung möglich

Die Nutzung von Feedbackmöglichkeiten kann nicht analysiert werden, da keine Feedbackmöglichkeiten existieren bzw. wahrgenommen werden (d. h., die Subkategorie 11.1 wurde mit 74 = keine Feedbackmöglichkeiten codiert).

Beispiel

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

11.3 Berücksichtigung des Feedbacks: Sofern eine Feedbackmöglichkeit existiert, welche von den Lehrkräften genutzt wird, soll nun in einem letzten Schritt untersucht werden, ob die Lehrperson ihre Rückmeldung auch als sinnvoll einschätzt. Hierzu soll anhand dieser Subkategorie analysiert werden, ob die Lehrkraft glaubt, dass ihr Feedback zur Weiterentwicklung des Einsatzes bzw. der Gestaltung des Erwartungshorizontes genutzt wird. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

77

Berücksichtigung des Feedbacks

Die Lehrkraft nimmt wahr, dass ihr Feedback (teilweise) berücksichtigt wird und der Erwartungshorizont bzw. dessen Einsatz entsprechend angepasst wird.

„Und ich glaube eben, dass auch damals wir zurückgemeldet haben, dass man sowas sich dann auch sparen könnte, wenn es dann zu kurz gehalten ist, dann braucht man es eigentlich, also wenn man in jedem Schulbuch den Aufbau von der Erörterung findet, brauche ich den nicht nochmal auf einem Zettel raus gearbeitet. Also sowas geht dann schon zurück und wurde teilweise dann ja auch umgesetzt.“ (BW5, Position 136)

78

Unwissenheit

Die Lehrkraft weiß nicht, ob ihre Rückmeldung zur Weiterentwicklung des Erwartungshorizontes und dessen Einsatzes genutzt wird.

„Also, ja, man kann aber da einfach Rückmeldung geben. Inwieweit es jetzt berücksichtig wird, weiß ich nicht, ja.“ (BW4, Position 112)

79

keine Berücksichtigung

Die Lehrkraft nimmt wahr, dass ihr Feedback nicht zur Weiterentwicklung des Erwartungshorizontes bzw. dessen Einsatzes genutzt wird.

„Ansonsten, ja, man kriegt ja nicht alle anderen Rückmeldungen mit, insofern kann ich das schlecht beurteilen, ob auf mein/ und die Rückmeldung ist ja von meiner Seite dann auch irgendwie teilweise eine inhaltliche gewesen. Das heißt, für die nächste Prüfung ist das nicht mehr relevant, und wenn es eine formale war, da hat sich bisher noch nichts geändert, nee. Leider nicht.“ (BW1, Position 68)

8.3 Aufbau des Kategorienleitfadens

195

ID

Merkmalsausprägung

Hinweise

777

keine Zuordnung möglich

Die Berücksichtigung des Feedbacks kann nicht analysiert werden, da keine Feedbackmöglichkeiten existieren bzw. wahrgenommen werden (d. h., die Subkategorie 11.1 wurde mit 74 = keine Feedbackmöglichkeiten codiert).

Beispiel

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

196

8

Inhaltsanalytische Auswertung

Kategorie 12: Landesspezifische Konfiguration des Erwartungshorizontes In Abhängigkeit davon in welchem Bundesland die Lehrkraft arbeitet, variiert der vorgegebene Erwartungshorizont hinsichtlich formaler und inhaltlicher Aspekte (z. B. Seitenanzahl, Lösungsdarstellung in Form von Kriterien oder Musterlösungen, Existenz einer Punktevergabe) (vgl. Mathes & Kühn, 2016). Hierbei ist anzunehmen, dass die jeweilige Konfiguration des Erwartungshorizontes einen potenziellen Einflussfaktor auf dessen Nutzungspraxis bildet (vgl. Abschnitt 4.2): Während eine hohe Verbindlichkeit des Erwartungshorizontes zu dessen intensiver Nutzung führen könnte, bestünde die Möglichkeit, dass „ein unklarer oder niedriger Grad an Verbindlichkeit mehr Raum für die Berücksichtigung eigener Beurteilungsmaßstäbe und/oder leistungsfremder Faktoren lässt“ (ebd., S. 171). Unter Bezugnahme auf die zweite zentrale Fragestellung der Studie sollen im Rahmen dieser Kategorie Aufschlüsse gewonnen werden, wie die Lehrkraft die Gestaltung des länderspezifischen Erwartungshorizontes, mit welchem sie arbeiten, wahrnimmt. Anhand der nachfolgenden Subkategorien werden die Wahrnehmungen der Lehrperson hinsichtlich unterschiedlicher formaler und inhaltlicher Gestaltungsaspekte differenziert analysiert. 12.1 Formale Gestaltung des landesspezifischen Erwartungshorizontes: Unter die Bezeichnung formale Gestaltung fallen sämtliche Aspekte des Erwartungshorizontes, die keine inhaltlichen Aufschlüsse für die Leistungsbeurteilung geben, d. h. der Umfang (z. B. Seitenanzahl des Erwartungshorizontes, Länge der Textelemente) sowie sämtliche optische bzw. strukturelle Elemente (z. B. Hervorhebungen, Schriftart und -größe, Einsatz von Tabellen). Diese Elemente sind zwar hinsichtlich der Verständlichkeit und Verbindlichkeit des Erwartungshorizontes kaum bzw. nicht relevant, können jedoch die wahrgenommene Übersichtlichkeit und Lesbarkeit des Erwartungshorizontes sowie den Zeitaufwand im Rahmen seiner Nutzung beeinflussen (vgl. Rattay & Schneider, 2010, S. 25). Entsprechend soll anhand dieser Subkategorie untersucht werden, wie die Lehrkraft die formale Gestaltung des jeweiligen Erwartungshorizontes wahrnimmt. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

80

stichwortartige Form

Die Lehrkraft nimmt den Erwar- „Jetzt einfach vom Gefühl her, wäre tungshorizont als stichwortartige sowas tatsächlich, ja, vielleicht nicht Aufzählung wahr. ganz so ausführlich hier mit/Also bei uns ist zum Beispiel mit Stichpunkten, aber es geht ziemlich in die Richtung von dem, was in Baden-Württemberg so üblich ist.“ (BW4, Position 66)

Beispiel

8.3 Aufbau des Kategorienleitfadens

197

ID

Merkmalsausprägung

Hinweise

Beispiel

81

hoher Umfang

Die Lehrkraft nimmt den Erwartungshorizont als lang bzw. umfangreich wahr (z. B. hohe Seitenzahl, umfangreiche Texte).

„Da ist immer sehr viel drin. (Lachen) Die sind immer sehr lang, die sind auch teilweise so, dass ich die zehnmal lesen muss, bis ich dann tatsächlich verstanden habe, worauf es hinausläuft.“ (NW1, Position 52)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

12.2 Lösungsdarstellung im Erwartungshorizont: Der Begriff Lösungsdarstellung bezeichnet alle sprachlichen und inhaltlichen Lösungserwartungen, die im Erwartungshorizont formuliert sind (vgl. Mathes & Kühn, 2016, S. 174). Anhand dieser Subkategorie soll untersucht werden, wie die Lehrkraft diese Lösungsdarstellungen wahrnimmt (z. B. hinsichtlich der Qualität, des Niveaus, der Verständlichkeit, der Verbindlichkeit). Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

82

genaue Kriterien

Die Lehrkraft nimmt die Beschreibung der erwarteten Lösungen als präzise und eindeutig wahr. d. h., es werden konkrete, ausführliche bzw. detaillierte Kriterien angeführt, sodass ein geringer bzw. kein Spielraum bei der Beurteilung besteht.

„Auf der einen Seite sind da schon relativ genaue Vorgaben, (..) was ich auch gut finde. Wenn ich denn alle gleich behandeln soll und das jetzt zentral sein soll, also wenn alle Schulen miteinander vergleichbar sein sollen, muss ich ja relativ genau schreiben, was ich erwarte, sonst hat der Lehrer ja wieder einen riesen Spielraum.“ (NW4, Position 38)

83

grobe Kriterien

Die Lehrkraft nimmt die Beschreibung der erwarteten Lösungen als gering differenziert und grob wahr. Durch abstrakte und offene Formulierungen oder die Gültigkeit nicht-definierter Alternativlösungen bestehen vergleichsweise größere Spielräume.

„Genau, wenn es zu detailliert hier ist, wie gesagt, wir haben einfach Stichpunkte, was drin sein sollte, kann auch ein bisschen mehr drin sein, wenn ein bisschen weniger ist, klar, kann man Abzug geben.“ (BW4, Position 136)

84

unvollständige Kriterien

Die Lehrkraft nimmt die Beschreibung der erwarteten Lösungen als unvollständig wahr, da nicht alle notwendigen Bestandteile der Lösung angeführt werden.

„[…] und dann steht manchmal noch und Ähnliches, ähnliche Aspekte, und dann wünschte ich mir, da wären dann doch noch mehr aufgelistet, was ja letztendlich dann nochmal enger würde, damit ich weiß, wo kommt da die Punkteverteilung her.“ (NW4, Position 38)

198

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

85

niedriges Niveau

Die Lehrkraft nimmt die im Erwartungshorizont beschriebenen Lösungen als zu leicht wahr (z. B. im Hinblick auf die Prüfungsvorbereitung, die Wertigkeit des Abschlusses).

„I: Nicht schlimm. Genau, bei den Erwartungshorizonten in NRW. Wie schätzt du die ein? B: Also die finde ich zu einfach.“ (NW3, Position 107–108)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

12.3 Anleitung der Bewertung und Benotung im Erwartungshorizont: Neben der Formulierung der Leistungserwartungen zur Objektivierung der Leistungsfeststellung können im Erwartungshorizont zwei weitere Schritte der Leistungsbeurteilung angeleitet werden: die Bewertung und die Benotung der Prüfungsarbeiten. Im Rahmen der Bewertung wird die zuvor gemessene Leistung mit einem Maßstab verglichen, der bestimmt, was unter einer guten oder schlechten Leistung verstanden wird (vgl. zusammenfassend Sacher, 2014, S. 83 ff.). Die Benotung bezeichnet den anschließenden Prozess, in welchem die bewertete Leistung in ein Kategoriensystem eingeordnet und mit einer Notenziffer versehen wird (vgl. Holmeier, 2013, S. 117 ff.). Mögliche Anleitungen im Rahmen dieser beiden Bereiche sind z. B. die Festlegung einer Punktevergabe und -zuordnung, die Gewichtung der Leistungen bzw. diesbezügliche Hinweise sowie die Regelung der Zusammensetzung, Berechnung und Dokumentation der Gesamtnote. Anhand dieser Subkategorie soll untersucht werden, wie die Lehrkraft die Anleitung dieser beiden Vorgänge wahrnimmt (z. B. hinsichtlich der Qualität, der Verständlichkeit, der Verbindlichkeit). Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

86

kleinschrittige Punktezuordnung

Die Lehrkraft nimmt die Punktezuordnung als kleinschrittig wahr (in Relation zu anderen Erwartungshorizonten). d. h., den einzelnen Leistungen werden (Teil-)Punkte zugeordnet.

„B: Genau, das war das, was mir hier fehlte, was ich eben meinte, mit den Punkten, wie man die aufteilt. Hier ist das viel mehr ausgearbeitet bei uns, dass du halt/ also hier 15 Punkte auf all das hier zu verteilen, also das finde ich schon/ I: Sportlich. B: Ja […]“ (NW3, Position 110–112)

8.3 Aufbau des Kategorienleitfadens

199

ID

Merkmalsausprägung

Hinweise

Beispiel

87

grobe Punktezuordnung

Die Lehrkraft nimmt die Zuordnung von Punkten zu (Teil-)Leistungen als grob wahr, da teilweise eine gemeinsame Punktzahl für mehrere (Teil-)Leistungen festgelegt ist. Die Aufteilung und Zuordnung von Punkten zu einzelnen Leistungen muss entsprechend durch die Lehrperson durchgeführt werden.

„Jetzt kann ich sieben Punkte verteilen auf diese drei genannten Beispiele oder ich habe drei Beispiele, die hier nicht genannt wurden, dann brauche ich auch diesen, dieses Textstück nicht.“ (NW1, Position 128)

88

ungeeignete Punktezuordnung

Die Lehrkraft nimmt die Punkteverteilung im Hinblick auf die Abbildung der Leistung als ungeeignet wahr, da sie zu einer Besserbewertung führt (z. B. durch die Vergabe einer hohen Punktzahl für vergleichsweise einfache Leistungen).

„Ja, und auch, dass der Erwartungshorizont (..) (seufzt)/ die Punkteverteilung ist so, dass da jeder irgendwie durchgeschoben wird, so kommt mir das vor.“ (NW4, Position 28)

89

geringe Gewichtung des sprachlichen Teils

Die Lehrkraft nimmt die Berücksichtigung des sprachlichen Bereichs im Kontext der Bewertung und Benotung der gesamten Prüfung als gering wahr (z. B. niedrige Punktzahlen für sprachliche Leistungen, geringe Gewichtung des sprachlichen Teils).

„B: Ja. Ich glaube, Rechtschreibung ist ja meistens irgendwie nur mit drei, vier Punkten da drin oder so, ich habe das nicht mehr im Kopf, aber ist ja auch nicht viel da mit drin, I: Sehr geringer Anteil. B: Das heißt, die können ja auch schreiben wie blöde.“ (NW3, Position 50–53)

90

keine Festlegung der Gewichtung

Die Lehrkraft nimmt wahr, dass die Gewichtung der einzelnen Leistungen (im Hinblick auf die Notenfindung) nicht festgelegt ist.

„Bei der Benotung gibt es auch keine so direkte Vorgabe, aber sowas, glaube ich, ist etwas geschickter für eine Prüfung tatsächlich, weil dann doch gewährleistet wird, dass die Leistungen in ähnlichem Maß bewertet werden.“ (BW4, Position 66)

91

niedrige Bestehensgrenze

Die Lehrkraft nimmt die Bestehensgrenze der Prüfung (d. h. die Mindestpunktzahl für die Note ausreichend) als (zu) niedrig wahr.

„Und dann, dass man mit 50 % in NRW, oder dass man die noch nicht mal mehr braucht, um zu bestehen, ich finde das schon fraglich, ja.“ (NW4, Position 30)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

200

8

Inhaltsanalytische Auswertung

Kategorie 13: Alternative Konfigurationsmöglichkeiten des Erwartungshorizontes Neben der Analyse der Wahrnehmung des landesspezifischen Erwartungshorizontes, mit welchem die Lehrkraft arbeitet, soll außerdem die Wahrnehmung von weiteren, alternativen Konfigurationsvarianten untersucht werden. Aufgrund der Vielzahl unterschiedlicher Erwartungshorizonte10 wählte die Autorin für die Interviews exemplarisch zwei Gestaltungsvarianten aus, die hinsichtlich ihrer Differenziertheit und Verbindlichkeit möglichst konträr sind (vgl. vertiefend Abschnitt 7.3.2). Sie legte den Lehrkräften im Gespräch zwei Ausschnitte aus den ausgewählten Erwartungshorizonten vor, zu welchen sie sich frei äußern durften. Die hierbei formulierten Wahrnehmungen sollen im Rahmen der folgenden beiden Subkategorien analysiert werden. Von besonderem Interesse sind vor allem die wahrgenommenen Chancen und Herausforderungen, die sich aus der Konfiguration der Erwartungshorizonte ergeben, da sich hieraus Hinweise auf die individuellen Präferenzen bezüglich der Gestaltung des Instruments ergeben. Unter Bezugnahme auf die dritte zentrale Fragestellung der Studie sollen somit Aufschlüsse zu einer wünschenswerten Konfiguration des Erwartungshorizontes gewonnen werden. 13.1 Chancen und Herausforderungen von stark differenzierten Erwartungshorizonten: Eine Gestaltungsvariante, zu welcher die Lehrkräfte im Interview ihre Wahrnehmungen geäußert haben, zeichnet sich durch ihre starke Differenziertheit bei der Anleitung der Leistungsfeststellung, -bewertung und -benotung aus (vgl. vertiefend Abschnitt 7.3.2). Diese äußert sich folgendermaßen: – die erwartete Lösung wird in Form von konkreten und detaillierten Kriterien dargestellt – die Gewichtung und Bewertung der Leistungen erfolgt über eine kleinschrittige Punktevergabe (d. h., die Punkte werden einzelnen (Teil-)Leistungen zugeordnet) – die Umrechnung der Gesamtpunktzahl in eine Ziffernnote ist angegeben Anhand dieser Subkategorie soll die Wahrnehmung der Lehrkraft bezüglich dieser sehr differenzierten Form des Erwartungshorizontes analysiert werden. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet.

10 Bereits im Rahmen der zentralen Prüfungen zum Erwerb des MSA liegen jährlich 14 länderspezifische, unterschiedlich gestaltete Erwartungshorizonte vor (mit Ausnahme von Rheinland-Pfalz prüfen alle Bundesländer zentral, Berlin und Brandenburg erstellen einen gemeinsamen Erwartungshorizont).

8.3 Aufbau des Kategorienleitfadens

201

ID

Merkmalsausprägung

Hinweise

Beispiel

92

Beitrag zur Vergleichbarkeit

Die Lehrkraft nimmt wahr, dass stark differenzierte Erwartungshorizonte einen größeren Beitrag zur Vergleichbarkeit leisten.

„Auch wenn ich das Mist finde, würde ich lieber, wenn es um die Vergleichbarkeit geht, das nehmen, wenn es darum geht, dass ich gerne vernünftige, authentische Klassenarbeiten in der Zehn haben möchte, würde ich lieber das nehmen. Weil das finde ich authentischer, das hier, finde ich, ist vorgegebener und einfacher.“ (NW3, Position 90)

93

juristische Absicherung

Die Lehrkraft nimmt stark diffe- „[…] vor allem bin ich da juristisch renzierte Erwartungshorizonte als abgesichert.“ (BW2, Position 36) Möglichkeit zur rechtlichen Absicherung wahr, da konkrete Kriterien vorgegeben werden, auf welche sich die Lehrkraft berufen kann.

94

Hilfestellung für Novizen

Die Lehrkraft nimmt stark differenzierte Erwartungshorizonte als Unterstützung für Lehrkräfte mit wenig Korrekturerfahrung wahr, da die differenzierte Gestaltung eine kleinschrittige Anleitung ermöglicht.

95

eingeschränkte Praxistauglichkeit

Die Lehrkraft nimmt wahr, dass „[…] obwohl es viel Text ist, den differenzierte Erwartungshorizonte man natürlich durchackern muss ja einen hohen Umfang haben (z. B. erst mal.“ (NW2, Position 48) hohe Seitenzahl, viel Text) und bewertet die Anwendbarkeit bzw. die Übersichtlichkeit als problematisch.

96

eingeschränkte Abbildbarkeit von Leistungen

Die Lehrkraft nimmt stark differenzierte Erwartungshorizonte hinsichtlich der realistischen Abbildung von Leistungen als problematisch wahr. Die kleinschrittige Gestaltung der Erwartungshorizonte führt gemäß der Lehrkraft dazu, dass die individuellen, sehr unterschiedlichen Leistungen der Prüflinge schwierig in ihrer Differenziertheit abgebildet werden können. Außerdem könnte die kleinschrittige Punktevergabe zu einer positiven Verzerrung (d. h. einem besseren Notendurchschnitt) führen als bei der Anwendung weniger differenzierter Erwartungshorizonte.

„Der Erwartungshorizont 2 ist sehr eng. Wie gesagt, auch sehr hilfreich für Kolleginnen und Kollegen, die das brauchen […]“ (BW2, Position 36)

„[…] was ich immer wieder rückgemeldet bekomme, wenn ich sehr kleinschrittige Korrekturbögen habe, fallen die Noten eher besser aus. Das ist so eine Erfahrung, die man hat, ja.“ (BW3, Position 56)

202

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

97

Einschränkung der Lehrkraft

Die Lehrkraft nimmt wahr, dass stark differenzierte Erwartungshorizonte ein bestimmtes Vorgehen bei der Beurteilung vorgeben, was wiederum zu einer Einschränkung der Lehrkraft bzw. ihrer üblichen Vorgehensweise führt.

„Was mich hier stört ist einfach die Bewertung, ich finde irgendwie/ also das ist so streng vorgegeben, da tue ich mich wirklich schwer damit. Auch verlangt es von mir ja eine Vorgehensweise in der Bewertung mit Punktevergabe und so weiter, die ich/ wo ich mich jetzt gegängelt fühlen würde, so zu bewerten, genauso.“ (BW5, Position 102)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

13.2 Chancen und Herausforderungen von gering differenzierten Erwartungshorizonten: Die zweite Gestaltungsvariante, zu welcher die Lehrkräfte im Interview ihre Wahrnehmungen geäußert haben, zeichnet sich durch ihre geringe Differenziertheit bei der Anleitung der Leistungsfeststellung, -bewertung und -benotung aus (vgl. vertiefend Abschnitt 7.3.2). Diese äußert sich folgendermaßen: – die erwartete Lösung wird in Form von einer geringen Anzahl abstrakter Kriterien dargestellt – die Gewichtung und Bewertung der Leistungen sowie die Zusammensetzung der Gesamtnote werden nicht geregelt (d. h., es existiert keine Punktevergabe und kein Bewertungsschlüssel zur Notenvergabe) Anhand dieser Subkategorie soll die Wahrnehmung der Lehrkraft bezüglich dieser gering differenzierten Form des Erwartungshorizontes analysiert werden. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

98

Möglichkeit des Einbezugs weiterer Kriterien

Die Lehrkraft nimmt gering differenzierte Erwartungshorizonte als Möglichkeit wahr, um weitere Kriterien bei der Beurteilung zu berücksichtigen (z. B. die Entwicklung der SuS, die Gewichtung der Prüfungsinhalte gemäß dem vorgelagerten Unterricht), da durch die geringe Differenzierung im Rahmen der Lösungsdarstellung und Bewertung entsprechende Spielräume entstehen.

„Also bei der Aufgabe 1, der Erwartungshorizont ist natürlich sehr offen. Da bleibt mir als Lehrerin und Lehrer sehr viel (.) Freiheit, ein Freiraum. Und ich kann das Ganze individueller gestalten.“ (BW2, Position 36)

8.3 Aufbau des Kategorienleitfadens

203

ID

Merkmalsausprägung

Hinweise

Beispiel

99

eingeschränkte Vergleichbarkeit

Die Lehrkraft nimmt gering differenzierte Erwartungshorizonte hinsichtlich der Schaffung von Vergleichbarkeit als problematisch wahr, da durch die geringe Differenzierung im Rahmen der Lösungsdarstellung und Bewertung Spielräume entstehen, die den Einbezug leistungsfremder Aspekte ermöglichen.

„Diese Kurzform hier mit den Stichworten (seufzt) ja, wie sieht es da mit der Vergleichbarkeit aus, die ist ja gar nicht gegeben. Also dann kann ich am Ende auch sagen, ja gut, alle schreiben eine Erörterung, dafür brauche ich keine ZP10 [Anm. d. Verf.: zentrale Prüfung nach der 10. Klasse], so dann, das kann ich auch einfach, dann kann ich sagen, alle machen eine Erörterung und Punkt, dann ist das gut.“ (NW1, Position 104)

100

eingeschränkte juristische Absicherung

Die Lehrkraft nimmt gering dif- „Bei Erwartungshorizont 1 bin ich ferenzierte Erwartungshorizonte als juristisch nicht so sehr abgesichert.“ eingeschränkte juristische Absiche- (BW2, Position 36) rung wahr, da die abstrakte Vorgabe von Lösungen bzw. der Verzicht auf eine Punktevergabe keine verbindliche Grundlage bildet, auf welche man sich im Streitfall beziehen kann.

101

ungenügende Anleitung

Die Lehrkraft nimmt gering differenzierte Erwartungshorizonte als ungenügende Hilfestellung für die Lehrkraft wahr, da die geringe Differenzierung im Rahmen der Lösungsdarstellung und Bewertung eine eingeschränkte Orientierungsmöglichkeit bietet oder sogar zu Unklarheiten führen kann.

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

„Es gibt nicht die totale Objektivität, bla, bla, bla, ein Allgemeinplatz, die kann man nicht erreichen, aber die Version 1 halte ich zum Beispiel für/ also es wäre mir zu wenig letztendlich und auch für recht unklar formuliert.“ (NW2, Position 40)

204

8

Inhaltsanalytische Auswertung

Kategorie 14: Wünschenswerte Konfiguration des Erwartungshorizontes Trotz der Bedeutsamkeit von Erwartungshorizonten hinsichtlich der Realisierung einer möglichst objektiven Leistungsbeurteilung sowie einer vergleichbaren Abschlussvergabe existieren bislang kaum wissenschaftlich fundierte Erkenntnisse bezüglich einer sinnvollen Konfiguration von Erwartungshorizonten (vgl. Mathes & Kühn, 2016). Neben allgemeinen Gestaltungshinweisen für das Prüfungsfach Deutsch (vgl. vertiefend Büchel & Isler, 2002; Grzesik & Fischer, 1984; Nussbaumer & Sieber, 1994) liegen hauptsächlich unterrichtspraktische Ratgeber zur Gestaltung und Nutzung von Erwartungshorizonten vor (z. B. Fröhlich, Rattay & Schneider, 2013; Möller, 2015; Neuweg, 2014; Paradies, Wester & Greving, 2018; Stepath, 2008). Aus diesem Grund soll anhand der folgenden Subkategorien analysiert werden, wie ein wünschenswerter Erwartungshorizont aus Sicht der Lehrkraft gestaltet sein sollte. Durch den Umgang mit den vorgegebenen Erwartungshorizonten sowie gegebenenfalls die selbstständige Erstellung von eigenen Erwartungshorizonten im Kontext von Klassenarbeiten ist zu vermuten, dass die Lehrkraft auf ein individuelles Erfahrungswissen zurückgreifen kann und entsprechend Hinweise zur Weiterentwicklung des Verfahrens geben kann. Unter Bezugnahme auf die dritte zentrale Fragestellung der Studie sollen somit weitere Aufschlüsse zu einer wünschenswerten Konfiguration des Erwartungshorizontes gewonnen werden. 14.1 Wünschenswerte formale Gestaltung des Erwartungshorizontes: Wie bereits zuvor beschrieben, fallen unter die Bezeichnung formale Gestaltung sämtliche Aspekte des Erwartungshorizontes, die keine inhaltlichen Aufschlüsse für die Leistungsbeurteilung geben: der Umfang (z. B. Seitenzahl des Erwartungshorizontes, Länge der Textelemente) sowie sämtliche optische bzw. strukturelle Elemente (z. B. Hervorhebungen, Schriftart und -größe, Einsatz von Tabellen). Anhand dieser Subkategorie soll untersucht werden, wie sich die Lehrkraft die bestmögliche formale Gestaltung des Erwartungshorizontes vorstellt. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

102

geringer Umfang

Die Lehrkraft beschreibt einen kur- „Im Leseverstehen-Teil muss der zen Umfang des Erwartungshorizon- Erwartungshorizont kurz und knapp tes als wünschenswert. sein […]“ (NW2, Position 60)

Beispiel

103

lesbare Schrift

Die Lehrkraft beschreibt eine lesbare Schrift (d. h. hinsichtlich der Schriftgröße und Schriftart) als wünschenswert.

„Ich nehme mal an, Sie haben den klein kopiert oder? Sonst würde ich auf jeden Fall sagen, eine größere Schrift.“ (NW4, Position 80)

8.3 Aufbau des Kategorienleitfadens

205

ID

Merkmalsausprägung

Hinweise

Beispiel

104

übersichtliche Gestaltung

Die Lehrkraft beschreibt eine übersichtliche Gestaltung als wünschenswert (z. B. in Form einer optischen Gliederung mit einer Abgrenzung der einzelnen Prüfungsteile durch Absätze).

„Die Aufgabenstellungen sichtbar getrennt, also die (…) sagen wir mal, die Unteraspekte, hier ist jetzt ja eigentlich nur eine Aufgabenstellung, ne. Aber bei uns ist ja oft A, B, C, D, E, dass das deutlich getrennt ist.“ (NW4, Position 80)

105

tabellarische Form

Die Lehrkraft beschreibt eine tabel- „Ja, sonst finde ich das so tabellenlarische Darstellungsform als wün- artig eigentlich schon gut.“ (NW4, schenswert. Position 80)

106

keine tabellarische Form

Die Lehrkraft beschreibt eine tabel- „Ja. Ich glaube, gerade mit dem larische Darstellungsform als nicht Tabellarischen, wo man vielleicht wünschenswert. dann auch eben mit Haken dran, da (.) wird man vielleicht auch nicht jedem Text gerecht, einfach weil doch das mehr noch als in Mathe (..) was (.) ja, doch ein Ausdruck der Person ist.“ (BW4, Position 98)

107

stichpunktartige Form

Die Lehrkraft beschreibt eine stich- „Ja, am liebsten stichpunktartig.“ punktartige Formulierung (d. h. kein (NW4, Position 74) Fließtext) als wünschenswert.

108

Integration des Bewertungsbogens

Die Lehrkraft beschreibt die Zusammenführung des Erwartungshorizontes und des Bewertungsbogens als wünschenswert, da auf diese Weise die Anleitung und die Dokumentation der Beurteilung in einem Dokument erfolgt.

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

„Ob man das nicht einfach auf diesen Bewertungsbogen mit (..) schreiben könnte, das würde das Korrigieren zumindest leichter machen.“ (NW1, Position 128)

14.2 Wünschenswerte Lösungsdarstellung im Erwartungshorizont: Anhand dieser Subkategorie soll untersucht werden, wie die sprachlichen und inhaltlichen Leistungserwartungen aus der Sicht der Lehrkraft dargestellt sein sollten (z. B. hinsichtlich des gewünschten Konkretheitsgrads, der Relevanz von ausgewählten Bestandteilen wie Musterlösungen). Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet.

206

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

109

Passung hinsichtlich der Vorbereitung

Die Lehrkraft beschreibt es als wünschenswert, dass die Lösungsdarstellung hinsichtlich der Inhalte bzw. des Niveaus auf den vorgelagerten Unterricht abgestimmt ist.

„Also in erster Linie, dass es angepasst ist an dem, was wir auch wirklich im Unterricht gemacht haben und nicht an dem, was in den Lehrplänen steht. Weil einfach in unseren Kernlehrplänen oder halt in den, wie heißen sie denn jetzt, Lehrpläne/In den Lehrplänen sind ja teilweise Aspekte drin, die ich mit denen gar nicht behandelt habe, weil wir keine Zeit hatten […]“ (NW3, Position 164)

110

genaue Kriterien

Die Lehrkraft beschreibt es als wünschenswert, dass die Leistungserwartungen konkret und präzise dargestellt werden. Ein Spielraum durch abstrakte Beschreibungen der Leistungen oder durch Zusätze wie z. B. sowie durch Formulierungen wie Andere plausible Lösungen sind anzuerkennen. soll vermieden werden.

„Ja, ich würde es vielleicht auch kleinschrittiger machen. Ich würde auch nicht hier Pünktchen, Pünktchen, Pünktchen machen, sondern wenn die wirklich wollen, dass wir Punkte dafür geben, dann sollen sie auch hinschreiben, was wir wofür geben sollen, weil es sonst eben auch von Schule zu Schule verschieden ist.“ (NW3, Position 144)

111

grobe Kriterien

Die Lehrkraft beschreibt es als wünschenswert, dass die Lösungsdarstellung nur aus inhaltlichen Schwerpunkten besteht bzw. offen formuliert werden sollte, sodass sie die Kriterien individuell ausdifferenzieren kann. Gegebenenfalls beschreibt die Lehrperson die Existenz von Spielräumen in einem gewissen Rahmen als wünschenswert.

„Ich möchte einfach das Gefühl haben, dass diese Hinweise mich nicht zu sehr (…) einschränken.“ (BW2, Position 88)

112

Angabe von Niveaus

Die Lehrkraft beschreibt es als wünschenswert, dass die Lösungsdarstellung differenziert ist, z. B. in notwendige und zusätzliche Lösungsbestandteile oder unterschiedliche Gütestufen.

„Möglichst eine knappe Aufzählung von allen Aspekten, die zur Beantwortung der Aufgabe möglich wären. (…) Möglich und dann aber auch nochmal die, die nötig sind, ja genau, das muss man irgendwie trennen. Einige müssen mit Sicherheit enthalten sein und andere können enthalten sein, dass man sich dann da welche aussuchen kann.“ (NW4, Position 72)

8.3 Aufbau des Kategorienleitfadens

207

ID

Merkmalsausprägung

Hinweise

Beispiel

113

ergänzende Musterlösungen

Die Lehrkraft beschreibt es als wünschenswert, dass der Erwartungshorizont neben der Beschreibung der Lösungserwartung zusätzlich Musterlösungen enthält.

„I: Was hältst du von Musterbeispielen zu den Erwartungshorizonten? Wäre das hilfreich oder ist das Quatsch? B: Nee, hilfreich. I: Ja? B: Ja. I: Dann zusätzlich oder anhand derer man dann beurteilt? B: Also ich finde, je mehr man hat für die Bewertung, ich meine, desto mehr Arbeit macht es letzten Endes auch. Man muss ja alles lesen und vergleichen und immer wieder gucken, aber wenn es um die Vergleichbarkeit geht, sind mehr Beispiele immer besser als weniger.“ (NW5, Position 107–112)

114

keine Musterlösungen

Die Lehrkraft beschreibt es als wünschenswert, dass der Erwartungshorizont keine Musterlösungen enthält.

„Ja, Kriterien und Musterlösungen gibt schon zu viel vor, also wenn man dann einfach, ja, in eine bestimmte Richtung zu stark gedrängt wird. Mit Kriterien hat man doch immer noch eine Bandbreite, die abgedeckt werden kann, mit einer Musterlösung ist man schon zu stark fixiert, glaube ich, ja.“ (BW4, Position 108)

115

konkrete, ergänzende Hinweise

Die Lehrkraft beschreibt die Existenz von konkreten aufgabenübergreifenden Hinweisen zusätzlich zur eigentlichen Lösungsdarstellung als wünschenswert (z. B. Hinweise zur Durchführung der Korrektur oder hinsichtlich zu beachtender Aspekte).

„Und oben drüber steht ja häufig noch Dinge, die man bearbeiten soll/ die man beachten soll, wie hier die Hinweise, sowas gibt es bei uns ja auch. Leider steht da immer dasselbe drin. Auch da würde ich mir manchmal wünschen, die würden ein bisschen konkreter, was die eigentlich so genau damit meinen. Aber (..) ich finde es gut, dass das da steht, ja.“ (NW4, Position 82)

208

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

116

differenzierte Angabe der sprachlichen Leistungserwartungen

Die Lehrkraft beschreibt es als wünschenswert, dass die Lösungsdarstellung von sprachlichen Aspekten differenziert dargestellt wird, d. h., dass die unterschiedlichen Teilbereiche (z. B. Stil, Ausdruck, Grammatik, Rechtschreibung) bzw. konkrete Leistungen angeführt werden.

„[…] tatsächlich so bei sprachlichen Anforderungen fände ich eben auch so eine Art Definition in den verschiedenen Bereichen gut. Also (..) strukturierter Satzbau, vielleicht komplexer Satzbau, oder Verwendung von Fachbegrifflichkeiten, dass da auch noch ein Angebot besteht, um das irgendwie einordnen zu können, um eben da auch eine Vergleichbarkeit zu gewährleisten und einen gewissen Standard.“ (BW1, Position 138)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

14.3 Wünschenswerte Anleitung der Bewertung und Benotung im Erwartungshorizont: Anhand dieser Subkategorie soll untersucht werden, auf welche Weise bzw. mit welchen Elementen die Bewertung und Benotung im Erwartungshorizont aus Sicht der Lehrkraft angeleitet werden sollte (z. B. hinsichtlich der Gewichtung von Leistungen, der Notwendigkeit einer Punktevergabe). Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet.

8.3 Aufbau des Kategorienleitfadens

209

ID

Merkmalsausprägung

Hinweise

Beispiel

117

Existenz einer Wortdefinition

Die Lehrkraft beschreibt die Existenz einer Wortdefinition, welche die Gewichtung und Bewertung der Leistungen regelt, als wünschenswert.

„B: Ich finde es gut, dass es irgendwie eine Definition gibt, was ist sehr gut, was ist gut, aber ob man der über Punkte gerecht wird, ist wieder eine andere Frage. Ob das eher eine Wortdefinition sein sollte, welche Aspekte da berücksichtigt sein müssen. Ich denke, das wäre fairer, weil die Erfahrung meiner Anwärter zeigt auch, wenn die dann, ja, vorsichtig, ja, im Referendariat versuchen, ihren ersten Aufsatz zu korrigieren und zu Recht sich an kriteriengeleiteten Punktekatalogen stützen, stellen die oft fest: ‚Boah, und dann wurde das total gut, ja, aber mein Bauchgefühl war viel schlechter.‘ Ja, und das gibt eben ein Punkteraster nicht her, […] Insofern finde ich die Punkte nicht (…) klug, sag ich mal, oder nicht so praktikabel, ehrlich gesagt. I: Ja. Also würden Sie eher sagen, besser drauf verzichten. B: Mhm, besser eine Wortdefinition.“ (BW1, Position 30–32)

118

kleinschrittige Punktezuordnung

Die Lehrkraft beschreibt eine kleinschrittige Punktezuordnung, in deren Rahmen (Teil-)Punkte einzelnen Leistungen zugeordnet werden, als wünschenswert.

„Und dann zusätzlich dazu die Verteilung der Punkte, meinetwegen, wie viel kriegt ein nötiger Punkt, also nötiges Kriterium und wenn jetzt ein mögliches kommt, vielleicht dann auch weniger Punkte. Aber dass man das irgendwie besser erklärt, wie die auf die Punktzahl gekommen sind.“ (NW4, Position 72)

119

grobe Punktezuordnung

Die Lehrkraft beschreibt eine grobe Punktezuordnung, in deren Rahmen Spielräume bei der Punktevergabe bestehen, als wünschenswert.

„Wobei natürlich dann auch ein Spielraum sein muss, also dass so ein, zwei Punkte hoch und runter, dass man die Möglichkeit hat, das entsprechend zu geben.“ (BW4, Position 136)

120

Vergabe von Extrapunkten

Die Lehrkraft beschreibt die Existenz von zusätzlichen Punkten, welche über die Gesamtpunktzahl hinausgehen und deren Zuordnung bewusst nicht geregelt wird, als wünschenswert.

„Ich würde vielleicht sowas wie (..), sowas wie Extrapunkte einfließen lassen für (..) Aufgaben, die/ Antworten, die hier nicht drinstehen, die ich aber trotzdem für richtig erachte, wenn es um literarische Texte geht.“ (NW3, Position 142)

210

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

121

Bestehensgrenze bei 50 Prozent

Die Lehrkraft beschreibt eine Bestehensgrenze bei 50 Prozent der Gesamtleistung als wünschenswert, d. h., die Mindestpunktzahl, um die Note ausreichend zu erhalten, soll 50 Prozent der Gesamtpunktzahl betragen und nicht weniger.

„Also wie gesagt, 35 von 75 Punkten reichen für eine Vier, finde ich nicht gut. Ja. Oder noch zwei, drei Punkte weniger, das finde ich, das Pimpen von (.) Mangelleistung letztendlich, ne, nicht aus irgendeinem bärbeißigen Elitedenken raus, also man muss halt irgendwann auch mal sagen, wann ist etwas nicht mehr ausreichend im Wortsinn. Ja. Das (.), das würde ich schon sagen, dass das mal umgesetzt werden soll und nicht so ein Luschen-Abschluss.“ (NW2, Position 92)

122

keine Regelung der Bewertung oder Benotung

Die Lehrkraft beschreibt eine Punktevergabe, die Regelung der Gewichtung von Leistungen oder der Benotung als nicht wünschenswert.

„I: Sollte die Gewichtung irgendwie geregelt werden zwischen Sprache und Inhalt? B: Nee, das finde ich nicht. I: Nee? B: (seufzt) (…) Das finde ich nicht, weil da kann man eben Schwerpunkte setzen, und das finde ich sehr eng. Da kommt nämlich eben dieser Schüler, der sprachlich nicht so gut ist, aber inhaltlich sehr stark, der hat dann keine Chance mehr, irgendwie eine gute Note zu bekommen.“ (BW1, Position 139–142)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

8.3 Aufbau des Kategorienleitfadens

211

Kategorie 15: Beschreibung und Begründung der Beurteilungspraxis Während die vorangegangenen Kategorien die Wahrnehmungen der Lehrkräfte im Rahmen der zentralen Prüfungen (bzw. insbesondere hinsichtlich der Leistungsbeurteilung) thematisiert haben, fokussiert diese Kategorie das Handeln der Lehrpersonen. Hierbei sollen neben den Handlungsbeschreibungen der Lehrkräfte außerdem auch ihre Begründungen des Handelns untersucht werden. Diese könnten gegebenenfalls. weitere Hinweise auf zugrundeliegende Werte und Einstellungen der Lehrkräfte geben. Bei der Durchführung der Analyse ist zu beachten, dass die Subkategorien sich mit Ausnahme der Subkategorie 15.2 auf die Handlungen im Rahmen der Erstkorrektur beschränken. 15.1 Eigene Nutzungspraxis des Erwartungshorizontes: Die einheitliche Nutzung des Erwartungshorizontes bildet eine wichtige Bedingung zur Erreichung der angestrebten Ziele, wie u. a. die Realisierung bzw. Erhöhung von Transparenz und Vergleichbarkeit bei der Abschlussvergabe (vgl. zusammenfassend Mathes & Kühn, 2016). Wie in der Subkategorie 8.2 bereits thematisiert, können Sanktionen zu einer beabsichtigen Nutzungspraxis beitragen, jedoch reichen diese nicht zwangsläufig aus, „so dass die Perspektive, ob Steuerungsabsichten auch erfolgreich sind und wie sie ‚wirken‘, uns immer begleiten muss“ (Fend, 2008b, S. 29). Folglich soll mithilfe der folgenden Subkategorien der Umgang mit dem Erwartungshorizont genauer betrachtet werden. Unter Bezugnahme auf die vierte und fünfte zentrale Fragestellung der Studie werden Aufschlüsse zum Nutzungsverhalten des Instruments und dessen Begründung angestrebt. Zunächst liegt der Fokus auf der Beschreibung und der Begründung der Nutzungsintensität des Erwartungshorizontes, im Anschluss betrachtet die Autorin anhand der Subkategorien den Umgang mit Spielräumen im Erwartungshorizont und die Notwendigkeit von Abweichungen vom Instrument. 15.1.1 Nutzungsintensität des Erwartungshorizontes: Anhand dieser Subkategorie soll untersucht werden, wie die Lehrkraft ihre Nutzungsintensität des Erwartungshorizontes beschreibt, d. h., wie stark sie ihrer Einschätzung nach, das Instrument bei der Leistungsbeurteilung berücksichtigt. Die Merkmalsausprägungen und der festgelegte Trennwert von 70 Prozent, welcher zusätzlich der Unterscheidung einer starken und einer geringen Nutzung dient, wurden induktiv anhand der Transkripte gebildet.

212

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

123

starke Nutzung

Die Lehrkraft beschreibt ihre Nutzungspraxis des Erwartungshorizontes als grundsätzlich genau und intensiv (d. h. genaues Lesen sowie Einhaltung der Vorgaben im Erwartungshorizont). Sofern die Lehrkraft eine prozentuale Einschätzung der Nutzungsintensität des Erwartungshorizontes vornimmt, bewertet sie diese mit mindestens 70 Prozent.

„I: Wenn man jetzt sagen würde, 0 % heißt, ich nutze die gar nicht, also ich korrigiere komplett frei, so wie ich das kann mit meiner diagnostischen Kompetenz, und 100 % sagt, ich nutze das wirklich sehr genau, Punkt für Punkt. Wo würden Sie sich als Nutzungstyp einordnen? B: Das kann ich schneller beantworten, (Lachen) das ist (…), sagen wir 99 %. (kurzes Auflachen)“ (NW1, Position 173–174)

124

geringe Nutzung

Die Lehrkraft beschreibt ihre Nutzungspraxis als bedarfsorientiert, d. h., die Lehrperson nutzt den Erwartungshorizont punktuell bzw. in Teilen, sofern es ihr sinnvoll erscheint. Alternativ orientiert sie sich an selbsterstellten Erwartungshorizonten, den Inhalten des vorgelagerten Unterrichts oder den Lehrplänen bzw. dem Bildungsplan. Sofern die Lehrkraft eine prozentuale Einschätzung der Nutzungsintensität des Erwartungshorizontes vornimmt, bewertet sie diese mit unter 70 und über 0 Prozent.

„I: […] Wie sehr nutzen Sie die denn, also wie sehr helfen die Ihnen in Ihrer Arbeit oder wie sehr, ja, müssen Sie es selber ausdifferenzieren? Wo würden Sie das einordnen? B: Ah, das war das, dann hätte ich das doch hier mehr/ (Lachen) Ja, ich nutze es ganz zu Beginn, ne, immer wieder mal. (…) (seufzt) Volle Nutzung würde ja bedeuten, dass ich das Ding nehme und mir quasi 1:1 (..) vorlege. (…) (seufzt) (…) Ja, ich fürchte dann war der Punkt wahrscheinlich so in etwa das, was ich hier gemeint habe. Also ich gucke es mir ja schon an. (..) Ich nehme es immer mal wieder vor, weil ich das Gefühl habe, (..) irgendwas passt nicht. Und ich nutze es vor allem im Umgang mit Kollegen.“ (BW5, Position 173–174)

125

keine Nutzung

Die Lehrkraft verzichtet in der Regel vollständig auf die Nutzung des vorgegebenen Erwartungshorizontes und erstellt sich einen eigenen Erwartungshorizont.

„I: Das heißt, diese Korrekturbögen, die Sie da nutzen, die haben Sie dann selber erstellt oder/ B: Genau, die sind oft auch mit der Fachschaft abgesprochen (..), und im Lauf der Jahre macht man auch mal andere Schwerpunkte natürlich, aber im Prinzip zeigt ja auch die Erfahrung viel. Sie müssen natürlich, wenn Sie die ersten Prüfungskorrekturen machen, werden Sie als Dienstanfänger die noch öfter lesen als ich jetzt vielleicht, wo ich viele, viele Abschlussprüfungen hatte.“ (BW3, Position 41–42)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

8.3 Aufbau des Kategorienleitfadens

213

15.1.2 Begründung der starken Nutzung des Erwartungshorizontes: Sofern die Lehrkraft in der Subkategorie 15.1.1 eine starke Nutzung des Erwartungshorizontes beschreibt, soll mithilfe dieser Subkategorie vertiefend untersucht werden, wie sie ihre hohe Nutzungsintensität begründet. Wie zuvor thematisiert (vgl. Abschnitt 4.2), geht die Autorin unter Bezugnahme auf die Educational GovernancePerspektive von einer multifaktoriellen Beeinflussung der Nutzungspraxis des Erwartungshorizontes aus (vgl. zusammenfassend Kussau & Brüsemeister, 2007; Maag Merki, Langer & Altrichter, 2014). Anhand der Begründung der starken Nutzung ergeben sich gegebenenfalls Hinweise auf förderliche Aspekte, welche die Nutzung für die Lehrkraft relevant erscheinen lassen bzw. begünstigen. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

126

Pflicht

Die Lehrkraft begründet die starke Nutzung des Erwartungshorizontes damit, dass sie den Erwartungshorizont als verbindliche Vorgabe bzw. dessen Nutzung als Pflicht wahrnimmt. Eine Leistungsbeurteilung im Rahmen der zentralen Prüfungen des MSA ohne die Nutzung des vorgegebenen Erwartungshorizontes schätzt sie als nicht möglich ein.

„Also das könnte ich mir dann nur vorstellen, dass es da Abweichungen gibt, aber ansonsten (.) muss ich mich ja schon daran halten. Besonders weil ja auch/ teilweise muss man ja auch/ werden ja ein paar eingesammelt und nochmal nachkorrigiert und mal geguckt, wie wir uns da so dran gehalten haben.“ (NW3, Position 198)

127

juristische Absicherung

Die Lehrkraft begründet die starke Nutzung des Erwartungshorizontes damit, dass eine Leistungsbeurteilung anhand der vorgegebenen Kriterien zu einer rechtlichen Absicherung führt (z. B. bei Klagen bezüglich der Prüfungsnote).

„Es muss ja auch/ im Notfall muss das Ganze ja einklagbar sein, um das mal auf diese Ebene zu heben. Dann werde ich einen Teufel tun, das Ganze irgendwie nach eigenen Maßstäben zu bewerten, weil wenn dann ein Schüler sagt: ‚Jetzt habe ich meinen Abschluss nicht‘ und ich habe das aber nicht nach der Vorgabe, da komm ich ja in Teufels Küche, das kann ich ja nicht machen.“ (NW1, Position 180)

128

Qualität des Die Lehrkraft begründet die starke Erwartungshorizontes Nutzung des Erwartungshorizontes mit dessen sinnvoller (inhaltlicher) Gestaltung.

„Nee, also da es bisher auch immer sinnvoll war, was da drin stand, haben wir das auch noch nie infrage gestellt.“ (BW4, Position 58)

129

Vergleichbarkeit

Die Lehrkraft begründet die starke Nutzung des Erwartungshorizontes damit, dass diese sinnvoll ist im Hinblick auf die Schaffung der angestrebten Vergleichbarkeit.

„Okay, also ich nutze den Bewertungsbogen, also den Leistungshorizont auf jeden Fall zu 100 %, denn das ist ja auch irgendwie das, was die Arbeiten vergleichbar machen soll.“ (NW5, Position 248)

777

keine Zuordnung möglich

Die Begründung einer starken Nutzung kann nicht analysiert werden, da keine starke Nutzung des Erwartungshorizontes von der Lehrkraft beschrieben wird (d. h., die Subkategorie 15.1.1 wurde mit 124 = geringe Nutzung, mit 125 = keine Nutzung oder mit 999 = keine Angabe codiert).

214

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

Beispiel

15.1.3 Begründung der geringen Nutzung oder Nicht-Nutzung des Erwartungshorizontes: Sofern die Lehrkraft in der Subkategorie 15.1.1 eine geringe Nutzung bzw. eine Nicht-Nutzung des Erwartungshorizontes beschreibt, soll mithilfe dieser Subkategorie vertiefend untersucht werden, wie sie ihre niedrige Nutzungsintensität begründet. Analog zur vorangegangenen Subkategorie werden sich anhand der Begründung der geringen Nutzung Hinweise auf hinderliche Aspekte erhofft, welche die Nutzung für die Lehrkraft irrelevant erscheinen lassen bzw. blockieren. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

130

Abbildung der Leistungen der SuS

Die Lehrkraft begründet die geringe Nutzung des Erwartungshorizontes damit, dass anhand eines vorgegebenen Erwartungshorizontes nicht alle individuellen Schülerleistungen angemessen beurteilt werden können: die Antizipation aller Lösungen ist nicht möglich, im Erwartungshorizont können nicht alle Lösungen vollständig angeführt oder die individuelle Leistungsentwicklung berücksichtigt werden.

„Also nicht, weil ich sage, der ist mir eh wurscht, der Erwartungshorizont, sondern die Freiheit ist da. Und das ist auch gewünscht, dass man dem Schüler gerecht wird und jetzt nicht nur sklavisch sich an irgendwelchen Richtlinien abarbeitet.“ (BW1, Position 112)

131

Berücksichtigung des vorgelagerten Unterrichts

Die Lehrkraft begründet die geringe Nutzung des Erwartungshorizontes damit, dass sie den vorgelagerten Unterricht berücksichtigen möchte und hierfür einen selbsterstellten Erwartungshorizont (als Ergänzung) benötigt.

„Also letztendlich würde ich sagen, der Korrekturbogen entspricht dem, was der Unterrichtskern war.“ (BW3, Position 34)

132

pädagogische Professionalität

Die Lehrkraft begründet die geringe Nutzung des Erwartungshorizontes damit, dass sie einen vorgegebenen Erwartungshorizont aufgrund ihrer Expertise nicht benötigt bzw. alleine oder in Zusammenarbeit mit ihren Kollegen einen mindestens ebenso ausführlichen Erwartungshorizont erstellen kann.

„Nee, die brauche ich eigentlich gar nicht, also die erleichtern mir nur vordergründig die Arbeit, weil in den vergangenen Jahrzehnten war es so, die haben geschrieben, ich saß vorne und habe mir genau das selber erarbeitet. Und wenn ich so meine eigenen Erarbeitungen angucke und vergleiche, dann habe ich natürlich immer mehr. Das ist ja (..) so ein mittlerer, mittleres, mittleres Anspruchsniveau, was hier abgefordert wird.“ (BW2, Position 30)

8.3 Aufbau des Kategorienleitfadens

215

ID

Merkmalsausprägung

Hinweise

777

keine Zuordnung möglich

Die Begründung einer geringen Nutzung bzw. einer Nicht-Nutzung kann nicht analysiert werden, da keine geringe Nutzung oder Nicht-Nutzung des Erwartungshorizontes von der Lehrkraft beschrieben wird (d. h., die Subkategorie 15.1.1 wurde mit 123 = starke Nutzung oder mit 999 = keine Angabe codiert).

Beispiel

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

15.1.4 Umgang mit Spielräumen des Erwartungshorizontes: Anhand dieser Subkategorie soll untersucht werden, wie die Lehrkraft mit vorhandenen Spielräumen im Erwartungshorizont umgeht. Anhand der Beschreibung des eigenen Handelns in Situationen, in denen das konkrete Vorgehen nicht festgelegt ist, können gegebenenfalls Hinweise auf die individuellen Kriterien und Ziele der Lehrkraft im Rahmen der Leistungsbeurteilung erfasst werden. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

133

Absprache im Kollegium

Die Lehrkraft bespricht sich mit Kolleginnen bzw. Kollegen und differenziert die Spielräume gemeinsam aus (z. B. Festlegung von korrekten und falschen Antworten).

„I: Jetzt gibt es in NRW eine Besonderheit, nämlich den Passus, Ein weiteres aufgabenbezogenes Kriterium wurde erfüllt. Ich weiß nicht, ob irgendwie da/ B: Ja, wir überlegen/ Das gibt, glaube ich, acht Punkte dafür, also relativ viel, und da überlegen wir uns, was die da, was wir da anerkennen, weil, das kann ja alles Mögliche sein. Und das notieren wir dann eben auch.“ (NW5, Position 161–162)

134

Ausgestaltung durch einen eigenen Erwartungshorizont

Die Lehrkraft differenziert die Spielräume aus, indem sie für diese offenen Teile des vorgegebenen Erwartungshorizontes einen eigenen, konkreten Erwartungshorizont erstellt.

„[…] es gibt ja diese kleinen Offenheiten, genau oder die, ne, wo es nicht komplett ausdifferenziert ist, wo ich sage, okay, da muss ich auch meinen eigenen Verstand benutzen (lacht), um zu überlegen, wie werte ich das denn jetzt. Und muss mir da dann vielleicht tatsächlich parallel noch so einen eigenen Erwartungshorizont, stichpunktartig dann erstellen.“ (NW1, Position 174)

216

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

135

individuelle Entscheidung

Die Lehrkraft entscheidet individuell anhand der jeweiligen Schülerleistung, ob die Leistung im Rahmen des Spielraums liegt und korrekt ist.

„[…] Wir haben eine gemeinsame Lösung gefunden, außer bei dieser offenen Aufgabe. Da waren auch nicht viele Schüler, die das hatten. Ich hatte, glaube ich, nur vier, jemand anders hatte einen. Und da hat jeder so ein bisschen für sich selber das gemacht.“ (NW4, Position 112)

777

keine Zuordnung möglich

Die Beschreibung des Umgangs mit Spielräumen des Erwartungshorizontes kann nicht analysiert werden, da eine Nicht-Nutzung des Erwartungshorizontes von der Lehrkraft beschrieben wird (d. h., die Subkategorie 15.1.1 wurde mit 125 = keine Nutzung codiert).

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

15.1.5 Erfordernis von Abweichungen vom Erwartungshorizont: Anhand dieser Subkategorie soll untersucht werden, ob es Situationen gab, in denen die Lehrkraft den Erwartungshorizont bzw. Teile davon bewusst nicht genutzt hat und sofern dies der Fall ist, welche Situationen ein Abweichen vom Erwartungshorizont erforderlich gemacht haben. Hieraus ergeben sich gegebenenfalls weitere Hinweise auf Einflussfaktoren, die sich negativ auf die Nutzung des Erwartungshorizontes auswirken. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet.

8.3 Aufbau des Kategorienleitfadens

217

ID

Merkmalsausprägung

Hinweise

Beispiel

136

mangelhafte Abbildung der Leistung der SuS

Die Lehrkraft beschreibt das Erfordernis vom Erwartungshorizont abzuweichen, sofern die individuelle Leistung der Prüflinge anhand des Erwartungshorizontes nicht angemessen erfasst werden kann (d. h., einzelne SuS würden anhand der Vorgaben des Erwartungshorizontes zu gut oder zu schlecht beurteilt werden).

„B: […] Und wenn die dann Superideen haben, die ich dann höchstens mit fünf Punkten bewerten darf bei dem erweiterten Kriterium, aber denen dann Punkte verloren gegangen sind, weil sie jetzt genau das, was da war, gefragt war, dann gerade nicht haben, aber trotzdem eine tolle Arbeit geschrieben haben, dann tut mir das häufig leid dann für die Schüler. Und das sind dann auch die Fälle, wo ich denke, ja, da müssen wir den Rest jetzt irgendwie so positiv wie möglich durchkorrigieren. I: Um das einfach auch zu würdigen. B: Um das zu würdigen, dass es trotzdem eine super Arbeit war. Und das spiegelt sich dann häufig in dieser Vergleichbarkeit eben nicht wider, dass jemand zwar mit einer fantastischen Arbeit hervorgestochen ist, aber nicht den Erwartungen entspricht.“ (NW1, Position 94–96)

137

geringe Gewichtung von Die Lehrkraft beschreibt das Erforsprachlichen Leistungen dernis vom Erwartungshorizont abzuweichen, sofern die sprachlichen Leistungen im Rahmen der Bewertung bzw. Benotung zu gering berücksichtigt werden (d. h., den sprachlichen Leistungen wird eine niedrige Punktzahl zugeordnet bzw. die sprachlichen Leistungen werden mit einem geringen Anteil in die Gesamtnote einbezogen).

„B: Ja. Ich glaube, Rechtschreibung ist ja meistens irgendwie nur mit drei, vier Punkten da drin oder so, ich habe das nicht mehr im Kopf, aber ist ja auch nicht viel da mit drin, I: Sehr geringer Anteil. B: Das heißt, die können ja auch schreiben wie blöde. Darf man ja gar nicht erzählen, dass wir dann mal zwei, drei Pünktchen mehr dafür vergeben. (Lachen) Darf man ja gar nicht sagen […]“ (NW3, Position 50–52)

218

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

138

zu hohe Leistungsanforderungen

Die Lehrkraft beschreibt das Erfordernis vom Erwartungshorizont abzuweichen, sofern die darin formulierten Anforderungen zu hoch sind (z. B. grundsätzlich zu hohes Anforderungsniveau, andere Schwerpunktsetzung bzw. Gewichtung der Leistungen im Vergleich zum vorgelagerten Unterricht).

„Ich habe eben diesen Roman Blütenstaubzimmer erwähnt, da war eine Metaphorik drin, bei der, ich hoffe, ich kriege es noch einigermaßen zusammen, die Frage ist, ob 15-, 16-Jährige, sagen wir mal 16Jährige, sie erkennen. Das hat was mit Lebensreife zu tun, ja. Da kann ich mich entsinnen, dass wir bei der, bei der Nachbesprechung am selben Nachmittag, um uns für genau solche Sachen abzusprechen, dass wir gesagt haben, okay, wahrscheinlich ist das bei einigen so wackelig formuliert, wo sollen sie es her nehmen, ja, also dann geben wir für diese zwei von vier Kriterien oder einen von zwei Kriterien, die hier genannt werden, für ein von zwei Kriterien die volle Punktzahl, ja. Das haben wir schon gemacht, aber das ist eigentlich nicht der Regelfall, dass wir zu sowas uns gezwungen sehen […]“ (NW2, Position 132)

139

Situation der SuS

Die Lehrkraft beschreibt das Erfordernis vom Erwartungshorizont abzuweichen, sofern die berufliche Situation der SuS von dem Erreichen einer bestimmten Note abhängig ist (z. B. Zugang zur Sekundarstufe II, Beginn einer Ausbildung).

„Oder eben im Hinblick auf solche Dinge wie (seufzt), ja, eine Ausbildung, wo man weiß, er wäre viel besser aufgehoben als eben noch ein Jahr Textbeschreibungen pauken, weil es einfach nicht das Ding ist von dem Schüler. Das sind immer wieder Fälle, wo es dann darum geht, der braucht aber unbedingt noch die Drei oder so. Wenn es dann natürlich (..) eine extreme Spanne ist, kann ich auch nichts machen, also ich lupf den ja nicht um eine Note, aber wenn man weiß, dass nur noch zwei Zehntel oder so, mhm, dann kann es schon mal sein, dass man da ein bisschen, irgendwo ein Auge zudrückt […]“ (BW5, Position 168)

8.3 Aufbau des Kategorienleitfadens

219

ID

Merkmalsausprägung

Hinweise

140

keine Erfordernis

Die Lehrkraft empfand es in kei- „I: Das heißt aber, Sie haben auch ner Situation als erforderlich vom nie das Gefühl gehabt, dass die Erwartungshorizont abzuweichen. Erwartungshorizonte es irgendwie problematisch machen, die Bewertung zu machen. B: Nee, also in der Form, wie er bei uns geliefert wird, gab es da noch nie ein Problem, also tatsächlich sehr zufrieden.“ (BW4, Position 143–144)

Beispiel

777

keine Zuordnung möglich

Die Beschreibung des Erfordernisses von Abweichungen vom Erwartungshorizont kann nicht analysiert werden, da eine Nicht-Nutzung des Erwartungshorizontes von der Lehrkraft beschrieben wird (d. h., die Subkategorie 15.1.1 wurde mit 125 = keine Nutzung codiert).

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

15.2 Beschreibung und Begründung der Durchführung der Zweitkorrektur: Die Zweitkorrektur bildet eine weitere wichtige Maßnahme zur Realisierung einer möglichst objektiven Leistungsbeurteilung in der zentralen Prüfung. Neben dem landesweit zentral vorgegebenen Erwartungshorizont handelt es sich bei der Zweitkorrektur um das einzige Prüfungselement, welches in allen zentral prüfenden Bundesländern verbindlich durchgeführt werden soll. Lediglich hinsichtlich der länderspezifischen Ausgestaltung existieren erneut Unterschiede: So erfolgt die Zweitkorrektur in der Mehrzahl der Bundesländer schulintern (d. h., eine Lehrkraft aus dem Kollegium der eigenen Schule führt die Zweitkorrektur durch). Die einzige Ausnahme bildet Baden-Württemberg, denn in diesem Bundesland wird die Zweitkorrektur schulextern vorgenommen (d. h., eine Lehrkraft einer zuvor durch das Landesbildungsministerium festgelegten Partnerschule beurteilt die Prüfung erneut) (vgl. Kühn, 2013, S. 96). Ergänzend zur Betrachtung der Nutzungspraxis des Erwartungshorizontes soll anhand der nachfolgenden Subkategorien die Zweitkorrektur genauer untersucht werden. Hierbei soll konkret analysiert werden, wie die Lehrkraft ihr eigenes Vorgehen bei der Durchführung der Zweitkorrektur beschreibt und begründet. Anhand der Ergebnisse können erste Hinweise gewonnen werden, inwiefern die Zweitkorrektur wie beabsichtigt durchgeführt wurde und welche Faktoren die Umsetzung bzw. den Verzicht hierauf begünstigen. Unter Bezugnahme auf die vierte und fünfte zentrale Fragestellung der Studie werden Aufschlüsse zum Nutzungsverhalten des Instruments und dessen Begründung angestrebt.

220

8

Inhaltsanalytische Auswertung

15.2.1 Durchführung der Zweitkorrektur: Anhand dieser Subkategorie soll untersucht werden, wie die Lehrkraft die Durchführung der Zweitkorrektur beschreibt und inwiefern diese von der Durchführung der Erstkorrektur abweicht, d. h., sind die Erst- und Zweitkorrektur identisch oder wird die Zweitkorrektur als reduzierte Form der Erstkorrektur durchgeführt (z. B. keine erneute Beurteilung der sprachlichen Leistungen, Ergänzung der Erstkorrektur um weitere Aspekte). Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

141

vollständige Durchführung der Zweitkorrektur

Die Lehrkraft beschreibt die Durchführung der Zweitkorrektur vergleichbar wie die Durchführung der Erstkorrektur (d. h. eine vollständige Beurteilung der inhaltlichen und sprachlichen Leistungen).

„I: Wenn Sie dann Zweitkorrektor sind, korrigieren Sie es genau gleich wie wenn Sie Erstkorrektor sind, also erstellen Sie dann auch Ihren Korrekturbogen oder wie läuft es dann ab? B: Ja, das unterscheidet sich nicht.“ (BW3, Position 97–98)

142

reduzierte Durchführung der Zweitkorrektur

Die Lehrkraft beschreibt die Zweitkorrektur als reduzierte Form der Erstkorrektur, d. h., die Lehrkraft orientiert sich an den Beurteilungen des Erstkorrektors bzw. verzichtet auf die Beurteilung der sprachlichen Leistungen (nahezu) komplett.

„[…] also früher bin ich gleich vorgegangen eben, weil ich keine Korrekturzeichen hatte. Da bleibt keine andere Wahl. Jetzt, wo die Korrekturzeichen drin sind, geht das ein bisschen, geht diese erste Runde natürlich auch ein bisschen schneller, die ich vorhin geschildert habe, weil ich nicht mehr super, super genau gucken muss.“ (BW1, Position 88)

8.3 Aufbau des Kategorienleitfadens

221

ID

Merkmalsausprägung

Hinweise

Beispiel

143

keine Durchführung der Zweitkorrektur

Die Lehrkraft beschreibt, dass sie vollständig auf die Durchführung der Zweitkorrektur verzichtet und sich der Meinung der erstkorrigierenden Lehrkraft anschließt, ohne die Prüfung selber beurteilt zu haben.

„I: Jetzt gibt es ja auch noch die Zweitkorrektur, vermutlich um auch nochmal, ja, eine gewisse Vergleichbarkeit zu sichern. Führst du die genau gleich durch oder gehst du da anders vor? B: Soll ich jetzt ehrlich sein? (ganz leise gesprochen) Also wir sagen hier, dadurch, dass wir uns (Lachen) vorher hinsetzen und diesen Bewertungsbogen gemeinsam erstellen und wirklich kleinschrittig mit der Bepunktung das machen, da sagen wir, brauchen wir keine Zweitkorrektur. Wir tauschen zwar dann die Klassenarbeiten aus und setzen unseren Namen drunter, und das ist dann die Zweitkorrektur. Wir müssen die Punkte noch eintragen und sowas alles, aber da wird also in der Klassenarbeit, wird nichts mehr nachgelesen, da werden die Punkte genauso übertragen, wie der Erstkorrekteur das gemacht hat. Und, fertig.“ (NW5, Position 169170)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

15.2.2 Begründung der vollständigen Durchführung der Zweitkorrektur: Sofern die Lehrkraft ihr Vorgehen als vollständige Durchführung der Zweitkorrektur beschreibt (d. h. in gleichem Umfang wie die Erstkorrektur), soll mithilfe dieser Subkategorie vertiefend überprüft werden, wie sie dies begründet. Anhand der Begründung ergeben sich gegebenenfalls Hinweise auf förderliche Aspekte, welche die Durchführung einer Zweitkorrektur für die Lehrkraft relevant erscheinen lassen bzw. begünstigen. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

144

Bestandteil des Berufs Die Lehrkraft begründet die vollständige Durchführung der Zweitkorrektur damit, dass diese Aufgabe zu ihrem Beruf dazugehört.

Hinweise

Beispiel „Ja, dann fragt man sich da manchmal schon, wenn ich keine Spuren hinterlassen muss auf der Arbeit und, (lautes Ausatmen) die ganze Arbeit. Aber gut, andererseits (.) ist halt der Job.“ (BW5, Position 162)

222

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

145

Fairness gegenüber den SuS

Die Lehrkraft begründet die vollständige Durchführung der Zweitkorrektur mit der wahrgenommenen Verpflichtung gegenüber den SuS. Sie möchte sicherstellen, dass die Prüfungsnote die zugrundeliegende Schülerleistung korrekt abbildet.

„Genau und es war ja in ein, zwei Fällen sowohl ins Bessere als auch ins Schlechtere abweichend und den Schülern schuldet man/ Na ja, also vor allem denen, die es besser machen, schuldet man es ja auch.“ (BW5, Position 164)

777

keine Zuordnung möglich

Die Begründung der vollständigen Durchführung der Zweitkorrektur kann nicht analysiert werden, da keine vollständige Durchführung der Zweitkorrektur von der Lehrkraft beschrieben wird (d. h., die Subkategorie 15.2.1 wurde mit 141 = reduzierte Durchführung der Zweitkorrektur, mit 142 = keine Durchführung der Zweitkorrektur oder mit 999 = keine Angabe codiert).

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

15.2.3 Begründung der reduzierten Durchführung oder der Nicht-Durchführung der Zweitkorrektur: Sofern die Lehrkraft ihr Vorgehen als reduzierte Zweitkorrektur beschreibt bzw. schildert, dass sie auf die vollständige Durchführung der Zweitkorrektur verzichtet, soll anhand dieser Subkategorie vertiefend überprüft werden, wie sie dies begründet. Analog zur vorangegangenen Subkategorie werden sich anhand der Begründung Hinweise auf hinderliche Aspekte erhofft, welche die Durchführung der Zweitkorrektur für die Lehrkraft irrelevant erscheinen lassen bzw. negativ beeinflussen. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung Hinweise

Beispiel

146

Sichtbarkeit der Erstkorrektur

Die Lehrkraft begründet den (nahezu) vollständigen Verzicht auf die Beurteilung der sprachlichen Leistungen damit, dass die Beurteilung der sprachlichen Leistungen aus der Erstkorrektur ersichtlich und eine erneute Beurteilung nicht notwendig ist.

„Jetzt, wo die Korrekturzeichen drin sind, geht das ein bisschen, geht diese erste Runde natürlich auch ein bisschen schneller, die ich vorhin geschildert habe, weil ich nicht mehr super, super genau gucken muss.“ (BW1, Position 88)

147

Kompetenz der erstkorrigierenden Lehrkraft

Die Lehrkraft begründet den (nahezu) vollständigen Verzicht auf die Beurteilung der sprachlichen Leistungen damit, dass die Durchführung der sprachlichen Beurteilung aufgrund der Kompetenz der erstkorrigierenden Lehrkraft nicht notwendig bzw. wünschenswert ist.

„Sollte ja schon einen Rechtschreibfehler irgendwie erkennen können und einen Grammatikfehler. Also da müssen wir dann nicht mehr drauf achten, sondern da lesen wir dann drüber, und so machen wir das dann, damit wir dann auch wirklich das dann untereinander auch geklärt haben.“ (NW3, Position 120)

8.3 Aufbau des Kategorienleitfadens

223

ID

Merkmalsausprägung Hinweise

Beispiel

148

gemeinsame Absprache

Die Lehrkraft begründet den Verzicht auf die Durchführung der Zweitkorrektur damit, dass sie sich vorab im Beurteilungsprozess bereits mit den weiteren beteiligten Lehrkräften abgestimmt hat.

„Also wir sagen hier, dadurch, dass wir uns (Lachen) vorher hinsetzen und diesen Bewertungsbogen gemeinsam erstellen und wirklich kleinschrittig mit der Bepunktung das machen, da sagen wir, brauchen wir keine Zweitkorrektur.“ (NW5, Position 170)

777

keine Zuordnung möglich

Die Begründung der reduzierten Durchführung bzw. Nicht-Durchführung der Zweitkorrektur kann nicht analysiert werden, da keine reduzierte Durchführung bzw. Nicht-Durchführung der Zweitkorrektur von der Lehrkraft beschrieben wird (d. h., die Subkategorie 15.2.1 wurde mit 140 = vollständige Durchführung der Zweitkorrektur oder mit 999 = keine Angabe codiert).

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

15.3 Umgang mit den beteiligten Lehrkräften: „Aus der Arbeitssoziologie ist bekannt, dass [Mitarbeiterinnen und] Mitarbeiter bessere Leistungen erbringen, wenn sie motiviert sind, sich in ihr Team eingebunden und ernstgenommen fühlen“ (Gruber & Magin, 2015, S. 129). Während bei der Beurteilung von Prüfungsarbeiten grundsätzlich eine Tendenz zur Einzelarbeit besteht, wird die Zusammenarbeit zwischen den beteiligten Lehrkräften im Rahmen der Leistungsbeurteilung der zentralen Prüfungen länder- bzw. schulspezifisch in einem unterschiedlichen Umfang angeboten oder vorgeschrieben (z. B. fakultative Angebote der Fachschaft, obligatorische Korrekturbesprechungen zwischen Partnerschulen). Anhand der folgenden Subkategorie soll untersucht werden, wie die Lehrkraft die Zusammenarbeit mit den anderen Lehrpersonen im Kontext der Leistungsbeurteilung beschreibt. Die Merkmalsausprägungen wurden induktiv anhand der Transkripte gebildet. ID

Merkmalsausprägung

Hinweise

Beispiel

149

Unterstützung der Beurteilung

Die Lehrkraft beschreibt die Zusammenarbeit mit anderen Lehrpersonen als gegenseitige Unterstützung bei der Durchführung der Beurteilung, z. B. durch die gemeinsame Durchführung von Beurteilungen, informelle bzw. verpflichtende Austausche zur Klärung von Unklarheiten und Problemen bei der Leistungsbeurteilung.

„Das ist häufig auch unklar gewesen, so was da jetzt/ Oder wenn dann ein Satz geschrieben werden sollte, so. Einer hat nur ein Stichwort, ist aber vielleicht genau das Treffende, ist das jetzt punktemäßig genau dasselbe, wie jemand, der einen schönen Satz geschrieben hat. (.) Da muss man sich also unter Kollegen dann auch immer verständigen. So, das ist dann manchmal schwierig, das alleine zu entscheiden“ (NW1, Position 52)

224

8

Inhaltsanalytische Auswertung

ID

Merkmalsausprägung

Hinweise

Beispiel

150

Festlegung der Beurteilung

Die Lehrkraft beschreibt, dass im Rahmen der Zusammenarbeit mit anderen Lehrpersonen Vorgehensweisen der Beurteilung festgelegt werden (z. B. ergänzend zu bzw. anstelle von den Vorgaben im Erwartungshorizont).

„Und (..) dann setzen wir Kollegen uns zusammen, die die ZP [Anm. d. Verf.: zentrale Prüfung] alle geschrieben haben und erstellen quasi den Bewertungsbogen oder werten den so ein bisschen auf.“ (NW5, Position 148)

151

Kontrolle der Beurteilung

Die Lehrkraft beschreibt andere Lehrpersonen im Rahmen der Leistungsbeurteilung als Kontrollinstanzen. Die Kontrolle erfolgt hauptsächlich in Form einer Zweitkorrektur, bei welcher eine weitere Lehrkraft die Prüfung erneut beurteilt, um die fehlerhaften Aspekte der Erstkorrektur zu berichtigen.

„Wobei man das natürlich eben mit/ dafür gibt es ja auch einen Zweitkorrektor, so ein bisschen als Korrektiv dann damit drin hat, wenn ich jetzt der Meinung wäre, was völlig anderes korrigieren zu müssen, warum auch immer, wäre, wenn ich der Zweitkorrektor dann auch da, der sagt: ‚Hey, Moment, stopp.‘“ (BW4, Position 58)

999

keine Angabe

Die Lehrkraft trifft keine Aussage, die einer Merkmalsausprägung dieser Subkategorie zugeordnet werden kann.

8.3 Aufbau des Kategorienleitfadens

225

Zusammenhang zwischen den zentralen Fragestellungen und den Kategorien Abschließend soll anhand der folgenden Tabelle zusammengefasst dargestellt werden, über welche Kategorien die zentralen Fragestellungen im Auswertungsprozess abgebildet sind (Tabelle 8.3): Tabelle 8.3 Abbildung des Forschungsinteresses im Auswertungsprozess Zentrale Fragestellung

Relevante Kategorien

1. Wahrnehmung der zentralen Prüfung Kategorie 3–5: Wahrnehmung der Prüfungsvorbereitung und zum Erwerb des MSA sowie der jewei- -durchführung ligen landesspezifischen Rahmenbedingungen 2. Wahrnehmungen hinsichtlich der vorgegebenen Erwartungshorizonte sowie deren formaler und inhaltlicher Ausgestaltung

Kategorie 6: Wahrnehmung von Zielen und Funktionen des Erwartungshorizontes Kategorie 7: Wahrnehmung der Verständlichkeit des Erwartungshorizontes Kategorie 8: Wahrnehmung der Verbindlichkeit des Erwartungshorizontes Kategorie 9: Wahrnehmung des Aufwands bezüglich des Erwartungshorizontes Kategorie 10: Wahrnehmung der Nützlichkeit des Erwartungshorizontes Kategorie 11: Wahrnehmung von Feedbackmöglichkeiten bezüglich des Erwartungshorizontes Kategorie 12: Wahrnehmung der Konfiguration des Erwartungshorizontes

3. Charakterisierung eines geeigneten Kategorie 13: Wahrnehmung von stark und gering differenErwartungshorizontes zierten Erwartungshorizonten Kategorie 14: Beschreibung der wünschenswerten Konfiguration des Erwartungshorizontes 4. Beschreibung der eigenen Beurteilungspraxis im Rahmen der zentralen Prüfung sowie insbesondere den Umgang mit den Erwartungshorizonten

Kategorie 15.1.1: Beschreibung der eigenen Nutzungsintensität des Erwartungshorizontes Kategorie 15.1.4–15.1.5: Beschreibung der eigenen Nutzungspraxis des Erwartungshorizontes Kategorie 15.2.1 und 15.2.4: Beschreibung der Durchführung der Zweitkorrektur Kategorie 15.3: Beschreibung des Umgangs mit anderen Lehrkräften im Rahmen der Leistungsbeurteilung

5. Begründung der eigenen Nutzungs- Kategorie 15.1.2 und 15.1.3: Begründung der Nutzungsintenpraxis des Erwartungshorizontes sität des Erwartungshorizontes Kategorie 15.2.2 und 15.2.3: Begründung der Durchführung der Zweitkorrektur

226

8

Inhaltsanalytische Auswertung

Insgesamt zeigt sich, „dass das in der Forschungsfrage vorgegebene Kommunikationsmerkmal sowohl auf der Begriffsebene als auch auf der Ebene des Datenmaterials vollständig erfasst wurde“ (Früh, 2017, S. 80) und somit ein erschöpfendes Kategoriensystem vorliegt.

8.4

Typenbildende Inhaltsanalyse

Eine Typenbildung definiert sich als „Gruppierung von Fällen zu ähnlichen Mustern oder Gruppen, die sich von ihrer Umgebung und anderen Mustern und Gruppen deutlich unterscheiden lassen“ (Kuckartz, 2018, S. 146). Der Begriff Typus bezeichnet hierbei die einzelnen Gruppierungen von Fällen, „die gemeinsame Eigenschaften aufweisen und anhand der spezifischen Konstellation dieser Eigenschaften beschrieben und charakterisiert werden können“ (Kluge, 1999, S. 27). Unter Bezugnahme auf die Ausführungen von Schütz & Luckmann (2017) handelt es sich bei der Typenbildung nicht um ein Vorgehen, welches ausschließlich zur empirischen Datenanalyse entwickelt wurde, sondern vielmehr um ein alltägliches Phänomen. Demnach bilden Menschen auf der Grundlage von Erfahrungen und deren Abgleich miteinander auch außerhalb des wissenschaftlichen Kontexts Typen, um anhand dieser, Situationen einordnen sowie möglichst routiniert bewältigen zu können (vgl. ebd., S. 316 f.). Die Resultate der alltäglichen Typenbildung werden insbesondere im Rahmen der Kommunikation sichtbar, wenn mehrere individuelle Lebewesen, Gegenstände oder Vorgänge unter einem Begriff subsumiert werden (vgl. ebd., S. 318 ff.), wie u. a. die Zusammenfassung aller Personen, die an einer Schule unterrichten, unter dem Ausdruck Lehrkraft (vgl. Dudenredaktion, 2018c). Der grundlegende Unterschied der wissenschaftlichen Typenbildung gegenüber alltagsweltlichen Typologien besteht darin, dass diese „nicht unmittelbar in Interaktionszusammenhänge eingebunden, dafür aber wissenschaftlichen Qualitätskriterien verpflichtet [ist]“ (Schmidt-Hertha & Tippelt, 2011, S. 24). Zur Systematisierung des eigenen Vorgehens und der Gewährleistung einer methodischen Regelgeleitetheit orientierte sich die Autorin im Rahmen dieser Studie an der typenbildenden Inhaltsanalyse nach Kuckartz (2018). Diese Version sieht die Nutzung von Ergebnissen einer inhaltsanalytischen Auswertung für eine Zusammenfassung von mehreren Fällen zu Gruppen vor, die hinsichtlich ausgewählter Merkmale möglichst homogen sind. Folglich wird die typenbildende Inhaltsanalyse weniger als eigenständige inhaltsanalytische Variante wahrgenommen, sondern

8.4 Typenbildende Inhaltsanalyse

227

vielmehr als eine Methodenkombination zwischen Inhaltsanalyse und Typenbildung (vgl. Schreier, 2014). Im Rahmen der vorliegenden Studie dienten die Ergebnisse der inhaltlich strukturierenden Inhaltsanalyse als Ausgangspunkt der Typenbildung. Die Autorin bewertet die nahtlose inhaltliche Verknüpfung des methodischen Vorgehens als besonders positiv, da auf diese Weise die Validität und Reliabilität der genutzten Daten bereits sichergestellt sind, sowie die vertiefte Analyse der selbst erhobenen Daten möglich ist. In Anlehnung an das Ablaufmodell typenbildender Inhaltsanalyse erfolgte zunächst eine Bestimmung des Fokus und Zweckes der Typenbildung (vgl. Kuckartz, 2018, S. 152 ff.). Rekurrierend auf das Forschungsinteresse strebte die Autorin eine Typologie bezüglich des beschriebenen Umgangs mit dem Erwartungshorizont und/ oder der Gestaltungspräferenzen der Lehrkräfte hinsichtlich des Instruments an. Das grundlegende Ziel einer zusätzlichen Typenbildung bestand darin, vertiefende Informationen zur Wahrnehmung des Erwartungshorizontes sowie Hinweise zu dessen Steuerungswirksamkeit zu erhalten. Ein großer Mehrwert der Methode stellt zudem die Möglichkeit eines Verweises auf „inhaltliche Sinnzusammenhänge“ dar (vgl. Kelle & Kluge, 2010, S. 90 f.), d. h., mithilfe der Typologie sollen (Begründungs-)Zusammenhängen im Rahmen der Beurteilungspraxis und speziell hinsichtlich der Nutzung bzw. Nicht-Nutzung der Erwartungshorizonte sichtbar gemacht werden. Die möglichst detaillierte Charakterisierung von unterschiedlichen Lehrkräfte-Typen mit Blick auf den vorgegebenen Erwartungshorizont bildet des Weiteren nicht nur einen theoretischen Ertrag, sondern kann außerdem als Ausgangspunkt für die Weiterentwicklung des zentralen Prüfungsverfahrens genutzt werden (vgl. Kuckartz, 2016, S. 41 f.). Demnach wäre es denkbar, dass die Kenntnis der verschiedenen Lehrkräfte-Typen zu einer Sensibilisierung der bildungsadministrativen Ebene beiträgt, dass potenzielle Zusammenhänge zwischen bestimmten Wahrnehmungen des Erwartungshorizontes (z. B. Wünsche, Ängste und Vorbehalte) und dessen Umgangs existieren. Insbesondere die Charakterisierung der LehrkräfteTypen, welche den Erwartungshorizont nicht oder nur teilweise nutzen, könnte weitere Aufschlüsse zum Umgang mit dieser Gruppe geben und die gezielte Modifikation bzw. Entwicklung von Informationsmaterialien oder Trainings unterstützen, um eine möglichst adressatengerechte Ansprache zu schaffen. Im Anschluss an die grundlegende Bestimmung des Fokus und Zweckes der Typenbildung galt es den sogenannten Merkmalsraum zu definieren, d. h. die relevanten Merkmale für die Gruppierung der Fälle (vgl. Kuckartz, 2018, S. 146 f.). Hierzu wurde einen dreidimensionaler Merkmalsraum festgelegt, der eine Typisierung anhand der folgenden Merkmale vorsieht:

228

8

Inhaltsanalytische Auswertung

– wünschenswerte Konfiguration des Erwartungshorizontes – Nutzungsintensität des Erwartungshorizontes – Begründung der Nutzungsintensität Die vorgelagerte inhaltlich strukturierende Inhaltsanalyse erlaubt diesbezüglich einen Rückgriff auf die Ergebnisse der folgenden Kategorien: – 14.1 Wünschenswerte formale Gestaltung des Erwartungshorizontes – 14.2 Wünschenswerte Lösungsdarstellung im Erwartungshorizont – 14.3 Wünschenswerte Anleitung der Bewertung und Benotung im Erwartungshorizont – 15.1.1 Nutzungsintensität des Erwartungshorizontes – 15.1.2 Begründung der starken Nutzung des Erwartungshorizontes – 15.1.3 Begründung der geringen Nutzung oder Nicht-Nutzung des Erwartungshorizontes Die ausgewählten Kategorien eignen sich nicht nur thematisch als Grundlage für die angestrebte Typenbildung, sondern besitzen außerdem einen hohen Informationsgehalt. Demnach sind den Merkmalsausprägungen der Kategorien 14.2, 15.1.1, 15.1.2 und 15.1.3 sogar Aussagen von allen interviewten Personen zugeordnet, sodass eine ausreichende Datenmenge für die Typenbildung vorliegt (vgl. Kuckartz, 2018, S. 154 f.). Während die relevanten Merkmale in Abstimmung auf das Forschungsinteresse festgelegt wurden, erfolgte die Kombination der Merkmale zu Typen induktiv anhand der konkreten Daten. Hierbei gilt: Die Forschungsteilnehmenden werden so zu Typen gruppiert, dass die einzelnen Typen intern möglichst homogen und extern möglichst heterogen sind. So gebildete Typen sind faktisch fast immer polythetisch, d. h. die zu einem Typ gehörenden Individuen sind bezüglich der Merkmale des Merkmalsraums nicht alle völlig gleich, sondern einander nur besonders ähnlich. (ebd., S. 151)

Konkret wurden die Aussagen der interviewten Lehrkräfte, die den Merkmalsausprägungen der ausgewählten Kategorien zugeordnet wurden, hinsichtlich ihrer Ähnlichkeit sortiert und möglichst trennscharf zu Typen zusammengefasst (vgl. ebd., S. 150 ff.). Im Hinblick auf die vergleichsweise geringe Anzahl von Fällen verzichtete die Autorin bewusst auf eine sehr kleinschrittige Differenzierung von Typen, sodass ein angemessenes Verhältnis zwischen den Typen und dem Datenmaterial besteht (vgl. ebd., S. 156).

8.5 Limitationen

229

Des Weiteren erfolgte eine Analyse hinsichtlich möglicher „Beziehungen zwischen den [gefunden] Typen und [sogenannten] sekundären Informationen“11 (ebd., S. 158). Im Rahmen der Studie betrachtete die Autorin die Zusammenhänge zwischen den gebildeten Nutzungstypen sowie den erfassten sozio-demographischen Merkmalen, wie dem Geschlecht und der Zugehörigkeit zum Bundesland. Die entstandene Typologie und die einzelnen Gruppierungen von Lehrkräften sowie deren Zusammenhänge zu weiteren Variablen werden im Kontext der Auswertung genau beschrieben und erläutert (vgl. Kapitel 12).

8.5

Limitationen

Die vorangegangene Beschreibung des inhaltsanalytischen Auswertungsprozesses verdeutlicht, dass es sich um ein systematisches und methodisch kontrolliertes Verfahren mit zahlreichen Stärken handelt (vgl. Kuckartz, 2018, S. 223 ff.; Mayring, 2015, S. 130 f.). Dennoch kann auch durch den Einsatz dieser Methode das Auftreten von Verzerrungen nicht vollständig ausgeschlossen werden (vgl. Wirth, Wettstein, Kühne & Reichel, 2015). Insbesondere im Rahmen der Durchführung des Ratings bestehen hohe Anforderungen: Die Codiererinnen und Codierer „sollen (1) möglichst viele Texte (2) in möglichst kurzer Zeit (3) möglichst reliabel codieren“ (ebd., S. 98). Vor diesem Hintergrund ist ein Auftreten von Codierer-Effekten wahrscheinlich, d. h. eine Einflussnahme von unterschiedlichen Faktoren auf das Rating, wie z. B. das Vorwissen, die emotionale oder körperliche Verfassung der codierenden Person sowie die Tageszeit oder die Dauer des Ratings (vgl. Degen, 2015). Wie zuvor bereits thematisiert (vgl. Abschnitt 8.2), existieren außerdem gewisse Interpretationsspielräume im Material, die unterschiedlich gedeutet werden könnten (vgl. Früh, 2017, S. 113 ff.). Die grundlegende Problematik besteht vor allem darin, dass entsprechende Fehlentscheidungen bzw. -interpretationen kaum relevante Folgen nach sich ziehen und demnach die Identifikation und Korrektur zufälliger wie auch systematischer Fehler im Kontext der Datenauswertung stark erschwert ist (vgl. Gruber & Magin, 2015, S. 119; Wirth, 2001, S. 166). Eine Vermeidung dieser Verzerrungen durch eine vollständig computerbasierte Auswertung ist bislang nicht möglich, da die notwendige Disambiguierung von 11 Die Bezeichnung sekundäre Informationen umfasst sämtliche „als Variable vorliegenden Informationen, die nicht Teil des Merkmalsraums bei der Typenbildung waren“ (Kuckartz, 2018, S. 158 f.), z. B. weitere Merkmale, die im Rahmen der inhaltlich strukturierenden Inhaltsanalyse erfasst wurden.

230

8

Inhaltsanalytische Auswertung

Worten (d. h. die Bestimmung der relevanten Bedeutung) aktuell nicht automatisiert werden kann und es hierzu weiterhin Codiererinnen bzw. Codierer bedarf (vgl. Kaefer, Roper & Sinha, 2015; Kuckartz, 2018, S. 198 ff.; Nacos, Shapiro, Young, Fan, Kjellstrand & McCaa, 2009). In der vorliegenden Studie strebt die Autorin eine Reduktion der Subjektivität menschlicher Codierungen anhand von Raterschulungen mit hohen praktischen Übungsanteilen an (vgl. Rössler, 2017). Diesbezüglich ist allerdings einschränkend darauf hinzuweisen, dass die sorgfältige Anleitung den Einfluss unerwünschter Faktoren lediglich minimieren und nicht komplett vermeiden kann (vgl. Wirth, 2001, S. 173 f.), sodass ein Restrisiko der Verzerrung auch in dieser Untersuchung bestehen bleibt. Auch die ergänzende Überprüfung der Intersubjektivität der Analysen mithilfe einer Doppelcodierung von 40 Prozent der Gesamtstichprobe sowie der anschließenden Berechnung eines Reliabilitätskoeffizientens erlaubt keine endgültige Aussage, ob Verzerrungen im Kontext der Datenauswertung dieser Studie vermieden wurden. Der relative Anteil des zweitcodierten Materials ist zwar hoch, betrachtet man die absoluten Werte, bedeutet dies jedoch, dass vier von zehn Transkripten durch beide Codiererinnen geratet wurden. Aufgrund der hohen Güte der Übereinstimmungswerte kann angenommen werden, dass eine Doppelcodierung weiterer Transkripte nur zu einer geringen Veränderung des Reliabilitätskoeffizienten führen würde, rückblickend erachtet die Autorin dennoch eine Zweitcodierung eines größeren Anteils des Samples bzw. eine Codierung durch eine dritte Person als sinnvoll. Neben der Anzahl der doppelt codierten Transkripte ergibt sich außerdem eine Limitation aus dem ausgewählten Übereinstimmungsmaß. Anhand der berechneten Cohens Kappa Werte können Aussagen zur Reliabilität der Analysen getroffen werden, die Koeffizienten ermöglichen allerdings keine Rückschlüsse, worauf die niedrigen Werte zurückgeführt werden können, da der Einfluss der einzelnen Fehlerquellen (z. B. Kategorienleitfaden, Eigenschaften der Codiererinnen, situative Aspekte) im Rahmen der Berechnung nicht separat berücksichtigt wird (vgl. Früh, 2017, S. 186).

9

Metaphernanalytische Auswertung

Neben der Auswertung der Gesprächsinhalte anhand der qualitativen Inhaltsanalyse bildet die sprachliche Untersuchung der Interviews einen weiteren, ergänzenden Bestandteil dieser Studie. Angesichts der zahlreichen bildlichen Formulierungen der Lehrkräfte bezüglich des Beurteilungsprozesses und des Erwartungshorizontes sowie der Möglichkeit anhand der systematischen Interpretation der Metaphern, vertiefende Erkenntnisse über die diesbezüglichen Denkprozesse und Wahrnehmungen der Lehrkräfte zu gewinnen, erfolgt eine Orientierung an der systematischen Metaphernanalyse nach Schmitt (2017b). Dieses Kapitel gibt zunächst einen kurzen Überblick über die Grundlagen der Methode1 und veranschaulicht hiervon ausgehend die Chancen für das eigene Forschungsvorhaben (vgl. Abschnitt 9.1). In einem weiteren Schritt beschreibt die Autorin das konkrete methodische Vorgehen (vgl. Abschnitt 9.2), welches in grober Anlehnung an die Ablaufskizze der systematischen Metaphernanalyse sowie unter Berücksichtigung des spezifischen Studiendesigns erfolgt (vgl. Schmitt, 2017b, S. 455 ff.). Abschließend diskutiert sie potenzielle Limitationen der Methode und ihrer spezifischen Anwendung (vgl. Abschnitt 9.3).

1 Die

Ausführungen dieses Kapitels konzentrieren sich auf die Erläuterung von Grundannahmen und zentralen Begrifflichkeiten der systematischen Metaphernanalyse, die zum Verständnis der Untersuchungen bzw. Ergebnisse dieser Studie relevant sind. Für einen umfassenden Überblick über die Methode wird die folgende Monographie empfohlen: Schmitt (2017b).

© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_9

231

232

9.1

9

Metaphernanalytische Auswertung

Grundlagen der systematischen Metaphernanalyse

Die systematische Metaphernanalyse bildet eine Methode der qualitativen Sozialforschung, welche sowohl Erkenntnisse der kognitiven Metapherntheorie (vgl. vertiefend Lakoff & Johnson, 1980) als auch hermeneutische Konzepte aufgreift (vgl. vertiefend z. B. Gadamer, 1975; Schütz, 2010). Ihre grundlegende Ausrichtung lässt sich wie folgt zusammenfassen: Metaphernanalyse zielt auf kulturell verbreitete, sozial situierte und individuell produzierte Muster des Sprechens, Denkens, Fühlens und Handelns, durch die hindurch Subjekte ihre Welt herstellen wie wahrnehmen. Diese Muster zeichnen sich durch die Übertragung älterer Erfahrungen auf andere aus, lassen sich in der Regel sprachlich verfassen und hermeneutisch rekonstruieren. (Schmitt, 2017b, S. 453)

Folglich liegt der Fokus im Kontext dieser Methode primär auf der Identifikation bzw. Rekonstruktion und Interpretation der folgenden drei Aspekte: – Metaphern – metaphorische Schemata – metaphorische Konzepte Unter Bezugnahme auf die vergleichsweise weite Begriffsbestimmung der Linguisten Lakoff und Johnson werden Metaphern als „Übertragung von sinnlich-konkreten auf abstrakte Phänomene [verstanden]“ (ebd., S. 42). Ein diesbezüglich konkretes Beispiel bildet u. a. die Nutzung von Kriegsvokabular, um eine Argumentation zu beschreiben (vgl. Lakoff & Johnson, 2014, S. 12 ff.). Die Wahl von Ausdrucksweisen, wie eine Person angreifen oder ein schlagendes Argument abschmettern verbildlicht das abstrakte, flüchtige sprachliche Handeln als physischen Kampf und veranschaulicht, wie das Argumentieren in einer bestimmten Kultur verstanden bzw. auf welche Weise dies umgesetzt wird. In diesem Fall betonen die metaphorischen Formulierungen ein strategisches und aggressives Vorgehen. Trotz der eher vagen Definition einer Metapher sieht Schmitt (2017b) bewusst von einer stärkeren theoretischen Konkretisierung bzw. Operationalisierung des Begriffs ab, da dies die praktische Identifikation von Metaphern einschränken könnte. Auch eine präzisere sprachwissenschaftliche Differenzierung erscheint vor dem Hintergrund eines sozialwissenschaftlichen Forschungsinteresses, welches nicht auf eine linguistische Klassifikation, sondern vielmehr auf die Rekonstruktion

9.1 Grundlagen der systematischen Metaphernanalyse

233

von (handlungsleitenden) Denkmustern abzielt, wenig sinnvoll, weshalb auch hierauf verzichtet wird (vgl. Schmitt, 2017b, S. 39 ff.). Stattdessen dienen die folgenden drei Bedingungen als Ausgangspunkt zur Bestimmung von Metaphern: – die Metapher besitzt einen Quellbereich, „das heißt eine für die Befragten sehr konkret-sinnliche Erfahrungsbasis“ (ebd., S. 41), wie z. B. die zuvor angeführte Visualisierung als kriegerische Handlung – die Metapher besitzt einen komplexen Zielbereich, welcher die Deutungsmöglichkeiten des Quellbereichs strukturiert bzw. begrenzt (vgl. ebd., S. 46), wie z. B. die thematisierte abstrakte sprachliche Handlung der Argumentation, die darauf abzielt andere Personen zu überzeugen – die Metapher überträgt durch ihre spezifische Wortwahl konkrete Bilder des Quellbereichs auf den Zielbereich Im Gegensatz zum klassisch-rhetorischen Verständnis wird eine Metapher im Kontext dieser qualitativen Methode nicht lediglich als „ein Ornament, eine Ausnahmeerscheinung [verstanden] – sie ist der Normalfall, sie ist ein durch und durch alltagssprachliches Phänomen“ (Kruse, Biesel & Schmieder, 2011, S. 65). Rekurrierend auf die Erkenntnisse der kognitiven Metapherntheorie handelt es sich bei Metaphern zudem nicht ausschließlich um ein sprachliches Mittel, sondern sie strukturieren außerdem das menschliche Denken (vgl. Weingarten, 2015, S. 30 ff.). Lakoff und Johnson (2014) nehmen an, dass die „Konzepte, die unser Denken strukturieren, […] zum größten Teil metaphorisch angelegt [sind]“ (S. 11) und dass diese die subjektive Wahrnehmung sowie in einem weiteren Schritt das Handeln einer Person leiten. Während die inhaltliche Analyse des Gesagten einen Einblick in die individuellen Wahrnehmungen ermöglicht, bietet die sprachliche Untersuchung dementsprechend die Chance, Hinweise auf unbewusste, zugrundeliegende menschliche Konzeptsysteme und Denkprozesse zu erhalten (vgl. ebd., S. 11 ff.). Konkret auf die vorliegende Studie bezogen, besteht das Interesse insbesondere darin, vertiefende Erkenntnisse über die Denkprozesse und Wahrnehmungen der Lehrkräfte bezüglich des Beurteilungsprozesses und speziell des Erwartungshorizontes sowie der Beziehung zu weiteren Beteiligten (d. h. Bildungsadministration, Kollegium, Prüflinge und Eltern) und gegebenenfalls der eigenen Rolle im Kontext der zentralen Prüfung zu gewinnen. Hierzu betrachtet die Autorin die gefundenen Metaphern nicht isoliert, sondern im Verbund mit weiteren Metaphern. Diese Vorgehensweise soll eine möglichst umfassende und differenzierte Betrachtung der genutzten Bilder erlauben sowie die Überinterpretation einzelner Metaphern im Rahmen der Analyse vermeiden.

234

9

Metaphernanalytische Auswertung

Diesbezüglich müssen grundlegend zwei Clustermöglichkeiten von Metaphern unterschieden werden: Schemata und Konzepte. Metaphorische Schemata sind allgemeine und gegenstandsunabhängige Muster, die angewandt werden, um möglichst anschaulich und konkret über abstrakte Themen sprechen zu können (vgl. Schmitt, 2017b, S. 48 ff.). Es wird grob zwischen vier gängigen Schemata differenziert (vgl. zusammenfassend ebd., S. 49 f.): – Substanzkonstruktionen: Zur Verdeutlichung einer (relativen) Menge bzw. eines Umfangs des Phänomens erfolgt eine Darstellung als quantifizierbare Substanz, z. B. konstruiert eine Lehrkraft die verfügbare Zeit als messbare Menge: „Ich habe zum Beispiel eine ganz klare Planung, wie viel Zeit nehme ich mir für die Textbeschreibung eines lyrischen Textes, wie viel Zeit für das Rahmenthema […]“ (BW2, Position 20) – Gegenstandskonstruktionen: Es werden Zustände oder Prozesse verdinglicht, um Relationen sichtbar zu machen z. B. konstruiert eine Lehrkraft Glück als einen Gegenstand, den man in Abhängigkeit einer bestimmten Situation besitzt: „Vielleicht hat man Glück und die andere Klasse, wo man Zweitkorrektor ist, hat nur 20 Schüler, dann geht es einem besser, als wenn man halt 27 bis 30 bekommt.“ (BW4, Position 84) – Behälterkonstruktionen: Zur anschaulichen Lokalisation von Phänomenen werden diese als Gefäße dargestellt (vgl. Lakoff & Johnson, 2014, S. 39 f.), z. B. konstruiert eine Lehrkraft den Erwartungshorizont als Behälter, um zu verdeutlichen wie dieser gestaltet sein sollte: „Es muss natürlich drin sein, wenn Sie die formalen Dinge, wenn Sie eher die Textbeschreibungen rein bringen, muss einfach ein Schüler in der Lage sein, Kernaussagen rauszufinden […]“ (BW3, Position 66) – Personifikationen: Anhand derartiger Formulierungen werden die Eigenschaften oder Handlungen einer Person auf ein Phänomen übertragen (vgl. Lakoff & Johnson, 2014, S. 44 f.), z. B. konstruiert eine Lehrkraft die sprachlichen Fehler einer Prüfungsarbeit als aufdringliche Person: „Und danach beginne ich wirklich auf Fehler auch zu gehen, also Rechtschreibung. Ich meine klar, die drängen sich mir auf, aber ich ignoriere die erst mal […]“ (BW2, Position 62) Die Kenntnis der unterschiedlichen Schemata dient mit Blick auf die systematische Metaphernanalyse vorrangig als Sensibilisierung bzw. Orientierung bezüglich der Identifikation von Metaphern im Untersuchungsprozess (vgl. Schmitt, 2017b, S. 52). Die Grundlage für die anschließende Analyse der Denkmuster der Lehrkräfte bilden wiederum die sogenannten metaphorischen Konzepte. Hierbei handelt es sich um eine „Bündelung einzelner metaphorischer Formulierungen, die im Quell- und

9.2 Ablauf der metaphernanalytischen Auswertung

235

Zielbereich übereinstimmen“ (ebd., S. 48). Rekurrierend auf das bereits angeführte Beispiel lassen sich die Aussagen eine Person angreifen oder ein schlagendes Argument abschmettern zu dem Konzept Argumentation ist Krieg zusammenfassen. Wie bereits angedeutet, erlaubt das Clustern von Konzepten eine differenzierte Betrachtung der genutzten Bilder und vermeidet, dass einzelne Metaphern im Rahmen der Analyse überinterpretiert werden (vgl. ebd., S. 45 ff.). Im Unterschied zur kognitiven Linguistik besteht das Ziel der systematischen Metaphernanalyse nicht darin, möglichst umfangreiche und breit gefächerte metaphorische Konzepte zu bilden, die viele Metaphern zusammenfassen, sondern im Hinblick auf das Ziel der „Rekonstruktion sinnhafter Zusammenhänge für eine spezielle soziale Situation […] [sollen stattdessen] möglichst gegenstandsangemessene, der Eigentümlichkeit der lokalen Denk- und Handlungszusammenhänge folgende Konzeptformulierungen [erstellt werden]“ (ebd., S. 46). Die metaphorischen Konzepte werden nicht als naturgegebenes bzw. universelles Muster verstanden, es wird vielmehr davon ausgegangen, dass sie in Abhängigkeit des jeweiligen Kontexts variieren (vgl. ebd., S. 85 f.). Folglich greift Schmitt (2017b) nicht auf die vorhandene Auflistung von bereits ermittelten Konzepten zurück (vgl. Lakoff & Johnson, 2007). Das Clustern von Konzepten stellt stattdessen einen hermeneutischen Prozess dar, in dessen Rahmen die individuellen, situativen Bedingungen einen wichtigen Faktor bilden, um die Metaphern zu identifizieren und die Konzepte möglichst genau zu bestimmen bzw. zu strukturieren (vgl. Schmitt, 2017b, S. 110 ff.). Um subjektive Verzerrungen in diesem anspruchsvollen interpretativen Prozess zu vermeiden, orientiert sich die Autorin maßgeblich an dem systematischen und regelgeleiteten Vorgehen nach Schmitt (2017b).

9.2

Ablauf der metaphernanalytischen Auswertung

Im Hinblick auf die konkrete Umsetzung der Auswertungsmethode schlägt Schmitt (2017b) ein mehrstufiges Vorgehen vor. Der prototypische Ablauf dient für das Forschungsvorhaben als Orientierung, wird jedoch nicht vollständig identisch übernommen, sondern unter Berücksichtigung des spezifischen Studiendesigns angepasst. Da die detaillierte Deskription der Wahrnehmungen der Lehrkräfte im Kontext der Leistungsbeurteilung des zentralen Prüfungsformats zum Erwerb des MSA das primäre Ziel bildet, liegt der Fokus auf der inhaltlichen Auswertung der Interviewtranskripte anhand der qualitativen Inhaltsanalyse. Die metaphernanalytische Auswertung wird lediglich als Ergänzung verstanden, die vertiefende Aufschlüsse über Wahrnehmungen bzw. zugrundeliegende Denkprozesse der Lehrkräfte erlaubt. Vor dem Hintergrund der Gegenstandsangemessenheit der Methode

236

9

Metaphernanalytische Auswertung

sowie nicht zuletzt aus pragmatischen Gründen realisiert die Autorin die Metaphernanalyse in einem reduzierten Umfang. Konkret führt sie die folgenden Schritte aus (vgl. Schmitt, 2017b, S. 456 ff.) (Abbildung 9.1):

-

Klärung von Indikationen Identifikation von Zielbereichen

-

Durchführung der Eigenanalyse Systematische Analyse der Metaphern Interpretation der metaphorischen Konzepte

-

Aufbereitung der Ergebnisse Auswahl einer geeigneten Darstellungsform

Vorbereitung

Durchführung

Nachbereitung

Abbildung 9.1 Ablaufmodell der Metaphernanalyse. (In grober Anlehnung an Schmitt, 2017b)

Im Rahmen der Vorbereitung gilt es zunächst die grundlegende Sinnhaftigkeit der Metaphernanalyse für das eigene Forschungsvorhaben zu erörtern (vgl. vertiefend Abschnitt 9.1). Bereits im Zuge der inhaltsanalytischen Auswertung zeigten sich zahlreiche interessante bildliche Formulierungen der Lehrkräfte, die sich auf den Erwartungshorizont beziehen und zusätzliche Aufschlüsse bieten könnten. Zudem erschien die ergänzende „Suche nach subjektiven wie (sub-)kulturellen Mustern des Fühlens, Denkens und Handelns“ (Schmitt, 2017b, S. 459) anhand der Metaphernanalyse insbesondere vor dem Hintergrund einer explorativ-deskriptiven Ausrichtung, deren primäres Ziel in der Erfassung und Deskription von Wahrnehmungen besteht, als gewinnbringende Vertiefung (vgl. ebd., S. 459 f.). Mit dem Anspruch einer möglichst gegenstandsangemessenen und zielführenden Anwendung der Methode ist es in einem weiteren vorbereitenden Schritt erforderlich Zielbereiche zu bestimmen, d. h. „Themen, für welche die metaphorischen Konstruktionen gesucht werden“ (ebd., S. 460). Folgende Zielbereiche wurden in dieser Studie festgelegt:

9.2 Ablauf der metaphernanalytischen Auswertung

237

– Beurteilungsprozess: Wie wird der Beurteilungsvorgang in den zentralen Prüfungen konzeptualisiert? Welche Rolle spielt der Erwartungshorizont? – Beziehungskonstellationen: Wie konzeptualisiert die Lehrkraft die unterschiedlichen Akteursgruppen und den Umgang mit diesen (z. B. Bildungsadministration, Kollegium, Schülerschaft, Eltern)? Welche Anforderungen nimmt die Lehrperson wahr, die im Kontext der Beurteilung an sie herangetragen werden? Im Anschluss an die grundlegenden Überlegungen folgt die Eigenanalyse (vgl. ebd., S. 463 ff.). Hierbei fokussiert die Autorin ausschließlich auf Metaphern, welche sie im Kontext des Interviews selbst verwendet hat, um vorab die „eigene Verstricktheit in bestimmte Metaphern“ (ebd., S. 466) zu identifizieren sowie zu reflektieren. Auf diese Weise erhofft sie sich, auch für metaphorische Ausdrücke sensibilisiert zu sein, die sie aufgrund der eigenen Verwendung sonst gegebenenfalls nicht erfassen würde sowie identifizieren zu können, welche Metaphern, die Lehrkräfte gegebenenfalls von der Interviewerin übernommen haben. Erst nach der Untersuchung der Metaphern der Interviewerin erfolgt die Analyse der Metaphern, welche die Lehrkräfte nutzen. Um einen möglichst umfassenden Überblick zu erhalten sowie eine vorschnelle Interpretation zu vermeiden, werden zunächst sämtliche Metaphern identifiziert und in einer Liste gesammelt (vgl. ebd., S. 470 ff.). Neben den metaphorischen Ausdrücken und Redewendungen beinhaltet die Auflistung außerdem sowohl strukturierende Informationen, wie das Kürzel der interviewten Person und das grobe Thema der Textstelle als auch teilweise erste Gedanken für die anschließende Interpretation. In einem komparativen Prozess werden die Metaphern, welche sich auf die definierten Zielbereiche beziehen, schließlich zu metaphorischen Konzepten gebündelt. Die Autorin sichtet in diesem Zuge erneut einige Abschnitte der Transkripte, da bisher übersehene Metaphern teilweise anhand der bereits gebildeten Konzepte in einem zweiten Durchgang sichtbar werden (vgl. ebd., S. 483). Zudem diskutiert sie ausgewählte Textabschnitte und Metaphern mit Außenstehenden, um in diesem komplexen, interpretativen Identifikations- und Rekonstruktionsprozess eine möglichst hohe intersubjektive Nachvollziehbarkeit der Ergebnisse zu gewährleisten (vgl. Reichertz, 2016, S. 83). Die gefundenen metaphorischen Konzepte werden wiederum dahingehend interpretiert, auf welche Denkmuster und Wahrnehmungen der Lehrkräfte die jeweiligen sprachlichen Konzeptualisierungen hinweisen. Hierfür bedarf es neben den sprachlichen Realisationen in den Transkripten „des Vorwissens um lebensweltliche und symbolische Zusammenhänge, das heißt den kognitiven, affektiven und kulturellen Reichtum der Interpretierenden vor dem Hintergrund einer möglichst umfassenden Sozialisation“ (Schmitt, 2017b, S. 498). Konkret erfolgt die Interpretation insbesondere anhand des Herausarbeitens von Besonderheiten des genutzten

238

9

Metaphernanalytische Auswertung

Quellbereichs, der Analyse der spezifischen Ausgestaltung von metaphorischen Konzepten bzw. Aspekten, die dadurch hervorgehoben werden sowie dem Vergleich von metaphorischen Konzepten. Abschließend bedarf es einer Aufbereitung der Ergebnisse und der Wahl einer geeigneten Darstellungsform, welche die Befunde systematisch und verständlich abbildet (vgl. ebd., S. 458). Die Autorin greift zur detaillierten Erläuterung auf narrative Gestaltungselemente sowie zur übersichtlichen Zusammenfassung auf tabellarische Darstellungen zurück.

9.3

Limitationen

Im Rahmen der Metaphernanalyse resultieren deutliche Herausforderungen daraus, dass die Metaphern ausgehend von einer vergleichsweise vagen Begriffsbestimmung identifiziert und zu Konzepten zusammengefasst werden sollen. Diesbezüglich kommt erschwerend hinzu, dass jede Forscherin bzw. jeder Forscher einen blinden Fleck besitzt, d. h. „Untersuchende erkennen ihre eigene Metaphorik selten als solche und nehmen sie als, buchstäblich richtige‘ Beschreibung wahr“ (Schmitt, 2017b, S. 463). Um zu vermeiden, dass bedingt durch diese Tatsache eine Vielzahl von Metaphern unberücksichtigt bleibt, erfolgte eine Eigenanalyse, d. h. eine Untersuchung der eigenen Gesprächsbeiträge im Interview. Für eine möglichst umfangreiche Reflexion der eigenen sprachlichen Konzeptualisierungen wäre es gegebenenfalls sinnvoll, ein zusätzliches Gespräch durchzuführen, in welchem die Interviewerin die Rolle der Befragten übernimmt (vgl. ebd., S. 457). Im Rahmen dieser Studie wird hierauf jedoch aus forschungsökonomischen Gründen verzichtet. Als weitere unterstützende Maßnahme ist die mehrfache Diskussion des Materials bzw. einzelner Überlegungen mit weiteren Personen anzuführen. Deren Unbeteiligtheit ermöglicht zwar eine unvoreingenommene Betrachtung, die fehlende methodische Expertise lässt jedoch auch eine geringe Reflexivität bezüglich der selbst verwendeten Metaphern vermuten. Es ist ebenfalls als Limitation zu werten, dass außerdem aus forschungsökonomischen Gründen auf die Erstellung eines kontrastierenden Hintergrundes2 verzichtet wird und folglich kein zusätzlicher Vergleichshorizont vorliegt, der weitere mögliche metaphorische Konzepte aufzeigt bzw. verdeutlicht, welche metaphorischen 2 Der

kontrastierende Hintergrund ist „ein Horizont von möglichen Metaphernfeldern zu den Zielbereichen aus heterogenen Materialien gesammelt (Lexika, Broschüren, Zeitungen, Protokolle, Publikationen u. a.)“ (Schmitt, 2017b, S. 457).

9.3 Limitationen

239

Konzepte die Lehrkräfte im Interview nicht nutzen. Die metaphernanalytischen Ergebnisse dieser Untersuchung können allerdings wiederum als Grundlage bzw. kontrastierender Hintergrund für weiterführende Studien genutzt werden.

10

Ergebnisse der qualitativen Inhaltsanalyse

Rekurrierend auf den theoretischen Teil dieser Studie kann davon ausgegangen werden, dass Lehrkräfte sowohl im Kontext der Leistungsbeurteilung als auch im Rahmen der Umsetzung von bildungspolitischen Reformen besonders bedeutsame Akteure darstellen, über deren Wahrnehmungen speziell im Kontext der zentralen Prüfungen zum Erwerb des MSA kaum etwas bekannt ist: Die Einstellungen der Organisationsmitglieder, hier der Lehrkräfte […], stellen eine zentrale Schnittstelle dar, wenn Steuerungsimpulse in alltägliche Arbeitsvollzüge transformiert werden sollen. […] Aus steuerungstheoretischer Perspektive stellen die Einstellungen von Lehrkräften das Nadelöhr dar, durch das die Steuerungspraxis in und von Schule gelangen muss, um in Handlungspraxis transformiert zu werden. Bedenkt man die Relevanz dieser Bedingung, wissen wir vergleichsweise wenig über sie. (Koch, 2009, S. 135)

Entsprechend sollen im Folgenden die erfassten Wahrnehmungen der Lehrerinnen und Lehrer hinsichtlich der Leistungsbeurteilung in den zentralen Prüfungen zum Erwerb des MSA im Prüfungsfach Deutsch unter besonderer Berücksichtigung der landeseinheitlichen Erwartungshorizonte möglichst differenziert dargestellt werden. Der Aufbau des Kapitels orientiert sich grundlegend an der Struktur des Kategoriensystems, welches wiederum unter Berücksichtigung der zentralen Forschungsfragen gestaltet wurde. Zunächst werden die Wahrnehmungen hinsichtlich der zentralen Prüfungsklausur und damit verbundener inhaltlicher und organisatorischer Erfordernisse (z. B. grundlegende Heranführung an das zentrale Prüfungsverfahren, Durchführung der Prüfungsvorbereitung) vorgestellt (vgl. Abschnitt 10.1). Anschließend thematisiert die Autorin die Wahrnehmungen hinsichtlich des Erwartungshorizontes sowie weiterer Rahmenbedingungen der Leistungsbeurteilung in zentralen Prüfungen (vgl. Abschnitt 10.2). Die Präsentation von Beschreibungen © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_10

241

242

10

Ergebnisse der qualitativen Inhaltsanalyse

der eigenen Handlungen der Lehrkräfte im Kontext des Beurteilungsprozesses bzw. des Umgangs mit dem Erwartungshorizont bildet schließlich den Abschluss dieses Kapitels (vgl. Abschnitt 10.3). Die Struktur der drei Unterkapitel ist grundsätzlich zweigeteilt, d. h. im Anschluss an die detaillierte Deskription der Wahrnehmungen der Lehrpersonen folgt eine Interpretation der Ergebnisse. Diese orientiert sich an den zentralen Fragestellungen (vgl. Kapitel 6) und berücksichtigt die theoretischen Annahmen (vgl. Kapitel 4) sowie die bisherigen empirischen Befunde (vgl. Kapitel 5). Zwar liegt der Fokus im Kontext der inhaltsanalytischen Auswertung auf den Gesprächsinhalten, dennoch soll die sprachliche Ebene des Gesagten nicht vollständig ignoriert werden. Sofern anhand der individuellen sprachlichen Realisationen weitere Erkenntnisse gewonnen werden können, bezieht die Autorin deren Deskription und Interpretation ergänzend ein (z. B. auffällige Wortwahl, Redundanzen bestimmter Wörter). Sie thematisiert im Rahmen dieses Kapitels auch vereinzelt metaphorische Ausdrücke, die nicht den Zielbereichen der Metaphernanalyse zugeordnet werden können, jedoch die genaue Deskription der Wahrnehmungen der Lehrkräfte unterstützen. Die Ergebnisse der weiter vertiefenden Metaphernanalyse werden im nachfolgenden Kapitel separat diskutiert (vgl. Kapitel 11). Bedingt durch das qualitative Untersuchungsdesign werden Häufigkeiten grundsätzlich nicht thematisiert, da eine repräsentative Darstellung weder angestrebt wird, noch realisierbar ist. Im Zuge einer möglichst umfangreichen Deskription soll dennoch gezielt verdeutlicht werden, ob es sich an manchen Stellen um Einzelwahrnehmungen handelt und folglich eher heterogene Ansichten existieren oder sich Tendenzen einer vergleichsweise einheitlichen Wahrnehmung zeigen (vgl. Lippuner, 2018). Hierzu verwendet die Autorin die zwei folgenden Begrifflichkeiten einheitlich, um Abstufungen sichtbar zu machen: mehrere als Markierung einer Anzahl ab drei Personen und der Großteil als Markierung einer Anzahl ab sieben Personen.

10.1

Wahrnehmung der zentralen Prüfung

Orientiert an der chronologischen Reihenfolge der Ein- und Durchführung der zentralen Prüfung werden im Folgenden die Wahrnehmungen bezüglich – der Heranführung an die Prüfungsklausur sowie damit verbundener organisatorischer und inhaltlicher Erfordernisse (Abschnitt 10.1.1), – der Prüfungsklausur bzw. deren Gestaltung (Abschnitt 10.1.2) und – der Prüfungsvorbereitung betrachtet (Abschnitt 10.1.3).

10.1 Wahrnehmung der zentralen Prüfung

243

Neben dem Ziel einer möglichst umfangreichen Deskription der Wahrnehmungen der beteiligten Lehrkräfte können die präsentierten Sichtweisen außerdem weitere Hinweise auf mögliche Einflussfaktoren der Wahrnehmung und Umsetzung der Leistungsbeurteilung im Kontext zentraler Prüfungen geben.

10.1.1 Heranführung an das zentrale Prüfungsformat Ausgehend von den Interviewtranskripten können drei Instanzen identifiziert werden, die im Kontext der Heranführung1 wahrgenommen werden: – das Landesbildungsministerium (inklusive der jeweiligen Regierungspräsidien und Bezirksregierungen), – das Lehrerkollegium und – die Schulbuchverlage. Mehrere Lehrkräfte berichten von vereinzelten organisatorischen und thematischen Hinweisen, die durch die ministerielle Ebene initiiert wurden. Konkret zählen hierzu informierende Dokumente oder die gezielte Fortbildung einiger Lehrpersonen, die als Multiplikatoren fungieren und das Wissen an ihr Kollegium weitergeben sollen. Sofern entsprechende Anleitungen existieren, erfolgen diese aus der Sicht der Lehrkräfte in Form einer reinen Informationsvermittlung durch die Vertreterinnen bzw. Vertreter der Bildungsadministration und nicht als gemeinsamer Austausch mit den beteiligten Lehrpersonen2 . Mehrere Lehrkräfte aus Nordrhein-Westfalen verweisen ergänzend darauf, dass sie nicht wissen, wer für die Erstellung und Koordination der zentralen Prüfung verantwortlich ist: – „Ich weiß nicht, wer das [Anm. d. Verf.: Erstellung der zentralen Prüfung] macht/ Also für mich ist das das Land und das stellt diese Aufgaben, wir bekommen das und das war es.“ (NW1, Position 150)

1 An

dieser Stelle betrachtet die Autorin ausschließlich Wahrnehmungen bezüglich der Heranführung an das zentrale Prüfungsformat bzw. die Prüfungsklausur, die Heranführung an die Leistungsbeurteilung sowie an die Anwendung des Erwartungshorizontes wird separat thematisiert (vgl. Abschnitt 10.2). 2 Im Folgenden handelt es sich um Lehrpersonen, die an der Vorbereitung, Durchführung und Beurteilung der zentralen Prüfung im Fach Deutsch beteiligt sind oder waren. Die befragten Lehrkräfte sind bzw. waren keine Mitglieder der Kommissionen, welche die Klausuren und Erwartungshorizonte erstellen (vgl. Abschnitt 7.4).

244

10

Ergebnisse der qualitativen Inhaltsanalyse

– „wer ist das vom Kultusministerium, wer macht die [Anm. d. Verf.: zentrale Prüfung] denn nochmal?“ (NW3, Position 64) – „Ja, wer erstellt die [Anm. d. Verf.: Erwartungshorizonte], geht das über das Schulministerium oder die Bezirksregierung, die das/ da Leute sitzen haben?“ (NW5, Position 120) – „das heißt, irgendwie in Düsseldorf und/oder Berlin oder Soest, sitzen Leute, die das genau wissen, was sie da tun mit dieser Punktegestaltung [Anm. d. Verf.: Konfiguration der Erwartungshorizonte]“ (NW2, Position 24) Darüber hinaus schildern mehrere Lehrpersonen eine Heranführung durch ihr Kollegium bzw. insbesondere erfahrene Lehrkräfte. Neben der Weitergabe organisatorischer Regelungen sowie Informationen zur inhaltlichen Ausgestaltung der Prüfung wird auch das konkrete Agieren im Prüfungskontext über Gespräche oder die Zusammenarbeit im Tandem bzw. im Team mit prüfungserfahrenen Lehrkräften angeleitet. Die Lehrpersonen bewerten diese Form der Heranführung grundsätzlich als positiv: B: Und ich glaube, das einzige Unterstützungssystem ist tatsächlich Teamarbeit. Kooperation mit Kolleginnen und Kollegen, die auch 10. Klassen haben […] Und dieses im Team arbeiten, das macht sicher, weil, das sind ja nicht nur Neulinge. Da ist ja auch so jemand wie ich dabei oder jünger, der auch schon ein paar Jahre auf dem Buckel hat […] Und ich denke, das Unterstützungssystem Team, im Team vorbereiten ist das beste, das es gibt. (BW2, Position 100) B: […] Also ich habe den Kurs damals von einer Kollegin übernommen, die in Elternzeit gegangen ist, das heißt, wir haben eine Weile noch zusammen unterrichtet und sie hat mich dann natürlich ein bisschen an die Sache ran geführt. Das war sehr schön für mich, dass wir erst mal zu zweit waren. (NW1, Position 16)

Neben der positiven Wahrnehmung wird jedoch durch Formulierungen, wie „wenn man Glück hat“ (BW5, Position 24), „je nachdem, wie eine Schule vorbereitet ist“ (BW5, Position 26) und „so ein bisschen […] informiert“ (BW4, Position 22), auch darauf hingewiesen, dass diese Möglichkeit der Heranführung schul- oder kollegiumsabhängig besteht sowie, dass die Inhalte und der Umfang der Anleitung individuell variieren. Einen weiteren Akteur im Kontext der Heranführung an das zentrale Prüfungsformat bzw. insbesondere an die inhaltliche Gestaltung bilden die Schulbuchverlage,

10.1 Wahrnehmung der zentralen Prüfung

245

die aus der Sicht von mehreren Lehrkräften aus Baden-Württemberg „wirklich ganz gute Unterrichts- und Klausurmaterialien vorgeben“ und speziell bezüglich der Anleitung der Prüfungsvorbereitung hilfreich sind (BW3, Position 82). Interpretation Unabhängig davon, ob in einem Bundesland bereits eine längere zentrale Prüfungstradition besteht (z. B. Baden-Württemberg) oder die zentralen Prüfungen im Kontext der Entwicklung von Bildungsstandards vergleichsweise spät eingeführt worden sind (z. B. Nordrhein-Westfalen), ist zu vermuten, dass es sich für die beteiligten Lehrkräfte bei den zentralen Prüfungen um eine Sondersituation im schulischen Alltag handelt. Denn im Vergleich zur schriftlichen Leistungsüberprüfung in Form von Klassenarbeiten, erhalten die Lehrerinnen und Lehrer hier sowohl die Prüfungsklausur als auch die zugehörigen Erwartungshorizonte von einer externen Stelle. Mit dem Ziel einer erfolgreichen Implementation bzw. intendierten Umsetzung der zentralen Prüfung könnte eine Heranführung wichtig sein, damit die Lehrkräfte das Verfahren verstehen, als sinnvoll erachten und schlussendlich umsetzen (vgl. Abschnitt 4.2). Die in dieser Studie befragten Lehrpersonen berichten nicht von einer einheitlichen, systematischen Anleitungsmaßnahme, vielmehr variieren die Wahrnehmungen bezüglich der grundsätzlichen Heranführung an das zentrale Prüfungsformat hinsichtlich der anleitenden Instanzen oder Personen sowie der Form der Anleitung. Auf die Tatsache, dass Baden-Württemberg eine wesentlich längere Prüfungstradition besitzt, lässt sich weder aus der Art bzw. des Umfangs der wahrgenommenen Heranführung oder dem Heranführungsbedürfnis schließen. In beiden Bundesländern wird eine unsystematische, primär informelle Heranführung wahrgenommen, die in Abhängigkeit des Unterstützungsbedürfnisses der Lehrkräfte genutzt oder sogar eigeninitiativ organisiert wird (z. B. Anfrage an das Kollegium, Anschaffung von Materialien) und mehr den Anschein eines bedarfsorientierten Lernens im Prozess erweckt. Obwohl es sich um eine bildungspolitische Maßnahme handelt, scheint das jeweilige Landesbildungsministerium bzw. dessen Vertreterinnen und Vertreter für die Lehrkräfte nicht die bedeutungsträchtigste Informationsquelle darzustellen, da kaum von entsprechenden Angeboten oder deren Inanspruchnahme berichtet wird. Darüber hinaus deutet sich außerdem eine Kommunikationslücke zwischen der Ebene der Zentrale und der Schulebene an, da die Lehrpersonen die Anleitung durch die Bildungsadministration nicht als Austausch, sondern als reine Informationsvermittlung beschreiben sowie die nordrhein-westfälischen Lehrkräfte zusätzlich auf die Unkenntnis der Verantwortlichen verweisen. Im Gegensatz dazu bewerten die Lehrpersonen aus beiden Bundesländern den Austausch mit Kolleginnen und Kollegen als durchweg positiv. Die Beschreibungen

246

10

Ergebnisse der qualitativen Inhaltsanalyse

deuten hauptsächlich auf informelle Anleitungsanlässe hin, die situativ bzw. eigeninitiativ bei ausgewählten Lehrkräften angefragt werden. Die positive Wahrnehmung kann als möglicher Hinweis auf die Bedeutung von Lehrerkooperation im Kontext der zentralen Prüfungen zum Erwerb des MSA gedeutet werden, was sich wiederum anschlussfähig an die Befunde zum Zentralabitur erweist. Die Lehrerkooperation spielt im Rahmen der Vorbereitung des Abschlusses der Sekundarstufe II eine bedeutsame Rolle (vgl. Ackeren et al., 2012, S. 24; Appius, 2012) und wird zumindest tendenziell, als Maßnahme zur Verringerung von Unsicherheit bewertet (vgl. zusammenfassend Maué, Maag Merki & Oerke, 2012). Inwiefern die Kooperation von Lehrkräften im Rahmen der Heranführung an die zentralen Prüfungen zum Erwerb des MSA nicht nur positiv eingeschätzt wird, sondern tatsächlich Unsicherheiten reduziert, kann an dieser Stelle nicht beantwortet werden. Trotz oder gerade wegen dieser unterschiedlichen Optionen der Anleitung klingt auch der Wunsch nach einer alternativen, womöglich systematischeren Heranführung an (z. B. im Rahmen der universitären oder schulischen Ausbildung): I: […] Wurden Sie irgendwie da ran geführt in irgendeiner Form? B: (lacht) Ja, nicht so, wie man es sich gewünscht hätte. (.) Also aus dem Studium kommend erst mal nicht, das machen dann die Kollegen vor Ort. Ich wurde damals ins kalte Wasser geworfen. Ich habe gleich eine 10. Klasse bekommen im ersten Jahr und ja, man strampelt sich so durch. […] Und (..), ja, aber so jetzt, sag ich mal, vom Studium, die Vorbereitung, wie damit umzugehen ist, die ist nicht wirklich da, das ist schon rein das Fachliche. (BW5, Position 23−24)

Berücksichtigt man zusätzlich die sprachliche Ebene dieses Ausschnittes, ist die Formulierung ins kalte Wasser geworfen werden auffällig, welche sich folgendermaßen umschreiben lässt: „sich in ungewohnter Situation, bei einer völlig neuen Aufgabe bewähren müssen“ (Dudenredaktion, 2013, S. 822). Die bildliche Beschreibung deutet an, dass die zentrale Prüfung für die Lehrkraft eine neue bzw. unangenehme Aufgabe darstellte, die ihr ohne Vorbereitung übertragen wurde. Die Beschreibung der eigenen Reaktion in diesem Kontext anhand des Ausdrucks strampeln, welcher in der Regel zur Beschreibung der Bewegung von Kleinkindern dient, könnte ergänzend auf eine gewisse Unbeholfenheit sowie ein angestrengtes Bemühen der Lehrkraft im Kontext der ersten Prüfungsdurchläufe verweisen. Eine diesbezüglich interessante Wortwahl einer weiteren Lehrperson bildet außerdem das Verb durchwurschteln (vgl. NW3, Position 34), welches laut Duden „sich behelfsmäßig, unzulänglich durchbringen“ (Dudenredaktion, 2018a) bedeutet und ebenfalls die Wahrnehmung eines eher unbeholfenen, ungenügend angeleiteten Vorgehens der Lehrkräfte zu Beginn der Prüfungsdurchführung vermuten lässt.

10.1 Wahrnehmung der zentralen Prüfung

247

Es ist abschließend anzunehmen, dass die heterogene Heranführung einen potenziellen Einflussfaktor hinsichtlich der Wahrnehmung des zentralen Prüfungsformats und folglich auch des Erwartungshorizontes bildet. Aufgrund der unsystematischen und vereinzelten Anleitungen des zentralen Prüfungsformats vermutet die Autorin, dass variierende Rekontextualisierungsprozesse begünstigt werden (vgl. Fend, 2008a). Dies bedeutet konkret, dass die Art, der Umfang sowie die anleitende Person die Wahrnehmungen und Handlungen der jeweiligen Lehrkraft unterschiedlich beeinflussen könnten.

10.1.2 Zentrale Prüfungsklausur Die befragten Lehrkräfte nehmen bezüglich der zentralen Prüfungsklausur sowie deren Gestaltung und Umsetzung sowohl positive als auch negative Aspekte wahr. Bei der Analyse der erhobenen Daten ist zunächst auffällig, dass die Vergleichbarkeit der Abschlussvergabe nicht nur ein Ziel der zentralen Prüfungen zum Erwerb des MSA darstellt (vgl. Klein et al., 2016), sondern laut dem Großteil der Lehrpersonen gelingt auch eine tatsächliche Steigerung der Vergleichbarkeit aufgrund der landeseinheitlichen Prüfungsklausur. Für mehrere Befragte bildet die Vergleichbarkeit der Abschlusszertifikate ein wichtiges Ziel und werde aufgrund der individuellen Handlungspraxen von Lehrpersonen in dezentralen Prüfungsverfahren gefährdet. Sofern die Prüfungsgestaltung vollständig den Lehrkräften überlassen bliebe, bestünde aus der Sicht einiger interviewter Personen die Problematik, dass Prüfungen mit niedrigem Schwierigkeitsgrad entworfen werden oder dass der vorgelagerte Unterricht aufgrund der genauen Kenntnis der Prüfungsinhalte besonders stark auf die Prüfungsvorbereitung ausgerichtet wird. Als mögliche zugrundeliegende Handlungslogiken für eine derart vereinfachte Prüfungsgestaltung im dezentralen Verfahren führen die Lehrerinnen und Lehrer opportunistische Verhaltensweisen an, wie z. B. die Intention möglichst viele bzw. gute Abschlüsse zu vergeben sowie ein abweichendes Anforderungsniveau der Lehrkraft: B: […] Aber auch, um dann über die Schulzeit der Schüler hinaus vielleicht so ein bisschen Vergleichbarkeit auch vorzuleiten letztendlich. Sie, Sie werden das immer feststellen, da, wo es keine ZPs [Anm. d. Verf.: zentrale Prüfungen] gibt, dass ein 62-jähriger Kollege sich nicht mehr selbst reformiert, was den eigenen Unterricht und die eigenen Gewohnheiten angeht. Vielleicht ich inzwischen auch nicht mehr, aber ich bin halt gezwungen, mich an diese Vorgaben zu halten. (NW2, Position 12)

248

10

Ergebnisse der qualitativen Inhaltsanalyse

Aus der Sicht der Lehrkräfte resultieren identische Prüfungsbedingungen und eine erhöhte Vergleichbarkeit der Abschlussvergabe im zentralen Verfahren aus der verbindlichen Vorgabe der Prüfungsanforderungen sowie der Unkenntnis der konkreten Prüfungsinhalte. Besonders interessant erscheint in diesem Kontext die Einschränkung mehrerer Lehrkräfte, dass die zentrale Prüfungsklausur zwar zu einer gesteigerten, jedoch keiner vollständigen Vergleichbarkeit führt. Die Lehrpersonen verdeutlichen mithilfe von relativierenden Zusätzen, dass die Vergleichbarkeit aus ihrer Sicht nicht komplett, sondern lediglich „ein Stück weit“ (BW1, Position 10), „halbwegs fair […]“ (BW3, Position 10), „ein bisschen mehr“ (BW4, Position 16) oder „weitestgehend“ (ebd., Position 30) realisiert wird. Ausgehend von den identischen Prüfungsanforderungen verweisen einige Lehrkräfte außerdem auf eine höhere Gerechtigkeit sowie eine bessere Sichtbarkeit von Kompetenzen der Absolventinnen und Absolventen. Da es sich bei letzterem auch um eine positive Wirkung für das abnehmende System handelt, geht eine Lehrerin davon aus, dass die Vergleichbarkeit der Zertifikate neben dem jeweiligen Bildungsministerium auch von der Wirtschaft intendiert wird: B: Na, ich denke, die Vergleichbarkeit, das da/ vor allem wahrscheinlich vom Arbeitgeber. Also ich habe schon das Gefühl, dass viel aus der Arbeitswelt kommt, wenn man Forderungen hört, dass es Jahrgänge gibt (..) wo dann beklagt wurde, dass sie zum Beispiel sich schlecht präsentieren und dass sie, ja, vor allem Präsentationsfähigkeit wurde, glaube ich, eine Zeitlang bemängelt. Dann kam 2004 der Bildungsplan, der dahin stärker ausgerichtet war, dann wurde die Fachlichkeit wieder bemängelt, weil das natürlich dann demzufolge ein bisschen schwächer uns vorkam, dass wir das nicht mehr so verfolgen konnten. Und dann wird man sehen, was jetzt wieder als Mecker kommt und das wird dann ja umgesetzt im neuen Bildungsplan, so fühlt sich das ein bisschen an. Und ich nehme mal an, dass, wenn das noch unverbindlicher ist alles, das schwer einzuschätzen ist, was jemand wirklich kann, wenn er den Abschluss in der Tasche hat. Ich denke, das ist die zentrale Forderung. (BW5, Position 16)

Neben der Herstellung einer vergleichbaren Prüfungspraxis nehmen mehrere Lehrkräfte die einheitliche Prüfungsklausur auch als qualitätssichernde Maßnahme wahr, die ein über die Jahrgänge gleichbleibend hohes Anforderungsniveau schafft (vgl. BW5, Position 22). Zudem berichten die Lehrerinnen und Lehrer von positiven inhaltlichen und organisatorischen Aspekten, die ihre Arbeit direkt betreffen. Sie erläutern, dass die einheitliche Abbildung des Lernstandes der Absolventinnen und Absolventen auch eine Rückmeldung bezüglich der Qualität ihres Unterrichts bildet. Des Weiteren

10.1 Wahrnehmung der zentralen Prüfung

249

nehmen einige Lehrpersonen die zentrale Vorgabe der Prüfungsklausur als zeitliche Arbeitserleichterung wahr, da die eigenständige Aufgabenerstellung durch die Lehrenden somit entfällt. Mit Blick auf die Perspektive der Schülerinnen und Schüler verweisen die Lehrkräfte darauf, dass die Bearbeitung einer zentral gestellten Prüfungsklausur eine Möglichkeit bildet, weitere offizielle Prüfungssituationen einzuüben (z. B. Zentralabitur, Abschlussprüfungen in der Aus- und Weiterbildung). Ausgehend von der konkreten Struktur der Prüfung wird es des Weiteren positiv bewertet, dass nicht nur die Standardisierung der Prüfungssituation angestrebt wird, sondern es darüber hinaus möglich ist, dass die Schülerinnen und Schüler anhand von verschiedenen Wahlaufgaben ihre individuellen Präferenzen und Kompetenzen einbringen. Aus der Perspektive einer Lehrkraft erfolgt etwas allgemeiner betrachtet durch die Implementation einer zentralen Prüfungsklausur eine grundsätzliche „Aufwertung dieses Realschulabschlusses“ (BW2, Position 8). Wie bereits angedeutet, existiert dennoch keine ausschließlich positive Wahrnehmung der zentralen Prüfungsklausur. Mehrere Lehrkräfte merken kritisch an, dass die Passung zwischen der zentral vorgegebenen Klausur und dem vorgelagerten Unterricht in unterschiedlicher Hinsicht problematisch ist. Rekurrierend auf die Tatsache, dass die Lehrperson für die Prüfungsvorbereitung zuständig ist, ohne die konkrete Prüfungsgestaltung zu kennen, erscheint eine optimale Abstimmung von Wissensvermittlung und -abfrage aus der Sicht der Lehrkräfte nicht möglich, was wiederum als ungerecht gegenüber den Schülerinnen bzw. Schülern wahrgenommen wird. Während ein Lehrer aus Baden-Württemberg die Sorge vor zu anspruchsvollen Prüfungsaufgaben äußert, nehmen mehrere Lehrkräfte aus Nordrhein-Westfalen das Niveau der Klausur in Relation zur Prüfungsvorbereitung als fallend oder zu niedrig wahr. Mehrere Lehrpersonen kritisieren in diesem Kontext speziell den Klausurteil zum Leseverstehen, d. h. die Art der Abfrage bzw. die niedrige Aufgabeschwierigkeit in Kombination mit dem vergleichsweise hohen Umfang dieses Teils und dessen großen Anteil an der Prüfungsnote. Die insgesamt als leicht wahrgenommene Prüfung führt dazu, dass die eigenen Bemühungen der Lehrkräfte im vorgelagerten Unterricht hinterfragt werden und weitestgehend sinnlos erscheinen: B: Okay. Also ich finde die zentralen Abschlussprüfungen über, weil ich finde, die spiegeln überhaupt nicht das, was wir im Unterricht gemacht haben, besonders die bei uns. Und ich finde das auch, das ist in erster Linie eine Frechheit, was da von den Schülern verlangt wird, weil ich das/ also besonders jetzt in Deutsch, ich glaube, die in Mathe sind immer sehr schwierig, die zentralen Abschlussprüfungen, aber in Deutsch, finde ich, ist das wirklich so lachhaft, was da abgeprüft wird, ich/ da werden meine Schüler echt/ als ob die blöd wären. Ich finde das immer sehr traurig, weil wir haben

250

10

Ergebnisse der qualitativen Inhaltsanalyse

uns so gut vorbereitet und haben so tolle Sachen gemacht im Unterricht, und dann kriegen die/ da diese Abschlussprüfungen und/ ja. I: Sind unterfordert? B: Sind/ unterfordert ja nicht, die freuen sich natürlich, dass sie so einfach sind, aber ich habe dann teilweise Schüler gehabt, die standen 5 dann bei mir in Unterricht, weil die echt nichts gemacht haben und schreiben dann in der ZAP [Anm. d. Verf.: zentralen Abschlussprüfung] eine 2. (NW3, Position 18−20)

Prospektiv erscheint das niedrige Anforderungsniveau der Klausur aus der Sicht einer Lehrerin kritisch, da vor dem Hintergrund positiv verzerrter Prüfungsergebnisse eine realistische Selbsteinschätzung der Kompetenzen sowie individuelle Laufbahnentscheidungen für die Schülerinnen und Schüler erschwert werden. Neben der mangelhaften Übereinstimmung zwischen dem vorgelagerten Unterricht und der Prüfungsklausur wird außerdem eine eingeschränkte Passung zwischen der Schülerin bzw. dem Schüler und der Prüfungsklausur angesprochen (vgl. BW1, Position 14; NW1, Position 236). Den Befragten stellt sich vereinzelt die Frage, ob anhand der Prüfungsergebnisse die Kompetenzen der Absolventin oder des Absolventen korrekt abgebildet werden oder inwiefern die standardisierte Abfrage diesbezüglich ungenügend ist. Zusätzlich zu den eher inhaltlichen Herausforderungen nimmt eine Lehrerin auch einen hohen organisatorischen Aufwand wahr, welcher mit der zentralen Prüfungsklausur und ihrem Einsatz verbunden ist: B: […] Also wenn ich überlege, dass wir teilweise, oder das machen wir Kollegen natürlich nicht, weil ich darf die Aufgaben ja vorher nicht sehen, aber irgendwer muss ja diese Aufgaben vorher bekommen und muss die ja dann auch schon mal kopieren und tackern und lochen und das dauert tagelang, da sind tagelang/ die komplette Schulleitung ist damit beschäftigt, diese Dinger irgendwie/ Also es müssen ja dann auch Leute sein, die wirklich mit den aktuellen 10-ern nichts zu tun haben, damit da alles gewährleistet ist, damit da keiner vorher was gepetzt hat. Das ist ein riesengroßer Aufwand, alleine wenn ich überlege, wie viel Papier dafür verschwendet wird. (NW1, Position 40)

Bezüglich der organisatorischen Abläufe erscheint es ergänzend interessant, dass diese schulabhängig geregelt werden. Beispielsweise berichtet die Lehrkraft in dem vorherigen Ausschnitt, dass prüfungsbeteiligte Lehrkräfte von der Vervielfältigung der Prüfungen für die Prüflinge ausgeschlossen sind. Im Gegensatz dazu verweist eine andere Lehrerin darauf, dass sie bislang unabhängig von ihrer Involviertheit

10.1 Wahrnehmung der zentralen Prüfung

251

in die zentralen Prüfungen an der organisatorischen Vorbereitung beteiligt war und hierdurch einen vergleichsweise frühen Einblick in die Klausuren erhielt: „wir Lehrer sehen die ja einen Tag vorher, also beziehungsweise die müssen ja dann getackert werden, also ich habe dann immer getackert und die dann schon früh genug gesehen. (kurzes Auflachen)“ (NW3, Position 34). Anknüpfend an die heterogene Beurteilung der Prüfungsklausur deutet sich an, dass die Lehrkräfte das zentrale Prüfungsverfahren insgesamt unterschiedlich wahrnehmen. Eine baden-württembergische Lehrerin spricht sich für die Beibehaltung des zentralen Prüfungsformats aus und eine weitere Lehrperson wünscht sich sogar eine bundesweit zentrale Abschlussprüfung, „weil man doch immer wieder hört, dass da ein deutliches Gefälle ist zwischen dem, was in manchen Bundesländern noch als 2 oder als 1 noch gilt […]“ (BW4, Position 172). Im Gegensatz dazu stellen zwei nordrhein-westfälische Lehrkräfte den Sinn der zentralen Prüfung in Frage oder plädieren sogar für eine Abschaffung des Formats und eine dezentrale Abschlussvergabe, „weil ich glaube, wir machen ja schon eigentlich, wenn wir eine Zehn haben, eigentlich einen ähnlichen Job alle als Lehrer“ (NW3, Position 160). Interpretation Zunächst ist hervorzuheben, dass die Vergleichbarkeit von einem Großteil der befragten Lehrkräfte aus beiden Bundesländern als positiver Aspekt zentraler Prüfungen wahrgenommen wird, obwohl „die Verbesserung der Vergleichbarkeit der Abschlüsse […] nur ein Ziel unter vielen dar[stellt]“ (Holmeier, 2013, S. 377). In Abhängigkeit davon, welches Verständnis von Vergleichbarkeit angewendet wird, sind mit der zentralen Vorgabe der Prüfungsklausur unterschiedliche, teils gegensätzliche Wahrnehmungen verbunden, die grob zu den folgenden beiden Bereichen zusammengefasst werden können: – Beitrag zur erhöhten Vergleichbarkeit: Ausgehend von einem engeren Verständnis einer vergleichbaren Abschlussvergabe (d. h. die Vergleichbarkeit wird ausschließlich anhand der Prüfungssituation bestimmt), wird die zentrale Prüfungsklausur als landeseinheitliche Standardisierung der Anforderungen wahrgenommen, welche die Vergleichbarkeit der Kompetenzen bzw. Leistungen der Schülerschaft sowie Schulen erhöht und somit eine aussagekräftige Rückmeldung über das Können der Absolventinnen bzw. Absolventen an die Lehrkräfte und das abnehmende System ermöglicht. – Beitrag zur reduzierten Vergleichbarkeit: Ausgehend von einem weiteren Verständnis einer vergleichbaren Abschlussvergabe (d. h. die Vergleichbarkeit wird anhand des gesamten Prüfungsprozesses inklusive Prüfungsvorbereitung und Prüfungssituation bestimmt) wird die zentrale Prüfungsklausur als externe

252

10

Ergebnisse der qualitativen Inhaltsanalyse

Leistungsüberprüfung wahrgenommen, die eine eingeschränkte Passung zur Prüfungsvorbereitung sowie den heterogenen Fähigkeiten der Schülerschaft aufweist und das Können der Absolventinnen bzw. Absolventen verzerrt abbildet. Bei den weiteren positiven sowie negativen Aspekten ergibt sich eine Tendenz landesabhängiger Perspektiven: Die Lehrkräfte aus Baden-Württemberg nehmen primär Chancen durch die zentrale Prüfungsklausur hinsichtlich des gesamten Bildungssystems sowie der Schülerschaft wahr (z. B. Sicherung des Anforderungsniveaus, Einübung von Prüfungssituationen), wohingegen die Lehrkräfte aus Nordrhein-Westfalen hauptsächlich positive Aspekte für die Lehrkraft formulieren (z. B. Rückmeldung und Arbeitserleichterung für die Lehrkraft). Bezüglich der thematisierten Herausforderungen bilden der organisatorische Aufwand, der zu niedrig wahrgenommene Schwierigkeitsgrad der Prüfung sowie die daraus resultierenden Passungsprobleme hinsichtlich der Prüfungsvorbereitung speziell für die befragten Lehrpersonen aus Nordrhein-Westfalen einen Kritikpunkt. Bei der Beschreibung der organisatorischen Anforderungen verweisen die Schilderungen zweier nordrheinwestfälischer Lehrerinnen außerdem darauf, dass die Lehrkräfte, die zu diesem Zeitpunkt in der 10. Jahrgangsstufe unterrichten, in Abhängigkeit der Schule beim schulinternen Kopieren der Prüfungsklausuren beteiligt sind, Einsicht erhalten und auf diese Weise z. B. vorab hilfreiche Tipps an die Prüflinge weitergeben können. Selbst wenn die an der Prüfung beteiligten Lehrpersonen nicht direkt in die organisatorische Vorbereitung einbezogen werden, ist es dennoch denkbar, dass sie Informationen bezüglich der Prüfungsinhalte erhalten. Inwiefern derartige opportunistische Verhaltensweisen der Lehrkräfte existieren, kann an dieser Stelle nicht beantwortet werden, dennoch ist die vorhandene Möglichkeit im Hinblick auf eine vergleichbare Abschlussvergabe kritisch zu bewerten. Insgesamt zeigen sich Hinweise darauf, dass die wahrgenommenen Chancen und Herausforderungen der Lehrkräfte aus Nordrhein-Westfalen hauptsächlich das Resultat einer vergleichenden Analyse des zentralen Verfahrens mit dem (vorherigen) kumulativen Abschlussverfahrens sind. Möglicherweise resultieren die Einschätzungen bzw. der Fokus der nordrhein-westfälischen Lehrpersonen u. a. aus der Existenz eines Vergleichshorizontes (d. h. der kumulativen Vergabepraxis), zu welchem das zentrale Prüfungsformat in Relation gesetzt werden kann und konkrete Änderungen hinsichtlich der eigenen Tätigkeit oder der Gestaltung der Abschlussvergabe eingeschätzt werden können. Aufgrund der langjährigen zentralen Prüfungstradition fehlt den Lehrkräften aus Baden-Württemberg ein ähnlicher Vergleichsmaßstab, d. h., sie können das eigene Handeln sowie die konkrete Ausgestaltung der landeseinheitlichen Prüfung in der Regel nicht zu Wahrnehmungen aus anderen Abschlussverfahren in Relation setzen und formulieren folglich eher grundsätzliche Chancen und Herausforderungen des zentralen Formats.

10.1 Wahrnehmung der zentralen Prüfung

253

10.1.3 Prüfungsvorbereitung Die Lehrkräfte beschreiben, bezogen auf sich selbst und teilweise auch auf das jeweilige Kollegium, dass der Unterricht bereits ab der 9. Jahrgangsstufe stark auf die Vorbereitung der Prüfungsklausur fokussiert ist: B: Also das beobachte ich schon, da wird schon sehr konkret in Richtung Prüfung gedacht. Da wird zum Beispiel mit der Klasse Neun schon ein Probekompendium [Anm. d. Verf.: thematische Textsammlung, die in der Probeklausur benutzt werden darf] angelegt über das Rahmenthema, der gerade laufenden 10. Klasse. Oder es wird auch die entsprechende Lektüre gelesen, die gerade bei den Zehnern gelesen wird. Und es wird eben schon so gearbeitet, dass die Jugendlichen sich vorstellen können, was auf sie zukommt. Also es, ich glaube, es hilft auch sehr, sehr strukturiert und sehr, sehr geplant die beiden Schuljahre anzugehen. […] I: Also es ist alles abgestimmt dann auf diese Prüfung? B: Ja, so habe ich das bei mir erlebt und so beobachte ich das bei Kolleginnen und bei Kollegen. (BW2, Position 8−12)

Konkret führen die Lehrerinnen und Lehrer in ihren Erzählungen einen oder mehrere der folgenden Aspekte an, die auf eine gezielte, umfangreiche oder langfristige Prüfungsvorbereitung verweisen: – systematische Planung und Strukturierung der Schuljahre bzw. des Unterrichts – verstärkter Einsatz alter Prüfungsaufgaben und prüfungsbezogener Übungsmaterialien – Angleichung des Anspruchsniveaus in Klassenarbeiten an den Prüfungsstandard – die Anfertigung oder Ergänzung von Dokumenten, die in der Prüfung genutzt werden dürfen (z. B. das baden-württembergische Kompendium, kommentierte Pflichtlektüren). Hiervon ausgehend schätzt der Großteil der Lehrkräfte ein, dass die Schülerinnen und Schüler gut vorbereitet werden können, sodass die Bewältigung der Prüfung unproblematisch ist. Als sichtbarer Beleg können die Prüfungsnoten betrachtet werden, die gemäß den befragten Lehrkräften in der Regel mindestens den Vornoten entsprechen oder sogar besser sind (vgl. z. B. NW5, Position 167−168). Mehrere Lehrpersonen verweisen darüber hinaus auf ein vorhandenes Sicherheitsgefühl hinsichtlich der Passung von Vorbereitung und Prüfung, d. h., „es ist nicht so, dass

254

10

Ergebnisse der qualitativen Inhaltsanalyse

man jetzt wirklich als Lehrer Angst haben muss, oh Gott, was kommt jetzt da dran und habe ich die richtig vorbereitet, denn mit den Vorbereitungsmaterialien, die es ja gibt, kann man einfach die Schüler sehr gut drauf vorbereiten“ (NW5, Position 242). Trotz dieser grundsätzlichen Sicherheit äußern mehrere Lehrkräfte, dass in einem gewissen Rahmen Nervosität und Unsicherheit bestehen, bis ihnen die zentrale Prüfungsklausur vorliegt. Eine Lehrkraft beschreibt ihre diesbezüglichen Empfindungen für unbeteiligte Personen besonders anschaulich: B: […] Ich finde das sehr aufregend, also ich bin dann immer mit ein bisschen angespannt so, ich kann die Schüler gut nachempfinden, die sind dann immer völlig aus dem Häuschen und sind dann auch froh, wenn es [Anm. d. Verf.: die Abschlussprüfung] vorbei ist. Ich gebe zu, ich bin auch immer froh, wenn es vorbei ist. (lacht) Wobei, für mich ist es schon entspannend, wenn ich die Aufgaben einmal in der Hand habe, einmal alles gesehen habe. Und eigentlich bisher, Gott sei Dank, immer festgestellt habe, das ist alles machbar. So, das ist dann für mich immer so der erleichternde Moment. (NW1, Position 20)

Neben der zielgerichteten Vorbereitung werden der stark prüfungsbezogene Fokus und die Vorbereitung zentral vorgegebener Prüfungsthemen jedoch nicht ausschließlich positiv wahrgenommen, sondern auch als stärkere Einschränkung der Lehrkraft und ihrer pädagogischen Freiheit im Vergleich zu dezentralen Verfahren: B: […] Also irgendwie werden die Schüler immer besser darauf [Anm. d. Verf.: die zentrale Prüfung] vorbereitet, ich habe auch das Gefühl, man macht fast nur noch die Themen, die drankommen könnten, guckt nicht mehr links und rechts, und das war vorher schon anders. Man war irgendwie ein bisschen freier, freier und ich kann nicht behaupten, dass die Schüler da wenig/ vorher weniger gelernt haben. Und jetzt ist das sehr zielorientiert mit den Übungsheften, die man so hat. (NW4, Position 14)

Die Relation zwischen der Anzahl bzw. des Umfangs der vorgegebenen Themen sowie der verfügbaren Vorbereitungszeit führt aus der Sicht des Großteils der Lehrpersonen zu einem Zeitmangel: B: Also das Schuljahr ist ja auch verkürzt in Klasse Zehn, wir haben ja/ bis zu den Osterferien müssen alle Klassenarbeiten gelaufen sein, alle Themen nochmal beackert worden sein, und da bleibt eigentlich viel zu wenig Zeit, um ein Thema ohne Unterstützung durch irgendwelche Materialien adäquat vorzubereiten. (BW1, Position 60)

10.1 Wahrnehmung der zentralen Prüfung

255

B: Viele Kollegen sagen, sie fühlen sich eingeschränkt dadurch [Anm. d. Verf.: Erwartungshorizonte], die Freiheit ist nicht mehr da. Das empfinde ich eher bei den Themen, die so vorgeschrieben sind. Dass ich manchmal denke, ach, ich würde aber nochmal gerne eine Lektüre lesen oder/ da ist aber gar keine Zeit mehr für. Da sind auch Themen dabei, die mag ich nicht, und ich muss die aber machen, das war früher ja irgendwie nicht so extrem. (NW4, Position 50)

Der empfundene Zeitmangel mündet aus der Sicht der Lehrerinnen und Lehrer darin, dass unterschiedliche Aspekte kaum oder nicht geleistet werden können: – Erstellung von prüfungsspezifischen Vorbereitungsmaterialien – Vorbereitung sämtlicher prüfungsrelevanter Themen – Behandlung zusätzlicher literarischer Themen (z. B. Thematisierung einer Lektüre, Theaterbesuch) – Vermittlung zusätzlicher berufsrelevanter Kenntnisse und Kompetenzen (z. B. Verfassen von Bewerbungsschreiben) – Durchführung pädagogischer Aktivitäten (z. B. Projekte, Klassenausflüge) Die nahezu ausschließliche Begrenzung auf prüfungsrelevante Inhalte wird mit Blick auf die Relevanz weiterer Themen kritisch bewertet und auf sprachlicher Ebene deutlich als Pflicht gekennzeichnet. Hierzu nutzen die Lehrkräfte Begrifflichkeiten wie Zwang (vgl. NW2, Position 166) oder Unterdrücken (vgl. BW5, Position 14) sowie metaphorische Wendungen wie „enger an der Kandare“ (BW5, Position 14) oder „an der kurzen Leine gehalten“ (NW2, Position 14) (vgl. vertiefend Kapitel 11). Hervorzuheben ist außerdem die frequentierte Nutzung des Wortes müssen im Kontext der Beschreibung der Vorbereitung, z. B. „Da sind auch Themen dabei, die mag ich nicht, und ich muss die aber machen […]“ (NW4, Position 50). In diesem Kontext sprechen die Lehrpersonen ebenfalls den hohen Aufwand hinsichtlich organisatorischer Vorbereitungen (z. B. Drucken und Heften der Klausuren), Einarbeitung in wechselnde Prüfungsthemen und der Vorbereitung einer heterogenen Schülerschaft an. Auch an dieser Stelle wird erneut eine (zeitliche) Belastung der Lehrpersonen deutlich: B: […] Ja, die Herausforderungen […], dass man einfach das Level vorgegeben bekommt auch, dass das eine/ Man ist natürlich dann unter Druck, wenn die Jahrgänge schwächer sind oder so, dass man da weniger drauf eingehen kann und sie halt einfach auf diese Hürden bringen muss. Also ich habe jetzt ein paar Schüler, da weiß ich (..) sie werden das Niveau schwerlich schaffen, also zumindest je nachdem, welche Aufgabe sie wählen, (.) die müssen da halt durch. (BW5, Position 22)

256

10

Ergebnisse der qualitativen Inhaltsanalyse

Des Weiteren betrachten die Lehrkräfte die Prüfungsvorbereitung auch mit Blick auf die angestrebte Vergleichbarkeit der zentralen Prüfung kritisch und nehmen sie aufgrund der unterschiedlichen organisatorischen und strukturellen Rahmenbedingungen (z. B. Standort der Schule, methodische und didaktische Aufbereitung der Prüfungsinhalte) als diesbezüglich konterkarierender Faktor wahr. Sowohl bei den positiven als auch bei den kritischeren Beschreibungen der Prüfungsvorbereitung wird deutlich, dass sich die Bedeutung des Kollegiums nicht auf die Heranführung an das zentrale Prüfungsformat beschränkt. Mehrere Lehrkräfte verweisen auf organisatorische Absprachen oder einen thematischen Austausch untereinander. Eine Lehrperson empfindet sogar, dass durch das zentrale Prüfungsformat der berufliche Austausch im Kollegium gefördert wird und im Vergleich zur kumulativen Abschlussvergabe erhöht ist. Die befragte Person bewertet die intensivere Kommunikation sowie weiterhin bestehende Eigenverantwortung hinsichtlich der konkreten Unterrichtsgestaltung deutlich als positiv: B: […] Ich könnte jetzt sagen, vielleicht ist es eine Erwähnung wert, dass man innerhalb der jeweiligen Fachgruppe auch zu noch wesentlich intensiverer Kommunikation miteinander gezwungen ist und das nicht nur aus, aus Selbstschutz nach dem Motto, macht man sich angreifbar oder nicht, sondern das ist ja auch eigentlich eine positive Erfahrung. Man spricht vielleicht mehr miteinander letztendlich, also heißt nicht, dass man sonst schweigt, aber jetzt berufsspezifisch. […] Aber man ist so ein bisschen mehr gezwungen zu kooperieren, miteinander zu sprechen, und ich finde das eigentlich positiv. (NW2, Position 14)

Die gemeinschaftliche Vorbereitung und das ähnliche Vorgehen werden außerdem als hilfreiche Maßnahme gegenüber den Eltern und deren (potenziellen) kritischen Fragen beschrieben: B: […] Kooperation mit Kolleginnen und Kollegen, die auch 10. Klassen haben, auch schon in der 9. Klasse beginnen, wenn man Neuntklässler hat, im Team vorzubereiten. Das macht auch argumentativ stark den Eltern gegenüber, die Klassenarbeiten so zu takten, dass man parallel Klassenarbeiten schreibt, dass man parallel einfach auch den Unterricht plant: „Aha, du machst Textbeschreibung, gut mache ich es auch.“ „Ach, du liest jetzt die Lektüre, gut, mache ich auch Besuch der alten Dame“. Man trifft sich, man bereitet die Einheit gemeinsam vor. Das macht einen auch sicher. Und vor allem ist es so für die Schüler auch: „Aha, die machen das auch.“ Das ist auch ein Kontrollmechanismus. Und Sie sind stark den Eltern gegenüber. Und so ist es dann auch in der 10. Klasse. (BW2, Position 100)

10.1 Wahrnehmung der zentralen Prüfung

257

Im Hinblick auf die Eltern schildern mehrere Lehrkräfte weitere Berührungspunkte im Kontext der Prüfungsvorbereitung, wie den Austausch in speziellen Informationsveranstaltungen zum zentralen Prüfungsformat, Gespräche zur Situation bzw. den Leistungen des Kindes oder die Anschaffung von zusätzlichen Materialien durch die Eltern. Die Lehrpersonen weisen ergänzend darauf hin, dass die Form und Intensität der elterlichen Beteiligung schul- und elternabhängig variiert (vgl. BW3, Position 126). Interpretation Insgesamt deuten die Ergebnisse darauf hin, dass sich die Anwendung von Teaching to the Test-Strategien im Sinne einer deutlichen thematischen und zeitlich umfangreichen Fokussierung des Unterrichts auf die Prüfung nicht nur auf das Zentralabitur (vgl. z. B. Jäger et al., 2012; Oerke et al., 2013) oder bundesweit standardisierte Tests beschränkt (vgl. Hahn, 2014), sondern auch im Rahmen der Vorbereitung der zentralen Prüfungen im Fach Deutsch zum Erwerb des MSA erfolgt. Die Lehrkräfte beider Bundesländer verweisen diesbezüglich auf unterschiedliche Auswirkungen, die sie ambivalent bewerten. Die positiven Wahrnehmungen können unter dem Stichwort der erfolgreichen Prüfungsvorbereitung zusammengefasst werden: aus Sicht der Lehrpersonen, wissen diese, was sie tun sollen (Transparenz), sind im Stande dies zu leisten (Machbarkeit) und dieses Vorgehen führt in der Regel zum Erfolg (Passung). Mit anderen Worten, der Großteil der Lehrkräfte nimmt eine klare Kausalität zwischen der Güte der Vorbereitung und der Güte der Prüfungsergebnisse wahr. Aus der zentralen Vorgabe der Prüfung sowie der Unkenntnis der konkreten Klausurgestaltung auf der Schulebene resultiert für die Lehrpersonen folglich keine Willkürlichkeit. Stattdessen besitzen sie ein grundsätzliches Sicherheitsempfinden, da sie die Erfahrung gemacht haben, dass sie aufgrund der selbstständigen Umsetzung der Prüfungsvorbereitung aktiv am Prüfungsprozess beteiligt sind und das Abschneiden der Prüflinge hierdurch positiv beeinflussen können. Der Großteil der Befragten erlebt sein Agieren im Rahmen der Prüfungsvorbereitung als notwendig bzw. sinnvoll und erfolgreich. Das eigene Handeln wird jedoch nicht nur als zielführend wahrgenommen, sondern ebenfalls vom Großteil der Lehrkräfte als eingeschränkt beschrieben. Trotz der ministeriellen Bemühungen eine prüfungsorientierte Engführung des Unterrichts über die Erhaltung unterrichtlicher Freiräume vorzubeugen (vgl. Schreven & Bentgens, 2006, S. 164), nehmen die Lehrkräfte eine thematische Verengung wahr. Diese bedingt sich weniger aus der starken Standardisierung über Vorgaben, sondern aus einem stark wahrgenommenen Zeitmangel. Einige Lehrkräfte scheinen die Potenziale des Schulfachs Deutsch durch die Anforderungen an die Prüfungsvorbereitung eingeschränkt wahrzunehmen, d. h., sie bemängeln eine verminderte

258

10

Ergebnisse der qualitativen Inhaltsanalyse

Unterrichtsqualität, da die Eröffnung einer kulturellen Teilhabe, der Erwerb von Sozialkompetenz sowie berufsvorbereitende Maßnahmen für sie kaum oder nicht geleistet werden können. Es deutet sich folglich bereits im Rahmen der Prüfungsvorbereitung ein Handlungsdilemma an, welches durch widersprüchliche Anforderungen ausgelöst wird (vgl. Helsper, 2014). Die Lehrkräfte nehmen einerseits die Aufgabe wahr, eine möglichst zielführende Prüfungsvorbereitung sicherzustellen, indem sie vorgegebene Inhalte vermitteln sowie spezielle Aufgabenformate einüben. Auf der anderen Seite besteht aus ihrer Sicht der Anspruch, eine kreative, offene Unterrichtsgestaltung mit „lebensweltlich gültigen und biographisch bedeutsamen Bezüge[n]“ (Herzmann & König, 2016, S. 93) zu gewährleisten. Unter Bezugnahme auf den strukturtheoretischen Professionsansatz können diese teils schwer zu vereinbarenden Anforderungen als Sachantinomie bezeichnet werden (vgl. Helsper, 2014), d. h., es existiert eine Spannung zwischen einem prüfungsorientierten Unterricht und einem alltagsweltlichen Unterricht, welcher an der individuellen Situation der Schülerinnen und Schüler orientiert ist. Die zeitlichen Strukturen bzw. das als gering empfundene zeitliche Budget bilden im Sinne einer Organisationsantinomie weitere Anforderungen, die aus der schulischen Organisation resultieren und eine Erfüllung der Aufgaben zusätzlich erschweren (vgl. ebd.). Die Lehrkräfte nehmen die verfügbare Zeit schlussendlich als nicht ausreichend wahr, um alle Anforderungen zu bewältigen. Sie entscheiden sich primär für die Durchführung der Prüfungsvorbereitung, verweisen jedoch deutlich auf ihre problematische Situation und berichten ergänzend, dass sie im Falle von anderen Rahmenbedingungen (z. B. geringere Anzahl vorgegebener Prüfungsthemen, höheres Zeitbudget) versucht hätten, die weiteren Anforderungen zu erfüllen. Durch den empfundenen Zwang eine entsprechende Prüfungsvorbereitung vorzunehmen, die teilweise dem Sinnempfinden der Lehrkräfte entgegensteht, scheinen einige Lehrpersonen auch eine Einschränkung ihres professionellen Handelns wahrzunehmen.

10.2

Wahrnehmung des Erwartungshorizontes

Aufgrund des bedeutsamen Stellenwerts des Erwartungshorizontes als ein Instrument, welches in allen beteiligten Bundesländern zur Standardisierung des Beurteilungsprozesses im zentralen Prüfungsformat landeseinheitlich vorgegeben wird, lag das Forschungsinteresse und entsprechend auch der Fokus der durchgeführten Analysen auf den Wahrnehmungen bezüglich des Erwartungshorizontes und

10.2 Wahrnehmung des Erwartungshorizontes

259

des Umgangs mit diesem. In grober Orientierung am Aufbau des Kategoriensystems werden die Ergebnisse zu folgenden Themenbereichen zusammengefasst und interpretiert: – Ziele und Funktionen des Erwartungshorizontes (Abschnitt 10.2.1): Welche Intentionen nehmen die Lehrkräfte hinsichtlich der landeseinheitlichen Vorgabe des Erwartungshorizontes wahr? Inwiefern stimmen diese mit den Zielen der Lehrkräfte überein? – Nützlichkeit des Erwartungshorizontes (Abschnitt 10.2.2): Wie nützlich empfinden die Lehrkräfte den landeseinheitlichen Erwartungshorizont? Welche Aspekte werden bei der Bewertung der Nützlichkeit einbezogen? Wie beurteilen sie den Aufwand hinsichtlich dessen Anwendung? – Konfiguration des Erwartungshorizontes (Abschnitt 10.2.3): Wie nehmen die Lehrkräfte die landesspezifische sowie weitere Gestaltungsvarianten wahr? Welche (potenziellen) Chancen und Herausforderungen bergen die unterschiedlichen Gestaltungsvarianten aus der Perspektive der Lehrpersonen? Welche konkreten Elemente empfinden die Lehrkräfte in einem Erwartungshorizont als wünschenswert?

10.2.1 Ziele und Funktionen des Erwartungshorizontes Es lassen sich grob vier unterschiedliche Ziele bzw. Funktionen differenzieren, von welchen die befragten Lehrkräfte annehmen, dass diese mit der Vorgabe eines landeseinheitlichen Erwartungshorizontes verbunden sind: – – – –

die Erhöhung bzw. Gewährleistung von Vergleichbarkeit die schulische Qualitätssicherung die Aufwertung des Schulabschlusses die Vereinfachung der kollegialen Zusammenarbeit

Relativ analog zur Prüfungsklausur nimmt der Großteil der Lehrkräfte auch den Erwartungshorizont als Instrument wahr, welches zu einer vergleichbaren Notenbzw. Abschlussvergabe zwischen den Einzelschulen sowie den unterschiedlichen Lehrkräften innerhalb einer Schule beitragen soll. Die Funktion des Erwartungshorizontes besteht aus Sicht der befragten Lehrpersonen darin, identische Leistungsanforderungen festzulegen, um die folgenden konkreten Resultate zu erzielen:

260

10

Ergebnisse der qualitativen Inhaltsanalyse

– Festlegung eines einheitlichen Anforderungsniveaus – Reduktion der subjektiven bzw. eingeschränkten Wahrnehmung der Lehrkraft – Vermeidung des Einflusses klassen- und schulspezifischer Aspekte (z. B. Zusammensetzung der Schülerschaft) – Orientierung an einer kriterialen Bezugsnorm – Steigerung der Übereinstimmung zwischen der erst- und zweitkorrigierenden Lehrkraft Sowohl einige der befragten Lehrkräfte aus Baden-Württemberg als auch aus Nordrhein-Westfalen nennen die Vergleichbarkeit als intendiertes Ziel. Zur Veranschaulichung wird an dieser Stelle auf die Aussage einer baden-württembergischen Lehrkraft zurückgegriffen, welche konkrete Gegebenheiten auf der Schul- bzw. Klassenebene beschreibt, die sich ihrer Ansicht nach auf die Beurteilung bzw. Abschlussvergabe auswirken könnten (z. B. Orientierung an der sozialen Bezugsnorm im Kontext von unterschiedlichen Schulstandorten und Klassenzusammensetzungen) und durch die Vorgabe eines Erwartungshorizontes vermieden werden sollen: B: […] Aber (.), ja, es ist eher so ein Kontrollmechanismus, glaube ich, dass alle auf jeden Fall das haben müssen. Und wenn es das [Anm. d. Verf.: den Erwartungshorizont] nicht gibt, dann, ja/ Und um auch die, die (.) sicherzustellen, dass da nicht irgendwelche Regionen sind in Baden-Württemberg, auf dem Land, ja, auf dem platten Land, wo vielleicht die Welt noch in Ordnung ist, wo die Menschen noch in einem Wolkenkuckucksheim leben und wo Kinder auch, die auf das Gymnasium könnten, halt auf die Realschule gehen, dass die halt dann (..) ihre Einser absahnen. Und in Städten, Brennpunktschulen ganz klar, dass da eben vielleicht Kinder sind, die aus ganz verschiedenen Gründen vielleicht dieses Anspruchsniveau nicht erreichen können, dass da halt dann klar wird, aha, wir müssen drauf gucken, dass auch die das können. Und (.), ja, das ist so ein bisschen, dass kein Bonus- und Malussystem entsteht, glaube ich. Und auch, dass zum Beispiel Lehrerinnen und Lehrer nicht Noten verschenken. Nicht auf die/ zu sehr auf sich von dem Niveau der Klasse leiten lassen, dass ich also meinetwegen eine Klasse habe, die aus verschiedenen Gründen halt nicht so leistungsstark ist, dass ich dann sage, okay, meinetwegen die Annika ist die Beste, die hat immer eine 1,5. Dann ist die Annika meine Zielgröße und die anderen passe ich dann an. Aber wenn ich die Annika unter diesen Hinweisen jetzt mal festklopfen würde, hätte sie nur eine 2,5. Also ich glaube, das will man auch vermeiden, dass so ganz eigene/ dass das die Messlatte so ganz, je nach Schule und je nach Lehrkraft eben, individuell angelegt wird. (BW2, Position 30)

10.2 Wahrnehmung des Erwartungshorizontes

261

Zudem verweisen mehrere Lehrkräfte neben schulspezifischen Maßstäben außerdem auf die Existenz individuell unterschiedlicher Ansichten und Anforderungsniveaus, welche durch die Vorgabe eines Erwartungshorizontes vereinheitlicht werden sollen: B: […] Ja gut, klar, man hat den Beruf gelernt, aber trotzdem sind ganz viele verschiedene Köpfe irgendwo, also jeder Korrektor hat seinen unterschiedlichen Umgang mit (.), wie Lehrer in seiner unterschiedlichen Sichtweise und Texte sind ja interpretierbar, vielleicht auch komplette Fehldeutungen. Ich weiß nicht, ob so ein Lehrer überhaupt vorkommen könnte, aber (tiefes Einatmen) es gibt dann so die PseudoLiteraturwissenschaftler, die dann, was weiß ich, was verlangen. Oder es gibt dann die Kuschelpädagogen, die alles durchgehen lassen würden, und ich glaube einfach, dass so ganz verschiedene Lehrertypen und auch Ansichten, die man selber vielleicht hat, dadurch ein bisschen eingedämmt werden und das ganze versucht, ein bisschen neutral zu gestalten (BW5, Position 60)

Speziell von den baden-württembergischen Lehrerinnen und Lehrern werden darüber hinaus drei weitere intendierte Ziele und Funktionen genannt, die in enger Verbindung zur angestrebten Vergleichbarkeit stehen. Mehrere Befragte verweisen darauf, dass durch den landeseinheitlichen Erwartungshorizont nicht nur ein identisches Anforderungsniveau festgelegt werden soll, sondern außerdem im Sinne einer landesweiten Qualitätssicherung eine bestimmte Höhe des Niveaus angesetzt bzw. gewährleistet werden soll: „Also sicherlich geht es um die Sicherung von Standards auf einer gewissen Niveaustufe, das ist wahrscheinlich die Hauptintention“ (BW1, Position 16). In direkter inhaltlicher Anknüpfung an diesen Aspekt führt eine Lehrkraft das weitere, etwas allgemeinere intendierte Ziel an, den Stellenwert bzw. den „Bildungswert, so einen intellektuellen Wert“ (BW2, Position 28) des Schulabschlusses im Bildungssystem sichtbar zu machen bzw. zu erhöhen. Während die bislang genannten angestrebten Ziele stark den Abschluss und dessen (Außen-)Wahrnehmung betreffen, bezieht sich das vierte Ziel eher auf den Beurteilungsprozess. Eine Lehrerin äußert, dass durch die Vorgabe eines Erwartungshorizontes die kollegiale Zusammenarbeit erleichtert werden soll und mehrere Befragte nehmen darüber hinaus sogar tatsächlich einen positiven Einfluss des Erwartungshorizontes auf die Abstimmung zwischen den Lehrpersonen wahr. Speziell hinsichtlich der Festlegung des erwarteten Anspruchsniveaus bildet der Erwartungshorizont aus Sicht der Lehrkräfte einen grundlegenden Orientierungspunkt. Aufgrund der einheitlichen, schriftlichen Vorgabe der erwarteten Inhalte, ist eine Verständigung über inhaltliche bzw. fachliche Regelungen im Beurteilungsprozess im geringeren Ausmaß notwendig und eine stärkere Fokussierung auf organisatorische Aspekte wird möglich.

262

10

Ergebnisse der qualitativen Inhaltsanalyse

B: […] Ja, es [Anm. d. Verf.: der Erwartungshorizont] erspart manche Diskussionen in diesen Korrekturbesprechungen, wo ja dann teilweise doch verschiedene Ansichten aufeinanderprallen, was eben ein Schüler können muss. Da gab es schon teilweise Diskussionen, die gibt es ja noch nicht so lange, diese Korrekturhinweise, die gibt es erst seit (.)/ also am Anfang, als ich angefangen habe, gab es die noch nicht, ich würde jetzt mal pauschal sagen, fünf Jahre, wenn es denn hochkommt. Und ja, ich glaube schon, dass das ein bisschen entschärft so manche Diskussion im Hintergrund auch manchmal, was so/ Es gibt immer noch genug Diskussionen, wie stark man Rechtschreibung wertet und so weiter, aber so vom Inhaltlichen her nimmt es einem viel Arbeit ab und ich finde es gut. (BW5, Position 54)

Interpretation Es wird deutlich, dass die Vergleichbarkeit der Abschlussvergabe aus der Sicht der Lehrkräfte bundeslandübergreifend nicht nur ein bedeutsames, sondern auch ein angestrebtes Ziel bildet. Die Lehrpersonen scheinen sowohl im Rahmen der Prüfungsvorbereitung wie auch der Beurteilung sensibel bezüglich Aspekten zu sein, die einen negativen Einfluss auf die Vergleichbarkeit haben könnten. Anschlussfähig an die empirischen Befunde zur Fehleranfälligkeit der Leistungsbeurteilung identifizieren sie gleichermaßen die eigene Person bzw. Wahrnehmung wie auch die heterogenen Rahmenbedingungen als mögliche Einflussfaktoren (vgl. Abschnitt 4.2). Anhand von beispielhaften Schilderungen weisen die Befragten u. a. auf die Anwendung der sozialen Bezugsnorm und die daraus resultierende Gefahr einer klassen- oder schulspezifischen Notenvergabe hin (vgl. Holmeier, 2013; Becker & Birkelbach, 2010). Obwohl die Gleichbehandlung von Ungleichem zuvor von mehreren Lehrkräften kritisiert wurde (d. h. die Existenz von identischen Anforderungen durch landeseinheitliche Klausuren trotz unterschiedlicher schulischer Rahmenbedingungen, vgl. Brammer, 2017), ist die Vergleichbarkeit für die Lehrpersonen im Kontext der Leistungsbeurteilung dennoch bedeutsam und es werden grundsätzliche Standardisierungsbedarfe wahrgenommen. Ausgehend von der Nennung konkreter Facetten, inwiefern durch den Erwartungshorizont zur Qualitätssicherung und Vergleichbarkeit beigetragen werden kann bzw. soll, scheint den Lehrkräften dessen Relevanz neben der zentralen Prüfungsklausur bewusst zu sein. Die Tatsache, dass ausschließlich Lehrkräfte aus Baden-Württemberg annehmen, dass der Erwartungshorizont als qualitätssichernde, aufwertende Maßnahme intendiert ist, könnte mit der Einschätzung des Schwierigkeitsgrades der Klausur zusammenhängen. Ausgehend von der Wahrnehmung mehrerer nordrheinwestfälischer Lehrkräfte, dass das Prüfungsniveau niedrig ist, wäre es denkbar, dass

10.2 Wahrnehmung des Erwartungshorizontes

263

diese anknüpfend auch das Niveau des Erwartungshorizontes als nicht sonderlich hoch wahrnehmen und folglich auch nicht vermuten, dass dieser einen Beitrag zur Qualitätssicherung leisten soll. Ein möglicher Erklärungsansatz, dass außerdem die Erleichterung der kollegialen Zusammenarbeit nur von baden-württembergischen Lehrkräften als angestrebtes Ziel eingeschätzt wird, könnte aus ihren Erfahrungen einer zentralen Prüfung mit und ohne Erwartungshorizont resultieren. Aufgrund der langjährigen Durchführung von landeseinheitlichen Abschlussprüfungen im Fach Deutsch, bei welchen die Beurteilung ausschließlich durch eine Korrekturbesprechung und eine Zweitkorrektur standardisiert wurden, besitzen die baden-württembergischen Lehrkräfte einen Vergleichshorizont. Anhand der Ausführungen der Lehrkräfte wird deutlich, dass ohne eine landesweite Vorgabe von Lösungen eine zentrale Schwierigkeit darin bestand, einen gemeinsamen Konsens hinsichtlich der erwarteten Leistungen bzw. deren Niveau zu finden. Die Lehrpersonen beharrten teils stark auf die Anwendung ihrer Anforderungen und eine Einigung gestaltete sich dementsprechend anspruchsvoll. Dies könnte folglich darauf verweisen, dass die sonstige eigenverantwortliche, unterrichtliche Beurteilungspraxis im Sinne des sogenannten Autonomie-Paritäts-Muster3 (vgl. Lortie, 1975; Eder, Dämon & Hörl, 2011) die Zusammenarbeit und die vergleichbare Beurteilung von Schülerleistungen erschwert. Die Vorgabe eines Erwartungshorizontes bildet in diesem Zusammenhang ein übergeordnetes bildungspolitisches Instrument, welches nicht nur die Beurteilungshoheit begrenzt (vgl. Schrevens & Bentgens, 2006), sondern zudem Abstimmungsbedarfe reduzieren und somit die Teamarbeit fördern kann.

10.2.2 Nützlichkeit des Erwartungshorizontes Als Ausgangspunkt zur Erfassung der grundsätzlichen Wahrnehmung des Erwartungshorizontes wurde den Lehrkräften in den Interviews ein geometrischer Strahl vorgelegt, anhand welchem sie eine prozentuale Einschätzung bezüglich der empfundenen Nützlichkeit des Instruments treffen sollten (vgl. Abschnitt 7.3.2). Die Spannweite der genannten Werte ist relativ groß und reicht von einer groben Festlegung auf das Intervall zwischen 0 und 50 Prozent (niedrigste Nützlichkeit) bis hin zu 3 Das Autonomie-Paritäts-Muster beschreibt die Vorstellung, dass jede Lehrkraft die alleinige

Verantwortung für ihren Unterricht besitzt (= Autonomie) und alle Lehrerinnen bzw. Lehrer untereinander gleichberechtigt sind (= Parität), wodurch „eine Kultur vorherrscht, in dem es keinem Mitglied des Kollegiums ansteht, sich in die Tätigkeit der KollegInnen einzumischen“ (Schönknecht, 2005, S. 24).

264

10

Ergebnisse der qualitativen Inhaltsanalyse

einer genauen Nennung von 90 Prozent (höchste Nützlichkeit). Trotz dieses großen Abstands zwischen Minimum und Maximum zeigt sich insgesamt eine positive Tendenz: mehrere Lehrkräfte aus Baden-Württemberg und Nordrhein-Westfalen bewerten die Nützlichkeit des Erwartungshorizontes mit 90 Prozent und der Großteil der Befragten gibt immerhin einen Wert im oberen Drittel an (d. h. über 67 Prozent). Bei der Betrachtung der durchschnittlich wahrgenommenen Nützlichkeit des Instruments ergeben sich die folgenden arithmetischen Mittelwerte4 : – 72 Prozent beim Einbezug aller befragten Lehrkräfte, – 67 Prozent bei der ausschließlichen Betrachtung der Einschätzungen der badenwürttembergischen Lehrkräfte und – 77 Prozent für die nordrhein-westfälischen Lehrkräfte. Es ist anzumerken, dass die geringere durchschnittliche Beurteilung der Nützlichkeit in Baden-Württemberg keine generelle Tendenz bildet, sondern primär aus einer, vergleichsweise sehr niedrigen Einschätzung zwischen 0 und 50 Prozent5 resultiert. (Abbildung 10.1).

0% baden-württembergische Lehrkraft

50%

100%

nordrhein-westfälische Lehrkraft

Abbildung 10.1 Prozentuale Einschätzung der Nützlichkeit des Erwartungshorizontes

Da die Autorin unter Bezugnahme auf den theoretischen Hintergrund annimmt, dass im Rahmen der Leistungsbeurteilung Rekontextualisierungsprozesse ablaufen (vgl. Fend, 2008a) und u. a. die subjektive Wahrnehmung des Erwartungshorizontes dessen individuelle Anwendung beeinflusst, sollen die ergänzend formulierten Einschätzungen der Nützlichkeit im Folgenden detailliert und fallbezogen beschrieben werden.

4 Vorhandene

Dezimalstellen wurden auf eine ganze Zahl gerundet. Berechnung der Durchschnittswerte wurde der Mittelwert der Spanne angenommen (d. h. 25 Prozent).

5 Zur

Nützlichkeit

75

0−50

55

90

90

Lehrkraft

BW1

BW2

BW3

BW4

BW5

– es besteht eine grundsätzliche Zufriedenheit mit dem Erwartungshorizont und dessen Gestaltung (Übereinstimmung mit eigenen Erwartungen) – der Erwartungshorizont bildet eine Grundlage und reduziert die Abstimmungsbedarfe im Kollegium – die Nützlichkeit des Erwartungshorizontes ist aufgrund der eigenen Beurteilungskompetenz eingeschränkt

– es besteht eine grundsätzliche Zufriedenheit mit dem Erwartungshorizont und dessen Gestaltung (Übereinstimmung mit eigenen Erwartungen) – teilweise erfolgen kleinere inhaltliche Anmerkungen an die Konfiguration des Erwartungshorizontes

– der Erwartungshorizont leistet einen Beitrag zur Qualitätssicherung und Vergleichbarkeit der Abschlussvergabe – es besteht kein deutlicher Mehrwert des Erwartungshorizontes im Vergleich zu den Ergebnissen der Korrekturbesprechungen

– die zentrale Vorgabe des Erwartungshorizontes führt zu einer zeitlichen und kognitiven Entlastung im Beurteilungsprozess (speziell bei Berufsanfänger_innen) – die Nützlichkeit des Erwartungshorizontes ist aufgrund der eigenen Beurteilungskompetenz eingeschränkt

– das Erfordernis einer eigenständigen Erstellung des Erwartungshorizontes entfällt – die zentrale Vorgabe des Erwartungshorizontes führt zu einer Entlastung im Beurteilungsprozess

Begründung

Tabelle 10.1 Wahrnehmungen der Lehrkräfte hinsichtlich der Nützlichkeit

(Fortsetzung)

„Na, gut, letzten Endes dadurch, dass ich mich selten dadurch, also ich habe selten einen Widerspruch zu dem, was ich erwarten würde, empfunden. Insofern könnten wir sie [Anm. d. Verf.: die Erwartungshorizonte] von meiner Meinung her auch weglassen für meine persönliche Arbeit, aber dadurch, dass eben die Gespräche und die (.) Verständigung auf was Gemeinsames entschärft wird, würde ich sagen, sie liegt […] vielleicht ein bisschen mehr im Positiven, irgendwo so.“ (BW5, Position 72)

„Bisher soweit zufrieden, ja […] Ich bin gerade am Überlegen (seufzt), vielleicht (…) schwierig jetzt zu sagen. Es ist immer so, also manchmal fällt einem, wenn man den Text liest, fallen dann ein, zwei Sachen auf oder beziehungsweise man ist/ Ja, vielleicht ist man auch nie ganz zufrieden, als Deutschlehrer, (kurzes Auflachen) mit dem, was kommt (kurzes Auflachen). Ja, also es gab jetzt nie einen Punkt, wo ich sage, also ich bin gar nicht damit einverstanden […]“ (BW4, Position 122−124)

„Es hat ja auch etwas mit Unterrichtsqualität zu tun oder mit der Vergleichbarkeit der Abschlüsse, wobei (.) das jetzt nicht sich grundlegend unterscheidet inhaltlich von dem, was die Kommissionen am Prüfungsmittag ohnehin bislang auch besprochen haben [Anm. d. Verf.: Korrekturbesprechungen]. Also das ist weitgehend deckungsgleich.“ (BW3, Position 22)

„[…] es [Anm. d. Verf.: der Erwartungshorizont] erleichtert mir die Arbeit, aber es nimmt mir Gott sei Dank nicht das Denken ab. Ich glaube, dass Kolleginnen und Kollegen, die sehr jung sind, die noch nicht lange im Schuldienst sind, da geht es gegen 100, das glaube ich schon. Und für jemanden wie mich (.), wie gesagt, es kostet mich weniger Zeit, aber eigentlich bräuchte ich es nicht.“ (BW2, Position 32)

„Weil natürlich sonst jeder sich bei vier Themen sehr verantwortungsvoll (..) selber noch einen Erwartungshorizont überlegen muss. […] insofern, ja, (..) ist es auf jeden Fall eine große Erleichterung, ja.“ (BW1, Position 36)

exemplarischer Ausschnitt

10.2 Wahrnehmung des Erwartungshorizontes 265

„[…] Also, ja, der [Anm. d. Verf.: der Erwartungshorizont] muss schon sein. […] Jetzt habe ich natürlich schon gesagt, der Aufwand ist wahnsinnig hoch, das ist unheimlich viel Zeug, was man da immer hat. (..) Das müsste ein bisschen optimiert werden, die Dinge, (.) die genauer sein müssten, sowas wie ein Leseverstehen, was geht da jetzt noch durch, das ist immer relativ kurz gefasst.“ (BW1, Position 78−80)

70

90

90

60

NW2

NW3

NW4

NW5

– es besteht eine grundsätzliche Zufriedenheit mit dem Erwartungshorizont und dessen Gestaltung – es existieren allgemeine Modifizierungswünsche bezüglich der Konfiguration des Erwartungshorizontes: genauere Vorgaben

„Also es ist jetzt nicht ganz so einfach, wenn ich jetzt natürlich gar keinen [Anm. d. Verf.: Erwartungshorizont] hätte, wäre es ja schwierig, die Arbeiten anzugucken. Jetzt habe ich einen, das ist schon mal gut, aber im Sinne von Vergleichbarkeit und zwar, ja, eigentlich landesweit, (..) finde ich die Erwartungshorizonte nicht so sinnvoll.“ (NW5, Position 116)

„Ich denke mal relativ weit oben. (…) Also es gab zum Beispiel, ein Beispiel jetzt in der letzten ZP [Anm. d. Verf.: zentralen Prüfung] war ein Auszug aus einem Roman, was das glaube ich/ den fand ich ganz schwierig. Da war das dann auch mit den Erwartungshorizonten so ein bisschen, […] da waren sie mir nicht ausreichend genug, da hätte ich gerne mehr Konkreteres gehabt.“ (NW4, Position 54)

„Also, da ich ja selber mit Erwartungshorizonten in meinen Klassenarbeiten arbeite, halte ich die auf jeden Fall schon mal für sinnvoll, also wenn es so einer ist wie bei uns jetzt in NRW, […] also mit Einschränkung, wenn ich mich vorher in meinem Kollegium abgesprochen habe, so wie wir das machen, halte ich die für sinnvoll. […] Ich würde vielleicht sowas wie (..), sowas wie Extrapunkte einfließen lassen […]“ (NW3, Position 136−42)

10

– es besteht eine grundsätzliche Zufriedenheit mit dem Erwartungshorizont und dessen Gestaltung – es existieren konkrete Modifizierungswünsche bezüglich der Konfiguration des Erwartungshorizontes: konkretere Kriterien

– es besteht eine grundsätzliche Zufriedenheit mit dem Erwartungshorizont und dessen Gestaltung – es existieren konkrete Modifizierungswünsche bezüglich der Konfiguration des Erwartungshorizontes: kleinschrittigere Angabe von Lösungserwartungen, Vorgabe von Zusatzpunkten für nicht antizipierte Lösungsbestandteile

– es besteht eine grundsätzliche Zufriedenheit mit dem Erwartungshorizont und dessen Gestaltung – es existieren konkrete Modifizierungswünsche bezüglich der Konfiguration des Erwartungshorizontes: differenziertere Punktevergabe

„Das wäre die Punktevergabe insgesamt möglicherweise [Anm. d. Verf.: Optimierungsbedarf der Lehrkraft] […] aber ich finde das schon weitestgehend, weitestgehend gelungen [Anm. d. Verf.: den Erwartungshorizont].“ (NW2, Position 86−88)

Zitat

75

NW1

– der Erwartungshorizont ist für die Beurteilung notwendig – es existieren konkrete Modifizierungswünsche bezüglich der Konfiguration des Erwartungshorizontes: grundsätzliche Reduktion des Umfangs, genauere und aufgabenspezifischere Hinweise

Lehrkraft Nützlichkeit Begründung

Tabelle 10.1 (Fortsetzung)

266 Ergebnisse der qualitativen Inhaltsanalyse

10.2 Wahrnehmung des Erwartungshorizontes

267

Die grundsätzlich positive Wahrnehmung des Erwartungshorizontes zeigt sich nicht nur anhand der prozentualen Einschätzungen der Lehrerinnen und Lehrer, sondern ist auch in den ergänzenden Ausführungen ersichtlich. Der Großteil der Lehrkräfte verweist deutlich auf die Zufriedenheit, Sinnhaftigkeit oder Arbeitserleichterung, die sie bzw. er aufgrund der Existenz des Instruments empfindet und begründet hiermit auch die wahrgenommene Nützlichkeit des Erwartungshorizontes: B: Also, da ich ja selber mit Erwartungshorizonten in meinen Klassenarbeiten arbeite, halte ich die auf jeden Fall schon mal für sinnvoll, also wenn es so einer ist wie bei uns jetzt in NRW, die anderen haben wir ja gerade schon drüber gesprochen, halte ich die eigentlich für einigermaßen sinnvoll, wenn man/ also mit Einschränkung, wenn ich mich vorher in meinem Kollegium abgesprochen habe, so wie wir das machen, halte ich die für sinnvoll. Wenn ich mich da alleine dran begeben müsste und wir da nicht drüber sprechen, ist es weniger. Deswegen würde ich mal hier so, bei, was sind das, 75 % würde ich vielleicht mich einordnen. (NW3, Position 136)

Mehrere baden-württembergische Lehrpersonen berichten mit Blick auf die empfundene Nützlichkeit von einer Arbeitserleichterung durch das Instrument. Diese ergibt sich zum einen in Form einer zeitlichen und/ oder kognitiven Entlastung, weil der Erwartungshorizont nicht selbstständig erstellt werden muss, sondern zentral vorgegeben wird. Zum anderen wird eine vereinfachte Abstimmung im Kollegium beschrieben, da im Erwartungshorizont die grundlegenden Aspekte der Beurteilung bereits festgelegt sind und nicht bestimmt werden müssen. Bei der ergänzenden Betrachtung des wahrgenommenen Aufwands zeigt sich, dass der Großteil der Lehrkräfte dem Erwartungshorizont eine entlastende Funktion zuspricht, da dieser aus Sicht der Lehrpersonen die Beurteilung durch die Vorgabe von Kriterien vereinfacht bzw. die Beurteilungsdauer verkürzt. Dennoch handelt es sich hierbei um keine einheitliche Wahrnehmung der Lehrkräfte. Eine nordrheinwestfälische Lehrerin schätzt den Aufwand gegenteilig ein und äußert, dass sie aufgrund des Umfangs des Erwartungshorizontes einen erhöhten, in Relation zur Prüfung unverhältnismäßigen Aufwand wahrnimmt: B: […] Das ist so vom Aufwand der Sache einfach nicht angemessen. Letztendlich, was schreiben die Schüler da (seufzt), zwei Seiten Text. Und ich habe zwanzig Seiten Korrektur an Material. So, da stimmt einfach irgendwas nicht. (NW1, Position 128)

268

10

Ergebnisse der qualitativen Inhaltsanalyse

Neben der umfangreichen Gestaltung des Erwartungshorizontes bildet die empfundene eigene Kompetenz einen weiteren Faktor, welcher die eingeschätzte Entlastung bzw. Nützlichkeit relativiert. Mehrere baden-württembergische Lehrkräfte verweisen primär auf einen geringeren Aufwand oder eine hohe Nützlichkeit durch den Erwartungshorizont bei ihren weniger erfahrenen Kolleginnen und Kollegen. Ausgehend von den bei sich selbst wahrgenommenen Kompetenzen betrachten die befragten Lehrpersonen den Erwartungshorizont zwar als grundsätzlich nützlich, jedoch nicht als zwingend notwendig, da ihre Expertise die Erstellung eines mindestens genauso hochwertigen Erwartungshorizontes erlaubt: B: Nee, die [Anm. d. Verf.: die Erwartungshorizonte] brauche ich eigentlich gar nicht, also die erleichtern mir nur vordergründig die Arbeit, weil in den vergangenen Jahrzehnten war es so, die [Anm. d. Verf.: die Prüflinge] haben geschrieben, ich saß vorne und habe mir genau das selber erarbeitet. Und wenn ich so meine eigenen Erarbeitungen angucke und vergleiche, dann habe ich natürlich immer mehr. Das ist ja (..) so ein mittlerer, mittleres, mittleres Anspruchsniveau, was hier gefordert wird. Und, sagen wir so, es kann Arbeit erleichtern. (…) […] I: […] Wenn 0 % logischerweise bedeuten würde, dass Ihnen das [Anm. d. Verf.: der Erwartungshorizont] gar nichts bringt, dass Sie es eigentlich wieder direkt an die Seite legen können und 100 %, dass es für Sie sehr, sehr nützlich ist in Ihrer Arbeit, wo würden Sie das verorten? B: Also ich habe es ja gesagt, es erleichtert mir die Arbeit, aber es nimmt mir Gott sei Dank nicht das Denken ab. Ich glaube, dass Kolleginnen und Kollegen, die sehr jung sind, die noch nicht lange im Schuldienst sind, da geht es gegen 100, das glaube ich schon. Und für jemanden wie mich (.), wie gesagt, es kostet mich weniger Zeit, aber eigentlich bräuchte ich es nicht. Ich möchte mich da ungern jetzt festklopfen lassen zwischen 0 und 50. Zwischen 0 % und 50 %. (BW2, Position 30−32)

Mit Blick auf die Erhöhung der subjektiv wahrgenommenen Nützlichkeit verweisen mehrere Lehrkräfte darauf, dass sie es schwierig empfinden, konkrete Verbesserungshinweise zu geben. Mehrere baden-württembergische Lehrpersonen kommen sogar zu dem Schluss, dass eine Steigerung der Nützlichkeit nicht möglich ist und begründen dies primär anhand der Grenzen des Instruments. Aus ihrer Sicht können nicht alle relevanten Lösungen antizipiert und im Erwartungshorizont festgehalten werden. Vielmehr muss die Lehrkraft auch situative Entscheidungen im Beurteilungsprozess treffen, deren Vorgehen nicht im Erwartungshorizont geregelt werden kann bzw. soll:

10.2 Wahrnehmung des Erwartungshorizontes

269

I: Also, was könnte man tun, damit es [Anm. d. Verf.: die Nützlichkeit der Erwartungshorizonte] bei 100 % läge oder könnte man was tun, (lacht) dass es bei 100 läge? B: (kurzes Auflachen) Nee, korrigieren muss ich sie [Anm. d. Verf.: die Prüfungen] ja noch selber. (lacht) Nee, also, ja, gut, wenn man von der Frage aus betrachtet, dann würde ich nicht mehr haben wollen. Also es kommt auch drauf an, aus welchem Blickwinkel man es sieht. (…) Letzen Endes, die (..) was ja dann in der, bei der Einzelarbeit dann immer noch die Abwägung ist, ist das jetzt erfüllt oder ist das nicht erfüllt, das Kriterium. Diese Entscheidung werde ich immer selber treffen müssen, die kann man mir nicht abnehmen. (..) Also insofern kann eigentlich ein vorgegebener Erwartungshorizont wahrscheinlich nicht mehr erfüllen. Mir in meiner Arbeit bringt er halt eben nur bis zu einem gewissen Punkt was […] (BW5, Position 75−76)

Lediglich ein baden-württembergischer Lehrer merkt an, dass eine Optimierung der Konfiguration des Erwartungshorizontes zu einer höheren Nützlichkeit führen würde, nennt jedoch keine konkreten Verbesserungsbedarfe. Demgegenüber schlagen alle nordrhein-westfälischen Lehrkräfte eine oder mehrere spezifische, punktuelle Modifikationen des Erwartungshorizontes zur Steigerung der Nützlichkeit vor, die unter den folgenden Schlagworten zusammengefasst werden können: – – – –

stärkere aufgabenspezifische Konkretisierung der Hinweise kleinschrittigere und genauere Beschreibung der Lösungserwartung stärkere Differenzierung der Punktevergabe Angabe von Zusatzpunkten zur Berücksichtigung von nicht antizipierten Lösungsbestandteilen – Reduktion des Umfangs des Erwartungshorizontes Hierbei zeigt sich die Tendenz, dass von allen nordrhein-westfälischen Lehrpersonen eine genauere und differenziertere Angabe der erwarteten Lösungen und ihrer Bewertung gewünscht wird (vgl. Tabelle 10.1). Die Lehrkräfte merken wahlweise eine grundlegende oder eine aufgabenspezifische Konkretisierung des Erwartungshorizontes an (z. B. speziell für geschlossene und halboffene Aufgabenformate zum Leseverstehen oder offene Aufgabenformate zur Interpretation eines Romanauszugs). Interpretation Im Zuge der genaueren Betrachtung der grundsätzlich positiv gefärbten Einschätzung des Erwartungshorizontes deuten sich bundeslandspezifische Tendenzen in

270

10

Ergebnisse der qualitativen Inhaltsanalyse

den Sichtweisen der Lehrkräfte an. Alle baden-württembergischen Lehrerinnen und Lehrer erachten den Erwartungshorizont grundsätzlich als nützlich. Einige von ihnen verweisen jedoch auf einen antiproportionalen Zusammenhang zwischen der eigenen Kompetenz sowie der wahrgenommenen Nützlichkeit des Instruments. Deckungsgleich mit den vorliegenden empirischen Befunden beschreiben die Lehrkräfte, dass die Berufsanfängerinnen und -anfänger eine geringe (diagnostische) Kompetenz besitzen (vgl. Kaiser & Möller, 2017; Terhart, 2014) und den Erwartungshorizont im Sinne einer Unterstützung der Beurteilung nützlicher empfinden als ihre erfahrenen Kolleginnen und Kollegen. Ausgehend von der Wahrnehmung einer hohen eigenen Beurteilungserfahrung und Kompetenz gelangen folglich mehrere baden-württembergische Lehrkräfte zu dem Schluss, dass der Erwartungshorizont für sie nicht zwingend notwendig ist, da sie sich zutrauen einen mindestens gleichwertigen bzw. sogar ausdifferenzierten Erwartungshorizont selbstständig zu erstellen. Auch eine Steigerung der Nützlichkeit schätzen die badenwürttembergischen Lehrpersonen als kaum bis nicht möglich ein und verweisen neben ihrer hohen Kompetenz außerdem auf die gestalterischen Grenzen des Erwartungshorizontes (d. h. eingeschränkte Möglichkeit alle Lösungen zu antizipieren und schriftlich festzuhalten), die ebenfalls in der Deutschdidaktik diskutiert werden (vgl. z. B. Köster, 2010a; Zabka & Stark, 2010). Die Beschreibungen der Lehrpersonen deuten darauf hin, dass der Erwartungshorizont primär als nützliche Hilfestellung wahrgenommen wird, jedoch die eigene Beurteilungskompetenz die bedeutungsvolle, zwingend notwendige Komponente darstellt. Dies könnte zum einen darin begründet sein, dass die Qualität der Beurteilung in den zentralen Prüfungen in Baden-Württemberg im Fach Deutsch jahrelang durch die Korrekturbesprechungen und eine schulexterne Zweitkorrektur gesichert wurde und der Erwartungshorizont erst nachträglich implementiert wurde. Die Lehrerinnen und Lehrer könnten das Instrument aufgrund dessen als nicht zwangsläufig erforderlich, sondern vielmehr als unterstützende Ergänzung zur Korrekturbesprechung wahrnehmen. Die ausbleibende Regelung der Gewichtung und Bewertung im Erwartungshorizont könnte den empfundenen Orientierungs- und Hinweischarakter des Instruments zusätzlich erhöhen. Die Tatsache, dass die baden-württembergische Konfigurationsvariante ausschließlich Informationen zur Leistungsfeststellung enthält, könnte den Eindruck erwecken, dass das Instrument weniger der Standardisierung und Vergleichbarkeit gilt, als vielmehr eine inhaltliche Hilfestellung darstellt. Im direkten Vergleich dazu stellen die nordrhein-westfälischen Lehrpersonen die Notwendigkeit des Instruments nicht in Frage und fokussieren sich in ihren Ausführungen auf die Nützlichkeit sowie die Möglichkeiten diese zu erhöhen. Dies könnte wiederum daraus resultieren, dass der Erwartungshorizont in Nordrhein-Westfalen

10.2 Wahrnehmung des Erwartungshorizontes

271

von Beginn an einen Bestandteil des zentralen Formats gebildet hat und ausschließlich durch eine schulinterne Zweitkorrektur ergänzt wird. Des Weiteren gibt die nordrhein-westfälische Variante nicht nur die erwarteten Leistungen, sondern außerdem eine Punktevergabe und eine Berechnungstabelle zur Übersetzung der Punkte in eine Note vor. Möglicherweise führt die direkte Implementation eines Erwartungshorizontes dazu, dass dieser eher als Vorgabe wahrgenommen und dessen Existenz nicht grundsätzlich hinterfragt wird. Der Verzicht auf eine schulübergreifende Korrekturbesprechung und eine schulexterne Zweitkorrektur sowie die umfangreiche Regelung der Beurteilung im Erwartungshorizont könnten die eingeschätzte Relevanz des Instruments hinsichtlich der Schaffung einer vergleichbaren Beurteilungspraxis steigern und dazu führen, dass sich die Lehrkräfte tendenziell eine höhere Genauigkeit des Instruments wünschen. Zusammenfassend lassen sich die angedeuteten bundeslandspezifischen Sichtweisen und Erwartungshaltungen folgendermaßen zusammenfassen: – Wahrnehmungstendenz der baden-württembergischen Lehrkräfte: Die Lehrkräfte scheinen die Nützlichkeit des Erwartungshorizontes eher unter der Fragestellung „Was nützt mir das Instrument bzw. brauche ich dieses vor dem Hintergrund meiner professionellen Kompetenz?“ zu beurteilen. Es deutet sich an, dass der Erwartungshorizont als eine grundlegende Unterstützung der Beurteilung und nicht speziell bzw. ausschließlich zur Standardisierung des Beurteilungsprozesses wahrgenommen wird (d. h. zur Vereinfachung, Beschleunigung oder Verbesserung der Qualität), weshalb die Erwartungshaltung an das Instrument nicht sehr hoch zu sein scheint. – Wahrnehmungstendenz der nordrhein-westfälischen Lehrkräfte: Es ergeben sich Hinweise darauf, dass die Lehrkräfte die Nützlichkeit des Erwartungshorizontes eher unter der Fragestellung „Was nützt mir das Instrument bzw. ist dieses ausreichend vor dem Hintergrund der Schaffung einer vergleichbaren Beurteilungspraxis?“ betrachten. Der Erwartungshorizont scheint folglich als maßgebliches Instrument zur Realisierung von Vergleichbarkeit wahrgenommen zu werden. Hieraus könnte wiederum eine andere bzw. höhere Erwartungshaltung an dessen Gestaltung resultieren.

10.2.3 Konfiguration des Erwartungshorizontes Um ein möglichst differenziertes Bild über die Wahrnehmungen bezüglich der Gestaltung von Erwartungshorizonten zu erhalten, wurden die Lehrkräfte zu drei Bereichen befragt:

272

10

Ergebnisse der qualitativen Inhaltsanalyse

– Wahrnehmung des landesspezifischen Erwartungshorizontes: Wie nehmen die Lehrkräfte die Gestaltung des Erwartungshorizontes wahr, mit dem sie arbeiten? Sind die Wahrnehmungen ähnlich oder gibt es Unterschiede (wenn ja, an welchen Stellen)? – Wahrnehmung von zwei alternativen Konfigurationsvarianten: Wie nehmen die Lehrkräfte eine vergleichsweise kurze und allgemeine Lösungsdarstellung ohne Angaben zur Bewertung und wie eine vergleichsweise detaillierte Lösungsdarstellung inklusive einer Punktezuordnung wahr? Welche Variante präferieren die Lehrpersonen? – Beschreibung der wünschenswerten Gestaltung eines Erwartungshorizontes: Wie soll ein Erwartungshorizont in den zentralen Prüfungen für das Fach Deutsch aus Sicht der Lehrkräfte gestaltet sein? Auf welchen Gestaltungselementen liegt im Rahmen der Beschreibung ihr Fokus? Nennen die Lehrkräfte ähnliche oder unterschiedliche Gestaltungswünsche? Wahrnehmung der landesspezifischen Konfigurationsvariante Zur Erleichterung der Übersichtlichkeit und des Verständnisses sollen zunächst die Wahrnehmungen der baden-württembergischen und im Anschluss der nordrheinwestfälischen Lehrkräfte hinsichtlich des jeweiligen bundeslandesspezifischen Erwartungshorizontes beschrieben werden. Bezogen auf die formale Gestaltung nehmen mehrere baden-württembergische Lehrpersonen den landeseinheitlichen Erwartungshorizont als stichpunktartige Aufzählung wahr, die aus der Sicht einer Lehrerin auf das Wesentliche begrenzt, aber trotzdem verständlich ist: „Und das Ganze [Anm. d. Verf.: die Lösungsdarstellung im Erwartungshorizont] eben auf einen Inhalt fokussiert, relativ kurz formuliert und als Aufzählung, und ich finde das eigentlich ganz gut (..) verständlich“ (BW5, Position 66). Auf der inhaltlichen Ebene deuten alle baden-württembergischen Lehrkräfte an, dass die Leistungsbeurteilung im Erwartungshorizont nicht vollständig verbindlich vorgegeben wird. Sie beschreiben dessen Gestaltung insgesamt als allgemein (vgl. BW3, Position 56) oder offen (vgl. BW1, Position 108) und berichten von gewissen Spielräumen (vgl. z. B. BW2, Position 76; BW5, Position 184) oder Freiheiten (vgl. BW1, Position 110; BW4, Position 56), die aus der Konfiguration des Instruments resultieren. Eine Lehrerin verweist diesbezüglich auf die potenzielle, sichtbare Folge, dass zwei Lehrkräfte dieselbe Prüfungsarbeit unterschiedlich benoten: B: Es gibt Spielräume und ich (..), ja, wir können das ganz offen sagen, es gibt Fälle, da wird der Erstkorrektor eine 2 geben und der Zweitkorrektor eine 3 oder eine 3,5 sogar. In Deutsch ist das häufiger, also es ist nicht oft, aber es kommt schon mal vor. (BW2, Position 76)

10.2 Wahrnehmung des Erwartungshorizontes

273

Hieran anknüpfend beschreiben mehrere Lehrpersonen die formulierten Lösungserwartungen als eher grobe Kriterien, die sich zwar auf die zugrundeliegende Aufgabe beziehen, der Lehrkraft jedoch einen Interpretationsspielraum belassen: B: […] Und ansonsten ist der Erwartungshorizont, ja, Sie kennen die ja wahrscheinlich auch, so (seufzt) (…), so offen, also eher schlagwortartig formuliert, dass man schon Interpretationsspielraum auch als Korrekteur noch hat irgendwie. Klar, jetzt wenn wir gucken würden in einem Gedicht zum Beispiel, wenn es darum geht, sprachliche Bilder zu entdecken und so weiter und so fort, da wird schon auch ein bisschen abgehakt, hat er das, hat er das. Aber da geht es dann auch nicht darum zu sagen, der hat von zehn im Erwartungshorizont aufgeführten Punkten nur fünf angesprochen, der kriegt nur die Hälfte der Punktzahl oder so. Also da ist die Offenheit da einfach, weil nicht jedes einzeln abgefragt wird, sondern eben so, ja, hat das dann irgendwie, ich kann Ihnen die Formulierung nicht korrekt sagen, aber „Hat diverse sprachliche Bilder entdeckt“ oder sowas, ja, und beschrieben oder so. Dass eben die Offenheit (..) Bestand hat. (BW1, Position 108)

Eine Lehrerin deutet ergänzend an, dass die Lösungsdarstellungen in den Erwartungshorizonten der letzten Jahre jedoch wesentlich ausführlicher und konkreter gestaltet sind als im ersten Durchgang, in welchem sie „sehr, sehr allgemein, und ich glaube, dadurch relativ nutzlos [waren]“ (BW5, Position 66). Mit Blick auf die Leistungsbewertung beschreiben mehrere Lehrkräfte, dass im Erwartungshorizont keine Gewichtung oder Punktezuordnung vorgegeben sind und die Notenvergabe ebenfalls nicht geregelt wird. Die ausbleibende Regelung in diesem Bereich wird unterschiedlich beurteilt: – eine Punktevorgabe wird als hinderlich eingeschätzt, da vermutet wird, dass aufgrund der festgelegten Gewichtungen die individuelle Leistung der Schülerin bzw. des Schülers nicht immer adäquat beurteilt werden kann – eine Punktevorgabe wird als Einflussfaktor auf die Notenvergabe wahrgenommen und es wird angenommen, dass diese zu einer tendenziellen Besserbewertung führt – eine Regelung der Notenvergabe wird mit Blick auf die Vergleichbarkeit der Beurteilungen als wünschenswert wahrgenommen Ausgehend von der ausbleibenden Festlegung der Gewichtung bzw. Bewertung von Leistungen in der baden-württembergischen Variante beschreibt eine Lehrerin den Bewertungsvorgang als eine Art Aushandlungsprozess. Die beteiligten Lehrpersonen der Partnerschulen besprechen sich hierbei mit Blick auf die angestrebte Vergleichbarkeit bezüglich der Berücksichtigung bzw. groben Gewichtung der Bestandteile der Prüfungsarbeit:

274

10

Ergebnisse der qualitativen Inhaltsanalyse

I: Wie ist die Gewichtung geregelt? B: Welche Gewichtung? I: Von den Leistungen, sind Sie da frei oder/ B: Ja, die werden ausgehandelt. Klassischerweise ist es 50/30/20. 50 Inhalt, 30 Sprache und 20 Rechtschreibung und wird immer wieder verhandelt, also auch mit den Schulen. Jetzt hieß es ja, dass jemand diese 20 % Rechtschreibung in 10 % Rechtschreibung und 10 % Form unterteilt hat, also wie das Dingens dann aussieht, Schriftbild und so weiter. Dann muss man halt dann (..), miteinander ins Gespräch kommt, dass man Vergleichbarkeit herstellt. Das ist einfach so der Standard, das liest man fast überall und wenn man mal im Internet guckt, wegen Gewichtung, das ist so die Vorgabe, und meistens hält man sich auch daran. (BW5, Position 81−84)

Insgesamt ergibt sich anhand der vorhandenen Interviewaussagen das folgende Bild hinsichtlich der Wahrnehmung der baden-württembergischen Gestaltungsvariante des Erwartungshorizontes durch die schulischen Anwenderinnen und Anwender: eine kurze, stichpunktartige Beschreibung der Lösungserwartungen mithilfe von groben Kriterien und ohne die Regelung der Bewertung und Benotung. Die wahrgenommene Gestaltung ist grundsätzlich homogen, allerdings wird die Konfiguration bzw. deren Folgen für die Beurteilung teilweise unterschiedlich bewertet (z. B. der Verzicht auf eine Punktevergabe). Anknüpfend an die variierende Gestaltung der landeseinheitlichen Erwartungshorizonte unterscheiden sich die Wahrnehmungen der nordrhein-westfälischen Lehrkräfte bezüglich der landesspezifischen Konfiguration deutlich von ihren badenwürttembergischen Kolleginnen und Kollegen. Auf der formalen Ebene betonen zwei Lehrpersonen den grundsätzlich hohen Umfang der nordrhein-westfälischen Variante, welcher mit Blick auf den Aufwand und die Verständlichkeit des Instruments kritisch betrachtet wird: „Da ist immer sehr viel drin. (lacht) Die [Erwartungshorizonte] sind immer sehr lang, die sind auch teilweise so, dass ich die zehnmal lesen muss, bis ich dann tatsächlich verstanden habe, worauf es hinausläuft“ (NW1, Position 52). Eine hohe Ausführlichkeit wird auch auf der inhaltlichen Ebene wahrgenommen: alle nordrhein-westfälischen Lehrkräfte beschreiben die Lösungsdarstellungen als konkret bzw. aufgabenbezogen und verweisen auf eine genaue, detaillierte Deskription der erwarteten Leistungen oder die Existenz von Beispielen im Erwartungshorizont. Mehrere Lehrpersonen führen ergänzend an, dass sie die konkrete Angabe der Lösungen im Hinblick auf das Verständnis bzw. die Anwendung des Instruments oder die Vergleichbarkeit der Beurteilungen positiv empfinden:

10.2 Wahrnehmung des Erwartungshorizontes

275

B: […] Auf der einen Seite sind da schon relativ genaue Vorgaben, (..) was ich auch gut finde. Wenn ich denn alle gleich behandeln soll und das jetzt zentral sein soll, also wenn alle Schulen miteinander vergleichbar sein sollen, muss ich ja relativ genau schreiben, was ich erwarte, sonst hat der Lehrer ja wieder einen riesen Spielraum. (NW4, Position 38)

Trotz der relativ einheitlichen Wahrnehmung einer grundlegend konkreten bzw. aufgabenspezifischen Beschreibung der Lösungserwartungen wird der Grad der Konkretisierung unterschiedlich eingeschätzt. Mehrere Lehrkräfte berichten von Lösungsdarstellungen, die ausführlich sowie nur stellenweise unvollständig sind (z. B. keine vollständige Angabe aller Lösungsbestandteile bzw. Alternativlösungen): B: […] und dann steht manchmal noch „und Ähnliches, ähnliche Aspekte“, und dann wünschte ich mir, da wären dann doch noch mehr aufgelistet, was ja letztendlich dann nochmal enger würde, damit ich weiß, wo kommt da die Punkteverteilung her. (NW4, Position 38)

Im Vergleich dazu nimmt eine Lehrerin die Lösungsdarstellungen trotz der beispielhaften Ausführungen wiederum als relativ ungenau wahr und sieht das Erfordernis, diese insgesamt stark auszudifferenzieren, da sonst keine landesweite Vergleichbarkeit realisierbar ist: B: […] Der Erwartungshorizont ist viel zu oberflächlich. Es werden zwar Beispiele angegeben zu einzelnen Teilbereichen und Teilaufgaben, aber dennoch reicht das alles nicht aus, um die Klassenarbeiten, also die zentralen Abschlüsse schülergerecht zu bewerten und es steckt also sehr viel Arbeit noch da drinnen diesen Erwartungshorizont auszuarbeiten mit den Kollegen für eine entsprechende Jahrgangsstufe, dann also für die Zehner, um da den Schülerleistungen gerecht zu werden. (NW5, Position 248)

Unabhängig vom wahrgenommenen Konkretisierungsgrad deutet sich bei allen nordrhein-westfälischen Lehrkräften die Tendenz an, dass sie sich (stellenweise) eine genauere Beschreibung der erwarteten Leistung wünschen. Auch die Lehrerin, welche die Länge des landeseinheitlichen Erwartungshorizontes kritisch bewertet, befürwortet eine stärkere Konkretisierung der Lösungsdarstellung, obwohl dies für sie im Widerspruch mit der gewünschten Kürzung des Instruments steht: „Ja, es ist schwierig, ne, ich hoffe, ich widerspreche mir nicht im Grunde selber dadurch, dass ich sage, auf der einen Seite muss es [Anm. d. Verf.: der Erwartungshorizont] klarer,

276

10

Ergebnisse der qualitativen Inhaltsanalyse

auf der anderen Seite ist es zu viel“ (NW1, Position 128). Neben dem Konkretisierungsgrad des Erwartungshorizontes äußert sich eine Lehrerin außerdem zum Niveau der festgelegten Lösungserwartungen, welches sie als zu niedrig wahrnimmt (vgl. NW3, Position 107−108). Auch bezüglich der Anleitung der Bewertung und Benotung im Erwartungshorizont werden ähnliche Tendenzen wahrgenommen. Konkret merken mehrere Lehrkräfte an, dass die festgelegte Punkteverteilung ein erfolgreiches Absolvieren deutlich begünstigt. Besonders auffällig erscheint in diesem Kontext die Tatsache, dass mehrere Lehrkräfte die geringe Gewichtung des sprachlichen Teils deutlich problematisieren: B: Ja, und auch, dass der Erwartungshorizont (..) (seufzt)/ die Punkteverteilung ist so, dass da jeder irgendwie durchgeschoben wird, so kommt mir das vor. I: Also ein bisschen geschenkte Punkte an bestimmten Stellen. B: Ja, also der sprachliche Teil ist da zum Beispiel nicht mehr so wichtig wie früher. Und dann, dass man mit 50 % in NRW, oder dass man die noch nicht mal mehr braucht, um zu bestehen. Ich finde das schon fraglich, ja. (NW4, Position 28−30)

Die Möglichkeit trotz mangelhafter orthographischer und grammatikalischer Kompetenzen eine gute Prüfungsnote zu erhalten, wird u. a. mit Blick auf die berufliche Zukunft der Absolventinnen und Absolventen kritisch bewertet: B: […] das kann man dann auch, wenn man so will, wenn man sauer darauf ist, nachweisen, dass (.) vielleicht nicht sukzessive Jahr für Jahr, aber in Drei-, Vier-Jahresschritten, die Bedeutung der Sprachrichtigkeit vom Punktebudget immer weiter nachgelassen hat, ja [Anm. d. Verf.: im Erwartungshorizont]. Mittlerweile sind wir zwar bei Sonderzählung des Ausdrucksvermögens, aber bei der Rechtschreibung bei, von 80 Punkten, neun oder zehn letztendlich, ja, also einem Achtel letztendlich bei uns in den Klassenarbeiten, was völlig legal ist, 70 % Inhalt, 30% Ausdrucks-/ Darstellungsform. […] Aber ein Achtel, das heißt, irgendwas 12, x % letztendlich, da merkt man schon, da wird die Sprachrichtigkeit abgewertet, und das ist ja kein Zufall, das ist ja kein Rechenfehler, das heißt, irgendwie in Düsseldorf und/oder Berlin oder Soest, sitzen Leute, die das genau wissen, was sie da tun mit dieser Punktegestaltung, sag ich mal, und das haben die nicht aus Versehen gemacht, und dann drücke ich (.) den Schülern die Daumen, dass sie später nicht in der Bank, bei der Banklehre oder bei anderen schriftrelevanten Berufen auf einmal zu ihrer eigenen Verblüffung gesagt bekommen, dass das mangelhaft ist, was vorher vielleicht mit einer 4 oder einer 3- durchgewunken wurde. Wir merken das schon, das ist nicht so, liebe Leute in Soest oder in Düsseldorf, dass uns das nicht/ dass wir das nicht gemerkt haben. (NW2, Position 24)

10.2 Wahrnehmung des Erwartungshorizontes

277

Anknüpfend an die Punktevergabe wird auch die Übersetzung der Punktzahl in eine Note von einigen Lehrpersonen problematisch eingeschätzt. Zwei Lehrkräfte betonen diesbezüglich, dass aus ihrer Sicht eine zu geringe Punktzahl für die Note ausreichend gefordert wird: „Was uns auffällt, und zwar negativ auffällt ist, dass man nicht mehr als Minimum für ein ausreichend in der Punkteaufschlüsselung die Hälfte der Punktzahl mindestens erreichen muss. […] Das kommt uns doch sehr spanisch vor“ (NW2, Position 24). Heterogene Wahrnehmungen lassen sich im Bereich der Anleitung von Bewertung und Benotung hinsichtlich der Differenziertheit der Punktevergabe bzw. -zuordnung feststellen. So verweisen einige Lehrkräfte darauf, dass sie die Punktevergabe in der nordrhein-westfälischen Variante als vergleichsweise kleinschrittig wahrnehmen (vgl. z. B. NW3, Position 110). Andere Lehrkräfte äußern sich hingegen kritisch und betonen, dass die festgelegte Punktevergabe problematisch ist, da diese zu gering differenziert ist und „oft nicht ganz einsichtig, wie die Punkte verteilt werden […] und da setzt dann auch doch wieder die Willkür ein und dass der eine sagt, ich gebe da zwei für und der nächste aber vier“ (NW4, Position 38). Darüber hinaus besteht aus ihrer Sicht keine Passung zwischen der Anzahl der inhaltlichen Kriterien und der zu vergebenden Punktzahl: B: […] da ja die Punktevergabe nicht so eindeutig ist, es gibt insgesamt dafür 12 Punkte, aber wofür ich was gebe, steht ja nicht da, dann habe ich für mich gedacht, okay, für jeden Aspekt gibt es was, aber wenn ich dann die richtige Zeitstufe verwende oder die richtige, und die richtige, die wörtliche Rede raus lasse, dann gibt es dafür auch Punkte. So dass dann diejenigen, die das gemacht haben, weniger Punkte hatten. So würde/ da ist die Freiheit dann da. Aber das macht ein anderer Kollege anders. (NW4, Position 136)

Mehrere Lehrpersonen merken an, dass ein deutlicher Bewertungsspielraum durch den Passus „Der Prüfling erfüllt ein weiteres aufgabenbezogenes Kriterium“ geschaffen wird, da in diesem Rahmen vier Punkte vergeben werden können (d. h. gute fünf Prozent der Gesamtpunktzahl), die nicht an spezifische Leistungserwartungen geknüpft sind. Die Tatsache, dass es im Ermessen der Lehrkraft liegt, ob und für welche Leistungen die Punkte vergeben werden, beurteilen die Lehrpersonen unterschiedlich. Einige Lehrerinnen und Lehrer betrachten die ungeregelte Punktevergabe im Hinblick auf eine vergleichbare Bewertung kritisch: B: […] Ist mir so nicht im Gedächtnis als (.) verdächtig [Anm. d. Verf.: das weitere aufgabenbezogene Kriterium], aber gut, klar, man kann das natürlich auch/ Man kann natürlich auch sagen, wir sind dreizügig, drei Klassen, die Drei setzen sich zusammen, was ist das zusätzliche Kriterium in etwa, scheißegal, jeder entscheidet das für sich

278

10

Ergebnisse der qualitativen Inhaltsanalyse

und dann kriegt die Elke, kriegen der Paul Punkte für Sachen, die sie möglicherweise gar nicht so geschrieben haben. Eine gewisse Manipulationsmöglichkeit im Sinne der Schüler ist noch drin. (NW2, Position 70)

Wohingegen eine weitere Lehrkraft die Möglichkeit, einen Teil der Punkte nach eigenem Ermessen zu vergeben, eindeutig positiv bewertet, da sie auf diese Weise eine differenziertere Leistungsbeurteilung vornehmen kann: I: Eine ganz besondere Besonderheit in NRW, die es auch sonst in keinem anderen Bundesland gibt, ist: „Ein weiteres aufgabenbezogenes Kriterium wurde erfüllt“. Dieser Passus, der ist immer in den Langtextaufgaben drin/ B: Versteht ja keiner, also das sind ja quasi diese Extrapunkte. Die haben wir ja eigentlich dann schon drin. I: Was hältst du davon, wenn es um Vergleichbarkeit geht? B: (…) Das ist ja das, was ich gerade sagte. Es gibt ja einfach (..) Punkte, an die auch die Leute, die die Aufgabenstellung nicht erfüllt/ die die Aufgabenstellung gestellt haben, nicht dran gedacht haben, so wie ich das ja auch bei meinen Klassenarbeiten habe. Und das finde ich eigentlich gut, dass man dann eben genau an dieser Stelle aber auch noch einen guten von einem schlechten Schüler abheben kann. Es gibt zum Beispiel Schüler bei uns, die haben, das gibt es ja auch hier bei der Darstellungsleistung, die haben einen wunderbaren Satzbau, die haben eine ganz tolle Art zu schreiben, und das wird hier nirgendwo berücksichtigt. Was ich auch wichtig finde, das haben die sich auch angeeignet, das haben die gelernt. Oder die haben Aspekte da mit rein gebracht oder haben bei den (.), bei den Erörterungen, wo dann wirklich nur verlangt wird, dass da die Beispiele aufgeschrieben werden, haben die tatsächlich noch begrün/ nicht Beispiele, sondern einfach nur die Argumente aufgeschrieben werden, noch Begründungen genannt und Beispiele genannt und das wirklich richtig schön ausgeführt. Und ich finde, das muss dann auch da eben honoriert werden, und das ist dann eben das, wovon sich die Schüler dann auch noch ein bisschen voneinander abheben können, wo ich dann auch als Lehrer dann nochmal mein Sternchen aufdrücken kann. (NW3, Position 145−148)

Insgesamt ergibt sich anhand der vorhandenen Interviewaussagen das folgende Bild hinsichtlich der Wahrnehmung der nordrhein-westfälischen Gestaltungsvariante des Erwartungshorizontes durch die schulischen Anwenderinnen und Anwender: eine konkrete, aufgabenspezifische Beschreibung der Lösungserwartungen inklusive einer Regelung der Bewertung und Benotung mithilfe einer festgelegten Punktezuordnung. Die wahrgenommene Gestaltung variiert hinsichtlich des Differenziertheitsgrads der Lösungsdarstellungen und der Punktevergabe.

10.2 Wahrnehmung des Erwartungshorizontes

279

Wahrnehmung alternativer Konfigurationsvarianten Ergänzend zur Wahrnehmung des landesspezifischen Erwartungshorizontes wurden die Lehrkräfte beider Bundesländer zu ihren Einschätzungen von zwei Ausschnitten aus relativ unterschiedlichen Erwartungshorizonten befragt (vgl. Abschnitt 7.3.2). Wie bereits erläutert, dienten die beiden Gestaltungsvarianten im Interview als Stimuli für eine möglichst differenzierte Deskription der Wahrnehmungen und Wünsche der Lehrpersonen hinsichtlich der Konfiguration des Erwartungshorizontes sowie zur Veranschaulichung bzw. Konkretisierung ihrer Aussagen. Im Hinblick auf die Übersichtlichkeit der Befunde werden die Einschätzungen der Ausschnitte erneut nacheinander beschrieben: zunächst erfolgt die Deskription der Wahrnehmungen der Lehrerinnen und Lehrer bezüglich der gering differenzierten Variante Erwartungshorizont 1 (d. h. kurze und allgemeine Lösungsdarstellung ohne Angaben zur Bewertung) und im Anschluss bezüglich der stark differenzierten Variante Erwartungshorizont 2 (d. h. vergleichsweise detaillierte Lösungsdarstellung inklusive einer Punktezuordnung). Zusammenfassend beschreiben die Lehrkräfte die gering differenzierte Version folgendermaßen: – wenig bzw. nicht ausreichend detaillierte Lösungsdarstellung: „sehr knapp“ (BW4, Position 66), „relativ wenig“ (ebd.), „sehr spärlich“ (BW5, Position 102), „Kurzform“ (NW1, Position 104), „zu wenig“ (NW2, Position 40; NW3, Position 78), „zu dürftig“ (NW5, Position 80) – wenig bzw. nicht ausreichend konkrete Lösungsdarstellung: „sehr offen“ (BW2, Position 36), „sehr, sehr allgemein“ (BW3, Position 62), „recht unklar formuliert“ (NW2, Position 40), „zu allgemein“ (NW2, Position 48) Mehrere Lehrkräfte betrachten die Gestaltungsvariante in Relation zur jeweiligen landesspezifischen Konfiguration und stellen fest, dass erstere weniger stark ausdifferenziert ist. Ebenfalls merken mehrere der Befragten an, dass die gering differenzierte Variante eine Ähnlichkeit zu älteren Erwartungshorizonten aufweist, die im Rahmen der eigenen Schulzeit bzw. zurückliegenden Durchgängen der zentralen Prüfungen eingesetzt wurden: B: […] also Aufgabe 1 und Erwartungshorizont 1 sind zwar sehr spärlich, also ich würde es eher vergleichen mit dem, was wir zu Beginn mal bekommen haben, wo dann wahrscheinlich die Rückmeldung war: „Na ja das braucht man nicht wirklich, das ist so klar, dass man eigentlich die Erwartungshorizonte weglassen kann.“ (BW5, Position 102)

280

10

Ergebnisse der qualitativen Inhaltsanalyse

Insgesamt schätzen die Lehrerinnen und Lehrer die gering differenzierte Version tendenziell kritisch ein. Der Großteil der Lehrkräfte nimmt die abstrakten, aufgabentypbezogenen Kriterien in Form einer stichwortartigen Aufzählung von sechs Zeilen als ungenügende Anleitung der Beurteilung wahr. Ausgehend von dem niedrig wahrgenommenen Detaillierungs- oder Konkretisierungsgrad wird der Erwartungshorizont für die Anwendung als nicht ausreichend bzw. sogar nutzlos eingestuft: B: Also mit dem Erwartungshorizont 1 kann ich so fast gar nichts anfangen, denn was eine Erörterung ist, weiß jeder Deutschlehrer und sollte auch jeder wissen, der in der Zehn ist oder eine Abschlussprüfung schreibt. Und er weiß auch, wie die Erörterung aufgebaut ist. Und das ist eigentlich hier aufgelistet, mit den Argumenten, das bezieht sich natürlich jetzt auch auf die Aufgabenstellung. Aber ansonsten ist das nochmal kurz eine Erklärung, wie so eine Erörterung aufgebaut ist. Und damit kann man in der Bewertung nicht wirklich was anfangen. (NW5, Position 76)

In diesem Zusammenhang betrachten mehrere Lehrpersonen auch die zugrundeliegende Aufgabenstellung genauer und verweisen darauf, dass diese ebenfalls problematisch ist, da sie sehr offen bzw. unklar formuliert ist (vgl. z. B. NW2, Position 48). Neben den Unklarheiten im Kontext der Leistungsfeststellung bemängeln zwei nordrhein-westfälische Lehrkräfte außerdem die nicht vorhandene Regelung der Bewertung in dieser Gestaltungsvariante des Erwartungshorizontes: B: […] Ich finde, dass da Punkte vorgegeben werden, so haben wir das ja auch immer, finde ich ganz gut […]. Ja, hier [Anm. d. Verf.: Erwartungshorizont 1] ist dann wieder sehr viel Spielraum. Also da kann ich dann, also wenn es vergleichbar sein soll, dann ist es sinnvoll, Punkte vorzugeben, weil hier kann ich ja wieder nach eigenem Dünken und Ermessen mir das alles wieder zurecht puzzeln. (NW3, Position 84)

Ein weiterer Kritikpunkt, der in dem Interviewausschnitt bereits angedeutet wird, bezieht sich auf den Beitrag des Erwartungshorizontes bezüglich des angestrebten Ziels einer vergleichbaren Abschlussvergabe. Mehrere nordrhein-westfälische Lehrkräfte betonen, dass anhand der gering differenzierten Variante nicht ansatzweise eine vergleichbare Leistungsbeurteilung zwischen den Lehrpersonen und folglich auch keine „möglichst gelingende Vermeidung von Willkür“ (NW2, Position 52) gewährleistet werden kann.

10.2 Wahrnehmung des Erwartungshorizontes

281

Während die nordrhein-westfälischen Lehrkräfte die gering differenzierte Version folglich als Ausgangspunkt für eine subjektive bzw. willkürliche Leistungsbeurteilung beschreiben und somit deutlich als problematisch markieren, beschreibt eine baden-württembergische Lehrerin diese als Ausgangspunkt für eine stärker individuelle Beurteilung mit einem großen Freiraum für die Lehrkraft (vgl. BW2, Position 36). Eine weitere Problematik der gering differenzierten Konfiguration des Erwartungshorizontes, welche bundeslandübergreifend angesprochen wurde, ist die eingeschränkte bzw. fehlende juristische Absicherung. Obwohl mehrere Lehrkräfte berichten, dass sie bislang keine Erfahrung mit Klagen im Rahmen der zentralen Prüfungen gemacht haben, äußern zwei Lehrpersonen die Bedeutsamkeit, auf die Nachfragen bzw. Klagen von Eltern reagieren zu können. Die Gestaltungsvariante bewerten sie mit Blick eine Rechenschaftslegung bzw. rechtliche Sicherheit als zu ungenau und ungeeignet: B: […] Ja, schauen Sie, der Kollege in Bundesland 1 muss sich ja Gedanken machen oder das entsprechende Kollegium, wie er einem auf Schulrecht spezialisierten Anwalt bei der entsprechenden Klage entgegentritt, ob ihn das überhaupt interessiert oder ob es ihm wurscht ist letztendlich, ja. Das finde ich zu wenig [Anm. d. Verf.: die Lösungsdarstellung in Erwartungshorizont 1]. Ja. Es geht nicht/ Man nimmt, macht diesen Beruf nicht, um vor Gericht zu siegen, dann stimmt irgendwas nicht, ne, von der eigenen, von der eigenen Zielorientierung, aber (..) ich bin so drauf, wenn, dann möchte ich das auch gewinnen, weil ich Recht habe. Aber man muss was tun, um Recht zu behalten letztendlich und damit gegebenenfalls auch andere zu überzeugen. Also ich, ich staune, das kannte ich noch nicht, das ist für mich (..) (seufzt) 60-er Jahre und das schon sehr lückenhaft letztendlich. (NW2, Position 114)

Widmet man sich in einem weiteren Schritt den Beschreibungen der stark differenzierten Variante durch die Lehrkräfte, lassen sich diese folgendermaßen zusammenfassen: – hoher bzw. zu hoher Umfang: „viel Text“ (BW5, Position 102), „unübersichtlich“ (BW5, Position 102), „extrem viel, was da steht“ (BW5, Position 102), „sehr viel Text“ (NW2, Position 48), „sehr textlastig“ (NW4, Position 66) – starker bzw. einschränkender Detaillierungsgrad: „eng formuliert“ (BW1, Position 22), „wenig Freiheit“ (BW1, Position 22), „sehr eng“ (BW2, Position 36), „detaillierter“ (BW4, Position 66), „so streng vorgegeben“ (BW5, Position 102), „ganz strikt vorgegeben“ (BW5, Position 106), „kleinschrittig“ (NW2, 56), „vorgegebener“ (NW3, Position 90)

282

10

Ergebnisse der qualitativen Inhaltsanalyse

In Relation zum jeweiligen landesspezifischen Erwartungshorizont schätzen mehrere baden-württembergische Lehrpersonen die vorliegende Gestaltungsvariante aufgrund der umfangreichen Lösungsdarstellung und/ oder der Existenz einer Punktevergabe als differenziertes Instrument ein, wohingegen einige nordrheinwestfälische Lehrkräfte den landesspezifischen Erwartungshorizont mit Blick auf die Lösungsdarstellung und/ oder Punktevergabe als detaillierter wahrnehmen. Insgesamt werden hinsichtlich der stark differenzierten Gestaltungsvariante wesentlich mehr positive Aspekte geäußert. Im Gegensatz zur gering differenzierten Version wird bundeslandübergreifend vereinzelt vermutet, dass anhand dieser Version ein (größerer) Beitrag zur Vergleichbarkeit geleistet werden kann: B: Auch wenn ich das Mist finde, würde ich lieber, wenn es um die Vergleichbarkeit geht, das nehmen [Anm. d. Verf.: Erwartungshorizont 2], wenn es darum geht, dass ich gerne vernünftige, authentische Klassenarbeiten in der Zehn haben möchte, würde ich lieber das nehmen [Anm. d. Verf.: Erwartungshorizont 1]. Weil das finde ich authentischer, das hier, finde ich, ist vorgegebener und einfacher [Anm. d. Verf.: Erwartungshorizont 2]. (NW3, Position 90)

Darüber hinaus schätzen zwei baden-württembergische Lehrkräfte auch die juristische Absicherung höher ein: B: Deswegen ist wahrscheinlich, ja, in der Variante, in dieser ausführlichen Variante [Anm. d. Verf.: Erwartungshorizont 2] sogar besser für eine Abschlussprüfung. Im Zweifel kann man das dann sogar rannehmen, wenn es denn was Offizielles ist, was von dem Kultusministerium kommt, wenn da doch/ wenn es Probleme gäbe, Schüler sich beschweren würden, könnte man ja sagen, hier, es gibt eine Vorgabe und die ist zu erfüllen. Eine gewisse Sicherheit, die man als Lehrer dann auch hat, weil man ja doch, gerade in Deutsch irgendwo eine gewisse Angriffsfläche bietet, weil ja gerade dieser (.), diese, ja, ich nenne es doch mal Vorurteil der Subjektivität oft mitspielt oder mitschwingt, wenn da irgendwie, wenn es um Aufsätze geht. (.) Es ist auch eine Rechtssicherheit, die man irgendwo hat. (BW4, Position 70)

Hinsichtlich der Anwendbarkeit dieser Konfigurationsvariante formulieren mehrere Lehrerinnen und Lehrer diverse Einschränkungen: – eingeschränkte Praxistauglichkeit: Die textliche Gestaltung bzw. der Umfang des Erwartungshorizontes werden als zu umfassend und unübersichtlich wahrgenommen.

10.2 Wahrnehmung des Erwartungshorizontes

283

– eingeschränkte Abbildbarkeit von Leistungen: Die detaillierte Lösungsdarstellung führt aus der Perspektive der Lehrperson dazu, dass der Prüfling (zu) wenig Punkte erhält. Es „bleibt [aus Sicht der Lehrkraft] wenig Freiheit für den Schüler, und es ist ein Erwartungshorizont, der klare Vorstellungen hat, die vielleicht nicht ganz aus dieser Aufgabe hervorgehen“ (BW1, Position 22). Alternativ wird die detaillierte Gestaltung des Erwartungshorizontes auch als Ausgangspunkt dafür wahrgenommen, dass der Prüfling zu viele Punkte erhält, sofern „es in der Tat so kleinschrittig ist, dass, dass der Schüler kaum noch was falsch machen kann“ (NW2, Position 56). – Einschränkung der Lehrkraft: Eine baden-württembergische Lehrkraft betont, der Erwartungshorizont „verlangt […] eine Vorgehensweise in der Bewertung mit Punktevergabe und so weiter, die ich/ wo ich mit jetzt gegängelt fühlen würde, so zu bewerten, genauso“ (BW5, Position 102). Dennoch merken zwei baden-württembergische Lehrkräfte speziell mit Blick auf die Berufsanfängerinnen und -anfänger auch positive Aspekte der Konfigurationsvariante an. Konkret wird vermutet, dass die detaillierte Gestaltung die Anwendung des Instruments bzw. die Durchführung der Beurteilung für ungeübtere Lehrpersonen vereinfacht, denn „wenn es neue Kollegen sind, die zum ersten Mal eine Prüfung korrigieren, ist schon wichtiger, dass es [Anm. d. Verf.: der Erwartungshorizont] ein bisschen detaillierter ist“ (BW4, Position 66). Betrachtet man abschließend die Präferenzen der Lehrkräfte bezüglich der zwei Varianten, wird die differenziertere Version insgesamt bevorzugt. Alle befragten nordrhein-westfälischen Lehrerinnen und Lehrer favorisieren diese Gestaltungsvariante, da sie aus ihrer Sicht besser anwendbar ist bzw. zu einer höheren Vergleichbarkeit beiträgt. Zudem spricht sich außerdem ein baden-württembergischer Lehrer für diese Variante aus: B: […] Ja, (.) bei dem Zweiten [Anm. d. Verf.: Erwartungshorizont 2] ist einfach (.), ja, einmal wesentlich detaillierter, auch wie die Note zustande kommt. […] Ja, ich glaube, gerade für eine Prüfung, für eine Abschlussprüfung, wo doch dann auch relativ viel von abhängt, ist schon ein bisschen detaillierter, wahrscheinlich besser, einfach um zu schauen, ja, oder einfach um das, wenn man es in einem Bundesland macht, das dann auch wirklich, ja, die Noten vergleichbar sind, sonst ist es so von Schule zu Schule unterschiedlich. Und das ist dann doch wieder gefährlich, ja, einfach/ denn die Schüler können nichts dafür, aber irgendwann spricht es sich dann doch rum, in der Schule kriegt jeder irgendwie eine 1 in Deutsch. Die Wertigkeit des Abschlusses nimmt dann auch ab, wenn es dann entsprechend wenig, ja, wenn es wenig konkret ist, was die Leistung angeht. (BW4, Position 66)

284

10

Ergebnisse der qualitativen Inhaltsanalyse

Mehrere baden-württembergische Lehrkräfte entscheiden sich nicht eindeutig für eine der beiden Varianten und verwiesen stattdessen darauf, dass beide Erwartungshorizonte in Abhängigkeit der Passung zum vorgelagerten Unterricht geeignet sein können oder wünschen sich eine selbst erstellte Mischform aus beiden Versionen. Zwar deuteten mehrere baden-württembergische Lehrpersonen darüber hinaus an, dass sie die differenziertere Variante als einschränkend empfinden, da die Lösungserwartungen zu spezifisch vorgegeben werden oder eine Punktevergabe existiert, jedoch bevorzugt aufgrund dessen nur eine dieser Personen die gering differenzierte Variante: B: Sprache ist eben so ein Abwägen, und Inhalt ist dann schon so Pi mal Daumen, weil ich finde, man kann einen Text nicht, ich kann den nicht in Punkte zerlegen, ich kann das nicht (..), und das ist ja hier [Anm. d. Verf.: Erwartungshorizont 2] ganz strikt vorgegeben. Ich muss Punkte machen. Ist vielleicht eine Umgewöhnungssache, (..) aber (…) ich würde mich da in meiner pädagogischen Freiheit, Verantwortlichkeit eingeschränkt fühlen, wenn ich das mir überstülpen müsste. I: Das heißt, wenn Sie die Wahl hätten in dem Fall? B: Das dann, weil dann, also dann ergänze ich lieber meinen Erwartungshorizont (..) in Anpassung auf das, was ich vielleicht dann auch gemacht habe, schwerpunktmäßig. Dann wähle ich lieber das Freiere als das da [Anm. d. Verf.: Erwartungshorizont 2]. (BW5, Position 106−108)

Im Rahmen der abschließenden Betrachtung der Zuordnung von Textstellen zu den Merkmalausprägungen des Kategoriensystems erscheint es auffällig, dass sich die baden-württembergischen Lehrkräfte insgesamt umfangreicher zum stark differenzierten Erwartungshorizont äußern und die nordrhein-westfälischen Lehrkräfte ausführlicher über den gering differenzierten Erwartungshorizont sprechen. Beschreibung der wünschenswerten Gestaltung eines Erwartungshorizontes Bereits im Rahmen der Beschreibung des landeseinheitlichen Erwartungshorizontes sowie der alternativen Konfigurationsmöglichkeiten deuteten einige Lehrkräfte an, welche Aspekte sie als sinnvoll oder problematisch erachten, diese Wahrnehmungen sollen nun um die konkrete Nennung wünschenswerter Gestaltungselementen ergänzt werden. Beginnend mit der formalen Gestaltung lassen sich die Konfigurationswünsche der Lehrerinnen und Lehrer folgendermaßen zusammenfassen:

10.2 Wahrnehmung des Erwartungshorizontes

285

– geringer Umfang: Mehrere nordrhein-westfälische Lehrkräfte und eine badenwürttembergische formulieren speziell hinsichtlich der textlichen Gestaltung die Präferenz einer möglichst kurzen Form. – lesbare Schrift: Eine nordrhein-westfälische Lehrerin fordert eine lesbare Schrift (z. B. geeignete Schriftgröße). – übersichtliche Gestaltung: Jeweils eine Lehrperson aus beiden Bundesländern verweist auf die Notwendigkeit einer übersichtlichen Gestaltung (z. B. sichtbare Trennung von Aufgaben). – tabellarische bzw. keine tabellarische Form: Während zwei nordrheinwestfälische Lehrkräfte eine tabellenartige Gestaltung präferieren, bevorzugt eine baden-württembergische Lehrkraft anstelle der tabellarischen Form einen Text. Aus ihrer Perspektive besteht die Gefahr, dass insbesondere komplexere Schülerantworten anhand einer tabellarischen Aufzählung nicht umfassend bzw. zu oberflächlich beurteilt werden. – stichwortartige Form: Mit Blick auf die Übersichtlichkeit wird einer stichwortartigen Formulierung der erwarteten Lösungen gegenüber einem Fließtext länderübergreifend von mehreren Lehrpersonen der Vorzug gegeben. – Integration des Bewertungsbogens: Ebenfalls mit dem Ziel die Übersichtlichkeit zu erhöhen, äußert eine nordrhein-westfälische Lehrerin den Wunsch, dass die Übersicht über die erwarteten Lösungen sowie die zu vergebenden Punkte direkt im Bewertungsbogen vermerkt sind, in welchen die Beurteilung der Prüfungsarbeit dokumentiert wird. Während der Großteil der formalen Anmerkungen eine relativ einheitliche Tendenz zu einer möglichst kurzen und übersichtlichen Gesamtgestaltung aufweist, variieren die Wünsche bezüglich der Gestaltung der Lösungsdarstellungen deutlich bundeslandspezifisch. Insgesamt präferieren die baden-württembergischen Lehrkräfte eine Beschreibung der Leistungserwartung über eher grobe Kriterien. Konkret bedeutet dies, „inhaltlich[e] Schwerpunkte“ (BW1, Position 136), „grundlegende inhaltliche Bestandteile“ (BW5, Position 114) bzw. „Hinweise“ (BW2, Position 88), mit welchen „inhaltlich so ein bisschen raus gearbeitet ist, worauf kommt es an“ (BW5, Position 110) und die nicht vollständig verbindlich sind: B: […] Dann wäre es gut, wenn inhaltlich Schwerpunkte angelegt sind, die aber eben so formuliert sind, dass sie noch füllbar sind, vielleicht mit Möglichkeiten, ein Angebot, was könnte da drunter verstanden sein, aber nicht als, ja, / I: muss. B: nicht als Muss und nicht als feste Forderung. (BW1, Position 136)

286

10

Ergebnisse der qualitativen Inhaltsanalyse

Insbesondere mit Blick auf die Beurteilung einer längeren Textproduktion ist die ausschließliche Beschreibung der Lösungserwartungen über konkrete Kriterien aus der Perspektive mehrerer Lehrpersonen nicht möglich und führt stattdessen zu Beurteilungsverzerrungen bzw. wird als Einschränkung der eigenen Arbeit empfunden: B: […] Und ich habe die Erfahrung gemacht, dass, wenn Kolleginnen und Kollegen ausschließlich nach Kriterien arbeiten, dann wird das dem Schüler von der Note häufig nicht gerecht. Entweder er oder sie wird zu gut oder zu schlecht benotet, (..) weil (.) ich finde auch wichtig, dass ein Kind lernt, organisch zu schreiben, das heißt, dass es klar wird, das eine bezieht sich aufs andere. Also sinnvolle Satzanfänge, Übergänge und, und, und, das halte ich für ganz wichtig. Und das kann man zwar auch über Kriterien abfragen, aber ich glaube, man darf so sein, sein Gefühl für Qualität nicht verlieren, beides ist wichtig. (BW2, Position 46)

Zwei baden-württembergische Lehrkräfte verweisen ergänzend außerdem darauf, dass zusätzliche Musterlösungen zu einer zu stark konkretisierten und somit unterwünschten Vorgabe der Leistungserwartungen führen (vgl. z. B. BW4, Position 108). Demgegenüber favorisieren alle nordrhein-westfälischen Lehrpersonen wiederum eine Lösungsdarstellung, die wesentlich „klarer“ (NW1, Position 128), „genauer“ (NW1, Position 52), „detaillierter“ (NW5, Position 208) und „kleinschrittiger“ (NW3, Position 144) ist: B: Ja, ich würde es vielleicht auch kleinschrittiger machen. Ich würde auch nicht hier Pünktchen, Pünktchen, Pünktchen machen, sondern wenn die wirklich wollen, dass wir Punkte dafür geben, dann sollen sie auch hinschreiben, was wir wofür geben sollen, weil es sonst eben auch von Schule zu Schule verschieden ist. (NW3, Position 144)

Zur weiteren Konkretisierung der erwarteten Leistung verweisen einzelne Lehrkräfte auf zusätzliche wünschenswerte Möglichkeiten: – Angabe von Niveaus: In der Lösungsdarstellung soll zwischen notwendigen und zusätzlichen Lösungsbestandteile differenziert werden. – konkrete, ergänzende Hinweise: Zusätzlich zur eigentlichen Lösungsdarstellung sollen konkrete aufgabenübergreifende Hinweise (z. B. weitere, zu beachtende Aspekte im Rahmen der Beurteilung) aufgeführt werden.

10.2 Wahrnehmung des Erwartungshorizontes

287

– ergänzende Musterlösungen: Neben der genauen Beschreibung der Leistungserwartung werden Musterlösungen als hilfreicher Zusatz wahrgenommen. Unter Bezugnahme auf eine wünschenswerte Lösungsdarstellung wird bundeslandübergreifend lediglich auf eine differenzierte Beschreibung der sprachlichen Leistungen verwiesen (z. B. Anführen der zu berücksichtigenden Teilbereiche und diesbezüglicher Leistungen) sowie von mehreren Lehrpersonen eine grundsätzliche Passung zwischen der Lösungsdarstellung im Erwartungshorizont und der Prüfungsvorbereitung gefordert: B: (seufzt) (..) Also in erster Linie, dass es [Anm. d. Verf.: der Erwartungshorizont] angepasst ist an dem, was wir auch wirklich im Unterricht gemacht haben und nicht an dem, was in den Lehrplänen steht. Weil einfach in unseren Kernlehrplänen oder halt in den, wie heißen sie denn jetzt, Lehrpläne/ In den Lehrplänen sind ja teilweise Aspekte drin, die ich mit denen gar nicht behandelt habe, weil wir keine Zeit hatten (NW3, Position 164)

Anknüpfend an die variierenden Vorstellungen bezüglich der Lösungsdarstellung werden auch unterschiedliche, teils länderspezifische Präferenzen hinsichtlich der Anleitung von Bewertung und Benotung sichtbar. Ausnahmslos alle befragten nordrhein-westfälischen Lehrerinnen und Lehrer wünschen eine Bewertung anhand von Punkten. Darüber hinaus betonen sie die Notwendigkeit einer kleinschrittigen Punktevergabe, um Unsicherheiten und Unterschiede im Rahmen der Beurteilung zu minimieren und eine vergleichbare Bewertung zwischen den Lehrkräften zu ermöglichen (vgl. z. B. NW5, Position 97−98). Speziell mit Blick auf den nordrheinwestfälischen Erwartungshorizont wird gefordert, „dass man das irgendwie besser erklärt, wie die [Anm. der Verf.: die Erstellungskommission] auf die Punktzahl gekommen sind“ (NW4, Position 72). Mehrere Lehrkräfte verweisen diesbezüglich darauf, dass die konkrete Punktezuordnung bislang schulintern oder individuell festgelegt wird, da diese nicht vollständig in der nordrhein-westfälischen Variante geregelt wird: B: […] Also diese, diese Bewertungsbögen, die wir haben für die ZAPs [Anm. d. Verf.: zentrale Abschlussprüfungen], denn das ist ja eigentlich das, wo dann irgendwie der Knackpunkt ist, wie man das macht, und wir machen dann halt/ in der Deutschkonferenz setzen wir uns dann zusammen, also machen dann so eine/ setzen uns halt einmal alle zusammen und teilen auf, wer Erstkorrektur macht, Zweitkorrektur macht und wie wir das machen und gehen dann einmal mit allen zusammen durch, wo wir wie die Punkte verteilen. (.) Also ich glaube, wenn die das einfach besser gelöst hätten und das klarer ausdrücken, wofür jetzt die Punkte vergeben werden, dann wäre das auch kein Problem. (NW3, Position 36)

288

10

Ergebnisse der qualitativen Inhaltsanalyse

Des Weiteren äußert ein Lehrer, dass die Übersetzung von Leistungen in Punkte sowie von Punkten in Noten einen wichtigen Bereich bildet. Er betont, dass die Festlegung der zu vergebenden Punktzahl in Abhängigkeit der Schwierigkeit der erwarteten Leistung erfolgen sollte, damit sich gute und schlechte Leistungen anhand der Punktbewertung deutlich unterscheiden lassen: B: Wenn sie [Anm. der Verf.: die Punktevergabe] (..) noch (..), ich zitiere mich, Mist und Gold unterscheiden lässt, völlig okay. Ja. Wenn es darauf hinausläuft, dass ein Schüler die Kernaussage, sei es eines Romanausschnittes, eines Gedichtes, eines wie auch immer, Sachtextes, Zeitungsausschnittes nicht erkennt (…), die Kernaussage nicht erkennt und dann auf 35 von 60 Punkten kommt oder noch mehr, dann ist das Murks. Das ist aber dann ein Problem der Punkteverteilung, sozusagen der vorab betriebenen Manipulation und nicht eine Sache, die die Punktevergabe an sich hinterfragt. (NW2, Position 62)

In direkter Anknüpfung hieran sollte aus der Perspektive der Lehrkraft außerdem sichergestellt werden, dass die Punktezuordnung zu den Noten im Erwartungshorizont derart festgelegt ist, dass nicht bereits bei einer geringen Punktzahl und folglich einer vergleichsweise schlechten Leistung des Prüflings die Note ausreichend zu vergeben ist: B: […] Also wie gesagt, 35 von 75 Punkten reichen für eine 4, finde ich nicht gut. Ja. Oder noch zwei, drei Punkte weniger, das finde ich, das Pimpen von (.) Mangelleistung letztendlich, ne, nicht aus irgendeinem bärbeißigen Elitedenken raus, also man muss halt irgendwann auch mal sagen, wann ist etwas nicht mehr ausreichend im Wortsinn. Ja. Das (.), das würde ich schon sagen, dass das mal umgesetzt werden soll und nicht so ein Luschen-Abschluss. (NW2, Position 92)

Neben der Präferenz einer grundsätzlich kleinschrittigen Punktevergabe beurteilt eine Lehrerin die Existenz einer geringen Anzahl von Punkten positiv, die keinen konkreten Leistungen zugeordnet sind und über deren Verteilung die Lehrkräfte entscheiden dürfen. Abweichend zum bereits vorliegenden derartigen Passus „Der Prüfling erfüllt ein weiteres aufgabenbezogenes Kriterium“, wünschen sich zwei Lehrkräfte, dass es sich um zusätzliche undefinierte Punkte handelt, welche über die Gesamtpunktzahl hinausgehen. Auf diese Weise soll die Berücksichtigung von weiteren Leistungen ermöglicht werden, die zwar korrekt sind, aber nicht im Erwartungshorizont aufgeführt sind (vgl. NW3, Position 142−150). Von den befragten baden-württembergischen Lehrpersonen empfindet lediglich ein Lehrer eine Bewertung anhand von Punkten sinnvoll. Er deutet an, dass es in

10.2 Wahrnehmung des Erwartungshorizontes

289

Baden-Württemberg zwar allgemeine, schulübergreifende Kriterien hinsichtlich der Gewichtung von Bereichen gibt, die konkreten Vorgehensweisen der Lehrkräfte im Rahmen der Bewertung sich jedoch deutlich unterscheiden und er einen Punkteschlüssel zur Bewertung der Leistungen in den zentralen Prüfungen einsetzt (vgl. BW4, Position 26). Im Gegensatz zu den nordrhein-westfälischen Lehrkräften ist aus seiner Perspektive eine kleinschrittige Regelung der Punktevergabe allerdings ungeeignet. Stattdessen plädiert er dafür, dass der Lehrkraft im Rahmen der Punktevergabe Beurteilungsspielräume belassen werden, damit diese die individuellen Leistungen der Prüflinge möglichst genau abbilden kann: B: […] Und wenn man es [Anm. der. Verf.: das zentrale Prüfungsformat] neu einführt, muss man vielleicht sogar ein bisschen konkreter sein und rigoroser, dass man sagt, soviel Punkte gibt die Note. Wobei natürlich dann auch ein Spielraum sein muss, also dass so ein, zwei Punkte hoch und runter, dass man die Möglichkeit hat, das entsprechend zu geben. Bei uns ist es ja so, es gibt ja keine, also nicht einfach nur 1, 2, 3, 4, also nur die Einzelnoten, man kann ja dann wirklich, es gibt ja/ jede Kommaabstufung ist ja dann möglich. Es gibt dann auch nochmal die Möglichkeit, dass man sagt, okay, es ist ganz bisschen besser. Man hat ja so auch doch ein bisschen Vergleich in der Klasse, wenn man das Thema hat. Und dadurch, dass es ein kleines bisschen besser ist, ja, okay, dann würde man auch 0,1. Es macht im Endeffekt kaum was aus, ob wir jetzt 2,0 oder 2,1, aber es ist einfach so ein bisschen besser abgebildet, dass es dann doch einen Unterschied gibt. Und wenn er nur minimal ist, der eine ist ein bisschen besser als der andere. (BW4, Position 136)

Die restlichen baden-württembergischen Lehrkräfte äußern sich hinsichtlich einer Punktevergabe kritisch. Mehrere Lehrpersonen formulieren deutlich, dass sie keine Festlegung der Gewichtung oder Regelung der Bewertung anhand von Punkten wünschen, da sie sich hierdurch in ihrer Beurteilungspraxis eingeschränkt fühlen: B: […] Korrigieren ist was ziemlich Individuelles, glaube ich, also alleine bei uns im Kollegium gibt es zig verschiedene Arten, wir kommen zwar im Endeffekt zum gleichen Punkt, aber jeder, also wie gesagt, es gibt auch die Punkte-Kollegen bei uns, die da gar nicht sich vorstellen könnten, das so zu machen. Wir hatten auch Kollegen, die haben einfach eine Note drunter geschrieben und noch zwei Sätze und zwar eine Gesamtnote. Und die haben keine Wörter gezählt so oder überschlagen so wie ich, eine Rechtschreibnote gefunden. Und trotzdem hat es sich im Endergebnis ganz oft getroffen. Und das sind einfach, das ist so eine Typsache. Ich finde nicht, dass man jemanden dieses Punkte-Ding überstülpen kann, wenn man nicht der Punkte-Mensch ist so in Deutsch. (BW5, Position 122)

290

10

Ergebnisse der qualitativen Inhaltsanalyse

Eine Lehrerin ergänzt, dass für sie lediglich eine offen formulierte und nicht verbindliche Definition von guten bzw. schlechten Leistungen denkbar ist. Eine Punktevergabe ist aus ihrer Perspektive nur im Kontext einer stärke- bzw. förderorientierten Leistungsbeurteilung sinnvoll, die mit einer Rückmeldung bezüglich der Prüfungsleistung an die Schülerinnen und Schüler verbunden ist. Hierbei wird ergänzend sichtbar, dass die Lehrkraft einen Gegensatz zwischen der landesweiten Tendenz hin zu einer förderlichen Leistungsbeurteilung sowie des Anspruchs der zentralen Prüfung wahrnimmt, eine möglichst objektive Beurteilungspraxis zu schaffen, die an der kriterialen Bezugsnorm orientiert ist: B: […] Ich finde es gut, dass es irgendwie eine Definition gibt, was ist sehr gut, was ist gut, aber ob man der über Punkte gerecht wird, ist wieder eine andere Frage. Ob das eher eine Wortdefinition sein sollte, welche Aspekte da berücksichtigt sein müssen. Ich denke das wäre fairer, weil die Erfahrung meiner Anwärter zeigt auch, wenn die dann, ja, vorsichtig, ja, im Referendariat versuchen, ihren ersten Aufsatz zu korrigieren und zu Recht sich an kriteriengeleiteten Punktekatalogen stützen, stellen die oft fest: „Boah, und dann wurde das total gut, ja, aber mein Bauchgefühl war viel schlechter.“ Ja, und das gibt eben ein Punkteraster nicht her, dass man/ (..) wobei natürlich, wenn man andersherum guckt, was ist gerade aktuell in Baden-Württemberg, was Leistungsmessung, darf man nicht mehr sagen, was Leistungsbeurteilung, Leistungsrückmeldung angeht, dann ist ja die Tendenz sowieso eher mehr dazu, dass man die Stärken betont, ja, und nicht dieses Defizitäre irgendwie immer, aber natürlich steht im Gegensatz dazu immer die Prüfung. Und das Punktesystem würde aber die/ ja, wenn sie eine Rückmeldung kriegen würden zum Prüfungsaufsatz, würde es mehr gerecht werden der Rückmeldung an den Schüler, aber kriegen sie ja eh nicht. Insofern finde ich die Punkte nicht (…) klug, sag ich mal, oder nicht so praktikabel, ehrlich gesagt. I: Ja. Also würden Sie eher sagen, besser drauf verzichten. B: Mhm (bejahend), besser eine Wortdefinition. (BW1, Position 30−32)

Zusammenfassend nehmen alle befragten Lehrerinnen und Lehrer wahr, dass der jeweilige landesspezifische Erwartungshorizont (unterschiedlich große) Spielräume aufweist. Mehrere Lehrkräfte verdeutlichen, dass eine vollkommene Vergleichbarkeit zwischen den Beurteilungen unterschiedlicher Lehrkräfte nicht erreicht werden kann und begründen dies mit der subjektiven Wahrnehmung von Menschen sowie den komplexen Leistungen im Fach Deutsch, die schwierig in Teilleistungen zu differenzieren sind und nicht vollständig antizipiert werden können. Der Erwartungshorizont kann aus der Perspektive mehrerer Lehrpersonen ausschließlich einen gewissen Beitrag zu einer objektiven Beurteilung leisten und dient dazu, „dass es

10.2 Wahrnehmung des Erwartungshorizontes

291

vielleicht nochmal vergleichbarer wird“ (BW3, Position 22), „so objektiv wie möglich ist“ (BW4, Position 34), „möglichst viel Subjektivität da raus zu nehmen“ (NW4, Position 46), „eine möglichst optimale Vergleichbarkeit (.) zu gewährleisten“ (NW2, Position 96) sowie „eine relativ objektive (.) Notengebung zu gewährleisten“ (BW2, Position 28): B: […] Ich habe in meiner Schulzeit nie einen Erwartungshorizont bekommen, da gab es eine Note und das war gut so. (…) Jetzt macht man sich natürlich viel mehr Gedanken, was sicherlich Vorteile hat. So, das schafft sicherlich irgendwo eine Vergleichbarkeit. (..) Eine absolute, hundertprozentige Vergleichbarkeit wird es da nicht geben, ich glaube, das ist einfach schwierig. (NW1, Position 132)

Mehrere baden-württembergische Lehrkräfte schätzen dies jedoch nicht als problematisch ein, da eine vollständige Standardisierung anhand des Erwartungshorizontes aus ihrer Sicht überhaupt nicht wünschenswert ist. Stattdessen fordern sie gewisse Beurteilungsspielräume, die es der Lehrkraft erlauben, die individuellen Prüfungsleistungen mit ihren spezifischen Facetten möglichst genau zu erfassen und anhand von einer Note abzubilden (vgl. z. B. BW4, Position 98−104). Darüber hinaus deutet eine Lehrkraft an, dass sie außerdem die persönliche Entwicklung bzw. Situation der Schülerin oder des Schülers im Kontext der Beurteilung berücksichtigen möchte: B: […] Was ich auch denke, obwohl man natürlich immer um Objektivität bemüht ist, hat man doch auch den einzelnen Schüler immer wieder mal im Blick. Und ich bin mir sicher, dass ich nicht davor gefeit bin, wenn ich jetzt für einen Schüler ein überraschend gutes Ergebnis sehe, dass ich das irgendwie honoriere, dass jemand sich dann, zum Beispiel sehr gut vorbereitet hat oder doch irgendwie die Kurve gekriegt hat, wenn man weiß, ein Schüler hat es schwer gehabt privat, dass man ein bisschen nachsichtiger ist mit manchen Dingen. Also diese Individualität geht dann verloren und ich finde, dass die immer noch wichtig ist. Also bei aller (tiefes Einatmen) Objektivität, die in unserem Job sicherlich auch ihren Stellenwert hat, finde ich es doch wichtig, dass man auf den Schüler reagieren kann und das kann ja jemand, der außen vor ist, nicht. Also wenn man teilweise die Schicksale sieht, die Schüler haben, (…) ja, dann behalte ich mir vor zu sagen, für das, was du durchgemacht hast, hast du dich richtig ins Zeug gelegt und ich gebe vielleicht ein Zehntel oder zwei besser, dass jemand es zum Beispiel noch schafft. Man hat da auch noch oft das Endergebnis im Blick, manchmal geht es ja auch wirklich um Versetzungen oder um eine Ausbildung, die er kriegen könnte, um die er sich bemüht hat, weil es das einzige ist, was ihm in den letzten zwei Jahren Spaß gemacht hat. Und wenn man ihn dann durch zwei Zehntel das verbaut, hängt der ein Jahr länger in der Schule rum und driftet völlig weg, also wir haben ja einen anderen Auftrag nur als nur diese Leistungspritsche. Und deswegen wollte ich das nicht haben. (BW5, Position 166)

292

10

Ergebnisse der qualitativen Inhaltsanalyse

Eine nordrhein-westfälische Lehrerin deutet ebenfalls an, dass sie es grundsätzlich positiv empfindet, wenn ein Erwartungshorizont gewisse Spielräume beinhaltet und sie diesen im Kontext des tatsächlichen Beurteilungsprozesses differenzieren bzw. an die konkreten Prüfungsleistungen anpassen kann. Sie verweist diesbezüglich auch auf ihre alltägliche Beurteilungspraxis, in deren Rahmen sie den selbst erstellten Erwartungshorizont im Korrekturprozess auch sukzessive an die real existierenden Prüfungsleistungen anpasst. Die Lehrerin teilt jedoch auch die Ansicht mehrerer nordrhein-westfälischer Lehrkräfte, dass der Erwartungshorizont in den zentralen Prüfungen die Leistungsbeurteilung möglichst stark standardisieren soll, um die Vergleichbarkeit zwischen den unterschiedlichen Beurteilungen eines oder mehrerer Lehrpersonen zu gewährleisten: „ja, also hier muss es wirklich, bei so einer Geschichte [Anm. d. Verf.: zentrale Prüfung] muss es lückenlos sein. (..) Da darf es keinen Spielraum geben. Eigentlich rein theoretisch, ich finde das nicht gut, aber rein theoretisch, um es zu vergleichen, müsste das ja lückenlos sein“ (NW3, Position 174). Interpretation Der Fokus der Lehrkräfte liegt bei der Beurteilung der Konfigurationsvarianten sowie der Beschreibung der wünschenswerten Gestaltung eines Erwartungshorizontes insbesondere auf einem oder mehreren, der folgenden Aspekte: – praktische Anwendbarkeit: Unterstützt oder hindert die Konfigurationsvariante die Lehrkraft bei der Durchführung der Beurteilung (z. B. Umfang, Verständlichkeit sowie Art und Anzahl der Vorgaben)? – realistische Abbildung der Prüfungsleistungen: Ermöglicht die Konfigurationsvariante eine Beurteilung bzw. Notenvergabe, die der zugrundeliegenden Leistung angemessen ist (z. B. vollständige Berücksichtigung aller Teilleistungen, Bewertung und Benotung in Abhängigkeit des Schwierigkeitsgrads der Aufgabe sowie des Ausmaßes ihrer Bewältigung)? – Beitrag zur Objektivität: Ermöglicht die Konfigurationsvariante eine vergleichbare, möglichst objektive Beurteilungspraxis? – juristische Absicherung: Bildet die Konfigurationsvariante im Fall einer Klage eine rechtliche Absicherung für die Lehrkraft? In Abhängigkeit des gewählten Fokus variieren die Präferenzen der Lehrerinnen und Lehrer hinsichtlich der Gestaltung des Erwartungshorizontes deutlich. Trotz der heterogenen Einschätzungen und Wünsche können allerdings auch grundlegende (bundeslandübergreifende) Übereinstimmungen zwischen den Wahrnehmungen der Lehrkräfte identifiziert werden, die sich folgendermaßen zusammenfassen lassen:

10.2 Wahrnehmung des Erwartungshorizontes

293

– kurze, wenig textlastige und übersichtliche Gestaltung: Hinsichtlich der formalen Konfiguration zeigt sich die Tendenz, dass sich die Lehrpersonen unabhängig von der präferierten inhaltlichen Gestaltung des Erwartungshorizontes einen möglichst kurzen Umfang sowie eine hohe Übersichtlichkeit wünschen (z. B. anhand einer leicht lesbaren Schriftart, Absätze, tabellarischer Darstellungen). Hierbei deutet sich an, dass die formale Konfiguration mit Blick auf die Anwenderfreundlichkeit des Instruments bzw. die Zeitökonomie des Beurteilungsprozesses aus der Perspektive der Lehrkräfte nicht unerheblich ist. – grundlegende aufgabenspezifische Anleitung: Anhand der Äußerungen bezüglich der gering differenzierten Konfigurationsvariante wird deutlich, dass ein sehr kurzer, allgemeiner Erwartungshorizont aus unterschiedlichen Gründen von den Lehrerinnen und Lehrern abgelehnt wird (z. B. ungenügende Anleitung, kein Beitrag zur vergleichbaren Abschlussvergabe, keine juristische Absicherung). Folglich erachten die Lehrpersonen eine grundlegende aufgabenspezifische Anleitung im Hinblick auf eine fachliche, bildungspolitische oder rechtliche Nützlichkeit des Instruments in jedem Fall als sinnvoll. Abgesehen von diesen ähnlichen Präferenzen der befragten Lehrkräfte wurden hinsichtlich der weiteren inhaltlichen Gestaltung des Erwartungshorizontes variierende Wünsche geäußert. Speziell bezüglich des Verbindlichkeitsgrads des Instruments bzw. des Ausmaßes, inwieweit der Erwartungshorizont die Beurteilungspraxis standardisieren sollte, existieren unterschiedliche Wahrnehmungen, die bundeslandspezifische Tendenzen andeuten (d. h. die Einschätzungen innerhalb eines Bundeslandes sind nicht vollständig homogen, weisen jedoch gewisse Ähnlichkeiten auf) (Tabelle 10.2): Tabelle 10.2 Bundeslandspezifische Tendenzen der Gestaltung des Erwartungshorizontes Bundesland

Lösungsdarstellung

Anleitung der Bewertung und Benotung

BW

Formulierung von groben inhaltlichen Schwerpunkten, keine deren Berücksichtigung im Beurteilungsprozess nicht Punktevergabe vollständig verbindlich ist

NW

möglichst detaillierte und vollständige Angabe der erwar- kleinschrittige teten Leistungen Punktevergabe

294

10

Ergebnisse der qualitativen Inhaltsanalyse

Vergleicht man die beiden wünschenswerten Gestaltungsformen, zeigt sich, dass die baden-württembergischen Lehrkräfte tendenziell einen Erwartungshorizont bevorzugen, der den Beurteilungsvorgang deutlich weniger standardisiert und der Lehrperson eine größere (pädagogische) Freiheit belässt (vgl. BW1, Position 110; BW2, Position 36; BW5, Position 106). Wie bereits angedeutet, wünschen alle Lehrpersonen zwar eine grundsätzliche Vergleichbarkeit der Beurteilungen, jedoch nehmen die baden-württembergischen Lehrkräfte auch Spielräume im Erwartungshorizont positiv wahr, um situativ entscheiden zu können, ob ebenfalls weitere Aspekte im Rahmen der Beurteilung berücksichtigt werden (z. B. Passung zum vorgelagerten Unterricht, Entwicklung und Situation des Prüflings). Es ist folglich anzunehmen, dass die Beherrschung der Inhalte im Sinne einer kriterialen Bezugsnorm für die baden-württembergischen Lehrkräfte nicht der einzige Maßstab darstellt, sondern außerdem teilweise die individuelle Bezugsnorm sowie leistungsfremde Aspekte bei der Noten- und Zertifikatsvergabe einbezogen werden sollen. Die Lehrkräfte scheinen weniger die Rolle einer neutralen, distanzierten Selektionsinstanz einzunehmen, sondern vielmehr den individuellen Förderauftrag wahrzunehmen, die Prüflinge bei der Vorbereitung und Bewältigung der zentralen Prüfung individuell zu unterstützen (vgl. Prisching, 2011). Der Erwartungshorizont bildet somit aus der Sicht der baden-württembergischen Lehrkräfte vorrangig eine Orientierung bzw. Unterstützung der eigenen pädagogischen Kompetenz, dementsprechend wird eine stark differenzierte und verbindliche Gestaltung des Erwartungshorizontes als Einschränkung der Lehrkraft sowie als Hindernis für eine möglichst realistischen Abbildung der Prüfungsleistungen gewertet. Während die Autorin annimmt, dass bei den baden-württembergischen Lehrpersonen der Fokus auf dem individuellen Förderauftrag liegt, scheinen die nordrhein-westfälischen Lehrkräfte primär eine möglichst objektive Selektion der Prüflinge anzustreben (vgl. ebd.). Sie präferieren eine stark differenzierte und verbindliche Konfiguration des Erwartungshorizontes, die eine willkürliche Beurteilung vermeidet (vgl. NW2, Position 52; NW4, Position 38) und stattdessen eine vergleichbare, möglichst objektive Beurteilungspraxis schafft. Das Instrument bildet folglich eine verbindliche Vorgabe für sie. Aus der Sicht der nordrheinwestfälischen Lehrkräfte wirkt eine stark differenzierte und verbindliche Gestaltung des Erwartungshorizontes der subjektiven menschlichen Wahrnehmung entgegen und reduziert die Fehleranfälligkeit des Beurteilungsprozesses. Die Punktevergabe bildet im Kontext der wünschenswerten Gestaltung einen besonders umstrittenen Aspekt. Die Lehrkräfte favorisieren keine unterschiedlichen Formen der Punktevergabe, sondern besitzen vielmehr unterschiedliche Ansichten, ob Punkte vorgegeben werden sollten oder nicht. Während die badenwürttembergischen Lehrerinnen und Lehrer eine Punktevergabe als Einschränkung

10.2 Wahrnehmung des Erwartungshorizontes

295

der individuellen Beurteilungspraxis wahrnehmen und diese nicht wünschen, stellt dieses Element für die nordrhein-westfälischen Lehrkräfte im Hinblick auf eine vergleichbare und rechtlich abgesicherte Bewertung eine Notwendigkeit dar. Insgesamt erscheint es interessant, dass trotz der Präsentation unterschiedlicher Konfigurationsmöglichkeiten die gewünschte Gestaltung nicht maßgeblich von der jeweiligen landesweiten Variante abweicht, sondern dieser größtenteils ähnelt. Es verstärkt sich somit der Eindruck, dass eine grundsätzliche Zufriedenheit bezüglich der Existenz und der Gestaltung des bundeslandspezifischen Erwartungshorizontes besteht. Auch im Rahmen der vergleichenden Betrachtung der alternativen Gestaltungsvarianten stellen die Lehrkräfte primär die Vorzüge der landeseinheitlichen Variante heraus. Ausgehend von der hohen Übereinstimmung zwischen der wünschenswerten Form und der vorhandenen landesspezifischen Variante kann darüber hinaus angenommen werden, dass die landeseinheitliche Konfiguration des Erwartungshorizontes und die Arbeit mit diesem die Wahrnehmung der wünschenswerten Gestaltung deutlich beeinflussen. Ein weiterer potenzieller Einflussfaktor bezüglich der Wahrnehmung der Konfiguration des Erwartungshorizontes, welcher sich aus den Schilderungen der Lehrkräfte ableiten lässt, ist die Prüfungsklausur. So wird die Wahrnehmung der Prüfungsklausur in die Beurteilung der alternativen Konfigurationsvarianten des Erwartungshorizontes miteinbezogen. Darüber hinaus setzt sich bei den nordrhein-westfälischen Lehrkräften die Wahrnehmung eines niedrigen Niveaus der Prüfungsklausur auch bezüglich des Erwartungshorizontes fort (z. B. hohe Punktevergabe für einfache Leistungen, niedrige Bestehensgrenze). Folglich ist zu vermuten, dass die beiden Instrumente nicht nur hinsichtlich ihrer Erstellung und Ausgestaltung untrennbar verbunden sind (vgl. Köster, 2006), sondern sich auch ihre Wahrnehmungen gegenseitig beeinflussen. Neben der Beschreibung von Konfigurationswünschen thematisierten die Lehrkräfte auch den Umgang mit den jeweiligen landesspezifischen Varianten, wodurch außerdem ein Einblick in die subjektiven Erfahrungen hinsichtlich der Auswirkungen bestimmter Gestaltungsvarianten möglich wird. Ergänzend zu den vermuteten Folgen einer Punktevergabe zeigt sich anhand der Beschreibungen der badenwürttembergischen Lehrkräfte die Problematik eines Erwartungshorizontes ohne Punktevergabe hinsichtlich der Vergleichbarkeit von Beurteilungen zwischen den Lehrkräften. Unter Bezugnahme auf die Schilderungen der Lehrpersonen führt die Nutzung eines Erwartungshorizontes ohne Punktevergabe teilweise zu abweichenden Beurteilungen zwischen den Lehrkräften von mehr als einer Notenstufe, zudem wird der Bewertungsvorgang als eine Art schulischer Aushandlungsprozess beschrieben. In diesem Rahmen greifen die Lehrerinnen und Lehrer auf Standards zurück, die fast überall gelten und an welche man sich im Anschluss meistens hält

296

10

Ergebnisse der qualitativen Inhaltsanalyse

(vgl. BW5, Position 84) bzw. verweisen auf die Existenz von Kriterien, die „bisher in unserem Kreis [Hervorhebung v. Verf.], die doch für alle Lehrer irgendwo gelten, die auch jeder für sich (.) ja, in einer gewissen Form [Hervorhebung v. Verf.] auch berücksichtigt“ (BW4, Position 26). Aufgrund der schulspezifischen Absprachen muss die Existenz einer landesweit vergleichbaren, möglichst objektiven Beurteilungspraxis bei der Anwendung eines Erwartungshorizontes ohne die Vorgabe von Punkten kritisch hinterfragt werden. Die Beschreibungen der nordrhein-westfälischen Lehrkräfte zeigen ergänzend, dass die Gestaltung eines Erwartungshorizontes mit einer Punktevergabe bzw. der Arbeit mit diesem jedoch wiederum gewisse Herausforderungen birgt (z. B. kleinschrittige, möglichst genaue Zuordnung von Punkten zu Leistungen, Passung zwischen der Schwierigkeit der Leistung und der zu vergebenden Punktzahl, Übersetzung der Punkte in Noten), allerdings aus Sicht der Lehrkräfte die Varianz der Beurteilungen einschränkt. Insgesamt illustrieren die Lehrkräfte im Zuge der Schilderung von Erfahrungen mit dem landesspezifischen Erwartungshorizont sowie der Charakterisierung der wünschenswerten Gestaltung gleichermaßen Chancen und Herausforderungen einer geringer bzw. stärker differenzierten und verbindlichen Konfiguration des Erwartungshorizontes. Des Weiteren deutet sich die Bedeutsamkeit der bundeslandspezifischen Gestaltung des Instruments bzw. der Arbeit mit diesem sowie der vorgelagerten Prüfungsklausur bezüglich der Wahrnehmungen der Lehrkräfte hinsichtlich des Erwartungshorizontes an.

10.3

Wahrnehmung der Beurteilungspraxis

Neben den Wahrnehmungen der Lehrkräfte bezüglich des Erwartungshorizontes und dessen Konfiguration bildet die empfundene Beurteilungspraxis einen weiteren Schwerpunkt dieser Studie. Der Fokus liegt hierbei auf der Beschreibung des Umgangs mit dem Erwartungshorizont im Rahmen der Erst- und Zweitkorrektur: – Angebote hinsichtlich des Erwartungshorizontes (Abschnitt 10.3.1): Welche anleitenden und unterstützenden Angebote nehmen die Lehrkräfte wahr und inwiefern besteht diesbezüglich ein (weiterer) Bedarf? Welche Rückmeldemöglichkeiten hinsichtlich des Beurteilungsprozesses sowie insbesondere des Erwartungshorizontes sind den Lehrpersonen bekannt? Inwiefern werden die vorhandenen Angebote genutzt? – Umgang mit dem Erwartungshorizont (vgl. Abschnitt 10.3.2): Wie gestaltet sich das wahrgenommene Nutzungsverhalten des Erwartungshorizontes? Wie

10.3 Wahrnehmung der Beurteilungspraxis

297

hoch empfinden die Lehrkräfte die eigene Nutzungsintensität des Instruments? Welche Gründe führen sie für ihr Nutzungsverhalten an? Gibt es aus der Sicht der Lehrpersonen herausfordernde Situationen bezüglich der Anwendung des Erwartungshorizontes? Welche Relevanz besitzen Erwartungshorizonte über den zentralen Prüfungskontext hinaus? – Umsetzung der Zweitkorrektur (Abschnitt 10.3.3): Wie beurteilen die Lehrkräfte die Zweitkorrektur? Wie läuft die Zweitkorrektur aus der Perspektive der Lehrpersonen ab? Welche Gründe führen sie für ihr Nutzungsverhalten an? In den beiden letzten Unterkapiteln beziehen sich die Beschreibungen primär auf die wahrgenommene eigene Durchführung der Leistungsbeurteilung der Lehrkräfte, sofern vorhanden, werden aber auch entsprechende Einschätzungen hinsichtlich des Kollegiums berücksichtigt.

10.3.1 Angebote hinsichtlich des Erwartungshorizontes Im Kontext der Analyse von Angeboten bezüglich des Erwartungshorizontes wird zwischen zwei Formen unterschieden: – Unterstützungsangebote, die vor oder während der Nutzung des Erwartungshorizontes zum Einsatz kommen und den Umgang mit dem Erwartungshorizont grundsätzlich anleiten bzw. spezifische Anwendungsfragen klären – Feedbackangebote, die während oder nach der Nutzung des Erwartungshorizontes zum Einsatz kommen und konkrete Rückmeldungen der beurteilenden Lehrkräfte hinsichtlich der Gestaltung bzw. Anwendung des Erwartungshorizontes erlauben sowie für die Weiterentwicklung des Verfahrens hilfreich sind Unterstützungsmöglichkeiten bezüglich des Erwartungshorizontes Aktuell existiert gemäß mehreren Lehrkräften in beiden Bundesländern keine zentrale Anleitung des Umgangs mit dem Erwartungshorizont von Seiten der Bildungsadministrative. Zwar verweist eine nordrhein-westfälische Lehrerin auf die ehemalige Existenz einer zentralen Stelle für das Unterrichtsfach Mathematik, an welche man sich mit konkreten Fragen wenden konnte, allerdings bestehen große Unklarheiten bezüglich der Zuständigkeit sowie der Kontaktwege: B: Also ich glaube, dass es da irgendwie eine Hotline gibt oder sowas oder wenigstens eine E-Mail, an die man dann sich wenden kann. Wir hatten das, meine ich, bei Mathe

298

10

Ergebnisse der qualitativen Inhaltsanalyse

mal […]. Und da gab es auf jeden Fall irgendeinen Ansprechpartner, irgendwo da, aber ich weiß aber nicht genau, wie und wo das genau, wie das funktionierte, aber irgendwas gab es da. (NW5, Position 200)

Neben der vorhandenen Unwissenheit wird eine Heranführung durch die bildungsadministrative Ebene sowie weitere Informationen im Erwartungshorizont auch von mehreren Lehrpersonen deutlich als unerwünscht markiert wird: I: Ja, das heißt, von Seiten des Ministeriums kriegt man jetzt keine zusätzlichen Unterstützungsangebote, das ist jetzt schon schulabhängig, würde ich jetzt mal formulieren, wo man unterstützt wird. B: Nö. Sicher. I: Würden Sie sich das wünschen, dass das noch eine externe Möglichkeit gibt? B: Nein, also ich auf keinen Fall. I: Ja, also Sie würden sagen, es ist besser, wenn es dann in den Schulen bleibt. B: Also ein bisschen Autonomie brauchen die Schulen dann schon noch. (BW2, Position 101−106)

Der nicht vorhandene Unterstützungsbedarf wird sowohl ausgehend vom Instrument mit der grundsätzlichen Verständlichkeit des Erwartungshorizontes begründet als auch ausgehend von der Anwenderin bzw. vom Anwender aufgrund der eigenen professionellen Kompetenz, welche ein gewisses Maß an Autonomie notwendig macht: I: Ist aber auch von Ihrer Seite jetzt auch kein Bedarf, dass da irgendwie noch Anleitungen wären? B: Also (..) in regelmäßiger Form, sozusagen standardisiert noch mehr, brauchen wir, glaube ich, nicht. I: Okay, ja, ausreichend. B: Nee, das sehe ich nicht so. Ich meine, wir haben ja schon studiert und, und, ja, so ein bisschen uns damit befasst. Manche von uns lesen auch ab und zu mal und nein, ich will das nicht veralbern, die Frage ist völlig berechtigt, aber (.) das ist von dem Ärgernis in NRW mit der Punkteverteilung zu 80 bis 90 % selbsterklärend. Ja, das sehe ich schon so, ja. (NW2, Position 119−122)

10.3 Wahrnehmung der Beurteilungspraxis

299

Folglich wird eine Unterstützung in regelmäßiger Form bzw. mit einem obligatorischen Charakter grundsätzlich nicht gewünscht. Die Maßnahmen, welche von den Lehrkräften angeregt werden, sind vielmehr punktuelle und bedarfsorientierte Angebote für alle beteiligten Lehrpersonen (d. h. die Existenz einer Ansprechperson, die bei Unklarheiten kontaktiert werden kann) oder auf einen bestimmten Adressatenkreis begrenzt (d. h. Fortbildungen für Novizen im Kontext der zentralen Prüfung). Die Kontaktierung der zuständigen Fachberatung wird in Nordrhein-Westfalen als bereits vorhandenes, derartiges Angebot beschrieben. Allerdings wird auch in diesem Fall ergänzt, dass bislang keine Inanspruchnahme im Sinne einer Unterstützung des Beurteilungsprozesses erfolgte und auch kein Wissen hierüber besteht: B: Klar, Sie können bei den entsprechenden, heißt das Fachberatung, weiß ich gar nicht, ja, in NW2. dann anfragen. […] Ich weiß das von Geschichte, da haben wir auch zwei, drei gute Leute. Geschichte jetzt, ist Nebenfach Geschichte. Möglicherweise ist das in Deutsch auch so. Wie zuverlässig und wie schnell und akkurat dann die Repliken da laufen, weiß ich nicht. Wir haben das so auch noch nicht gehabt. Wir haben einen Widerspruch gehabt gegen, gegen eine (..) Abschlussnote, da war ich nicht Lehrer. Das hat eine Kollegin/ musste das bearbeiten, und das wurde dann nach NW2 weiter geleitet, und die haben den rechtlich zulässigen Rahmen, den ich gar nicht drauf/ aber müsste ich nachschlagen, also Benotung der ZP [Anm. d. Verf.: zentralen Prüfung] und der Vornote, es wurde gegen alles erst mal geklagt. Die haben den aber auch, glaube ich, voll ausgefüllt, also das hat eine Zeitlang gedauert, bis wir dann erfahren haben, wird dem Widerspruch statt/ ja, Widerspruch stattgegeben, und müssen wir uns jetzt sonst was überlegen oder wird der abgelehnt? Der wurde abgelehnt letztendlich, ne. Das hat/ das ging aber nicht in drei Tagen, das hat länger gedauert, ja. Finden wir natürlich gut, wenn der Widerspruch abgelehnt wird dann, aber (..) so viel mehr habe ich da so bisher noch nicht mit zu tun gehabt, auch nicht als Deutschfachgruppenleiter und das bin ich auch schon seit mehreren Jahren, ne. (NW2, Position 118)

Statt einer externen Unterstützung verweist der Großteil der Lehrkräfte auf die Anleitung durch Kolleginnen und Kollegen. Grob können zwei Bereiche differenziert werden, hinsichtlich derer in beiden Bundesländern eine kollegiale Abstimmung oder eine kollegiale Erläuterung bzw. Absicherung erfolgt. 1. Festlegung des grundsätzlichen Vorgehens bzw. des Umgangs mit dem Erwartungshorizont vor dem eigentlichen Beurteilungsprozess

300

10

Ergebnisse der qualitativen Inhaltsanalyse

Die baden-württembergischen Lehrkräfte treffen entsprechende Festlegungen hinsichtlich der Leistungsbeurteilung in der jährlichen, obligatorischen Korrekturbesprechung, in deren Rahmen sich sämtliche an der Korrektur beteiligte Lehrerinnen und Lehrer der beiden Partnerschulen zusammenfinden. Alle befragten Lehrpersonen beschreiben die Ausdifferenzierung und Ergänzung des Erwartungshorizontes als wesentliche Aufgabe, die in der Besprechung gemeinsam bewältigt wird. Konkrete Tätigkeiten bilden diesbezüglich die Diskussion und Definition der konkreten Lösungsinhalte bzw. deren erwartetes Niveau sowie die anschließende Bestimmung der Gewichtung bzw. Notenvergabe. Neben der Verbindlichkeit der Veranstaltung begründen die Lehrkräfte die kollegiale Abstimmung damit, dass hierdurch ein vergleichbarer Umgang mit dem Erwartungshorizont sowie eine transparente und gerechte Beurteilungspraxis erreicht werden kann. Sie berichten diesbezüglich von der Existenz schulspezifisch oder individuell variierender Beurteilungsmaßstäbe, die zu Abstimmungserfordernissen bzw. -schwierigkeiten führen: I: Ja. Jetzt hatten Sie es auch mal gesagt, man ist da auch ein bisschen subjektiv in gewissen Formen. Ich kann mir vorstellen, man ist natürlich auch mit einem unterschiedlichen Anspruch dann in der Korrektur und Beurteilung. Einigt man sich dann auf einen Konsens oder kann ich dann nach wie vor noch sagen: „Okay, ich sehe das jetzt aber so, ich würde das sehr streng bewerten.“ Geht sowas? B: In manchen Punkten kann man sich einigen, aber das sind dann eher eben subjektiv festlegbare Punkte, und in anderen Punkten, also formale Punkte, da ist ganz klar, was Sache ist, und da hilft eben auch der Erwartungshorizont, dass man da gar nicht dran rumdiskutieren muss. Und ansonsten ist natürlich auch klar, dass jeder nach seinem eigenen Gewissen prüft (BW1, Position 49−50)

Mehrere baden-württembergische Lehrpersonen verweisen darauf, dass die Konkretisierung des Erwartungshorizontes unter Berücksichtigung des vorgelagerten Unterrichts (d. h. Art, Schwerpunkt und Umfang der behandelten Inhalte) erfolgt: „Ja, eben geprüft wie gelehrt, dass die Kolleginnen untereinander wissen, was wurde denn gelehrt, und was ist in Ordnung, und was ist nicht in Ordnung“ (BW1, Position 48). Obwohl in Nordrhein-Westfalen weder eine fakultative noch eine verbindliche schulübergreifende Korrekturbesprechung organisiert wird, finden dennoch schulinterne Absprachen in variierendem Umfang bzw. unterschiedlicher Form statt, z. B. in (Fach-)Konferenzen, informellem Zusammensitzen bzw. telefonischen Gesprächen zwischen zwei oder mehreren Lehrkräften. Die befragten Lehrpersonen berichten diesbezüglich ebenfalls primär von einer Ausschärfung des Erwartungshorizontes. Neben der grundsätzlichen Konkretisierung der erwarteten Leistungen, verweisen

10.3 Wahrnehmung der Beurteilungspraxis

301

mehrere Lehrkräfte speziell auf das Erfordernis, die bestehende Punktezuordnung weiter zu differenzieren und die vorhandenen Spielräume (durch die Anführung von Auslassungspunkten oder die Existenz des weiteren aufgabenbezogenen Kriteriums) mit Inhalt zu füllen (vgl. NW5, Position 18): B: Ja, wir sitzen ja dann da meistens mit, wir haben ja drei Klassen, dann sitzen wir da meistens mit sechs Mann. Das geht, das ist in Ordnung, also wir finden da irgendwie einen Konsens. (..) Also wir haben dann eben/ also ich bin da immer sehr, ein bisschen akribischer, und ich habe eine Kollegin, die dann wirklich: „Ja komm, einen Punkt drauf“, und dann sagen wir: „Ja, komm, aber der muss dann wenigstens mal das und das dazu gepackt haben“, dass wir dann wirklich so einen Kompromiss finden. Das ist dann immer ganz okay, und da halten sich dann auch wirklich alle dran, das ist okay. (NW3, Position 190)

Die Begründungen des Erfordernisses einer kollegialen Absprache stimmen insgesamt mit denen der baden-württembergischen Lehrerinnen und Lehrer überein. Konkret wird die Vermeidung von Willkür und die Schaffung einer vergleichbaren, gerechten Beurteilungspraxis genannt: B: […] Und (..) dann setzen wir Kollegen uns zusammen, die die ZP [Anm. d. Verf.: zentrale Prüfung] alle geschrieben haben und erstellen quasi den Bewertungsbogen oder werten den so ein bisschen auf. (..) Ja, und dann wusele ich mich zu Hause da durch. Also ich nehme die Klassenarbeit, habe den Bewertungsbogen neben mir liegen und versuche dann abzuhaken. I: Das heißt, ihr setzt euch dann wirklich im ganzen Deutschkollegium zusammen, um das dann/ B: Ja, die Drei, also sind dreizügig hier. I: Die Beteiligten. B: Genau, die Drei, die beteiligt sind. Wir setzen uns hin mit den Bewertungsbögen, die wir vom Ministerium bekommen. Und, ja, bearbeiten im Prinzip die ganze Prüfung und überlegen, was müssen die Kinder bei den einzelnen Teilaufgaben schreiben, was wollen wir von denen hören, was muss auf jeden Fall drin sein. Natürlich muss das nicht wortwörtlich so sein, wie wir uns das notiert haben, aber so vom Sinn her. Das schreiben wir auf, ja, und dann korrigiert jeder für sich selbst, aber zu Hause. I: Okay, das heißt, ordnet ihr dann auch schon Punkte zu, zu den Elementen, weil die ja dann auch großflächiger sind. B: Genau, alles, komplett. Also wirklich sehr kleinschrittig, dass es da nicht mehr so viel Spielraum gibt, also dass es einfach gerecht und vergleichbar ist, also dass ich die gleiche Note gebe wie meine Kollegen aus der Parallelklasse. (NW5, Position 148−154)

302

10

Ergebnisse der qualitativen Inhaltsanalyse

Die Vergleichbarkeit scheint allerdings teilweise auch in Nordrhein-Westfalen nur schulintern angestrebt zu werden, da von einer gemeinsamen Konkretisierung des Erwartungshorizontes in Abstimmung auf den vorgelagerten Unterricht berichtet wird (vgl. NW2, Position 66). Eine nordrhein-westfälische Lehrerin, die auf die Möglichkeit einer obligatorischen schulübergreifenden Korrekturschulung angesprochen wird, wertet diese zwar als Chance zur Erhöhung der Vergleichbarkeit, äußert jedoch auch eindeutig ihr Missfallen bezüglich dieser Standardisierungsmaßnahme. Sie verweist stattdessen auf die ihres Erachtens sinnvollere Standardisierung über die Gestaltung eines Erwartungshorizontes, der eine landesweite Vergleichbarkeit der Beurteilung ohne ergänzende Maßnahmen schafft: B: (…) (seufzt) Also ich, für mich persönlich halte ich da eigentlich nichts von [Anm. d. Verf.: Bezug auf die baden-württembergischen Korrekturbesprechungen], denn ich mache das ja hier schon an der Schule, wir besprechen das ja. Warum muss ich mich jetzt noch mit anderen Schulen zusammensetzen, warum wird das nicht direkt dann im Bewertungsbogen vom Ministerium so vorgegeben, was wir jetzt da machen sollen, warum wird das dann auf uns abgewälzt, (.) frage ich mich. Auf der anderen Seite sind haben die Schüler, für die es bestimmt noch gerechter wäre oder zumindest, nicht für die Schüler persönlich, aber dass es so vergleichbar wäre für alle, vergleichbarer. (NW5, Position 180)

2. Klärung von Unsicherheiten, Unklarheiten und Schwierigkeiten während des eigentlichen Beurteilungsprozesses Zusätzlich zum Austausch sowie der gemeinsamen Festlegung grundsätzlicher Vorgehensweisen im Rahmen der Leistungsbeurteilung wird bundeslandübergreifend eine prozessorientierte kollegiale Unterstützung beschrieben, die in der Regel informell und bedarfsorientiert erfolgt. Vor allem Unsicherheiten und Unverständnis im Kontext der Anwendung des Erwartungshorizontes auf konkrete Schülerprodukte führen dazu, dass die Lehrkräfte sich (erneut) austauschen, Beurteilungen gegenlesen oder sogar phasenweise gemeinsam korrigieren: B: Und, ja, also ich bin schon, also ich bin da sehr gewissenhaft, und ich gehe durch jede Arbeit dreimal durch und bin mir am Ende dann eigentlich schon sicher. Und wenn nicht, frage ich so auch Kollegen, also es ist ja schon so öfters mal so, dass man zwei Deutschkollegen sieht, die mit einem Aufsatz oder zweien zusammensitzen und auch selbst mit Abschlussprüfungen und sagt, ah, wie würdest du das jetzt bewerten. Und ich hatte jetzt auch einen, den habe ich relativ gut am Anfang bewertet, aber wenn man es dann nochmal so drüber geguckt hätte, hat man doch gesehen, es war alles nur angerissen, es war nicht wirklich ausgearbeitet, nicht vertieft, der war auch extrem kurz,

10.3 Wahrnehmung der Beurteilungspraxis

303

der Aufsatz. Und dann habe ich auch mit/ also dann habe ich einfach einen Vergleich mit einem anderen, mit einer Kollegin dann drüber gesprochen und dann waren wir uns da eigentlich auch relativ schnell einig. Aber wenn man sich so nicht ganz sicher ist, dann sind ja die Leute auch noch da, und man schaut mit denen drüber. (BW5, Position 128)

Im Kontext der Beschreibung dieser bedarfsorientierten und schulabhängigen Anleitung deuten sich außerdem deutlich variierende Unterstützungsbedürfnisse der einzelnen Lehrpersonen an, die wiederum nicht konstant sind, sondern sich situationsabhängig verändern: I: Ja. Finden da dann auch irgendwelche Abstimmungen im Kollegium statt, während der Korrekturphasen, wo man sich quasi dann nochmal zusammensetzt in irgendeiner Form? B: Ja, das macht im Grunde/ jede Fachschaft entscheidet das für sich, ob sie das braucht oder nicht. Es gibt auch Kollegen, die sagen, habe ich alles verstanden, brauch ich nicht. Ich mache das gerne, also ich unterhalte mich gerne noch mit den Kollegen: „Wie hast du denn die A? Wie hast du denn die B?“ (NW1, Position 155−156)

Insgesamt wird die kollegiale Unterstützung von mehreren Lehrkräften als positiv bewertet, da hierdurch u. a. auch ein Sicherheitsgefühl wahrgenommen wird, vergleichbar bzw. möglichst objektiv zu beurteilen. Darüber hinaus verweist eine Lehrerin auf die Bedeutsamkeit, die Wahl einer geeigneten Ansprechpartnerin bzw. eines geeigneten Ansprechpartners selbstständig zu treffen: B: Also was ich ganz arg hilfreich fand in meinen ersten Jahren, war, gemeinsam zu korrigieren, mit Kollegen. Also in welcher Form auch immer. Also ich hatte das teilweise, dass wir Korrekturwochenenden gemeinsam gemacht haben, wo man dann eben sich austauschen konnte und fragen: „Wie findest denn du das, was denkst denn du da drüber?“ Oder Telefonkonferenzen hatte ich auch, also dann nicht mit meinem Zweitkorrektor, sondern eben mit meiner Parallelkollegin oder mit einem Parallelkollegen. Und das fand ich unglaublich hilfreich, weil man eben manchmal selber an der eigenen, ja, Objektivität zweifelt und da eine zweite Meinung braucht. Und das, ja, das fand ich gut. I: Ja. Also einfach, dass man da den Austausch einfach nochmal sucht im Kollegium. Das ist dann aber wahrscheinlich auch schulabhängig, wie viel Glück man hat. B: Das ist kollegenabhängig. (lacht) (..) Ich denke, jeder hat an der Schule irgendwie ein, zwei Leute, mit denen er sich gut versteht, oder mehr. Manchmal passt es innerhalb der Stufe und manchmal passt es nicht, aber ich finde den Austausch trotzdem wichtig.

304

10

Ergebnisse der qualitativen Inhaltsanalyse

Aber das macht man natürlich mit jemand, mit dem man irgendwie in einer vertrauensvollen Beziehung steht und nicht mit dem Kollegen, von dem man weiß, der schmiert es einem vielleicht hinterher aufs Butterbrot. Also (.) das ist nichts, glaube ich, was man verordnen kann. (BW1, Position 52−54)

Feedbackmöglichkeiten bezüglich des Erwartungshorizontes Die Wahrnehmungen der Existenz von Feedbackmöglichkeiten unterscheiden sich deutlich zwischen den beiden Bundesländern. Alle befragten Lehrerinnen und Lehrer aus Baden-Württemberg kennen die Option, Hinweise und Anregungen per Mail an das zuständige Regierungspräsidium zu senden. Die Inanspruchnahme gestaltet sich jedoch wiederum heterogen. Mehrere Lehrpersonen nutzen die Rückmeldeoption und merken hierüber inhaltliche Fehler an (z. B. das Fehlen einer Quellenangabe). Zwei Lehrkräfte betonen darüber hinaus, dass sie eine Feedbackgabe als wichtig empfinden, allerdings bei einigen Kolleginnen und Kollegen eine negative Einschätzung der Sinnhaftigkeit bzw. Umsetzung der Rückmeldungen und folglich eine bewusste Nicht-Nutzung wahrnehmen: B: […] Also, ja, man kann aber da einfach Rückmeldung geben. Inwieweit es jetzt berücksichtigt wird, weiß ich nicht, ja. […] I: Also Sie nutzen das dann auch tatsächlich? B: Genau, ja. Also bei uns in der Schule, unsere Fachvorsitzende sammelt es einfach und schickt es dann auch entsprechend hin. I: Ja. B: Das ist bei uns schon so ein bisschen, ja, eigentlich eine, schon eine Kultur, dass man das weitergibt, wenn/ Ja, es gibt immer die Kollegen, die sagen: „Ah, bringt es überhaupt was, müssen wir, lohnt sich der Aufwand.“ Aber unsere Fachvorsitzende ist auch so motiviert, dass sie es wirklich sammelt und hinschickt und dann ist es ja in Ordnung. Ja, ist ja auch kein großer Aufwand. Ich meine, es sind zwei, drei Sachen, die man hin/ und dann per E-Mail hinschicken. Und ich glaube das, ja, ich glaube, wenn ich sowas machen würde, wäre es schon gut, weil man dann ja doch/ also zumindest diejenigen, die dann da in der Behörde sitzen, die ja den direkten Bezug zu den Schülern nicht mehr haben, aber die da eine Rückmeldung kriegen, okay, das und das war komplizierter oder da, dies und dieses Wort zum Beispiel vielleicht besser erklären vom Niveau her. Ist vielleicht gar nicht schlecht, wenn da nochmal einfach eine Rückmeldung direkt von der Basis kommt. (BW4, Position 112−118)

10.3 Wahrnehmung der Beurteilungspraxis

305

Die verantwortlichen Personen der Bildungsadministrative werden im ausgewählten Ausschnitt als Mitarbeiterinnen und Mitarbeiter einer Behörde ohne aktuelle schulpraktische Erfahrungen beschrieben werden. Demgegenüber ergänzt ein Lehrer seine Aussage, kein Feedback zu geben, um die Information, dass an der Erstellung des Erwartungshorizontes auch „ganz normale Lehrkräfte“ (BW3, Position 90) beteiligt sind, d. h. „nicht irgendwelche Menschen, die irgendwo an Universitäten oder so sitzen, sondern […] Praktiker“ (ebd.). Eine weitere Lehrperson berichtet im Kontext ihrer Nicht-Nutzung von negativen Erfahrungen in einem anderen Rückmeldekontext, in welchem eine erwartete Information über den Erhalt bzw. die Umsetzung ihres Feedbacks ausblieb. Bei den befragten nordrhein-westfälischen Lehrerinnen und Lehrern zeigt sich bereits eine heterogene Wahrnehmung hinsichtlich der Existenz von Feedbackmöglichkeiten. Mehrere Lehrkräfte äußern eine Unsicherheit, inwiefern entsprechende Angebote bestehen. Während eine Lehrerin vermutet, dass die Schulleiterin bzw. der Schulleiter eine Rückmeldung an das zuständige Ministerium gibt, sind mehrere Lehrkräfte der Meinung, dass keine derartigen Optionen existieren. Sie verweisen darauf, nicht gefragt worden zu sein oder sogar „nicht das Gefühl [zu haben], dass das jemanden [von bildungsadministrativer Seite] interessiert, wie ich das finde“ (NW1, Position 142). Auch der Bedarf bezüglich einer Rückmeldeoption unterscheidet sich zwischen den nordrhein-westfälischen Lehrkräften stark. So geben einige Lehrpersonen an, keinen Wert auf eine Feedbackmöglichkeit zu legen, da sie wahlweise nicht glauben, dass dies zielführend ist oder diese aufgrund der Zeitknappheit im Kontext der Prüfung nicht nutzen würden. Trotz der Erfahrung im Rahmen der Vergleichsarbeiten6 (im Folgenden: VERA), dass es keine Informationen zu den eigenen Rückmeldungen und deren Umsetzung gibt, wünscht sich wiederum eine weitere Lehrerin eine Feedbackmöglichkeit im Kontext der zentralen Prüfung zum Erwerb des MSA. Interpretation Insgesamt sind die Wahrnehmungen der Unterstützungs- und Feedbackangebote zwischen und innerhalb der Bundesländer heterogen. In beiden Bereichen ist auffällig, dass vergleichsweise viele Unklarheiten hinsichtlich entsprechender Angebote bestehen. Mehrere nordrhein-westfälische Lehrkräfte sind sich bereits bezüglich deren Existenz unsicher. Dies könnte u. a. als erneuter Hinweis auf die eingeschränkte Information bzw. Kommunikation zwischen den Ebenen gewertet werden. 6 Bei

den Vergleichsarbeiten handelt es sich um „schriftliche Arbeiten in Form von Tests, die flächendeckend [deutschlandweit] und jahrgangsbezogen untersuchen, welche Kompetenzen Schülerinnen und Schüler zu einem bestimmten Zeitpunkt erreicht haben“ (Institut zur Qualitätsentwicklung im Bildungswesen, 2016).

306

10

Ergebnisse der qualitativen Inhaltsanalyse

Darüber hinaus könnte die Unwissenheit auch aus einer eingeschränkten Eigeninitiative resultieren und einige Aussagen bezüglich eines geringen Interesses bzw. Bedarfs an Unterstützungs- und Feedbackmöglichkeiten von Seiten der Lehrkräfte unterstreichen. Die Bedeutsamkeit der Unterstützung durch Kolleginnen und Kollegen zeigt sich, ähnlich wie bei der Heranführung an die zentrale Prüfung sowie der Prüfungsvorbereitung der Schülerschaft auch im Rahmen der Leistungsbeurteilung. Der fachliche und organisatorische Erfahrungsaustausch mit anderen Lehrpersonen wird grundsätzlich positiv und außerdem teilweise hinsichtlich der angestrebten Vergleichbarkeit als notwendig bewertet, jedoch zeigt sich die Tendenz, dass die Lehrkräfte bundeslandübergreifend keine (stärkere) externe Regelung oder Intensivierung dieser Unterstützung wünschen (z. B. durch die Bestimmung der Ansprechpersonen sowie der Art und Frequenz des Austauschs im Kollegium). Stattdessen schätzen sie speziell einen bedarfsgerechten und informellen Austausch, welcher vor allem zur Klärung von Fragen stattfindet. Hinsichtlich einer externen Anleitung durch die Bildungsadministrative werden ebenfalls keine Wünsche bzw. teilweise sogar deutliches Desinteresse geäußert. Mögliche Gründe für die Tendenz, eine umfangreichere bzw. stärkere verbindliche Anleitung eher abzulehnen, bilden Befürchtungen hinsichtlich: – einer geringen Unterstützung bzw. Sinnlosigkeit von Maßnahmen (z. B. aufgrund der als gering wahrgenommenen schulpraktischen Erfahrungen der Bildungsadministrative oder dem obligatorischen Austausch mit Kolleginnen und Kollegen, welche sich nicht wohlgesonnen sind) – einer Einschränkung der pädagogischen Professionalität (z. B. Verbot oder Erschwerung der Berücksichtigung des vorgelagerten Unterrichts im Kontext der Beurteilung) – einer Mehrarbeit bzw. zeitlichen Einschränkung (z. B. durch weitere, umfangreichere Abstimmungen) Betrachtet man die Aussagen dieser Themenbereiche im Hinblick auf die Intentionen und Ziele der zentralen Prüfungen, verweisen die teilweise beschriebene Ausdifferenzierung und Ergänzung des Erwartungshorizontes in Abstimmung auf den vorgelagerten Unterricht auf eine eingeschränkte Vergleichbarkeit der Beurteilung, die maximal auf die Klassen- oder Schulebene begrenzt ist. Obwohl die Lehrkräfte die Vergleichbarkeit zuvor als angestrebtes Ziel genannt haben und diese größtenteils als wichtig bewerten, scheint für einige Lehrkräfte die Validität der Prüfung (d. h. die Passung zwischen gelehrten und geprüften Inhalten) bedeutsamer zu sein, als die Reliabilität der Beurteilung.

10.3 Wahrnehmung der Beurteilungspraxis

307

10.3.2 Umgang mit dem Erwartungshorizont Anknüpfend an die heterogenen Wahrnehmungen des Erwartungshorizontes unterscheiden sich auch die Beschreibungen hinsichtlich des Umgangs mit diesem Instrument deutlich. Bereits hinsichtlich der Verbindlichkeit der Nutzung des Erwartungshorizontes existieren verschiedene Einschätzungen. Der Großteil der Lehrkräfte vermutet, dass dessen Nutzung obligatorisch ist und beschreibt deutlich den wahrgenommenen Zwang, der unabhängig vom individuellen Sinnempfinden besteht: B: […] Wir sind ja formal auch dazu [Anm. d. Verf.: Nutzung des Erwartungshorizontes] gezwungen, das heißt, Frau Mathes, Sie werden jetzt von mir nicht den Aufruf zur Revolution hören oder das Eingeständnis, schon irgendwo gezündelt zu haben, obwohl das schon dann ab und an, überwiegend nicht, aber ab und an ärgerlich ist, das ist sicherlich der Fall. (NW2, Position 128)

Der Erwartungshorizont bildet für alle nordrhein-westfälischen sowie einige badenwürttembergische Lehrpersonen „ein Instrumentarium […], an das sich alle halten müssen und nach dem sich alle richten müssen“ (BW2, Position 30) oder „die Maxime, an der ich mich orientiere, so ist es richtig, und meine eigene Meinung ja keine Rolle spielt, ist das für mich die maßgebliche Vorgabe“ (NW1, Position 174). Die Nutzung dieses Instruments ist aus ihrer Perspektive „Pflicht“ (NW5, Position 62) und sie sehen „gar keine Freiheit, das anders zu machen“ (NW1, Position 180). Ein baden-württembergischer Lehrer ergänzt, dass es sich bei der wahrgenommenen Verbindlichkeit des Erwartungshorizontes in seinem Fall jedoch nur um eine Annahme handelt, die er bislang nicht verifiziert hat: B: Gute Frage, wir nehmen es [Anm. d. Verf.: den Erwartungshorizont] immer als verbindlich an, ich weiß aber nicht, ob es tatsächlich im Schulgesetz so drin steht. (lacht) Müsste ich tatsächlich mal nachschauen, ob es als verbindlich hier drin steckt. (…) Hm, (..) das heißt Hinweise, glaube ich, steht oben drüber, aber wie verbindlich ist ein Hinweis, der vom Kulturministerium kommt, hm. (lacht) Nee, also da es bisher auch immer sinnvoll war, was da drin stand, haben wir das auch noch nie infrage gestellt. (kurzes Auflachen) Müsste ich tatsächlich, wäre interessant, ob man das jetzt verweigern kann und sagen kann, das kann auch was ganz anderes sein. (BW4, Position 58)

Zwei baden-württembergische Lehrkräfte deuten im Gegensatz dazu an, dass der Erwartungshorizont ihrer Meinung nach „eine Empfehlung“ (BW5, Position 54),

308

10

Ergebnisse der qualitativen Inhaltsanalyse

„ein Vorschlag“ (BW5, Position 120) bzw. eine „Orientierungshilfe“ (ebd.) darstellt, dessen Nutzung nicht verbindlich ist. Vielmehr ist aus ihrer Sicht „die Freiheit […] da. Und das ist auch gewünscht, dass man dem Schüler gerecht wird und jetzt nicht nur sklavisch sich an irgendwelchen Richtlinien abarbeitet“ (BW1, Position 112): B: Ja, also es [Anm. d. Verf.: der Erwartungshorizont] ist ja nicht verpflichtend zu sehen, sondern man kann dann schon sagen, okay, ich habe jetzt (tiefes Einatmen) die eine Sache nicht so ganz vertieft, das kann sein, dass sie das nicht so haben, das soll man dann vielleicht nicht ganz so streng gewichten, können sie nicht wissen, dass man/ so Sachen kann man dann schon noch abklären, also Einzelpunkte. Aber so im Großen und Ganzen hat man doch eine Richtschnur. (BW5, Position 58)

Auch hinsichtlich der Überprüfung der Nutzung existiert keine einheitliche Einschätzung. Eine Lehrerin berichtet von stichprobenartigen Kontrollen im Anschluss an die Zweitkorrektur, besitzt diesbezüglich jedoch keine praktischen Erfahrungen und äußert Zweifel, dass es sich hierbei um eine systematische bzw. umfangreiche Maßnahme handelt: I: Mhm (bejahend), das heißt, wird das in irgendeiner Form von Seiten des Ministeriums überprüft, ob du den [Anm. d. Verf.: Erwartungshorizont] nutzt oder nicht? B: Also es werden wohl Stichproben gemacht, nachdem der Zweitkorrektor die Arbeit nachkorrigiert hat, aber ja gut das sind dann halt nur Stichproben und ich wüsste nicht, dass an unserer Schule schon mal Stichproben gemacht worden sind. Ich meine dennoch wird das gesagt, wahrscheinlich um den Druck auch zu erhöhen, einfach die Arbeiten korrekt zu korrigieren, aber dass das gezielt kontrolliert wird, davon gehe ich nicht aus, das ist ja auch bei der Masse überhaupt gar nicht machbar. (NW5, Position 251−252)

Mehrere Lehrkräfte vermuten wiederum, dass keine externe Kontrolle durch die Bildungsadministration erfolgt, allerdings sind sie sich diesbezüglich auch nicht vollständig sicher. In diesem Kontext deutet sich darüber hinaus die grundsätzliche Tendenz an, dass eine derartige Überprüfung eher unerwünscht ist. Mehrere Befragte betonen, dass sie eine externe Kontrolle als Vertrauensbruch oder Bevormundung empfinden und entsprechend ablehnen. Sie begründen zudem die Überflüssigkeit einer Kontrolle anhand ihrer Kompetenz, des schülerorientierten Ethos oder der Akzeptanz des zentralen Formats. Außerdem verweisen mehrere Lehrkräfte darauf, dass bereits eine kollegiale Überprüfung im Rahmen der Zweitkorrektur stattfindet, die zu einer möglichst objektiven Beurteilung beiträgt:

10.3 Wahrnehmung der Beurteilungspraxis

309

B: (…) Andersrum gefragt, (..) ist es sinnvoll (…) zu bevormunden? Was macht das mit mir, was macht das mit mir? (…) Ich muss als Lehrerin ein Stück weit auch Rückgrat zeigen. Und dann wird es mir da genommen? Weil das ist sowieso so eine zweischneidige Geschichte, was Lehrer sein und Rückgrat haben angeht. Aber je mehr Vorgaben, je mehr Hinweise jemand hat, desto enger wird sein Handlungsspielraum. Klar, je enger mein Handlungsspielraum ist, desto weniger bin ich angreifbar, (..) desto mehr, desto mehr kann ich auch juristisch mich abgesichert sehen, das ist ganz klar. Aber, hinter dieser Frage steckt für mich auch ein bisschen so, wie (.) ein bisschen mein Ethos, darum geht es für mich auch. Ich werde diesen Handlungsspielraum nie ausnutzen. Ich werde den Handlungsspielraum nie (..) missbrauchen. Und ich kenne keinen Kollegen, keine Kollegin, die ihn missbrauchen würde. Und wenn ich Kollegen und Kolleginnen erlebt habe, die etwas, die so etwas lässiger da ran gegangen sind, dann müssen sie das mit ihrem Gewissen vereinbaren, dann müssen sie es verantworten. Und dann gibt es noch das Korrektiv Zweitkorrektor. (BW2, Position 114)

Trotz der Hervorhebung der Unerwünschtheit und Überflüssigkeit einer externen Kontrolle berichtet eine Lehrerin auch von einer konkreten Situation, in welcher sie eine Überprüfung inklusive entsprechender Konsequenzen für ein teilweise oder vollständige Nicht-Nutzung des Erwartungshorizontes begrüßt hätte, um eine Vergleichbarkeit zwischen den Schulen zu gewährleisten: I: […] Würden Sie sich das wünschen, dass es nochmal eine externe Kontrolle gibt? B: Hm. (..) Nee, eigentlich nicht. Eigentlich nicht, also weil, da spricht man ja den, den Kollegen die Eigenverantwortung ab, und eigentlich finde ich das eher unangenehm, wenn dann nochmal jemand drüber guckt. Klar, in Streitfällen ist es wichtig, dass nochmal jemand drüber guckt. Aber wir haben alle studiert, wir haben langjährige Erfahrung, und wir unterstützen das System einer zentralen Prüfung, und ja, das soll ausreichen. Also eigentlich, wir sind alles Pädagogen, das heißt, das Wohl des Kindes steht bei uns eigentlich, so hoffe ich doch bei allen, (kurzes Auflachen) auf Platz 1, und das, das sollte zentral sein. Ich meine, tatsächlich, (..) das muss ich vorsichtig formulieren, wir haben durchaus auch schon Probleme gehabt mit Partnerschulen, tatsächlich eher aus dem Privatschul-Bereich, wo eben die Standards nicht eingehalten wurden und offensichtlich auch die Erwartungshorizonte in keinster Weise berücksichtigt wurden, wo wir uns gewünscht hätten, dass da mal eine Schulaufsicht drüber geht, und das ist aber ganz schwierig. Also das ist uns über Jahre hinweg bisher noch nicht gelungen, da, ja, weiter zu kommen in dem speziellen Fall. I: Das heißt, das hat dann keine Konsequenzen? B: Bisher noch nicht, nee. I: Okay, das heißt, theoretisch könnte man auch einfach nach eigenem Gutdünken das machen und dann/

310

10

Ergebnisse der qualitativen Inhaltsanalyse

B: Also wir kontroll/ klar, es gibt die Zweitkorrekturnote und die müssen das eben entsprechend natürlich auch mit einrechnen sozusagen und mitteln, aber wenn dann Schüler mit einer 2 oder 1 eingereicht ist, der offensichtlich, also wo man sich nicht erklären kann nach diesem Aufsatz, dass der überhaupt auf so eine Jahresleistung kam. Und wenn das irgendwie Standard scheint an der Schule, dass das Niveau unglaublich niedrig ist, ja. (seufzt) I: Ja klar, dann ist es natürlich nicht mehr fair, wenn man gerade die eigenen Schüler/ B: Dann ist es nicht mehr fair, und dann ist die Vergleichbarkeit eben auch nicht gerechtfertigt da. Oder nicht gewährleistet, so rum. I: Das heißt, in solchen Fällen wäre es vielleicht sogar sinnvoll, nochmal irgendwie eine externe Instanz/ B: Klar, aber ich meine, da müssen wir andere/ also da gehen wir natürlich andere Wege. Das läuft bei uns übers Schulamt und so weiter und so fort. Aber, ja, das läuft über die Schulaufsichtsbehörde. Aber welche Schritte die dann wiederum gehen, habe ich ja nicht mehr in der Hand. Melden können wir das und (..) dann ist es so. (BW1, Position 123−132)

Eine weitere Lehrerin verbindet eine Überprüfung weniger mit der Kontrolle bzw. Reduktion von bewusst devianten Handlungen (z. B. Cheating), sondern verweist im Hinblick auf eine Weiterentwicklung des Verfahrens und der Gestaltung sowie des Einsatzes des Erwartungshorizontes auf die Sinnhaftigkeit einer „Abfrage, wie die denn genutzt worden sind“ (NW4, Position 148). Obwohl der Großteil der Lehrkräfte die Nutzung des Erwartungshorizontes als verbindlich wahrnimmt, schildern mehrere baden-württembergische Lehrpersonen Fälle, in welchen vollständig oder teilweise von der Nutzung des Instruments abgesehen wird. Im Sinne eines opportunistischen Verhaltens berücksichtigen ganze Schulen den Erwartungshorizont nicht, um die Leistungen der Prüflinge besser bewerten zu können: B: […] Ich habe dieses Jahr eine Zweitkorrektur gehabt von einer Partnerschule, wo (..) meine Kollegen und ich die zweitkorrigiert haben (.), im Schnitt eher schlechter waren, weil wir auch das Gefühl haben, dass die andere Schule eher gut bewertet, ist eine Privatschule. (seufzt) (.) (BW5, Position 62)

Da die Teilnahme an den Korrekturbesprechungen verbindlich ist, die tatsächliche Beurteilung aber in der Regel alleine durchgeführt wird, besteht auch die Möglichkeit, dass einzelne Lehrkräfte teilweise oder vollständig auf die Nutzung des Erwartungshorizontes verzichten. Konkret berichtet eine Lehrerin von Kolleginnen bzw. Kollegen, die zwar an den Korrekturbesprechungen teilnehmen, jedoch auf ihre

10.3 Wahrnehmung der Beurteilungspraxis

311

bisherige eigene Weise korrigieren möchten und deshalb vollständig oder teilweise auf die Anwendung des Erwartungshorizontes verzichten (vgl. BW2, Position 112). Demgegenüber schätzen mehrere nordrhein-westfälische Lehrpersonen und ein baden-württembergischer Lehrer ihr Umfeld von Kolleginnen und Kollegen derart ein, dass sie ausnahmslos anhand der Erwartungshorizonte beurteilen und verweisen diesbezüglich teilweise auf die wahrgenommene Nutzungspflicht: B: […] Es [Anm. d. Verf.: der Erwartungshorizont] wird auf jeden Fall genutzt, also auch bei der (…) Nachbarschule beziehungsweise bei der Austauschschule wird es auf jeden Fall verwendet. Das ist was, dass jeder, der eine Korrektur hat, hat so einen, diesen/ es sind ja drei, vier Blätter dann, diese Blätter und nutzt die auf jeden Fall. Also so wie ich bisher erlebt habe, nutzt sie auch. Man geht dann auch nochmal durch, was wird da erwartet, sind wir damit einverstanden so, meistens ist man dann/ passt dann auch alles. Ja, genau, also auf jeden Fall wird gemacht. (BW4, Position 134)

Nicht nur die wahrgenommene Nutzungspraxis des Kollegiums bzw. der Partnerschule variiert, auch die Beschreibungen des eigenen Nutzungsverhaltens unterscheiden sich deutlich. Unter Bezugnahme auf die eingeschätzte eigene Nutzungsintensität existiert eine größere Spanne von Lehrkräften, welche die Erwartungshorizonte ausnahmslos nutzen (d. h. 100 Prozent) oder teilweise nutzen7 (Abbildung 10.2):

0% baden-württembergische Lehrkraft

50%

100%

nordrhein-westfälische Lehrkraft

Abbildung 10.2 Prozentuale Einschätzung der eigenen Nutzung des Erwartungshorizontes

Im Rahmen der ergänzenden Betrachtung der durchschnittlich wahrgenommenen eigenen Nutzung des Instruments ergeben sich die folgenden arithmetischen Mittelwerte8 : – 82 Prozent beim Einbezug aller befragten Lehrkräfte, 7 Eine baden-württembergische Lehrkraft hat keine prozentuale Einschätzung angegeben und

wurde folglich nicht berücksichtigt. andene Dezimalstellen wurden auf eine ganze Zahl gerundet.

8 Vorh

312

10

Ergebnisse der qualitativen Inhaltsanalyse

– 69 Prozent bei der ausschließlichen Betrachtung der Einschätzungen der badenwürttembergischen Lehrkräfte und – 93 Prozent für die nordrhein-westfälischen Lehrkräfte. Die berechneten Werte deuten auf landesspezifische Nutzungstendenzen hin, welche sich zudem in den zusätzlichen Beschreibungen der Lehrkräfte abbilden. In Analogie zum hohen prozentualen Durchschnittswert verweisen die nordrheinwestfälischen Lehrerinnen und Lehrer darauf, dass sie den Erwartungshorizont „auf jeden Fall“ (NW5, Position 248) nutzen und sich „sehr dran halten“ (NW3, Position 192): I: […] Was mich auch interessieren würde, auch wieder an einem Strahl: Wenn man die Nutzung der Erwartungshorizonte betrachtet und 0 % dafür steht, dass man sie komplett zur Seite legen würde und einfach eine Punktzahl dann am Ende rein schreibt, die man gegeben hat und 100 % für eine sehr intensive Nutzung der Erwartungshorizonte stehen würde, wo würden Sie sich da einordnen? B: Bei 110 Prozent, wenn es das denn gäbe. (…) Das geht nicht, die einfach beiseite zu legen. I: Also Sie würden schon sagen, Sie nutzen die durch und durch. B: Ja, auf jeden Fall. Und auch zwischendurch lese ich immer nochmal wieder, ob ich irgendwas übersehen habe, vielleicht steht ja doch noch irgendwo ein Hinweis oder so. Nee, ich übernehme die, alles, was da ist, eins zu eins. (NW4, Position 121−124)

Zusammengefasst werden im Kontext der konkreten Beschreibung des Nutzungsverhaltens folgende Gründe für eine maßgebliche Orientierung am Erwartungshorizont angeführt: – Nutzungspflicht des Erwartungshorizontes – juristische Absicherung – Realisierung einer vergleichbaren Abschlussvergabe Alle nordrhein-westfälischen Lehrerinnen und Lehrer erläutern, dass sie den Erwartungshorizont nutzen müssen (vgl. z. B. NW1, Position 174; NW3, Position 198; NW4, Position 164), da es sich um eine verpflichtende Vorgabe handelt. Einige Lehrkräfte begründen die Nutzungspflicht bzw. den Nutzungszwang neben der Verbindlichkeit des Instruments auch über die Arbeitspflichten, welche sich aus ihrem Beruf bzw. Beamtenstatus ergeben: „Das heißt, das ist ja schon/ ich verpflichte mich ja indem ich den Beruf ausübe, das nach diesen Vorgaben zu machen. Das heißt, ich

10.3 Wahrnehmung der Beurteilungspraxis

313

sehe da jetzt für mich gar keine Freiheit, das anders zu machen“ (NW1, Position 180). Außerdem verweisen einige nordrhein-westfälische Lehrpersonen darauf, dass sie die Beurteilung anhand des vorgegebenen Erwartungshorizontes durchführen, um sich rechtlich abzusichern und den eigenen Arbeitsplatz nicht zu gefährden. Eine Lehrerin berichtet, dass sie bereits erlebt hat, dass Eltern rechtliche Schritte gegen die Prüfungsnote eingeleitet haben. Folglich empfindet sie eine starke Orientierung anhand des Erwartungshorizontes präventiv sinnvoll, denn „man steht ja ganz oft echt mit einem Bein im Knast, also im Knast ist übertrieben, aber (..) vor einer Abmahnung oder sonst irgendwie was, und dann sind wir schon ganz dankbar, wenn man sich eben genau bei so einer wichtigen Prüfung an sowas halten kann“ (NW3, Position 208). Die Lehrkräfte nehmen bundeslandübergreifend eine höhere Klagebereitschaft der Eltern wahr und berichten von der Zunahme juristischer Regelungen im Rahmen der Leistungsbeurteilung (z. B. Festlegung der Stiftfarbe der Erstkorrektorin oder des Erstkorrektors). Eine Lehrerin beschreibt an einem konkreten Beispiel, dass eigenständige Handlungen der Lehrpersonen (z. B. individuelle Rückmeldungen bezüglich Prüfungsleistungen) problematisch eingeschätzt werden und deshalb standardisierte Vorgaben entwickelt werden (z. B. die Begründung der Prüfungsnote), um formalrechtliche Klagen vorzubeugen: B: Mh, mh (verneint), da wird gar nicht drüber gesprochen [Anm. d. Verf.: Feedback an die Absolventinnen und Absolventen hinsichtlich der Prüfungsleistung], die Schüler haben, glaube ich, nach zwei Jahren das Recht, die Arbeit einzusehen, also es war immer so, Abi war so und im Studium war es nur genauso, man hat nur die Note gesagt bekommen. Und es gibt keinerlei/ Also offiziell darf man das, glaube ich, gar nicht, weil es irgendwie rechtliche Gründe hat und man soll sich da (..) möglichst bedeckt halten auch, was Begründungen angeht, weil irgendwie je mehr man sagt, desto anfechtbarer ist alles. Wir sollen ja jetzt auch so eine Verbalbeurteilung drunter scheiben zur Note und da gibt es jetzt auch schon wieder verklausulierte Verbalbeurteilungen, die klatscht halt jeder drunter. Also im Prinzip guckt man welche Note, guckt in die Liste, was ist es von der Verbalbeurteilung und schreibt die drauf, um einfach juristisch so glatt wie möglich dann durch zu kommen. Und ich glaube, da tut man dann schon auch gut dran, sich dran zu halten. I: Ist das ein Problem in der Schule? B: Ich habe es noch nie bei mir mitbekommen, aber (..) es scheint eins zu sein, denn da hat sich dann eine Rektorin hingesetzt und hat diese Beurteilungen formuliert und wahrscheinlich juristisch auch absichern lassen. Das wird ja nicht von ungefähr gekommen sein. (BW5, Position 124−126)

314

10

Ergebnisse der qualitativen Inhaltsanalyse

Im Gegensatz zur beschriebenen Klagebereitschaft berichtet eine nordrheinwestfälische Lehrerin speziell im Hinblick auf die zentralen Prüfungen im MSA, dass die Prüflinge und ihre Eltern kaum ein Interesse besitzen, die Prüfungsergebnisse nachzuvollziehen (vgl. NW5, Position 203−204). Neben der Nutzungspflicht gibt sie die Realisierung einer vergleichbaren Abschlussvergabe als Grund für ihre starke Orientierung am Erwartungshorizont an: „Okay, also ich nutze den Bewertungsbogen, also den Leistungshorizont auf jeden Fall zu 100 %, denn das ist ja auch irgendwie das, was die Arbeiten vergleichbar machen soll“ (ebd., Position 248). Ein baden-württembergischer Lehrer beschreibt ebenfalls eine starke Nutzung des Erwartungshorizontes, argumentiert diese allerdings mit der wahrgenommenen Qualität des Instruments, welches „bisher nie so gravierend schlecht [war], dass man gesagt hätte, das können wir nicht annehmen“ (BW4, Position 166). Im Unterschied dazu, berichten mehrere baden-württembergische Lehrpersonen, dass sie die Erwartungshorizonte im Rahmen der Leistungsbeurteilung berücksichtigen, jedoch nicht vollständig nutzen, sondern vielmehr situativ in Abhängigkeit des eigenen Sinnempfindens bzw. Bedarfs anwenden. Neben dem Erwartungshorizont beziehen die Lehrerinnen und Lehrer u. a. auch die Ergebnisse der Korrekturbesprechungen sowie eigene Überlegungen ein (z. B. Berücksichtigung der Schwerpunkte des vorgelagerten Unterrichts oder der Entwicklung des Prüflings): B: Ich habe die Hinweise [Anm. d. Verf.: Erwartungshorizonte] nicht auswendig gelernt. Und ich muss Ihnen ehrlich sagen, ich nutz die so, wie sie mir sinnvoll erscheinen. Ich mache mich den Hinweisen nicht untertan. Vor allem habe ich ja immer auch den Jugendlichen vor mir. Da ist jetzt zum Beispiel, nennen wir ihn Max, jemand, der unheimlich/ aus irgendeinem Grund Angst vorm Schreiben hat oder nicht gerne schreibt. Den habe ich vielleicht in der Achten übernommen, habe ich die Klasse übernommen, in der Achten. Und dann beobachte ich, wie dieser Max sich entwickelt. Und dann ist ganz klar, wenn der mir meinetwegen das Rahmenthema argumentativ jetzt hier im argumentativen Text darstellt in der Prüfung, dann kann es sein, dass ich ihm eine 2,5 gebe, einfach, weil ich seine Entwicklung im Kopf habe. Dass der Zweitkorrektor ihm dann eine 3 macht oder eine 3,5, das ist in Ordnung. Und aus dem Grund, glaube ich, ist es viel, viel sinnvoller, dieses Erst- und Zweitkorrektor-Prinzip zu behalten (.), anstatt sich zum (.) zum Sklaven oder zum Untertanen von Erwartungshorizonten zu machen. Erwartungshorizonte sind Instrumente, genauso ein Instrument wie ein Hammer. Wenn ich nicht mit ihm umgehen kann, dann richte ich Schaden an. Und genauso ist es nämlich. Ich darf meinen Kopf nicht ausschalten. Und ich bin ja keine (.) Einfüllerin von Wissen, sondern ich bin ja auch, ich habe ja auch einen erzieherischen, pädagogischen Auftrag. Und aus dem Grund kann ich guten Gewissens einem Mädchen, was ich jetzt auch gemacht habe, die in der Rechtschreibung überhaupt nicht sattelfest ist, in der Interpretation eine 2 zu geben, weil sie ganz toll interpretiert, weil sie ein Händchen dafür hat, weil sie ein Gefühl für Sprache hat, weil

10.3 Wahrnehmung der Beurteilungspraxis

315

sie spielerisch auch erkennt, das ist eine Metapher, das ist jetzt Oxymoron, und, ach Gott, das ist ja eine rhetorische Frage. Das kann sie ganz spielerisch. (BW2, Position 48)

Ergänzend ist an dieser Stelle außerdem auf den baden-württembergischen Lehrer hinzuweisen, der keine prozentuale Angabe zur Nutzungsintensität des landeseinheitlichen Erwartungshorizontes gemacht hat, da er unter Berücksichtigung des Bildungsplans sowie des vorgelagerten Unterrichts selbstständig einen Erwartungshorizont für die Leistungsbeurteilung in der zentralen Prüfung erstellt (vgl. BW3, Position 41−46). Den vorgegebenen Erwartungshorizont versteht er „lediglich nochmal […] [als] eine Zusammenfassung oder eine Möglichkeit der Aussage dessen, was jetzt zwei Jahre vorher passiert war“ (ebd., Position 114). Den teilweisen bzw. vollständigen Nutzungsverzicht des Erwartungshorizontes begründen die Lehrkräfte anhand der folgenden Aspekte: – eigene pädagogische Professionalität – Abbildung der Leistungen des Prüflings – Berücksichtigung des vorgelagerten Unterrichts Mehrere baden-württembergische Lehrpersonen argumentieren die geringe bis kaum vorhandene Notwendigkeit und Nutzung des Instruments, indem sie auf ihre pädagogische Professionalität verweisen und ihre Erfahrungen im Kontext der Erstellung von Erwartungshorizonten hervorheben: B: […] Insofern muss ich einfach sagen, (…) es kommt natürlich drauf an, denke ich, auf die Fächer auch. Letztendlich kommt es jetzt drauf an, muss man jetzt in einem Erwartungshorizont dem Lehrer zeigen, ob er in der Lage wäre, gewisse sprachliche Bilder im Gedicht selber zu finden oder muss aus irgendeiner Arbeitsstelle jemand die, in unserem Falle sind sie rosa, die auf rosa Zetteln vordrucken. Insofern glaube ich, ist das (lachend) für einen Deutschlehrer ist sowas nicht hilfreich, ihm das zu sagen. (..) Eventuell mag es, aber das besprechen Sie dann bitte mit der Kollegin, eventuell mag es in Fächern wie Mathematik vielleicht sehr hilfreich sein, weil da ist es eine wirkliche Arbeitsentlastung, wenn die gut sind. […] Aber prinzipiell im Fach Deutsch, es mag bestimmt ein Anhaltspunkt sein, das haben andere Menschen alles erkannt, aber stellen Sie sich vor, hier sitzen am Prüfungstag jetzt in unserem Fall 10 bis 12 erfahrene Deutschlehrer mit am Tisch, die schaffen das garantiert (lacht), die Feinheit in der Gedichtbeschreibung auch selber (.) zu erkennen. I: Einfach über die Expertise, die man mitbringt als Lehrkraft. B: Genau. (BW3, Position 116−118)

316

10

Ergebnisse der qualitativen Inhaltsanalyse

Die Ausführungen des Lehrers deuten bereits auf eine weitere Argumentation bezüglich der unvollständigen bzw. ausbleibenden Nutzung hin. Mehrere Lehrkräfte verweisen auf die Problematik, dass insbesondere im Fach Deutsch nicht alle potenziellen Lösungen antizipiert werden können und folglich Grenzen hinsichtlich der Gestaltung eines Erwartungshorizontes bestehen. Die Lehrerinnen und Lehrer berichten, dass sie den vorhandenen Erwartungshorizont aufgrund dessen modifizieren oder auf die eigenen Aufzeichnungen zurückgreifen, um die Prüfungsleistungen gerecht beurteilen zu können: B: […] Und wie gesagt, es [Anm. d. Verf.: der Erwartungshorizont] gibt diese Sicherheit, ich kann abhaken. Ob ich dann auch tatsächlich auch dem einzelnen Kind und Jugendlichen gerecht werde, das ist eine andere Frage, aber dafür habe ich ja meine Freiheit, meine pädagogische Freiheit, und kann ja dann auch entscheiden, ob ich dieses oder jenes noch dazu rechne oder ob ich auf dieses und jenes eben verzichten kann. (BW2, Position 116−118)

Eine dritte Begründung dafür, eigene Kriterien anstelle von Teilen bzw. des vollständigen Erwartungshorizontes zu nutzen, bildet der Wunsch den vorgelagerten Unterricht bei der Beurteilung zu berücksichtigen und auf diese Weise eine Passung zwischen Vorbereitung und Überprüfung zu schaffen: „Moment mal, nur dass wir uns richtig verstehen, der Erwartungshorizont, der ergibt sich für mich aus Bildungsplan und aus dem gestalteten Unterricht. Der kann ja nicht künstlich am letzten Tag strukturiert werden“ (BW3, Position 114). Trotz der Andeutung bundeslandspezifischer Nutzungstendenzen verweisen mehrere Lehrkräfte auf eine schulspezifische Anwendung des Erwartungshorizontes, sodass schlussendlich nicht von einer landeseinheitlichen Nutzungspraxis auszugehen ist: B: […] Die eine Schule ist vielleicht/ spricht sich ab, ist besonders streng in der Auslegung dieser Vorgaben. Die andere Schule nimmt es vielleicht etwas lockerer, das heißt, da ist immer noch ein Spielraum. So richtig vergleichbar, ja, schwierig, ob das vergleichbar ist. (NW1, Position 28)

Zusätzlich zur Beschreibung der üblichen Nutzungspraxis wurden die Lehrkräfte außerdem gebeten, konkrete Situationen zu nennen, in welchen eine Anwendung des Erwartungshorizontes problematisch war und eine Abweichung erforderlich

10.3 Wahrnehmung der Beurteilungspraxis

317

wurde. Anknüpfend an die Argumentationen bezüglich eines teilweisen oder vollständigen Nutzungsverzichts des Instruments verweisen bundeslandübergreifend mehrere Lehrkräfte auf das Erfordernis abzuweichen, da sie die individuelle Prüfungsleistung anhand des Erwartungshorizontes nur mangelhaft abbilden konnten (z. B. keine Berücksichtigung der Entwicklung des Prüflings, Formulierung zu hoher Leistungserwartungen, keine vollständige Angabe aller potenziellen Leistungen, zu geringe oder zu hohe Gewichtung des sprachlichen Bereichs): B: […] Es war bei Einzelfällen, die eben zu speziell waren. Also ich hatte einmal im Kollegium an der Schule, da ging es eben um diese interpretative Lektüreaufgabe, und da hatten wir Die Räuber gelesen als Pflichtlektüre, und da hat ein Junge, der, ja, im Dreierbereich lag eigentlich, plötzlich eine Rede gehalten, also eine Rede geschrieben aus Franz Moors Sicht, die war unglaublich. Die war wirklich, wir haben die stehend auf dem Tisch im Lehrerzimmer vorgetragen, weil die wirklich so fantastisch und tiefgehend war, ohne dass er viele Details genannt hatte. Ja, aber der hat den, der hat den Kern und die, ja, irgendwie die Stimmung so toll erwischt, und da musste man einfach abweichen. Wir untereinander fanden, man muss abweichen von dem normalen Korrekturschema. (BW1, Position 92)

Eine nordrhein-westfälische Lehrerin beschreibt eine ähnliche Situation, in welcher die Leistung eines Prüflings anhand der festgelegten Punktevergabe nicht korrekt abgebildet werden konnte. Obwohl sie ihre Nutzungsintensität des Erwartungshorizontes grundsätzlich hoch einschätzt, berichtet sie in diesem Zusammenhang von einer unterschiedlichen Anwendung bzw. Auslegung des Erwartungshorizontes und bewusst weniger streng zu beurteilen, um die aus ihrer Sicht ungerechte Bewertung auszugleichen: B: […] Und wenn die dann Superideen haben, die ich dann höchstens mit fünf Punkten bewerten darf bei dem erweiterten Kriterium, aber denen dann Punkte verloren gegangen sind, weil sie jetzt genau das, was da war, gefragt war, dann gerade nicht haben, aber trotzdem eine tolle Arbeit geschrieben haben, dann tut mir das häufig leid dann für die Schüler. Und das sind dann auch die Fälle, wo ich denke, ja, da müssen wir den Rest jetzt irgendwie so positiv wie möglich durchkorrigieren. I: Um das einfach auch zu würdigen. B: Um das zu würdigen, dass es trotzdem eine super Arbeit war. Und das spiegelt sich dann häufig in dieser Vergleichbarkeit eben nicht wider, dass jemand zwar mit einer fantastischen Arbeit hervorgestochen ist, aber nicht den Erwartungen entspricht. (NW1, Position 94−96)

318

10

Ergebnisse der qualitativen Inhaltsanalyse

Zwei weitere nordrhein-westfälische Lehrkräfte reagieren auf eine aus ihrer Perspektive inkorrekte Abbildung von Prüfungsleistungen, indem sie die vorgegebene Punktevorgabe modifizieren: B: Ja. Ich glaube, Rechtschreibung ist ja meistens irgendwie nur mit drei, vier Punkten da drin oder so, ich habe das nicht mehr im Kopf, aber ist ja auch nicht viel da mit drin, I: Sehr geringer Anteil. B: Das heißt, die können ja auch schreiben wie Blöde. Darf man ja gar nicht erzählen, dass wir dann mal zwei, drei Pünktchen mehr dafür vergeben. (lacht) Darf man ja gar nicht sagen, aber/ Na ja gut. (NW3, Position 50−52)

Eine baden-württembergische Lehrkraft führt zudem an, dass sie ebenfalls eine Notwendigkeit sieht vom Erwartungshorizont abzuweichen, wenn dieser eine korrekte Abbildung der Prüfungsleistungen ermöglicht, das Prüfungsergebnis jedoch das Bestehen des Abschlusses oder einen bereits bestehenden Ausbildungsvertrag gefährdet: B: Oder eben im Hinblick auf solche Dinge wie (seufzt), ja, eine Ausbildung, wo man weiß, er wäre viel besser aufgehoben als eben noch ein Jahr Textbeschreibungen pauken, weil es einfach nicht das Ding ist von dem Schüler. Das sind immer wieder Fälle wo es dann darum geht, der braucht aber unbedingt noch die 3 oder so. Wenn es dann natürlich (..) eine extreme Spanne ist, kann ich auch nichts machen, also ich lupf den ja nicht um eine Note, aber wenn man weiß, dass nur noch zwei Zehntel oder so, mhm, dann kann es schon mal sein, dass man da ein bisschen, irgendwo ein Auge zudrückt. I: Um ihm einfach den Weg nicht zu verbauen dann in dem Moment. B: Ja, man hat ja dann Einfluss auf sein gesamtes Leben. Und wenn man genau weiß, der wird nie wieder (kurzes Auflachen) ein Gedicht anfassen, (seufzt), dann (…) halte ich es für vermessen, wenn man dann so stocksteif und dann wegen einem minimalen Ding. (BW5, Position 168−170)

Grundsätzlich verweisen mehrere Lehrpersonen darauf, dass die Kenntnis des Prüflings sowie dessen schulischer Leistungen und privater Situation im Kontext der Beurteilung nicht vollständig ausgeblendet werden kann und folglich trotz des Erwartungshorizontes weiterhin leistungsfremde Einflussfaktoren existieren.

10.3 Wahrnehmung der Beurteilungspraxis

319

Interpretation Die Schilderungen der Lehrkräfte verweisen auf einen heterogenen Umgang mit dem Erwartungshorizont. Es deutet sich eine Varianz hinsichtlich der folgenden Wahrnehmungen an: – Verbindlichkeit der Nutzung des Erwartungshorizontes – Nutzungsintensität des Erwartungshorizontes – konkrete Arbeit mit dem Erwartungshorizont (z. B. Ausdifferenzierung von Spielräumen) Die unterschiedlichen Einschätzungen sowie Unsicherheiten der Lehrkräfte, inwiefern eine Nutzungspflicht besteht oder eine Überprüfung der Anwendung des Erwartungshorizontes erfolgt, erscheinen im Hinblick auf eine einheitliche Beurteilungspraxis kritisch und deuten erneut auf eine eingeschränkte ebenenübergreifende Kommunikation zwischen den Lehrpersonen und der Bildungsadministration hin. Anknüpfend an die variierenden Wahrnehmungen erscheint es nicht verwunderlich, dass die beschriebene Nutzungsintensität des Erwartungshorizontes eine große Spanne aufweist und von einer sehr starken Nutzung bis hin zu einem Nutzungsverzicht reicht. Die Autorin vermutet, dass die eingeschätzte Verbindlichkeit der Nutzung des Instruments einen Einfluss auf dessen tatsächliche Nutzung ausübt, da die Lehrkräfte, welche von einer freiwilligen Nutzung des Instruments ausgehen, auch dessen Nutzungsintensität deutlich geringer einschätzen. Darüber hinaus zeigen sich landesspezifische Nutzungstendenzen. Zusammengefasst nehmen die baden-württembergischen Lehrkräfte den Erwartungshorizont eher als Hilfsmittel bzw. Orientierung wahr, welchen sie individuell und bedarfsgerecht anwenden sowie folglich in Abhängigkeit ihrer Kompetenzen und Einschätzungen unterordnen. Sie begründen ihre geringe Nutzungsintensität primär anhand ihrer eigenen pädagogischen Professionalität, der Grenzen des Erwartungshorizontes die Leistungen der Prüflinge abzubilden sowie des Wunsches, den vorgelagerten Unterricht in der Beurteilung zu berücksichtigen. Außerdem wäre es denkbar, dass die folgenden landesspezifischen Besonderheiten dessen fakultativen Charakter verstärken: – späte Einführung des Erwartungshorizontes – teilweise gering differenzierte bzw. verbindliche Gestaltung (z. B. ausbleibende Regelung der Bewertung und Benotung) – die Existenz weiterer verbindlicher Maßnahmen (z. B. Korrekturbesprechungen, schulexterne Zweitkorrektur)

320

10

Ergebnisse der qualitativen Inhaltsanalyse

Im Gegensatz dazu verstehen die nordrhein-westfälischen Lehrkräfte den Erwartungshorizont als Vorgabe, die genutzt werden muss und welcher sie ihre eigenen Einschätzungen und Kompetenzen hauptsächlich unterordnen, um eine möglichst objektive sowie juristische abgesicherte Beurteilung zu gewährleisten. Zudem kann die beschriebene intensive Anwendungspraxis auch als Überkompensation interpretiert werden, d. h. die Lehrpersonen versuchen im vergleichsweise jungen zentralen Prüfungsformat, den bislang stark unstandardisierten Bereich der Leistungsbeurteilung vollständig zu standardisieren (vgl. Ackeren et al., 2012). Unabhängig von den landesspezifischen Tendenzen berichten die Lehrkräfte in beiden Bundesländern von situativen Abweichungen vom Erwartungshorizont zugunsten der Prüflinge. In diesem Kontext wird deutlich, dass trotz der Vorgabe des landeseinheitlichen Erwartungshorizontes weiterhin leistungsfremde Aspekte Berücksichtigung finden und die Lehrkräfte in Dilemmasituationen tendenziell zu einer besseren Bewertung der Prüfungsleistung neigen (z. B. Gefährdung des Abschlusses oder eines Ausbildungsvertrages aufgrund der Prüfungsnote). Die angestrebte Vergleichbarkeit rückt hierbei deutlich in den Hintergrund und die Lehrkräfte führen, analog zu Befunden aus der pädagogischen Professionsforschung, moralische Gründe für ihr Handeln an (vgl. Kiel et al., 2016). Vor dem Hintergrund der angestrebten Vergleichbarkeit und der teilweise kritischen Äußerungen zur abweichenden Anwendung des Instruments erscheint es interessant, dass eine Überprüfung der Nutzung dennoch tendenziell unerwünscht ist. Die Autorin nimmt rekurrierend auf das Autonomie-Paritäts-Muster an, dass die Sorge vor einem (vollständigen) Verlust der Beurteilungshoheit größer ist, als der Anspruch eine vergleichbare, möglichst objektive Leistungsbeurteilung sicherzustellen (vgl. Lortie, 1975; Eder, Dämon & Hörl, 2011). Abschließend ist kritisch anzumerken, dass vermutlich auch im Falle einer intensiven landesweiten Nutzung des Erwartungshorizontes keine vollständige Vergleichbarkeit zwischen den Lehrkräften gewährleistet werden kann, da der Umgang mit den Spielräumen des Instruments innerschulisch oder individuell festgelegt wird.

10.3.3 Umsetzung der Zweitkorrektur Der Großteil der Lehrkräfte deutet an, dass die Zweitkorrektur eine wichtige Maßnahme darstellt, um abzusichern, dass die Beurteilungen möglichst objektiv sind und nicht durch leistungsfremde Faktoren beeinflusst werden. Zudem betonen mehrere

10.3 Wahrnehmung der Beurteilungspraxis

321

Lehrerinnen und Lehrer, dass die erneute Betrachtung durch eine andere Lehrperson auch einen Beitrag zu einer gerechten Beurteilung leistet: B: Ich glaube, das ist auch zusätzlich noch fair, weil ich habe ja/ ich bin ja nicht frei von irgendwelchen Bildern im Kopf. Ich bin ja beeinflusst, ich kann ja nicht irgendwie objektiv eine Note geben. Auch als Zweitkorrektor bin ich beeinflusst. Allein die Tatsache, wenn da jemand eine Schrift hat, (.) die ich nicht lesen kann, macht mich, da werde ich katzengrantig. Und was ich nicht lesen kann, wenn ich Stunde um Stunde an einem Aufsatz sitze, dann bin ich nicht bereit, den besser als eine 4 zu geben. Und das müssen wir einfach sehen. I: Da kann sich auch wahrscheinlich keiner von frei machen. B: Kann sich niemand freimachen, nein. Aus dem Grund ist die Geschichte mit den Zweitkorrektoren, finde ich, die fairste überhaupt, also was es an fairen Systemen gibt. (BW2, Position 50−52)

Vereinzelte Lehrkräfte verweisen darauf, dass bereits die Existenz einer Zweitkorrektur Auswirkungen auf die Durchführung der Erstkorrektur besitzt und diese mit mehr Sorgfalt sowie einer stärkeren Bemühung um Objektivität umgesetzt wird: „Ja, also es läuft eigentlich gleich wie bei jeder Arbeit für mich auch, nur gehe ich meistens nochmal durch zum Schluss, weil man möchte natürlich vorm Zweitkorrektor nicht so doof dastehen (lacht) und geht einmal nochmal akribischer durch“ (BW5, Position 142). Dennoch schätzen die Lehrerinnen und Lehrer die Übereinstimmung zwischen den Beurteilungen der erstkorrigierenden und der zweitkorrigierenden Person unterschiedlich hoch ein. Mehrere Lehrkräfte berichten grundsätzlich von geringen Abweichungen der Zweit- von der Erstkorrektur, die sich in einer Spanne von 0,2 bis 0,75 Noten bewegen. Zudem beschreiben sie jedoch auch Ausnahmefälle, in denen es aufgrund eines teilweisen oder vollständigen Verzichts auf die Nutzung des Erwartungshorizontes oder eines variierenden Umgangs mit den vorhandenen Spielräumen im Instrument zu hohen Differenzen von einer oder mehreren Noten kam. Eine Lehrerin vermutet sogar, dass sich etwa ein Viertel der Beurteilungen der erstkorrigierenden und der zweitkorrigierenden Lehrkraft um eine Note unterscheiden. Folglich erscheint es nicht verwunderlich, dass mehrere Lehrpersonen ihr Erstaunen oder ihre Freude im Kontext von hohen Übereinstimmungen zwischen den Beurteilungen der Erst- und Zweitkorrektur äußern: B: Das finde ich ganz erstaunlich tatsächlich, dass die [Anm. d. Verf.: die Abweichungen] nicht groß sind. Also (.) noch erstaunlicher fand ich es, als wir nichts wussten vom Erstkorrektor, dass tatsächlich die Abweichungen sich bewegt haben in einem

322

10

Ergebnisse der qualitativen Inhaltsanalyse

Spielraum – wir haben an der Realschule in Baden-Württemberg eine Besonderheit, dass wir in Zehnteln auch korrigieren, – und dass teilweise die Abweichungen ein oder zwei Zehntel war. Und das finde ich schon erstaunlich, muss ich sagen. Und jetzt ist es immer noch so, wobei da könnte man sagen ja, okay, du weißt ja jetzt auch, was der Erstkorrektor für eine Note gegeben hat. Aber das war vorher auch nicht der Fall. Es war bei Einzelfällen, die eben zu speziell waren. Also ich hatte einmal im Kollegium an der Schule, da ging es eben um diese interpretative Lektüreaufgabe, und da hatten wir “Die Räuber” gelesen als Pflichtlektüre, und da hat ein Junge, der, ja, im Dreierbereich lag eigentlich, plötzlich eine Rede gehalten, also eine Rede geschrieben aus Franz Moors Sicht, die war unglaublich. Die war wirklich, wir haben die stehend auf dem Tisch im Lehrerzimmer vorgetragen, weil die wirklich so fantastisch und tiefgehend war, ohne dass er viele Details genannt hatte. Ja, aber der hat den, der hat den Kern und die, ja, irgendwie die Stimmung so toll erwischt, und da musste man einfach abweichen. Wir untereinander fanden, man muss abweichen von dem normalen Korrekturschema. Und der Kollege der anderen Schule, also wir hatten eine 1, oder die Kollegin hatte eine 1 oder 1,5 gegeben und der Kollege an der anderen Schule eine 5. Und das ist natürlich eine frappierende Abweichung […] (BW1, Position 92)

Bezüglich der konkreten Durchführung der Zweitkorrektur lassen sich anhand der Schilderungen sowohl bundeslandübergreifende als auch landes- und schulspezifische Rahmenbedingungen und Vorgehensweisen identifizieren. Gemäß den befragten Lehrkräften beträgt das vorgesehene Zeitbudget für die vollständige Umsetzung der Zweitkorrektur sowohl in Baden-Württemberg als auch in Nordrhein-Westfalen zwei Wochen. Aus der Sicht mehrerer Lehrpersonen ist der Aufwand aufgrund der verfügbaren Zeit sowie der Anzahl der Prüfungen und der notwendigen Abstimmungsprozesse (z. B. Nachfragen, Besprechung von hohen Abweichungen) durchaus hoch. Eine weitere Gemeinsamkeit hinsichtlich der Durchführung der Zweitkorrektur in beiden Bundesländern bildet die Sichtbarkeit der Korrekturen, Anmerkungen und Bewertungen der Erstkorrektorin bzw. des Erstkorrektors. Einige badenwürttembergische Lehrpersonen berichten, dass dies nicht von Anfang an der Fall war und die zweitkorrigierende Lehrkraft noch vor einigen Jahren vor oder während des Beurteilungsprozess keine Auskunft über die Einschätzung der Erstkorrektorin bzw. des Erstkorrektors erhielt. Interessant erscheint diesbezüglich, dass sie die Übereinstimmungen zwischen den korrigierenden Lehrpersonen bei beiden Varianten ähnlich hoch einschätzen. Die Sichtbarkeit der Beurteilungen bewerten die baden-württembergischen Lehrkräfte speziell im Hinblick auf die Nachvollziehbarkeit der Notenvergabe der erstkorrigierenden Person sowie der Vereinfachung der Zweitkorrektur als positiv. Zudem verweist ein baden-württembergischer Lehrer darauf, dass die Aufzeichnungen der Erstkorrektur auch teilweise als Orientierungsmöglichkeit genutzt werden und schulabhängig als Anleitung von Lehrkräften

10.3 Wahrnehmung der Beurteilungspraxis

323

dienen, die bislang nicht an der Beurteilung von zentralen Prüfungsarbeiten beteiligt waren. Im Sinne einer schrittweisen Heranführung übernehmen die Lehrpersonen in einigen Schulen zunächst ausschließlich eine Zweitkorrektur in ihrem ersten Durchgang: B: […] Man hat dann, was bei uns an der Schule so lief, weiß nicht, ob es überall so läuft, aber ich glaube, das ist schon was, was wohl auch schon ein bisschen gängige Praxis ist. Wenn wir in der 9. Klasse zum ersten Mal, also zum ersten Mal eine 9. Klasse übernimmt, bekommt man zum Beispiel eine Zweitkorrektur in dem Jahr, das heißt, man hat dann schon mal einfach, sieht, wie sind die Ansprüche. Man sieht auch, was hat der andere korrigiert, wie ist die Note, die er für so einen Aufsatz gibt. Man hatte also schon mal, ja, ein Jahr Zeit, um rein zu kommen. Ich meine, wenn man sich ganz unsicher ist, hält man sich mehr oder weniger an das, was da steht. Wahrscheinlich wird man im ersten Jahr nicht komplett auf Konfrontation mit dem Erstkorrektor gehen, wenn man ganz anderer Meinung ist, aber man hat doch so ein bisschen, ja, man bekommt schon mal so ein bisschen den Einblick in die Sache. (BW4, Position 74)

Allerdings nehmen die Lehrkräfte die Sichtbarkeit der Erstkorrektur auch kritisch wahr und verweisen auf die Gefahr, dass sich die Zweitkorrektorin oder der Zweitkorrektor hiervon beeinflussen lassen könnte. Eine baden-württembergische Lehrerin vermutet, dass eine Orientierung an den Beurteilungen der erstkorrigierenden Person dadurch gemindert wird, dass die beiden Korrektorinnen bzw. Korrektoren in Baden-Württemberg nicht an der gleichen Schule arbeiten. Eine nordrheinwestfälische Lehrerin berichtet wiederum von der Strategie, die Bewertung aus der Erstkorrektur während der Durchführung der Zweitkorrektur abzudecken, um sich nicht beeinflussen zu lassen (vgl. NW3, Position 122). Die schulexterne Umsetzung der Zweitkorrektur erfolgt ausschließlich in BadenWürttemberg und wird im Vergleich zum schulinternen Verfahren von mehreren baden-württembergischen Lehrkräften im Hinblick auf die Vergleichbarkeit der Beurteilungen als förderlich eingeschätzt. Neben den landesübergreifend und landesweit identischen Reglungen zeigt sich anhand der Beschreibungen der Lehrkräfte, dass im Kontext der tatsächlichen Umsetzung der Zweitkorrektur einige Aspekte schulspezifisch oder individuell geregelt werden. Aus beiden Bundesländern berichten Lehrkräfte, dass die Übernahme der Zweitkorrektur schulintern geregelt wird. Sie verweisen auf die inhaltlichen und zeitlichen Vorteile, wenn sich eine Lehrperson in einem Durchgang gleichermaßen an der Erst- und Zweitkorrektur beteiligt. Eine baden-württembergische Lehrerin merkt jedoch an, dass in ihrem Kollegium diesbezüglich unterschiedliche Ansichten und folglich Abstimmungsbedarfe bestehen. Zur Vereinfachung dieses Prozesses regt sie eine einheitliche Regelung durch die Bildungsadministration an:

324

10

Ergebnisse der qualitativen Inhaltsanalyse

B: […] Und eben auch die/ ja, vielleicht die Frage der Organisation, und das ist wiederum schulintern geregelt, weiß nicht, wie das/ ja. I: Organisation haben Sie jetzt angesprochen, das heißt, was wäre da wünschenswert? B: Also zum Beispiel die Frage, wer übernimmt/ gut, die Erstkorrektur, wer die übernimmt, ist klar, aber wer übernimmt die Zweitkorrektur? Und da sind wir im Kollegium selber gespalten, das macht auch jede Schule verschieden, aber jetzt gerade im Fach Deutsch, wo in der Realschule jedes Jahr neue Prüfungsthemen sind, das ist ja nicht wie beim Abitur oder im Gymnasium, wo man über mehrere Jahre eben diese SternchenThemen auch behandelt, so dass man sich gut einarbeiten kann in die Themen, sondern wir bekommen jedes Jahr eine neue Lektüre und wir bekommen jedes Jahr auch ein neues Kompendiumsthema, so dass wir viel Arbeit investieren, uns einzuarbeiten. Und meine, meine persönliche Meinung ist, dass ich, wenn ich eine Erstkorrektur gemacht habe, einfach auch viel firmer bin für eine Zweitkorrektur. Und ich deswegen das sinnvoll finde, das zu kombinieren, während andere Kollegen sagen, nee, mir ist das zu viel, eine Erst- und eine Zweitkorrektur zu haben, ich habe dann lieber in einem Jahr, wo ich keine Zehntklässler habe, mache ich eine Zweitkorrektur, aber ich glaube, darunter leidet die Korrektur. Also weil man eben inhaltlich nicht so drin ist. (BW1, Position 38−40)

Des Weiteren gestaltet sich die Kommunikation und Zusammenarbeit zwischen der erst- und zweitkorrigierenden Lehrkraft schulspezifisch oder individuell unterschiedlich. Zwar schafft die verbindliche Korrekturbesprechung in BadenWürttemberg einen Rahmen, in welchem sich die Korrektorinnen und Korrektoren vorab besprechen können, wie intensiv und hinsichtlich welcher Aspekte sich die Lehrpersonen austauschen, variiert jedoch: I: Ja. Wie ist die Zusammenarbeit mit dem Zweitkorrektor, wie tauscht man sich da aus? B: Kann sehr unterschiedlich sein. Also man trifft sich bei der Korrekturbesprechung, da bilden sich dann diese Teams eben. Man klärt manche Dinge. Es gibt vielleicht mal Schüler mit einem Nachteilsausgleich oder (tiefes Einatmen) man sagt, „Oh, ich habe versäumt oder ich habe es nicht geschafft, das und das zu behandeln, also da ein bisschen nachsichtig sein, wenn es fehlt.“ So Sachen, so ganz individuelle Geschichten. Und man tauscht in der Regel E-Mail-Adressen oder Telefonnummern aus, dass falls nochmal irgendwas wäre, man Rücksprache halten kann. Aber jetzt bei der letzten war kein Kontakt, auch nicht nachher. Ich habe überlegt vielleicht mit der Note Abweichung, dass sie sich nochmal meldet, aber es kam nichts. (BW5, Position 145−146)

Während sich der Austausch in den Schilderungen dieser Lehrerin auf die Korrekturbesprechungen begrenzt, beschreiben andere Lehrkräfte, dass in der Regel

10.3 Wahrnehmung der Beurteilungspraxis

325

auch eine (telefonische) Absprache nach der Durchführung der Zweitkorrektur erfolgt, in deren Rahmen insbesondere geringe Übereinstimmungen zwischen den Beurteilungen diskutiert werden (vgl. BW2, Position 67−70). Demgegenüber erläutert eine nordrhein-westfälische Lehrerin, dass Abstimmungen zwischen den Korrektorinnen und Korrektoren offiziell unerwünscht sind (vgl. NW1, Position 62), weshalb sie darauf verzichtet. Sie ergänzt jedoch, dass sie keine Auskünfte darüber besitzt, inwiefern dennoch ein Austausch stattfindet. In direkter Anknüpfung beschreibt eine weitere nordrhein-westfälische Lehrkraft von einer starken Zusammenarbeit zwischen der erst- und zweitkorrigierenden Person in Form einer gemeinsamen Besprechung vor und während des Beurteilungsvorgangs: B: Also wir [Anm. d. Verf.: die korrigierenden Deutschlehrkräfte] machen, wir setzen uns ja, wie gesagt, einmal zusammen. Wir nehmen uns dann immer eine von den geschriebenen Klassenarbeiten, also jeder aus seiner Klasse, also so ein oder zwei, lesen die durch, machen einmal eine Probekorrektur, wirklich dann jeder für sich. Dann sieht man ja schon, wo die Schwachstellen sind, wo Verständnisfragen sind und versuchen die dann halt in der Fachschaft untereinander zu klären. Und dann machen wir/ wenn wir die korrigieren, korrigieren wir zusammen. Also das heißt, ich mit meinem Korrekturpartner, ich korrigiere durch und gebe die weiter, und der korrigiert dann quasi dahinter nochmal, und da, wo es dann keine Übereinstimmungen gibt, da reden wir dann drüber, wie wir das verstanden haben, dass da auch/ also wenn wir alleine da sitzen, dann/ und der Zweitkorrekturprüfer versteht halt gar nicht, warum ich den Punkt gegeben habe, und ich habe vielleicht was ganz anderes verstanden, und dann reden wir darüber. Wir machen das dann wirklich immer im Tandem. I: Ja. Dass man auch direkt im Austausch sein kann, wenn wirklich Probleme entstehen. B: Genau, also wir machen das nicht, okay, der hat das da hingeschrieben und ich schreib die gleiche Zahl dahinter und die Arbeit ist gegessen, sondern wir gehen wirklich die Arbeiten nochmal durch. (NW3, Position 118−120)

Ausgehend von der fehlenden verbindlichen, landesweiten Regelung des Prozesses zeigen sich deutlich variierende Abstimmungsprozessen. Zusätzlich verweist eine Lehrerin auf das Fehlerpotenzial, welches durch die unterschiedlichen bzw. nicht vorhandenen Festlegungen der organisatorischen Abläufe besteht: B: Ah, doch, vielleicht eine kleine Anekdote. Und zwar (…) hat ein (..), ein Kollege, der Zweitkorrektor, hatte die Liste verschlampt mit den Noten, und/ aber er war sich ganz sicher, dass er die beigelegt hatte, und dann sind wir völlig in Verzweiflung ausgebrochen, weil diese Liste nicht da war. Was jetzt nicht so ein großes Problem gewesen wäre, weil man sie auch hätte einfach nochmal ausfüllen können, die Noten lagen ja vor. Und ja, irgendwann tauchten doch die Materialien irgendwo zwischen

326

10

Ergebnisse der qualitativen Inhaltsanalyse

seinen Unterlagen wieder auf, (lachend gesprochen) und er war ganz peinlich berührt und hat mir dann noch irgendwie ein Care-Paket mit der Liste zukommen lassen. (lacht) Aber das ist natürlich auch die Gefahr, wenn es da keine klaren Abläufe gibt beim Austausch der Prüfungsaufsätze oder Prüfungsarbeiten, dass das, ja, dass es zu Schwierigkeiten kommt. (BW1, Position 152)

Auch den tatsächlichen Beurteilungsprozess im Rahmen der Zweitkorrektur beschreiben die Lehrpersonen heterogen. Im Hinblick auf den Umfang können drei Formen unterschieden werden: – vollständige Durchführung: Die Lehrkraft beschreibt die Durchführung der Zweitkorrektur vergleichbar wie die Durchführung der Erstkorrektur (d. h. eine vollständige Beurteilung der inhaltlichen und sprachlichen Leistungen). – reduzierte Durchführung: Die Lehrkraft beschreibt die Zweitkorrektur als reduzierte Form der Erstkorrektur, d. h. die Lehrkraft orientiert sich an den Beurteilungen der Erstkorrektorin oder des Erstkorrektors bzw. verzichtet auf die Beurteilung der sprachlichen Leistungen (nahezu) komplett. – ausbleibende Durchführung: Die Lehrkraft beschreibt, dass sie vollständig auf die Durchführung der Zweitkorrektur verzichtet und sich der Meinung der erstkorrigierenden Lehrkraft anschließt, ohne die Prüfung selber beurteilt zu haben. Mehrere baden-württembergische Lehrpersonen nehmen ihre Aufgabe als Zweitkorrektorin bzw. Zweitkorrektor sehr ernst und betonen, dass sie den Beurteilungsprozess identisch wie in der Erstkorrektur durchführen. Eine Lehrerin merkt kritisch an, dass sie die vollständige Zweitkorrektur durchführt, obwohl sich ihr umfangreiches Vorgehen nicht sichtbar abbildet und folglich ein Verzicht auf die Durchführung der Zweitkorrektur möglich sowie aus zeitökonomischer Sicht sinnvoll wäre. Als Begründung für ihr Handeln verweist sie darauf, dass sie die Zweitkorrektur als Aufgabe ihres Berufs wahrnimmt, welche es zu bewältigen gilt: I: Machen Sie die [Anm. d. Verf.: die Zweitkorrektur] gleich dann genau wie die Erstkorrektur oder ist die dann anders oder? B: Mhm. (bejahend) I: Also komplett identisch dann. B: Ja, ich mache auch einen Bogen, den brauche ich ja eben auch wieder hinterher für den Fall von Besprechungen oder so. Ich überschlage die Wörter, ich rechne, mache genau gleich. Also ja, manchmal denke ich mir, eigentlich bist du blöd. (lacht) Wenn

10.3 Wahrnehmung der Beurteilungspraxis

327

man dann diese Tabelle so sieht und man sieht, mit einer Arbeit ist dann immer plus Zweizehntel, minus Zweizehntel, mal gleich, mal vielleicht einen Ausreißer. Dann fragt man sich schon, ob es nicht manche Kollegen gibt, die nicht einfach eine Note hinschreiben. Man soll ja nicht mal mehr kennzeichnen, wenn wir nur noch ergänzend korrigieren, weil jetzt, der Turnus ist anders, was ich aber, ehrlich gesagt ignoriert habe. Also nur noch ein R hinmachen wenn man einen weiteren Rechtschreibfehler gefunden hat und ansonsten eher Erstkorrektur nehmen, aber ich kann nicht, das ist dann viel zu kompliziert beim Zusammenzählen und so. Ich habe es jetzt einfach so gemacht wie immer. (seufzt) Ja, dann fragt man sich da manchmal schon, wenn ich keine Spuren hinterlassen muss auf der Arbeit und, (lautes Ausatmen) die ganze Arbeit. Aber gut, andererseits (.) ist halt der Job. (BW5, Position 159−162)

Als weiterer Grund verweisen einige Lehrkräfte auf die Realisierung einer gerechten Prüfungspraxis, d. h. die vollständige Durchführung der Zweitkorrektur bildet aus ihrer Sicht einen Beitrag hinsichtlich einer objektiveren Beurteilung bzw. einer möglichst genauen Abbildung der Prüflingsleistung in Form einer Note. Die Mehrzahl der befragten Lehrpersonen berichtet jedoch, dass sie eine reduzierte Zweitkorrektur durchführt. Die Sichtbarkeit der Erstkorrektur ermöglicht ihnen eine vereinfachte und zeitlich entlastete Beurteilung. Eine Lehrerin erklärt, dass es aufgrund der Kompetenz der Erstkorrektorin bzw. des Erstkorrektors nicht notwendig ist, die vorhandenen Anmerkungen zu überprüfen. Eine weitere Lehrkraft ergänzt, dass außerdem keine sprachliche Korrektur der erstkorrigierenden Person angestrebt wird: B: Mhmmm, (..) also früher bin ich gleich vorgegangen eben, weil ich keine Korrekturzeichen hatte. Da bleibt keine andere Wahl. Jetzt, wo die Korrekturzeichen drin sind, geht das ein bisschen, geht diese erste Runde natürlich auch ein bisschen schneller, die ich vorhin geschildert habe, weil ich nicht mehr super, super genau gucken muss. Und ja auch natürlich möchte man ja nicht dem Erstkorrektor da irgendwie dann zeigen, ich finde noch fünf Fehler mehr, es geht ja auch letzten Endes nicht um die Fehler. Und da kann man sich deutlich besser inhaltlich und strukturell und sprachlich konzentrieren, finde ich. Also ich persönlich. (BW1, Position 88)

Auch im Kontext der reduzierten Durchführung deuten mehrere Lehrpersonen an, dass sie die Zweitkorrektur als sinnvoll erachten und diese zwar nicht vollständig, aber gewissenhaft umsetzen: B: […] Die Zweitkorrektur, die mache ich schon relativ genau, auch wenn ich jetzt sehr (.) nach Musterknabe klinge, aber das ist ja auch der Sinn der Sache letztendlich,

328

10

Ergebnisse der qualitativen Inhaltsanalyse

ne. Ich bin ja nicht/ das ist ja nicht mein Job sozusagen, mit einem oder zwei verbunden Augen die Erstkorrektur durchzuwinken letztendlich, ne. (NW2, Position 156)

Obwohl die Zweitkorrektur vom Großteil der Lehrkräfte als wichtiger Beitrag zur Erreichung einer vergleichbaren Beurteilungspraxis betrachtet wird, nehmen einige Lehrkräfte an, dass ein Teil der Kolleginnen und Kollegen keine Zweitkorrektur durchführt: „Es gibt mit Sicherheit Kollegen/ ich weiß jetzt nicht, ob man das so einfach aufzeichnen kann, die füllen einfach nur den Zettel aus“ (NW4, Position 140). Auch eine der befragten Lehrkräfte erklärt, dass sie bewusst auf eine Zweitkorrektur verzichtet. Sie begründet ihr Handeln damit, dass die Leistungsbeurteilung bereits anhand von Abstimmungen im Kollegium eindeutig geregelt wurde und eine erneute Korrektur durch eine zweite Lehrkraft somit obsolet ist: I: Jetzt gibt es ja auch noch die Zweitkorrektur, vermutlich um auch nochmal, ja, eine gewisse Vergleichbarkeit zu sichern. Führst du die genau gleich durch oder gehst du da anders vor? B: Darf ich jetzt ehrlich sein? (ganz leise gesprochen) Also wir sagen hier, dadurch, dass wir uns (lacht) vorher hinsetzen und diesen Bewertungsbogen gemeinsam erstellen und wirklich kleinschrittig mit der Bepunktung das machen, da sagen wir, brauchen wir keine Zweitkorrektur. Wir tauschen zwar dann die Klassenarbeiten aus und setzen unseren Namen drunter, und das ist dann die Zweitkorrektur. Wir müssen die Punkte noch eintragen und sowas alles, aber da wird also in der Klassenarbeit, wird nichts mehr nachgelesen, da werden die Punkte genauso übertragen, wie der Erstkorrekteur das gemacht hat. Und, fertig. I: Also es wird quasi eigentlich vorher abgesichert, weil ihr die Kriterien gemeinsam festgelegt. B: Genau, ja, also was wir eigentlich in jedem Durchgang auch so haben, ist, dass man sagt, „Hier, guck mal, lies dir das mal durch, diesen kurzen, die Teilaufgabe, ich weiß jetzt nicht genau, wie hier, was soll man da machen, drei oder vier Punkte oder siehst du das so und so?“ I: Also quasi ein Austausch dann auch nochmal. B: Genau, also bei, ne, Problemfällen, ne. I: Ja, macht ja Sinn. B: Ja, und ansonsten, dadurch, dass wir das so genau im Vorfeld absprechen, brauchen wir auch keine Zweitkorrektur, sagen wir hier. (NW5, Position 169−176)

10.3 Wahrnehmung der Beurteilungspraxis

329

Interpretation Insgesamt ergibt sich ein heterogenes Bild der Zweitkorrektur zwischen und innerhalb der beiden Bundesländer und es deutet sich eine Varianz hinsichtlich der folgenden Aspekte an: – Auswahl der zweitkorrigierenden Lehrkraft (z. B. schulintern oder -extern, gleichzeitige Beteiligung an der Erstkorrektur oder ausschließliche Durchführung der Zweitkorrektur) – Zusammenarbeit zwischen der erst- und zweitkorrigierenden Lehrkraft – Art und Umfang des Beurteilungsprozesses im Rahmen der Zweitkorrektur – Übereinstimmungsgrad zwischen den Noten aus der Erst- und Zweitkorrektur Die beschriebenen Abweichungen zwischen den Prüfungsnoten der Erst- und Zweitkorrektur deuten darauf hin, dass die Existenz eines landeseinheitlichen Erwartungshorizontes keine vergleichbare Notenvergabe sicherstellt und weitere standardisierende Maßnahmen notwendig sind. Auch der Großteil der Lehrkräfte scheint die Sinnhaftigkeit und den Bedarf einer Zweitkorrektur im Hinblick auf die Realisierung einer möglichst objektiven Beurteilungspraxis wahrzunehmen. Die Schilderungen der Mehrzahl der Lehrpersonen lassen vermuten, dass die Zweitkorrektur zumindest von einem Teil der Lehrkräfte gewissenhaft umgesetzt wird und einen positiven Einfluss auf die Erstkorrektur besitzt (z. B. sorgfältige Durchführung). Dennoch werden aus der Perspektive der Autorin auch problematische Aspekte sichtbar, die sich grob unter den folgenden beiden Bereichen zusammenfassen lassen: die variierende Zusammenarbeit zwischen den Korrigierenden sowie die heterogenen Beurteilungsprozesse im Rahmen der Zweitkorrektur. Im Hinblick auf die Zusammenarbeit zwischen den Korrigierenden sind die geringen oder fehlenden verbindlichen Regelungen kritisch zu bewerten, da auf diese Weise schulspezifische bzw. individuelle Vorgehensweisen begünstigt werden und die uneinheitlichen Festlegungen wiederum aus der Sicht der Lehrkräfte die Zusammenarbeit zwischen den Schulen erschweren. Die Kombination aus landesspezifischen Rahmenbedingen und schulinternen Absprachen (z. B. Existenz von Korrekturbesprechungen, schulspezifische Beurteilungskultur) sowie der individuellen Wahrnehmung der Zweitkorrektorin bzw. des Zweitkorrektors (z. B. den Wunsch, andere Lehrkräfte nicht zu belehren) bilden einen Ausgangspunkt für unterschiedliche Rekontextualisierungsprozesse, sodass zumindest hinterfragt werden muss, ob die offizielle Beschreibung der Zweitkorrektur mit der tatsächlichen Umsetzung übereinstimmt (vgl. NW1, Position 62). Die Heterogenität der beschriebenen Abstimmungen zwischen den Lehrpersonen deutet auf eine primär individuelle Ausgestaltung der Zusammenarbeit im Rahmen der Zweitkorrektur

330

10

Ergebnisse der qualitativen Inhaltsanalyse

hin, die u. a. in Abhängigkeit der jeweiligen erst- und zweitkorrigierenden Lehrkräfte und ihrer Beziehung zueinander variiert (z. B. Zeitpunkt, Gesprächsumfang, besprochene Inhalte, Verbindlichkeit der Absprachen). Auch die unterschiedlichen Beurteilungsprozesse, die eine große Spanne von einer vollständigen Durchführung der Zweitkorrektur bis hin zu einem Verzicht auf die Beurteilung bilden, verweisen darauf, dass eine intendierte Umsetzung nicht landesweit erfolgt. Unter Bezugnahme auf die Educational Governance-Perspektive deuten sich vielmehr Rekontextualisierungsprozesse an, in welchen die Wahrnehmungen der Lehrkräfte (z. B. Sinnhaftigkeit oder Pflicht der Zweitkorrektur), aber auch die schulinternen Festlegungen (z. B. gemeinsame Ausdifferenzierung des Erwartungshorizontes anstelle einer Zweitkorrektor) wichtige Einflussfaktoren bilden. Ebenso erscheint die Sichtbarkeit der Erstkorrektur in diesem Kontext relevant bzw. sogar problematisch, da es hierdurch nicht nur zu einer verzerrten Wahrnehmung der zweitkorrigierenden Lehrkraft kommen kann, sondern außerdem die Möglichkeit besteht, sich der Meinung bzw. vergebenen Note der Erstkorrektorin bzw. des Erstkorrektors anzuschließen ohne die Zweitkorrektur tatsächlich durchzuführen. Die eingeschränkte Möglichkeit nachzuvollziehen, ob eine Zweitkorrektur erfolgt ist, könnte dazu beitragen, dass einzelne Lehrkräfte oder ganze Schulen darauf verzichten, da sie die Zweitkorrektur für wenig sinnvoll halten oder eine Arbeitsersparnis bzw. zeitliche Entlastung anstreben. Im Sinne eines opportunistischen Handelns würden der Arbeitsaufwand der erneuten Beurteilung sowie potenzielle Folgegespräche im Falle einer niedrigen Übereinstimmung entfallen. Letzteres führt nicht nur zu einer Arbeitserleichterung, sondern reduziert auch Gesprächsanlässe, die von einigen Lehrkräften als unangenehm wahrgenommen werden. In der Funktion der Zweitkorrektorin bzw. des Zweitkorrektors wird davor zurückgeschreckt, die erstkorrigierende Person zu belehren sowie zu „zeigen, ich finde noch fünf Fehler mehr“ (BW1, Position 88) und als Erstkorrektorin bzw. Erstkorrektor möchte man sich wiederum nicht blamieren und „vorm Zweitkorrektor nicht so doof dastehen“ (BW5, Position 142). Folglich könnte der Verzicht auf die Zweitkorrektur auch auf eine Konfliktvermeidung zielen, sodass im Sinne des Autonomie-Paritäts-Musters einer Einmischung in die Leistungsbeurteilung vorgebeugt wird und die Autonomie der Lehrkräfte im Beurteilungsprozess gewahrt bleibt (vgl. Lortie, 1975; Eder, Dämon & Hörl, 2011). Darüber hinaus schätzt die Autorin es als nicht unproblematisch ein, dass die Zweitkorrektur teilweise als heranführende Maßnahme genutzt wird, da sich die Zweitkorrektorin bzw. der Zweitkorrektor weniger an der Erstkorrektur orientieren sollte als vielmehr diese überprüfen sollte. Insbesondere vor dem Hintergrund einer heterogenen Nutzungspraxis des Erwartungshorizontes besteht zudem die Gefahr einer heterogenen Heranführung, welche teilweise nicht intendiertes Handeln vermittelt.

Ergebnisse der Metaphernanalyse

11

Dieses Kapitel fasst die Befunde der ergänzenden Metaphernanalyse zusammen. Die Autorin stellt im Folgenden die identifizierten metaphorischen Konzepte sowie deren Interpretationen im Kontext der beiden festgelegten Zielbereiche vor (vgl. Kapitel 9): In einem ersten Schritt beschreibt sie die Konzeptualisierungen des übergeordneten Zielbereichs Beurteilungsprozess (vgl. Abschnitt 11.1). Hierbei handelt es sich um metaphorische Darstellungen der Durchführung der Leistungsbeurteilung unter besonderer Berücksichtigung des landesweit vorgegebenen Erwartungshorizontes. In einem zweiten Schritt präsentiert sie die metaphorischen Konzepte, die dem Zielbereich Beziehungskonstellationen zugeordnet werden können (vgl. Abschnitt 11.2). Diese thematisieren primär den wahrgenommenen Umgang mit den unterschiedlichen Akteursgruppen (z. B. Bildungsadministration, Kollegium, Schülerschaft, Eltern) und die Beziehung zu diesen. Anhand der gewählten Metaphern werden zudem erste Hinweise auf die empfundene Rolle der Lehrpersonen sowie die damit verbundenen Anforderungen angestrebt, welche im Rahmen der zentralen Prüfung bzw. insbesondere im Kontext der Leistungsbeurteilung an die Lehrkraft gestellt werden. Insgesamt ist darauf hinzuweisen, dass die Autorin die Metapher Erwartungshorizont in ihren Analysen bewusst nicht berücksichtigt, da sie sich in den Vorgesprächen mit den Lehrkräften auf die Nutzung dieser gängigen und einheitlichen Bezeichnung geeinigt hat, um die Verständigung über das Instrument zu vereinfachen. Des Weiteren wird grundsätzlich darauf verzichtet, die Anzahl von Metaphern, die einzelnen metaphorischen Konzepten zugeordnet wurden, zu untersuchen und zu präsentieren. Das primäre Ziel dieser Analyse, besteht in der „Rekonstruktion sinnhafter Zusammenhänge für eine spezielle soziale Situation […] [und nicht darin] möglichst ‚reiche‘, das heißt breite Übertragungsmuster zu finden“ (Schmitt, 2017b, S. 46). Einem Konzept mit einer hohen Anzahl von Metaphern © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_11

331

332

11

Ergebnisse der Metaphernanalyse

kommt keine gesonderte Bedeutung zu, stattdessen liegt der Fokus auf der detaillierten Beschreibung und Interpretation einzelner Konzepte sowie deren Beziehung zueinander, wie einer gegenseitigen Ergänzung oder einem Widerspruch zwischen den identifizierten Konzepten (vgl. ebd., S. 48).

11.1

Zielbereich Beurteilungsprozess

Im Rahmen der thematischen Systematisierung und Interpretation der Metaphern zeigten sich deutlich drei Konzepte, welche die Lehrkräfte genutzt haben, um den Beurteilungsprozess darzustellen und dessen wahrgenommene Besonderheiten hervorzuheben: – Beurteilung als visueller Vorgang – Beurteilung als handwerkliche Tätigkeit – Beurteilung als Schenken Speziell mit Blick auf den Erwartungshorizont ließen sich zwei weitere Konzeptualisierungen rekonstruieren: – Erwartungshorizont als Wegweiser – Erwartungshorizont als Schutz Im Folgenden stellt die Autorin diese metaphorischen Konzepte und deren Interpretationen im Einzelnen vor.

11.1.1 Die Beurteilung als visueller Vorgang Zur Deskription von Tätigkeiten im Rahmen des Beurteilungsprozesses nutzen die Lehrkräfte vermehrt Begrifflichkeiten aus dem Quellbereich sehen, welche sich hauptsächlich auf die Sichtbarkeit und deren Einschränkung sowie die Existenz unterschiedlicher Sichtweisen beziehen. Die Beurteilung wird hierdurch als Bereich konzeptualisiert, der für eine möglichst genaue, realitätsnahe Durchführung sowohl körperliche als auch situative Voraussetzungen benötigt, wie z. B. ausreichende Sehkraft, geeignete Lichtverhältnisse. Anhand der Äußerungen der Lehrpersonen lassen sich zwei Störquellen des Sehvorgangs unterscheiden. In einem ersten Schritt führen aus ihrer Perspektive die

11.1 Zielbereich Beurteilungsprozess

333

Rahmenbedingungen der jeweiligen Situation zu einer potenziellen Einschränkung der Sicht (z. B. die bestehenden Lichtverhältnisse): – „Wenn der Stil gut ist und wenn die Formulierungen gut sind, dann lass ich mich schnell blenden“ (BW1, Position 118) – „Und ich glaube, dass eine Kollegin, die sie [Anm. d. Verf.: die Schülerin] nicht kennt, […] sich da blenden lässt nach wie vor. Kolleginnen und Kollegen lassen sich nach wie vor von der Rechtschreibung sehr blenden.“ (BW2, Position 48) Die Metapher blenden verweist auf eine starke, teilweise plötzliche Störung, welche die vollständige Erfassung der Situation physisch unmöglich macht. Aufgrund der hohen Helligkeit eines Aspekts überstrahlt dieser sein Umfeld, d. h. er lenkt die Aufmerksamkeit der Betrachterin bzw. des Betrachters auf sich und die weiteren Aspekte bleiben unbemerkt im Dunkeln. Da die Beurteilung der Sachlage dementsprechend ausschließlich bzw. primär anhand eines Bestandteils erfolgt, besteht die Gefahr einer verzerrten Wahrnehmung. Die optische Täuschung scheint gemäß den beiden Interviewausschnitten allerdings nicht ausschließlich aus den äußeren Rahmenbedingungen zu resultieren (z. B. der Helligkeit). Die Lehrkräfte deuten außerdem an, dass die Wahrscheinlichkeit einer Sichteinschränkung in Abhängigkeit der jeweiligen Person unterschiedlich hoch ist und verschieden ausfällt. Konkret lassen sich Lehrpersonen, welche die Schülerinnen und Schüler nicht kennen, mit hoher Wahrscheinlichkeit blenden (vgl. BW2, Position 48), zudem sind einige Lehrkräfte besonders schnell geblendet (vgl. BW1, Position 118). Hiermit verweisen die Lehrerinnen und Lehrer auf die Existenz von individuellen Blendempfindlichkeiten, welche die Wahrscheinlichkeit und das Ausmaß der Einschränkung reduzieren bzw. erhöhen könnten und folglich ebenfalls einen potenziellen Einflussfaktor bilden. Demnach entscheidet aus der Perspektive der Lehrkräfte ein Wechselspiel aus äußeren Einflüssen und individuellen Eigenschaften darüber, was die jeweilige Lehrperson sieht. Es ist anzunehmen, dass die Lehrpersonen anhand des alltäglichen, aber komplexen Sehvorgangs die wahrgenommene Komplexität sowie die multifaktorielle Beeinflussung im Kontext der Leistungsbeurteilung hervorheben, welche zu einer deutlich verzerrten Wahrnehmung von Prüfungsleistungen führen kann. Die Verwendung des Bildes geblendet zu werden könnte ergänzend darauf verweisen, dass die Lehrkräfte eine vollständige Ausblendung situativer, verzerrender Einflüsse trotz ihrer Kenntnis als (nahezu) unmöglich einschätzen. Der Hinweis auf unterschiedliche Blendempfindlichkeiten rekurriert vermutlich im übertragenen Sinn darauf, dass die Lehrkräfte neben einer fehlerhaften Wahrnehmung bzw. Leistungsbeurteilung durch äußere Faktoren auch von der Bedeutsamkeit persönlicher Eigenschaften

334

11

Ergebnisse der Metaphernanalyse

und Fähigkeiten der Lehrkraft überzeugt sind, um einen gelingenden, möglichst unverzerrten Beurteilungsprozess zu ermöglichen (z. B. diagnostische und fachliche Kompetenz). Eine weitere Textstelle verweist nochmals deutlicher darauf, dass die betrachtende Lehrperson eine zweite Störquelle des Sehvorgangs bildet. So beschreibt eine Lehrerin anhand der Metapher anderer Blick, dass es in Abhängigkeit der situativen Verfassung sowie der individuellen Eigenschaften zu intrapersonellen Wahrnehmungsunterschieden kommen kann: „man hat auch einfach irgendwie einfach irgendwie auch bei der dreißigsten Arbeit, beim dreißigsten einen anderen Blick als beim ersten“ (NW3, Position 84). Zur Begünstigung einer klaren und unverfälschten Sicht erläutert sie ergänzend eine Strategie, welche sie anwendet: „Ich mache das mittlerweile so, dass ich an dem einen Tag einen Packen mache und am nächsten Tag, dass ich wieder klar bin“ (ebd.). Die Aussage verdeutlicht, dass die Lehrerin eine klare Sicht als notwendig, jedoch nicht als selbstverständlich erachtet und dementsprechend zusätzliche Maßnahmen zu deren Verbesserung ergreift. Bezogen auf den Zielbereich der Beurteilung in den zentralen Prüfungen zeigt sich anhand der Bemühungen, einen anderen Blick zu vermeiden und vielmehr klar zu sein, sowohl das grundsätzliche Bedürfnis Leistungen anhand eines gleichbleibenden Anforderungsniveaus bzw. identischer Kriterien zu bewerten als auch das Bewusstsein bezüglich unterschiedlicher Wahrnehmungsfehler und Verzerrungen. Die Lehrpersonen berichten allerdings nicht nur von ungeplanten, in der Regel unerwünschten Einschränkungen und Veränderungen des Sehvorgangs, sondern ebenfalls von gezielten Entscheidungen, welche Aspekte, wie stark in die Betrachtung einbezogen werden und welche Aspekte unberücksichtigt bleiben: – „halte ich das schon auch für notwendig, dass ich die Person dahinter sehe, wenn ich sie am Ende mit einer Note benote“ (BW3, Position 110) – „obwohl man natürlich immer um Objektivität bemüht ist, hat man doch auch den einzelnen Schüler immer wieder mal im Blick“ (BW5, Position 166) – „dann kann es schon mal sein, dass man da ein bisschen, irgendwo ein Auge zudrückt“ (ebd., Position 168) – „Da sind dann immer noch ein paar Sachen, wo ich denke, ja komm, drückst ein Auge zu oder nicht“ (NW3, Position 192) Die Lehrkräfte beschreiben in den ausgewählten Textpassagen, dass sie gezielt entscheiden, welche Bestandteile der Leistung sowie leistungsfremder Aspekte sie sehen möchten und welche nicht. Aus der Perspektive der Autorin ist insbesondere die Formulierung ein Auge zudrücken hervorzuheben. Diese metaphorische

11.1 Zielbereich Beurteilungsprozess

335

Darstellung verweist auf eine gesteuerte, vorübergehende Einschränkung der Sicht, um negative Aspekte in ausgewählten Momenten nicht sehen und folglich nicht berücksichtigen zu müssen. Dieses Verhalten lässt sich als Form der bewussten Selbsttäuschung interpretieren, d. h. die Lehrkraft vermindert kurzzeitig gezielt ihre (diagnostischen) Fähigkeiten, damit sie die Leistung positiver beurteilen kann. Die Metapher ein Auge zudrücken bildet bezogen auf das gesamte metaphorische Konzept eine Ausnahme, da die Lehrkraft nur an dieser Stelle bewusst auf die Realisierung einer klaren Sicht bzw. einer objektiven Beurteilung verzichtet und in Kauf nimmt, dass die selektive Fokussierung zu intra- und interpersonellen Unterschieden in der Wahrnehmung bzw. Beurteilung führt. Zudem rekurriert die Metapher ein Auge zudrücken auf eine wenig kraftintensive, unspektakuläre körperliche Aktion und könnte als Bagatellisierung einer subjektiven Leistungsbeurteilung gewertet werden, die in der Regel mit der Abweichung von den ministeriellen Vorgaben einhergeht. Inwiefern die Lehrkräfte ihr Verhalten als Bagatelle wahrnehmen oder ob das metaphorische Konstrukt vielmehr genutzt wird, um dem Gegenüber zu suggerieren, dass es sich um eine unbedeutende Angelegenheit handelt, lässt sich an dieser Stelle allerdings nicht eindeutig feststellen. Neben diesen bewussten und unbewussten Veränderungen der Sicht, berichten die Lehrerinnen und Lehrer darüber hinaus von der Existenz unterschiedlicher Perspektiven: – „sehr, ja, subjektiv auch, wie Sprache oder auch Inhalt gesehen wird“ (BW1, Position 14) – „Also könnte ja auch sein, dass ein Kollege völlig anderer Ansicht ist“ (BW4, Position 56) – „also jeder Korrektor hat seinen unterschiedlichen Umgang mit (.), wie Lehrer in seiner unterschiedlichen Sichtweise und Texte sind ja interpretierbar“ (BW5, Position 60) – „Ja es gibt viele Ansichten auf dieselbe Sache“ (NW1, Position 170) – „weil dann (.) ist der, ich sehe das ja schon bei uns im Kollegium, der eine sieht das dann total streng“ (NW3, Position 178) Die unterschiedlichen Blickwinkel sind wiederum ein weiterer Ausgangspunkt für eine unklare Sicht. So ist es denkbar, dass in Abhängigkeit der individuellen Perspektive der Blick auf Dinge versperrt ist oder unterschiedliche Bestandteile wahrgenommen werden. Die Lehrkräfte deuten diesbezüglich an, dass es teilweise eines gemeinsamen Austauschs bedarf, um einen möglichst vollständigen Überblick zu erhalten und eine klare Sicht zu schaffen:

336

11

Ergebnisse der Metaphernanalyse

– „so dass man dann tatsächlich in dieser Prüfungsbesp/Korrekturbesprechung die einzelnen Themen und den Erwartungshorizont durchgeht, Unklarheiten miteinander klärt“ (BW1, Position 48) – „wenn […] es jetzt Unklarheiten in der Korrektur gibt, können eben die Lehrer, die das korrigiert haben, nochmal in Kontakt treten“ (BW3, Position 28) – „im Austausch ist es eigentlich für alle Lehrer schon klar“ (BW4, Position 136) Anhand der Schilderungen ist zu vermuten, dass die Lehrkräfte den Beurteilungsvorgang nicht nur als komplexen und multifaktoriell störanfälligen Prozess wahrnehmen (z. B. durch personelle und äußere Faktoren), sondern ausgehend von der Beschreibung von verschiedenen Sichtweisen auch als nicht vollständig objektivierbar empfinden. Dennoch ist unter Bezugnahme auf die Textstellen anzunehmen, dass die Lehrpersonen grundsätzlich eine Beurteilung anstreben, die zwischen den Lehrkräften nachvollziehbar bzw. vergleichbar ist und einen Austausch diesbezüglich als gewinnbringend wahrnehmen. Unter Bezugnahme auf den Quellbereich sehen bewerten die Lehrkräfte auch die landesweiten Instrumente Erwartungshorizont und Zweitkorrektur im Hinblick auf die Verbesserung der Sichtverhältnisse (vgl. Tabelle 11.1). So fordern die Lehrpersonen, dass der Erwartungshorizont transparent ist und eine klare Sichtbarkeit der geforderten Leistungen sowie deren Bewertung gewährleistet, damit der Sehprozess im Kontext der Beurteilung durch ihn vereinfacht wird: – „Wenn es da eine klare Vorgabe geben würde […] das würde schon helfen“ (NW1, Position 170) – „Wichtig ist, dass es [Anm. d. Verf.: die Gestaltung des Erwartungshorizontes] kleinschrittig ist, dass es transparent ist“ (NW3, Position 164) Die tatsächliche landesspezifische Gestaltung des Erwartungshorizontes wird von Seiten einiger baden-württembergischer Lehrkräfte als „relativ klar verständlich“ (BW5, Position 66) bewertet und sorgt ihres Erachtens dafür, dass „alles ganz klar [ist]“ (BW2, Position 36), d. h. die erwarteten Leistungen deutlich erkennbar sind. Demgegenüber gewährleistet die landesweite Variante für die befragten nordrhein-westfälischen Lehrkräfte keine vollständig klare Sicht und sie merken punktuelle Modifikationsmöglichkeiten an. Zur stärkeren Unterstützung des Sehund Erkennungsprozess im Rahmen der Beurteilung bedarf es ihrer Meinung nach mehr Informationen im Erwartungshorizont: – „das muss schon klar sein, und klar bedeutet mehr als drei Stichworte“ (NW1, Position 116)

11.1 Zielbereich Beurteilungsprozess

337

– „wie sind die Aspekte jetzt gewichtet, wie komme ich auf so eine krumme Zahl. […] ich hätte das für mich gerne klarer“ (NW4, Position 130) Anhand der Schilderungen ist anzunehmen, dass die Lehrpersonen den Erwartungshorizont als Instrument wahrnehmen, welches den Beurteilungsprozess unterstützen und zu einer möglichst unverzerrten Leistungsbeurteilung beitragen kann, da sie es mit Blick auf die Realisierung einer klaren Sicht nicht grundsätzlich in Frage stellen. Unter Bezugnahme auf die Forderungen nach einer klaren Gestaltung wird zudem die hohe Bedeutung deutlich, die der Konfiguration diesbezüglich zukommt. Neben dem Erwartungshorizont bewerten die Lehrkräfte auch die Zweitkorrektur im Hinblick auf die Herstellung einer genauen und einheitlichen Sichtweise in mehrfacher Hinsicht positiv. Demnach besteht ein Vorteil darin, dass die erstkorrigierende Person ein bisschen genauer hinschaut, wenn eine weitere Lehrperson nochmal drüber schaut (vgl. BW4, Position 86). Des Weiteren wird es positiv bewertet, dass eine zweite Person „mit ein bisschen objektiveren Augen“ (NW1, Position 160) bzw. einem anderen Blick (vgl. ebd.) die Prüfungsarbeiten erneut beurteilt. Diesbezüglich wird ergänzend angeführt, dass der „Job sozusagen [nicht darin besteht], mit einem oder zwei verbundenen Augen die Erstkorrektur durchzuwinken“ (NW2, Position 122). Zur Vermeidung einer Trübung der Sicht (vgl. NW3, Position 122) berichtet eine Lehrerin zudem davon, bewusst die vergebenen Noten der erstkorrigierenden Person nicht einzusehen. Anhand der Konzeptualisierung der Handlungen im Rahmen der Zweitkorrektur als visueller Vorgang zeigt sich deutlich die wahrgenommene Bedeutung der Zweitkorrektur für eine genauere und objektivere Sicht bzw. Beurteilung der Leistungen. Auch in diesem Kontext wird von weiteren individuellen oder schulspezifischen Bemühungen berichtet, um eine möglichst störungsfreie Sicht zu gewährleisten. Dies könnte im übertragenen Sinne erneut auf den hohen Stellenwert hindeuten, welchen die Lehrkräfte einer möglichst realistischen Abbildung der Prüfungsleistungen zuschreiben sowie die vorhandene Sensibilität bezüglich der Fehleranfälligkeit des Beurteilungsprozesses betonen.

338

11

Ergebnisse der Metaphernanalyse

Tabelle 11.1 Ausgewählte Metaphern des Quellbereichs Sehen Thema

Metapher

Erwartungshorizont „es ist alles ganz klar, und es ist vorgegeben“ (BW2, Position 36) „Da war ganz klar, Flugzeuge im Bauch, Metapher und zwar antithetisch zu Schmetterlinge im Bauch“ (BW2, Position 80) „empfinde ich das schon (.) ja, (…) als relativ klar verständlich“ (BW5, Position 66) „Das ist häufig auch unklar gewesen“ (NW1, Position 52) „spätestens für die Bewertung brauche ich da eine klare Antwort“ (NW1, Position 86) „das muss schon klar sein, und klar bedeutet mehr als drei Stichworte“ (NW1, Position 116) „Also eine klare Punkteverteilung macht Sinn“ (NW1, Position 120) „Wenn man das System einmal durchschaut hat, geht es irgendwie“ (NW1, Position 126) „ich hoffe, ich widerspreche mir nicht im Grunde selber dadurch, dass ich sage, auf der einen Seite muss es klarer, auf der anderen Seite ist es zu viel“ (NW1, Position 128) „Auch da gibt es klare Kriterien“ (NW1, Position 132) „Wenn es da eine klare Vorgabe geben würde […] das würde schon helfen“ (NW1, Position 170) „die Version 1 halte ich zum Beispiel für […] recht unklar formuliert“ (NW2, Position 40) „Den Erwartungshorizont, der Erwartungshorizont muss den Schülern ja eigentlich durch den vorgelaufenen Unterricht in etwa klar sein“ (NW2, Position 60) „ich glaube, wenn die das einfach besser gelöst hätten und das klarer ausdrücken, wofür jetzt die Punkte vergeben werden, dann wäre das auch kein Problem“ (NW3, Position 36) „Wichtig ist, dass es kleinschrittig ist, dass es transparent ist“ (NW3, Position 164) „wie sind die Aspekte jetzt gewichtet, wie komme ich auf so eine krumme Zahl. […] ich hätte das für mich gerne klarer“ (NW4, Position 130) (Fortsetzung)

11.1 Zielbereich Beurteilungsprozess

339

Tabelle 11.1 (Fortsetzung) Thema

Metapher

Zweitkorrektur

„wir haben blind korrigiert“ (BW1, Position 10) „weil ich nicht mehr super, super genau gucken muss“ (BW1, Position 88) „Also, klar, wenn man weiß, es guckt nochmal jemand drüber und man weiß, es ist eine Prüfung, schaut man vielleicht ein bisschen genauer hin“ (BW4, Position 86) „der dann natürlich einen subjektiveren Blick auf die Schüler hat als ich vielleicht“ (NW1, Position 58) „So, wenn derjenige sagt, habe ich genauso gesehen, dann weiß ich, okay, es ist mir offensichtlich gelungen, das objektiv zu beurteilen“ (NW1, Position 60) „mit ein bisschen objektiveren Augen vielleicht dann an die Sache ran geht“ (NW1, Position 160) „Dann ist mein Blick vielleicht doch irgendwie anders als wenn ich das zum ersten Mal sehe, aber schon in korrigierter Form“ (NW1, Position 160) „da kann ich dann mich wirklich auf die Inhalte konzentrieren und dann ist mein Blick vielleicht freier dafür“ (NW1, Position 160) „das ist ja nicht mein Job sozusagen, mit einem oder zwei verbundenen Augen die Erstkorrektur durchzuwinken“ (NW2, Position 156) „wir machen sogar meistens, damit das uns nicht trübt […], dass wir das dann wirklich auch zu halten auf dem Zettel für den Zweitkorrekturprüfer“ (NW3, Position 122) „steht dann da ein Notenunterschied, und dann muss man gucken, […] guckt man, dass man eine gemeinsame Endnote findet“ (NW4, Position 144)

Es ist ergänzend anzumerken, dass sich die Lehrkräfte in ihren Ausführungen zwar vermehrt auf den Sehprozess bzw. Sehsinn beziehen, jedoch auch auf andere Körperteile verweisen, um die unterschiedlichen Facetten des Beurteilungsvorgangs zu konzeptualisieren. So ist neben den Augen auch der Kopf für den Beurteilungsprozess relevant und wird u. a. als Ort konzeptualisiert, an dem die Informationen aus der Prüfungsarbeit und dem Erwartungshorizont gesammelt und strukturiert werden sowie weitere relevante und weniger relevante bzw. störende Aspekte bezüglich der Beurteilung vorliegen:

340

– – – – – – – –

11

Ergebnisse der Metaphernanalyse

„Ich darf meinen Kopf nicht ausschalten“ (BW2, Position 48) „weil ich seine Entwicklung im Kopf habe“ (ebd.) „ich bin ja nicht frei von irgendwelchen Bildern im Kopf“ (ebd., Position 49) „wenn es dann heißt, hier erörtere, dann weiß man schon, was man so im Kopf, also was so drin sein müsste“ (BW4, Position 68) „dann muss ich diese 15 Punkte für mich im Kopf jetzt nochmal sortieren“ (NW1, Position 120) „man hat so eine Kette im Kopf und korrigiert dann D, D, A, A und irgendwann hat man das im Kopf, dann wird man schneller“ (ebd., Position 126) „irgendwann hat man dieses D, D, A, irgendwas, hat man im Kopf, das erleichtert es dann, wenn man da drin bleibt“ (ebd., Position 154) „man schaltet sein Resthirn ja nie aus, weil man dabei schon mal die Hälfte so ein bisschen gliedern kann, was scheint mir gut zu sein, was scheint mir mäßig zu sein, durchschnittlich und was ist möglicherweise, läuft auch vom Hauptteil her Gefahr, in die Hose gegangen zu sein“ (NW2, Position 100)

Die Lehrkräfte konzeptualisieren den Beurteilungsprozess auf diese Weise als anspruchsvolle kognitive Tätigkeit, die zumindest zu einem gewissen Anteil routinierbar ist, indem Lösungen von geschlossenen Aufgabenformaten bzw. deren Abfolge auswendig gelernt werden. Die Menge von unterschiedlichen, teils unstrukturierten Aspekten, die im Kopf enthalten sind, verweisen erneut auf eine hohe Komplexität der Aufgabe sowie den Bedarf entsprechender Fähigkeiten, zu entscheiden was relevant ist und in welchem Umfang berücksichtigt werden soll. Die Autorin nimmt ausgehend von den Ausführungen an, dass sich die Lehrpersonen unabhängig von der Existenz eines Erwartungshorizontes aufgrund ihrer Fähigkeiten sowie des Besitzes zusätzlicher Informationen (z. B. Kenntnis der Schülerin bzw. des Schülers sowie der bisheriger Leistungsentwicklung) als bedeutsame Akteurinnen und Akteure wahrnehmen. Zudem scheinen sie vor dem Hintergrund der Vielzahl unterschiedlich relevanter Informationen, die Notwendigkeit zu sehen, den Kopf angeschaltet zu lassen und folglich gegebenenfalls das Erfordernis einer hohen Konzentration bzw. professionellen Expertise wahrzunehmen. Zudem erscheint der tatsächliche Beurteilungsprozess aufgrund der Verortung von Aspekten im Kopf als nicht sichtbar bzw. von außen zugänglich und nachvollziehbar. Auch anhand der folgenden Textstelle könnte vermutet werden, dass die Lehrkräfte den Beurteilungsprozess als einen individuellen, subjektiven Vorgang wahrnehmen, der nur der umsetzenden Person zugänglich ist und in Abhängigkeit des Kopfes variiert: „man hat den Beruf gelernt, aber trotzdem sind ganz viele verschiedene Köpfe irgendwo“ (BW5, Position 60).

11.1 Zielbereich Beurteilungsprozess

341

Ein weiteres Körperteil, das im Kontext der Beurteilung genannt wird, ist der Bauch: – „also eine Bauchnote, würde man da sagen, die auch ihre Berechtigung hat ein Stück weit“ (BW1, Position 30) – „dann wurde das total gut, ja, aber mein Bauchgefühl war viel schlechter“ (ebd.) – „zwar einmal im Sinne von einer Bauchbewertung und dann im Sinne von einer Punktebewertung“ (BW2, Position 46) Während die Lehrkräfte anhand des Kopfes primär auf eine rationale, kognitive Ebene der Beurteilung rekurrieren, verweisen sie anhand des Bauches auf eine Gefühlsebene. Trotz des angestrebten Ziels einer vergleichbaren Beurteilung empfinden einige Lehrpersonen die intuitiven Entscheidungen im Sinne einer Bauchbewertung als berechtigt. Die Beschreibung eines (teilweise) intuitiven Beurteilungsprozesses könnte darauf verweisen, dass einige Lehrkräfte die Leistungsbeurteilung als einen Vorgang wahrnehmen, dessen vollständige Standardisierung weder wünschenswert noch möglich ist. Die Durchführung einer Leistungsbeurteilung erscheint aus der Sicht einiger Lehrkräfte folglich nicht ausschließlich anhand des Erwartungshorizontes möglich. So spricht ein Lehrer davon, dass „man versucht es zu vermeiden, aber es ist nicht ganz ausgeschlossen, dass man ein gewisses Gefühl dazu hat, wie der Schüler sonst war oder so“ (BW4, Position 148). Eine andere Lehrerin plädiert zudem auch im Kontext der Beurteilung von zentralen Prüfungen dafür, dass man „sein Gefühl für Qualität nicht verlieren [darf]“ (BW2, Position 46). Vor dem Hintergrund, dass die Lehrkräfte verschiedene Körperteile in unterschiedlichem Umfang beteiligt und relevant erachten, stellt sich für die Autorin abschließend die Frage nach dem Zusammenwirken der Körperteile bzw. einer gegenseitigen Behinderung, da gegebenenfalls widersprüchliche Signale gesendet werden. Aus ihrer Sicht veranschaulicht die Partizipation unterschiedlicher Körperteile erneut die von den Lehrpersonen wahrgenommene Komplexität und Fehleranfälligkeit im Kontext des Beurteilungsprozesses, die Abstimmungsbedarfe innerhalb und zwischen den beteiligten Personen sowie die Gefahr, dass aufgrund der variierenden Beurteilungsprozesse einer Lehrkraft keine einheitliche Leistungsbeurteilung erfolgt.

342

11

Ergebnisse der Metaphernanalyse

11.1.2 Die Beurteilung als handwerkliche Tätigkeit Ein weiterer Quellbereich, welchen die Lehrkräfte zur Beschreibung ihrer Beurteilungstätigkeit nutzen, bildet das Handwerk. Die Lehrpersonen berichten, dass sie im Kontext der Leistungsbeurteilung ackern (vgl. BW5, Position 142) bzw. Texte durchackern müssen (vgl. NW2, Position 48) sowie Prüfungsarbeiten einfärben (vgl. BW1, Position 46) und Leistungen festklopfen (vgl. BW2, Position 30). Des Weiteren verweist ein Lehrer darauf, dass es in manchen Situationen „schwieriger [ist, Aspekte] ganz objektiv festzumachen“ (BW4, Position 90). Allen diesen Handlungsbeschreibungen ist gemein, dass es sich um körperliche bzw. händische Tätigkeiten handelt. Es ist zu vermuten, dass diese mit einer gewissen Anstrengung verbunden sind und folglich eine bestimmte physische Konstitution bzw. Stärke von den Beteiligten verlangen, sodass unter Umständen nicht jede Person für diese Arbeit geeignet ist. Hierauf deutet auch die folgende Aussage einer Lehrerin hin: „Allerdings ist natürlich immer noch die Prüfung immer nur so stark wie der Korrekteur“ (BW1, Position 10). Der Aspekt der körperlichen Eignung bildet eine deutliche Parallele zum Konzept der Beurteilung als visueller Vorgang und könnte im übertragenen Sinne erneut auf die Wahrnehmung der Lehrkräfte hinweisen, dass für die Beurteilungstätigkeit gewisse Voraussetzungen vorhanden sein müssen, die nicht kurzfristig geschaffen bzw. erworben werden können. Konkret denkbar wären u. a. ein entsprechendes Fachwissen oder diagnostische Kompetenzen. An dieser Stelle ist ergänzend darauf hinzuweisen, dass sich die handwerklichen Beschreibungen nicht ausschließlich auf den Bereich der Beurteilung beschränken, sondern teilweise auch die Prüfungsvorbereitung als handwerkliche Tätigkeit konzeptualisiert wird, d. h. die Lehrkräfte beginnen bereits die Unterrichtsinhalte und Klausuren mit Blick auf die zentrale Prüfung aufzubauen (vgl. z. B. BW5, Position 50; NW1, Position 36). Der Kraftaufwand erscheint speziell bezüglich des Einbaus von unterrichtlichen Inhalten und schulischen Tätigkeiten, die nicht auf die zentrale Prüfung zielen, verhältnismäßig hoch. Es bedarf des Freischaufelns und Abgrabens von Zeit (vgl. NW2, Position 162) sowie des Reinpressens und Durchhämmerns zusätzlicher Inhalte (vgl. ebd., Position 164; BW4, Position 166). Die gewählten Metaphern heben den empfundenen Aufwand eines Unterrichts, der sich nicht ausschließlich auf die Prüfungsvorbereitung beschränkt, auch auf der sprachlichen Ebene deutlich hervor. Der Quellbereich Handwerk referiert des Weiteren auch speziell auf die Erwartungshorizonte, welche wie die Prüfungsklausur oder die Prüfungsleistungen der Schülerinnen und Schüler in einer bestimmten Form aufgebaut sind (vgl. z. B. BW3, Position 126; BW4, Position 38; NW1, Position 124) und von Lehrkräften gebaut

11.1 Zielbereich Beurteilungsprozess

343

werden können (vgl. BW2, Position 40). Den landesweit vorgegebenen Erwartungshorizont konzeptualisieren die Lehrkräfte auf zweierlei Arten: als Werkzeug und als bauliches Fundament. Eine Lehrerin sieht die primäre Funktion des vorgegebenen Instruments im Festklopfen (vgl. ebd., Position 28) von Leistungen und vergleicht es mit einem Hammer: „Erwartungshorizonte sind Instrumente, genauso ein Instrument wie ein Hammer. Wenn ich nicht mit ihm umgehen kann, dann richte ich Schaden an“ (ebd., Position 48). Der Hammer ist ein „Werkzeug zum Schlagen oder Klopfen“ (Dudenredaktion, 2018b), welches in unterschiedlichen Berufsfeldern angewandt wird (z. B. Metallbau bzw. Schmiederei, Schuhmacherei). Er dient u. a. dazu, etwas gezielt zu formen oder einzuschlagen. Diesbezüglich sind insbesondere die Fähigkeiten der Anwenderin bzw. des Anwenders entscheidend (z. B. Präzision, Dosierung von Kraft), d. h. beherrscht die Person den Umgang mit dem Werkzeug nicht, können hieraus Schäden resultieren, die in der Regel nicht oder nur schwer korrigiert werden können. Die metaphorische Schilderung konzeptualisiert den Erwartungshorizont als Hilfsmittel, welches grundlegend eine Unterstützung darstellen kann. Anhand der Funktionen des Hammers könnte hervorgehoben werden, dass der Erwartungshorizont bei niedrigerem Krafteinsatz zu einem mindestens genauso guten Ergebnis führt, d. h. aus Sicht der Lehrperson eine Arbeitsentlastung bildet. Zudem könnte die Metapher betonen, dass die Lehrkraft annimmt, dass anhand des Erwartungshorizontes eine präzisere, stärker fokussierte Durchführung der Beurteilung möglich wird. Allerdings deutet sich auch die Wahrnehmung an, dass die Relevanz des Erwartungshorizontes im Hinblick auf die angestrebte leistungsorientierte, möglichst objektive Beurteilungspraxis nicht isoliert bestimmbar ist, sondern vielmehr in Abhängigkeit der beurteilenden Lehrperson festgestellt werden muss. Demnach bedarf es aus Sicht der Lehrkraft für einen zielführenden Einsatz des Erwartungshorizontes einer kompetenten Nutzerin bzw. eines kompetenten Nutzers. Ist diese Voraussetzung nicht gegeben, kann es zu einer fehlerhaften bzw. falschen Anwendung des Instruments kommen, die deutliche, unter Umständen schwer revidierbare Folgen hat. Denkbar wäre, dass die Lehrkraft die Leistungen der Prüflinge anhand des Erwartungshorizontes inkorrekt abbildet und es auf der Grundlage dieser Beurteilung zu einer problematischen Allokation kommt, die den Schülerinnen und Schülern den Zugang zu bestimmten Institutionen aufgrund falsch bescheinigter Leistungen versperrt. An dieser Stelle ist zudem darauf hinzuweisen, dass der Hammer außerdem ein Instrument der Entscheidungsverkündung im Kontext von Gerichtsverhandlungen oder Auktionen darstellt. Mit der Nutzung des Hammers verkündet die Richterin bzw. der Richter ein rechtlich bindendes Urteil oder die Auktionatorin bzw. der Auktionator das Schließen eines Kaufvertrags. Diese Tatsache hebt die in der

344

11

Ergebnisse der Metaphernanalyse

Regel weitreichenden und bindenden Konsequenzen sowie die Problematik von Fehlurteilen, die mit der Nutzung eines Hammers bzw. eines Erwartungshorizontes verbunden sind, nochmals stärker hervor. Wie bereits angedeutet, konzeptualisieren die Lehrkräfte den Erwartungshorizont auch als bauliches Fundament, worauf der Unterricht aufbauen soll (vgl. NW1, Position 86). Sie beschreiben das Instrument als Grundstock bzw. Basis für die Beurteilung (vgl. BW5, Position 110; NW5, Position 22) oder als Ausgangspunkt, von welchem ausgehend „noch darüber hinaus, also ein bisschen nach oben gearbeitet, und dann gucken wir, inwieweit nach unten differenziert wird“ (BW2, Position 54). Diesbezüglich wird insbesondere die Sicherung einer ähnlichen Niveaustufe oder eines gemeinsamen Levels positiv hervorgehoben (vgl. BW1, Position 16; BW4, Position 24 und 56). Dennoch verweisen einige Lehrpersonen darauf, dass das Niveau auch insgesamt oder anhand bestimmter Elemente wie der Punktevergabe justierbar bzw. hochschraubbar ist (vgl. BW4, Position 96; NW3, Position 232). Eine Lehrerin erklärt, dass sie am Erwartungshorizont dreht, wenn die Leistungen der Prüflinge dessen Anforderungen unterschreiten und hierdurch der Abschluss knapp verfehlt wird (vgl. BW5, Position 142). Sie begründet ihr Handeln damit, dass sie den Schülerinnen und Schülern den Zugang zu weiteren schulischen bzw. beruflichen Bildungsinstitutionen nicht verbauen möchte, wodurch diese „ein Jahr länger in der Schule rum[hängen müssten]“ (ebd., Position 166). Grundsätzlich ist anzunehmen, dass die Lehrkräfte anhand dieses metaphorischen Konzepts die grundlegende Bedeutsamkeit des Erwartungshorizontes betonen, die insbesondere hinsichtlich der Vereinheitlichung des erwarteten Leistungsniveaus wahrgenommen wird. Das Instrument scheint aus Sicht der Lehrpersonen eine gemeinsame Basis zu schaffen und den Beurteilungsprozess grundsätzlich zu regeln. Obwohl die Leistungsbeurteilung somit als nicht vollständig geregelt empfunden wird, beschreiben die Lehrkräfte mit Blick auf die konkrete Festlegung des Niveaus auch vereinzelt Situationen, in welchen bereits die grobe Regelung durch den Erwartungshorizont problematisch sein kann und gegebenenfalls zugunsten der Schülerinnen bzw. Schüler von dem Instrument abgewichen wird (z. B. Gefahr, den Abschluss zu verfehlen). Insgesamt ist den bildlichen Darstellungen des Erwartungshorizontes als Werkzeug und als Fundament gemein, dass die Lehrkräfte keine vollständige Regelung der Beurteilung, sondern vielmehr ein grundsätzliches Unterstützungspotenzial durch das Instrument wahrnehmen (z. B. Arbeitsentlastung, Vereinheitlichung der Beurteilung). Zudem deuten die Lehrpersonen in beiden Fällen die Existenz von Risiken in Abhängigkeit der jeweiligen Konfiguration des Instruments oder der Anwenderin bzw. des Anwenders an (z. B. zu strenge bzw. verfälschte Selektion der

11.1 Zielbereich Beurteilungsprozess

345

Schülerinnen und Schüler). Folglich ist zu vermuten, dass aus Sicht der Lehrkräfte die Nützlichkeit des Instruments nicht isoliert feststellbar ist. Betrachtet man abschließend die handwerklichen Metaphern in Relation zu denkbaren alternativen Konzepten, wie beispielsweise der Darstellung des Beurteilungsvorgangs als industrielle Fertigung bzw. technische Massenproduktion, betonen die gewählten Formulierungen vermutlich den wahrgenommenen situativen, individuellen Charakter des Beurteilungsvorgangs, der aus Sicht der Lehrkräfte keine vollständig standardisierte Durchführung erlaubt. Im Vergleich zur Konzeptualisierung der Leistungsbeurteilung als künstlerische Arbeit bildet das Handwerk wiederum eine stärker regelgeleitete, erlernbare Tätigkeit, die deutlich auf die Erfüllung eines Ziels in einem bestimmten Zeitrahmen gerichtet ist (z. B. Bau eines Hauses). Folglich ist anzunehmen, dass die Beurteilungstätigkeit von den Lehrpersonen weder als vollständig regelbar noch komplett regellos wahrgenommen wird.

11.1.3 Die Beurteilung als Schenken Ein dritter Quellbereich, welchen die Lehrkräfte zur Beschreibung der Leistungsbeurteilung nutzen, ist der Vorgang des Schenkens. Im Gegensatz zu den anderen beiden Konzepten handelt es sich hierbei um eine negative Definition, d. h. die Lehrkräfte verweisen darauf, dass sie den Schülerinnen und Schülern im Kontext der Beurteilung grundsätzlich wohlgesonnen sind, dennoch sollten die Eigenschaften des Schenkens aus ihrer Sicht nicht für den Beurteilungsvorgang gelten: – „Ich schenke niemandem was, also ich habe auch schon Fünfen oder ich habe auch schon 5,5 und 6 gegeben (..) wegen/meinetwegen, also wegen Deutsch. Es sind auch schon in der Vergangenheit Schülerinnen und Schüler durchgefallen. (.) Ich schenke niemandem was, aber ich habe den Anspruch, meine Arbeit so zu machen, im Sinne des Kindes, des Jugendlichen, dass da tatsächlich auch (..) eine Leistung so bewertet wird, dass ich es verantworten kann.“ (BW2, Position 70) – „Man sammelt ja in der Regel Punkte, damit man den Schülern irgendwie noch was Gutes tut“ (NW4, Position 40) Zwei baden-württembergische Lehrerinnen gehen davon aus, dass der Erwartungshorizont dabei unterstützen soll, dass Lehrpersonen oder ganze Schulen keine Abschlüsse verschenken:

346

11

Ergebnisse der Metaphernanalyse

– „Und auch, dass zum Beispiel Lehrerinnen und Lehrer nicht Noten verschenken.“ (BW2, Position 30) – „Vielleicht auch ein bisschen im Schulbetrieb untereinander, wenn man so das Gefühl hat, Schulen, ja, verschenken ihren Abschluss oder.“ (BW5, Position 18) Im Gegensatz dazu hinterfragt ein nordrhein-westfälischer Lehrer, inwiefern die Bildungsadministration durch einige Gestaltungselemente des landesspezifischen Erwartungshorizontes das Verschenken des Abschlusses (bewusst) fördert: „Auf einem anderen Blatt steht, ja, was haben die sich in Düsseldorf oder Soest überhaupt dabei gedacht, mit diesen, mit diesem Passus oder ist das nicht noch die nächste Schippe, die nächste Einladung zum fröhlichen Punkteverschenken letztendlich“ (NW2, Position 68). Insgesamt rekurriert das Konzept Schenken auf einen Prozess, in welchem einer Person kostenfrei sowie primär zu bestimmten Anlässen (z. B. Geburtstag, Feiertage) ein Geschenk übergeben wird. Dieser Vorgang zielt in der Regel darauf, jemandem eine Freude zu bereiten und ist entsprechend nicht an das Erbringen einer Leistung geknüpft. Aufgrund der deutlichen Ablehnung dieses Konzeptes im Hinblick auf die Leistungsbeurteilung ist anzunehmen, dass die Lehrkräfte keine Noten- bzw. Abschlussvergabe gutheißen, die ohne Bezug zu den Leistungen der Schülerinnen und Schüler erfolgt. Zwar verweisen die beiden Lehrerinnen auf den Anspruch, im Sinne der Prüflinge zu bewerten bzw. das Bestreben, den Schülerinnen und Schülern etwas Gutes zu tun, rekurrieren hierbei allerdings eher auf das Verständnis einer Belohnung, d. h. die Schülerinnen und Schüler sollen sich die Noten auf der Grundlage ihrer Leistungen verdienen. Darüber hinaus deutet sich anhand der kritischen Kommentierung des Verschenkens von Noten bzw. Abschlüssen durch einzelne Lehrpersonen, ganze Schulen oder Ministerien an, dass die Lehrkräfte die Existenz von wenig bis gar nicht leistungsorientierten Beurteilungspraktiken wahrnehmen und entsprechende (externe) Regelungen begrüßen, um ein derartiges Vorgehen zu reduzieren.

11.1.4 Der Erwartungshorizont als Wegweiser Äußern sich die Lehrkräfte bezüglich des Erwartungshorizontes, nutzen sie u. a. Metaphern, welche sich zu dem Konzept Wegweiser zusammenfassen lassen. Der Erwartungshorizont bildet für sie einen Ausgangs- bzw. Anhaltspunkt, eine Hilfelinie, eine Orientierungshilfe bzw. -rahmen oder eine Richtlinie bzw. -schnur:

11.1 Zielbereich Beurteilungsprozess

347

– „das ist auch gewünscht, dass man dem Schüler gerecht wird und jetzt nicht nur sklavisch sich an irgendwelchen Richtlinien abarbeitet.“ (BW1, Position 112) – „dann kommt am Nachmittag die verpflichtende Besprechung und da spielen die [Anm. d. Verf.: die Erwartungshorizonte] auch eine Rolle, werden als Ausgangspunkt genommen“ (BW2, Position 54) – „es mag bestimmt ein Anhaltspunkt sein, das haben andere Menschen alles erkannt“ (BW3, Position 116) – „Genau, das heißt, man hat da so ein bisschen/also man hat schon Anhaltspunkte, was sollte drin sein“ (BW4, Position 24) – „Ganz gut, also es gibt so einen ersten Anhaltspunkt. Klar geht man nochmal selbst durch den Text durch, aber man hat dann auch so ein bisschen Anhaltspunkt auch, was erwartet wird. […] Also es gibt schon auch so, einfach eine Hilfelinie, an der man entlang kann so. “ (ebd., Position 52) – „aber, ja, diese Orientierung, die es dann gibt, ist, denke ich, schon wichtig“ (ebd., Position 56) – „im Großen und Ganzen hat man doch eine Richtschnur.“ (BW5, Position 58) – „Es ist ja auch nur ein Vorschlag und ich glaube, so wird es sogar formuliert auf dem Erwartungshorizont, dass es nicht, also dass es als Orientierungshilfe dienen soll und nicht als Maßgabe absolut verbindlich.“ (BW5, Position 120) – „Und Orientierungsrahmen dann auch.“ (ebd., Position 180) – „weil zusätzlich zum natürlich sowieso verbindlichen Kernlehrplan und zum daran angelehnten Schulcurriculum man eigentlich eine sehr genaue Richtschnur hat, an der man sich orientieren kann letztendlich.“ (NW2, Position 12) Die Möglichkeit einer grundlegenden Orientierung bzw. der Vorgabe einer Richtung durch den Erwartungshorizont bewerten die Lehrkräfte grundsätzlich positiv (vgl. z. B. BW4, Position 148; NW2, Position 12). Neben der Chance sich besser zu orientieren befürwortet eine Lehrerin außerdem, dass „ganz verschiedene Lehrertypen und auch Ansichten, die man selber vielleicht hat, dadurch ein bisschen eingedämmt werden“ (BW5, Position 60), d. h. der Erwartungshorizont besitzt aus ihrer Sicht die Funktion einer Begrenzung oder Rahmung, welcher die Lehrkräfte in eine gemeinsame Richtung lenkt. Allerdings äußern speziell die baden-württembergischen Lehrkräfte auch den Wunsch, dass der Erwartungshorizont den eigenen Weg nicht zu sehr vorgibt: – „Und wenn da solche engen Erwartungen wären, dann können die Schüler das nicht erfüllen“ (BW1, Position 28) – „Ich möchte einfach das Gefühl haben, dass diese Hinweise mich nicht zu sehr (…) einschränken“ (BW2, Position 88)

348

11

Ergebnisse der Metaphernanalyse

– „Kriterien und Musterlösungen gibt schon zu viel vor, also wenn man dann einfach, ja, in eine bestimmte Richtung zu stark gedrängt wird“ (BW4, Position 108) Konkret kritisieren mehrere baden-württembergische Lehrpersonen, dass die vorgelegte umfangreiche Konfigurationsvariante (vgl. vertiefend Abschnitt 7.3.2) den Weg zu eng vorgibt (vgl. z. B. BW1, Position 22; BW2, Position 36) und präferieren ihre landesspezifische offene Version, die den Weg grob durch „inhaltlich[e] Schwerpunkte angelegt [hat]“ (BW1, Position 136) und ihnen gewisse Freiheiten bzw. Freiräume lässt (vgl. z. B. BW1, Position 28; BW2, Position 36, BW5, Position 108). Im Gegensatz dazu steht der Wunsch einer nordrhein-westfälischen Lehrerin, welche sich wiederum wünscht, dass die vorgestellte umfangreiche Konfigurationsvariante enger wäre, um Willkür zu vermeiden (vgl. NW4, Position 38). Es deutet sich folglich eine heterogene Wahrnehmung an, wie stark und auf welche konkrete Weise der Weg durch den Erwartungshorizont angeleitet werden sollte. Eine Lehrerin fasst dies folgendermaßen zusammen: „das [Anm. d. Verf.: die Gestaltung eines Erwartungshorizontes] ist irgendwie so eine Gratwanderung zwischen Einengung und (..), ja, und Freiheit lassen, aber Hilfestellung sein“ (BW1, Position 38). In Übereinstimmung mit dem Konzept Handwerk ist auch anhand der Metaphern des Konzepts Wegweiser davon auszugehen, dass die Lehrkräfte den Erwartungshorizont grundsätzlich als eine Unterstützung bezüglich der Durchführung der Beurteilung wahrnehmen. Die Tatsache, dass die Lehrpersonen den Erwartungshorizont konkret als Ausgangs- bzw. Anhaltspunkt, Hilfelinie oder Richtlinie bzw. -schnur konzeptualisieren, könnte im Vergleich zu weiteren bildlichen Darstellungsmöglichkeiten (z. B. Wanderkarte bzw. Wegbeschreibung) hervorheben, dass die Lehrkräfte ihren Beurteilungsvorgang nur zu einem gewissen Teil durch den Erwartungshorizont vorgegeben sehen, da dieser nur grob die Richtung vorgibt bzw. einen ungefähren Rahmen für die eigenen Handlungen schafft. Des Weiteren wird deutlich, dass die Wünsche bezüglich der konkreten Anleitung des Weges bzw. der Ausgestaltung des Erwartungshorizontes heterogen sind. So wird eine enge Anleitung in Abhängigkeit der Lehrkraft eher als unbequem und hinderlich oder als wünschenswert dargestellt. Gegebenenfalls deutet sich anhand des unterschiedlichen Anleitungsbedarfs an, dass ein variierendes Sicherheitsbedürfnis (z. B. inhaltliche oder rechtliche Absicherung) bzw. ein unterschiedliches Empfinden der eigenen Souveränität (z. B. vorhandene Kompetenzen, Professionsverständnis) potenzielle Einflussfaktoren auf die Wahrnehmung und Wünsche hinsichtlich der Gestaltung des Erwartungshorizontes bilden.

11.1 Zielbereich Beurteilungsprozess

349

11.1.5 Der Erwartungshorizont als Schutz Neben der Darstellung des Erwartungshorizontes als Wegweiser, der in Abhängigkeit seiner Gestaltung ein unterschiedliches Maß an Orientierung bzw. Anleitung bietet, konzeptualisieren die Lehrkräfte den Erwartungshorizont auch als Schutz, welcher als ein Bestandteil der zentralen Prüfungen „allen Beteiligten eine relative Sicherheit vermittelt“ (BW5, Position 12) und insbesondere Berufsanfängerinnen bzw. -anfängern Sicherheit gibt (vgl. BW2, Position 31 ff.). Mehrere Lehrpersonen nehmen sich im Kontext der zentralen Prüfung sowie insbesondere der Leistungsbeurteilung als angreifbar bzw. anfechtbar wahr (vgl. ebd., Position 114; BW5, Position 124; NW2, Position 114; NW3, Position 160) und ein Lehrer ergänzt, dass man „gerade in Deutsch irgendwo eine gewisse Angriffsfläche bietet“ (BW4, Position 70). Der Erwartungshorizont gibt aus der Perspektive der Lehrkräfte eine gewisse Sicherheit, dass die Beurteilungen zwischen den korrigierenden Personen möglichst vergleichbar sind und schafft folglich eine Handlungssicherheit gegenüber unterschiedlichen Anspruchsgruppen (vgl. BW2, Position 114; BW4, Position 52). Das Instrument bildet für einige Lehrpersonen einen Schutz vor den Kolleginnen bzw. Kollegen, welcher Diskussionen zwischen den korrigierenden Personen entschärft und dem Schutz der Schüler dient, indem stark variierende, willkürliche Beurteilungen vermieden werden (vgl. BW1, Position: 10; BW5, Position 54 ff.). Mehrere Lehrkräfte betonen jedoch primär die Schutzfunktion des Instruments im juristischen Kontext, die speziell gegenüber den Prüflingen und ihren Eltern wahrgenommen wird: – „Und ich bin juristisch abgesichert, vor allem auch in Hinblick auf Nachfragen seitens der Eltern“ (BW2, Position 36) – „wenn es Probleme gäbe, Schüler sich beschweren würden, könnte man ja sagen, hier, es gibt eine Vorgabe und die ist zu erfüllen. Eine gewisse Sicherheit, die man als Lehrer dann auch hat“ (BW4, Position 70) – „Also ich finde, das gibt schon eine Sicherheit, mit diesem Erwartungshorizont, weil es ja eben darum geht, dass es vergleichbar ist, und du hast ja, stehst ja als Lehrer, egal was du machst, meist schon mit einem Bein im Knast, und wenn es dann um sowas Wichtiges geht wie die zentralen Abschlussprüfungen. […] Also deswegen gibt mir das auch eine Sicherheit und eine Art, dass man eben nicht angreifbar wird.“ (NW3, Position 160) Das Ausmaß des Schutzes steht aus Sicht mehrerer Lehrkräfte im Zusammenhang mit der Konfiguration des Instruments:

350

11

Ergebnisse der Metaphernanalyse

B: Der Erwartungshorizont 2 ist sehr eng. Wie gesagt, auch sehr hilfreich für Kolleginnen und Kollegen, die das brauchen und vor allem, ich bin da juristisch abgesichert. Bei Erwartungshorizont 1 bin ich juristisch nicht so sehr abgesichert. […] es [Anm. d. Verf.: Erwartungshorizont 2] macht mich sicher, ich kann mich auf was verlassen. (BW2, Position 36)

Es deutet sich an, dass die Lehrkräfte einen Erwartungshorizont, der die Beurteilung detaillierter bzw. verbindlicher anleitet, als stärkeren Schutz wahrnehmen (vgl. NW5, Position 26), denn „je mehr Vorgaben, je mehr Hinweise jemand hat, […] desto weniger bin ich angreifbar, (..) desto mehr, desto mehr kann ich auch juristisch mich abgesichert sehen“ (BW2, Position 114). Im Rahmen der Konzeptualisierung des Erwartungshorizontes als Schutz zeigt sich, dass die Lehrkräfte eine eigene Angreifbarkeit bzw. Schutzbedürftigkeit wahrnehmen, die speziell im Beurteilungsprozess (im Fach Deutsch) gegenüber den Schülerinnen und Schülern bzw. Eltern, aber auch dem Kollegium besteht. Die vermutete Gefahr, dass Beurteilungen angefochten werden und sich die Lehrkräfte in einer Rechtfertigungsposition sehen, könnte wiederum auf die Existenz von unterschiedlichen Beurteilungsmöglichkeiten im Fach Deutsch hinweisen (z. B. variierendes Anspruchsniveau, Gewichtung von Leistungen), welche aus der Sicht der Lehrkräfte (zu) wenig Sicherheit geben. Zudem deutet sich an, dass die Lehrkraft die Anspruchsgruppen als mindestens gleich mächtig empfindet, da sie zumindest deren Möglichkeiten wahrnimmt, die Lehrkraft in eine Rechtfertigungsposition zu bringen und hierdurch auch deren Arbeitsaufwand zu erhöhen (z. B. Dokumentation und Nachweis des eigenen Vorgehens). Der Erwartungshorizont wird diesbezüglich erneut positiv dargestellt und bildet im Sinne der Bedeutung des Begriffs Schutz grundsätzlich eine Vorkehrung, um Schaden von der Lehrkraft abzuwenden. Es deutet sich wiederholt an, dass das Ausmaß dieser Unterstützungsfunktion in Abhängigkeit des Detailliertheits- bzw. Verbindlichkeitsgrads des Instruments und der korrigierenden Person (z. B. vorhandene Beurteilungskompetenzen, Sicherheitsbedürfnis) unterschiedlich wahrgenommen wird.

11.2

Zielbereich Beziehungskonstellationen

Die folgenden metaphorischen Konzepte erlauben Aufschlüsse über die Wahrnehmungen der Lehrpersonen bezüglich unterschiedlicher Akteursgruppen im Kontext der zentralen Prüfungen und deren Anforderungen an die Lehrkraft. Hieraus ergeben sich wiederum erste Hinweise, wie die Lehrpersonen ihre eigene Rolle empfinden.

11.2 Zielbereich Beziehungskonstellationen

351

Einige Rollen bzw. Typen deuten die Interviewpartnerinnen und -partner bereits über Begrifflichkeiten wie Kuschelpädagoge, Pseudo-Literaturwissenschaftler oder Punktemensch an (vgl. BW5, Position 60 und 122). In diesem Unterkapitel liegt der Fokus jedoch nicht auf den genutzten Bezeichnungen, sondern der Konzeptualisierung von Beziehungen zwischen den Akteursgruppen bzw. der wahrgenommenen eigenen Rolle in diesem Kontext. Im Zuge der thematischen Systematisierung und Interpretation der Metaphern zeigten sich deutlich zwei Konzepte: – Das Verhältnis der Akteurinnen und Akteure als Gefangenschaft – Das Verhältnis der Lehrkräfte als Handelsbeziehung Während das Konzept Gefangenschaft primär Aufschlüsse hinsichtlich der Beziehung zur Bildungsadministration sowie den Schülerinnen und Schülern erlaubt, betrifft das Konzept Handelsbeziehung hauptsächlich das wahrgenommene Verhältnis zwischen den beteiligten Lehrkräften.

11.2.1 Das Verhältnis der Akteurinnen und Akteure als Gefangenschaft Ein Quellbereich, dem sich die Lehrerinnen und Lehrer bedienen, um die erlebten bzw. potenziellen Konstellationen im Kontext der zentralen Prüfungen zu beschreiben, ist die Gefangenschaft. Sämtliche Metaphern aus diesem Zielbereich visualisieren primär die Lehrkraft, aber auch die Schülerinnen bzw. Schüler als untergebene Personen, die in ausgewählten Situationen in ihrem Handeln bzw. Bewegungsraum eingeschränkt sind (Tabelle 11.2).

Tabelle 11.2 Metaphern des Quellbereichs Gefangenschaft Thema

Metaphern

Prüfungsvorbereitung

„ein bisschen hin/ich sag jetzt mal bös, treten“ (BW4, Position 46) „enger an der Kandare“ (BW5, Position 14) „an der kurzen Leine gehalten“ (NW2, Position 14) „mit wilder Peitsche […] treibe[n]“ (NW2, Position 14) „Das haben die so eingebrannt gekriegt“ (NW3, Position 244) (Fortsetzung)

352

11

Ergebnisse der Metaphernanalyse

Tabelle 11.2 (Fortsetzung) Thema

Metaphern

Beurteilung

„sklavisch sich an irgendwelchen Richtlinien abarbeitet“ (BW1, Position 109) „Ich mache mich den Hinweisen nicht untertan“ (BW2, Position 48) „sich zum (.) zum Sklaven oder zum Untertanen von Erwartungshorizonten zu machen“ (BW2, Position 48) „sieht so ein bisschen aus wie Nachtreten“ (BW4, Position 152) „ich würde mich da in meiner pädagogischen Freiheit, Verantwortlichkeit eingeschränkt fühlen, wenn ich das mir überstülpen müsste“ (BW5, Position 106) „Leistungspritsche“ (BW5, Position 166) „aus sklavischen Gründen“ (NW2, Position 48) „sklavisch an einzelne inhaltliche Punkte gehalten“ (NW2, Position 48) „Meinungsdiktatur“ (NW2, Position 48) „eine Fußfessel“ (NW2, Position 60) „Fesseln, die einem angelegt werden“ (NW2, Position 160) „einfach so mein Ding durchpeitschen“ (NW3, Position 156) „mit einem Bein im Knast“ (NW3, Position 160)

Legt man den Analysefokus zunächst auf den Bereich der Beurteilung, fällt auf, dass die Lehrkräfte die Möglichkeit eines sklavischen Verhältnisses zu den vorgegebenen Erwartungshorizonten beschreiben und sich deutlich dagegen aussprechen: B: […] Ich mache mich den Hinweisen nicht untertan. Vor allem habe ich ja immer auch den Jugendlichen vor mir. […] Und aus dem Grund, glaube ich, ist es viel, viel sinnvoller, dieses Erst- und Zweitkorrektor-Prinzip zu behalten (.), anstatt sich zum (.) zum Sklaven oder zum Untertanen von Erwartungshorizonten zu machen. (BW2, Position 48)

Die Sklaverei stellt eine eindeutig hierarchische, ethisch verwerfliche und rechtlich verbotene Beziehung dar, in welcher die untergebene Person unfrei und entmündigt ist (vgl. vertiefend Zeuske, 2018). Aufgrund der Bezugnahme auf diesen Quellbereich ist anzunehmen, dass einige Lehrkräfte die Gefahr wahrnehmen, ihre Autonomie sowie Rechte durch die Instrumente der Bildungsadministration zu verlieren. Diese Konzeptualisierung des Erwartungshorizontes steht im deutlichen Gegensatz zu dessen Verbildlichung als Schutz, welcher die Lehrkraft nicht zu einer

11.2 Zielbereich Beziehungskonstellationen

353

gefangenen Person macht, sondern diese vor Schaden und Gefangenschaft bewahrt (vgl. Abschnitt 11.1). Wie bereits angemerkt, lehnen die Lehrpersonen bundeslandunabhängig die Rolle der Sklavin bzw. des Sklaven ab. Dies suggeriert, dass sie eine lediglich ausführende Rolle nicht gutheißen und ein grundsätzlich eigenständiges Handeln begrüßen. Die Wahrnehmung, was konkret als sklavisches Verhältnis gegenüber den Instrumenten der Bildungsadministration verstanden wird, variiert jedoch und es deuten sich erneut bundeslandspezifische Tendenzen an. Demnach schätzen die baden-württembergischen Lehrkräfte die Nutzung bzw. Gestaltung des Erwartungshorizontes eher als sklavisch ein als ihre nordrhein-westfälischen Kolleginnen bzw. Kollegen. So äußern zwei baden-württembergische Lehrerinnen, dass sie eine starke Orientierung am Erwartungshorizont als sklavisches Verhalten empfinden, welches weder von der Lehrkraft noch von der Bildungsadministration gewünscht wird (vgl. BW1, Position 109 ff.; BW2, Position 48). Im Hinblick auf die Konfiguration des Instrumentes verweist eine weitere Lehrperson anhand der vorgelegten umfangreichen Gestaltungsvariante (vgl. vertiefend Abschnitt 7.3.2) zudem auf eine Einschränkung durch eine detaillierte Vorgabe der Bewertung im Sinne einer Punktevergabe: „man kann einen Text nicht, ich kann den nicht in Punkte zerlegen […] (..), und das ist ja hier ganz strikt vorgegeben. […] ich würde mich da in meiner pädagogischen Freiheit, Verantwortlichkeit eingeschränkt fühlen, wenn ich das mir überstülpen müsste“ (BW5, Position 106). Die Konzeptualisierung erinnert an das erzwungene Tragen eines Kleidungsstücks, welches nicht passt bzw. die Bewegungsfreiheit stört und hebt die empfundene Behinderung des Beurteilungsprozesses hervor. Ein nordrhein-westfälischer Lehrer bewertet dieselbe Konfigurationsvariante hingegen nicht als Meinungsdiktatur bzw. Einschränkung (vgl. NW2, Position 48). Zudem betont er, dass die Nutzung der Erwartungshorizonte zwar verpflichtend ist, jedoch „nicht aus sklavischen Gründen [erfolgt], sondern weil sie inhaltlich Sinn machen“ (ebd.). Er ergänzt, dass selbst aus einer kleinschrittigen Gestaltung des Erwartungshorizontes nicht resultiert, dass „man […] sklavisch an einzelne inhaltliche Punkte gehalten [wird]“ (ebd.). Die Erwartungshorizonte bilden für ihn folglich keine Fesseln, die ihm angelegt werden (vgl. ebd., Position 160), d. h. die Bildungsadministration erzeugt anhand des Erwartungshorizontes keine vorübergehende Einschränkung der Bewegungsfreiheit der Lehrkraft, aus welcher eine selbstständige Befreiung unmöglich ist. Die Lehrperson fühlt sich nicht zu einem gehorsamen Handeln entgegen ihres eigenen Sinnempfindens gezwungen, sondern nimmt weiterhin Freiheiten wahr. Im Gegensatz dazu bezeichnet der Lehrer wiederum Aufgabenstellungen, welche die Struktur der Antwort in einem gewissen Rahmen vorgeben, als Fußfessel

354

11

Ergebnisse der Metaphernanalyse

(vgl. ebd., Position 60). Das Anketten der Füße bildet eine deutliche Einschränkung, welche die Fortbewegungsgeschwindigkeit reduziert und gegebenenfalls den Bewegungsradius kontrolliert bzw. vorgibt. Die Metapher betont die empfundene Einengung bzw. Kontrolle bezüglich der eigenen Arbeit. Während die Lehrkräfte ihre Rolle im Kontext der Beurteilung als menschliche Gefangene konzeptualisieren, stellen sie sich bezogen auf die Prüfungsvorbereitung als Haus- bzw. Nutztiere der Bildungsadministration dar, die „schon ab Klasse 9 […] ein bisschen enger an der Kandare“ (BW5, Position 14) oder „von Klasse 9 angefangen […] ein bisschen mehr als vorher an der kurzen Leine gehalten [werden]“ (NW2, Position 14). Die Darstellung der eigenen Rolle als angebundenes Tier hebt neben der empfundenen eigenen (Bewegungs-)Einschränkung gegebenenfalls auch das wahrgenommene hierarchische Verhältnis zwischen der Bildungsadministration als Besitzerin bzw. Besitzer der Lehrperson hervor, die deren Bewegung in einem beschränkten Rahmen vorgibt (z. B. Länge der Leine). Zudem suggeriert die Anleitung bzw. Führung anhand eines eigens hierfür entwickelten Hilfsmittels (z. B. Zaumzeug), dass primär top down grobe Anweisungen gegeben werden. Die Lehrkräfte können zwar die angestrebte Richtung oder Bewegungsspielräume abschätzen, jedoch ohne weitere Kommunikation nicht das grundlegende intendierte Vorgehen oder Ziel erkennen und würden hierzu folglich weitere Informationen benötigen. Die Beziehung zwischen Menschen und Tieren erscheint somit stark zweckgebunden sowie in ihren Kommunikationsmöglichkeiten eingeschränkt. Da Tiere nicht sprechen können, ist das Erkennen und Berücksichtigen ihrer Bedürfnisse von der Deutungskompetenz und der Bereitschaft des Menschen abhängig. Im Gegensatz zum künstlichen und rechtswidrigen Unterordnungsverhältnis im Rahmen der Beurteilung als Sklavin bzw. Sklave rekurriert die Verbildlichung als Nutz- und Haustier auf ein eher natürliches, allgemein akzeptiertes hierarchisches Verhältnis zwischen Menschen und Tieren. Im Zusammenhang mit der Tatsache, dass eine Unterordnung gegenüber der Bildungsadministration im Rahmen der Vorbereitung zwar kritisiert, aber nicht wie die Nutzung und Gestaltung des Erwartungshorizontes in Frage gestellt wird, könnte dies möglicherweise auf die Wahrnehmung der Lehrkräfte verweisen, dass eine Vorgabe von Inhalten durch die Bildungsadministration akzeptiert ist, jedoch ein Eingriff in die Beurteilungstätigkeit von ministerieller Seite als unnatürlich und falsch empfunden wird. Es ist denkbar, dass eine derartige Wahrnehmung aus der eher seltenen, ungewohnten Vorgabe der Beurteilung resultiert oder die Beurteilungstätigkeit gemäß dem Professionsverständnis der Lehrpersonen grundsätzlich einen Bereich bildet, der nicht vorgegeben werden kann oder sollte.

11.2 Zielbereich Beziehungskonstellationen

355

Die Lehrperson präsentiert sich im Rahmen der Prüfungsvorbereitung jedoch nicht nur als untergebene Akteurin bzw. untergebener Akteur gegenüber der Bildungsadministration, sondern gleichzeitig als übergeordnete Person gegenüber den Schülerinnen und Schülern, welche diesen Inhalte einbrennt (vgl. NW3, Position 244). Diese Metapher erinnert an das Markieren eines Tieres durch das Einbrennen eines Zeichens und hebt sowohl das wahrgenommene hierarchische Verhältnis zwischen der Lehrkraft und der Schülerschaft hervor als auch die dauerhafte, gegebenenfalls schmerzhafte bzw. anstrengende Prägung der Prüflinge durch die Lehrperson. Auch der Druck im Kontext der Prüfungsvorbereitung sämtliche prüfungsrelevante Inhalte vorzubereiten scheint durch das Handeln der Lehrkraft an die Schülerinnen und Schüler weitergegeben zu werden. So sieht eine Lehrerin das Erfordernis, die Prüflinge situativ „treten [zu müssen], also mit ein bisschen mehr Druck [zu] arbeiten, dass sie dann einfach auch was tun“ (BW4, Position 46). Diesbezüglich erscheint es insbesondere interessant, dass eine Ausdehnung der Freiheit der Lehrkraft gegenüber der Bildungsadministration im Sinne einer Thematisierung von nicht-prüfungsrelevanten Inhalten aus Sicht eines Lehrers dazu führt, dass sich der Umgang gegenüber den Schülerinnen und Schülern sehr gewaltvoll gestaltet. Die Folge eines nicht ausschließlich auf die Prüfungsvorbereitung abgestimmten Unterrichts besteht für ihn darin, die Schülerschaft „mit wilder Peitsche letztendlich durch ein Programm [zu] treibe[n], was dann auch nicht mehr ihres ist“ (NW2, Position 14) sowie weitere Inhalte durchzuhämmern (vgl. ebd., Position 164). Der Lehrer betont, dass er von der Möglichkeit absieht, den Zwang an die hierarchisch untergeordneten Schülerinnen bzw. Schülern weiterzugeben, um aus der eigenen Gefangenschaft auszubrechen und Autonomie zu gewinnen (vgl. ebd., Position 64 ff.). Auch hinsichtlich der Beurteilung heben mehrere Lehrkräfte hervor, dass sie bewusst von einem gewaltvollen Verhalten gegenüber den Prüflingen absehen und nicht das eigene Ding durchpeitschen (vgl. NW3, Position 156), die Schülerinnen und Schüler vorverurteilen (vgl. NW2, Position 100) oder ihnen nachtreten (vgl. BW4, Position 152). Dies suggeriert, dass die Lehrkräfte zwar ein hierarchisches Verhältnis gegenüber den Prüflingen wahrnehmen, jedoch darauf achten, dass dieses nicht zu einer Weitergabe von Zwang und Einschränkung führt, sodass die Schülerinnen bzw. Schüler nicht zu Gefangenen der Lehrkraft werden. Ergänzend sei darauf hingewiesen, dass weiterführende Aussagen, wie z. B. „das Wohl des Kindes steht bei uns […] auf Platz 1“ (BW1, Position 124) oder die Prüflinge werden von den Lehrkräften begleitet (vgl. BW2, Position 70; BW5, Position 166) und man versucht diesen gerecht zu werden (vgl. z. B. BW1, Position 48; NW5, Position 18), vielmehr darauf schließen lassen, dass sich die Lehrpersonen stattdessen als schützende Begleitperson gegenüber den Schülerinnen bzw. Schülern verstehen.

356

11

Ergebnisse der Metaphernanalyse

Insgesamt hebt der Quellbereich der Gefangenschaft inklusive der teils gewaltvoll geschilderten Handlungen deutlich die wahrgenommenen potenziellen Einschränkungen im Bereich der Beurteilung sowie die vorhandenen Zwänge im Kontext der Prüfungsvorbereitung und das als stark hierarchisch empfundene Verhältnis zwischen der Bildungsadministration, den Lehrpersonen und den Prüflingen hervor.

11.2.2 Das Verhältnis der Lehrkräfte als Handelsbeziehung Ein Konzept, auf welches die Lehrkräfte zur Beschreibung des Umgangs mit den Kolleginnen und Kollegen im Kontext der Leistungsbeurteilung rekurrieren, bildet der Bereich der Handelsbeziehung. Diese Verbildlichung nutzen primär baden-württembergische Lehrpersonen, um die Beurteilungspraxis in den zentralen Prüfungen zu beschreiben, als lediglich eine Korrekturbesprechung verbindlich war und noch keine landeseinheitlichen Erwartungshorizonte existierten. Eine Lehrerin beschreibt die gemeinsame Festlegung der Beurteilungskriterien mit der Partnerschule als „ein[en] Markt der Eitelkeiten, wo die Kollegen sich gegenseitig gezeigt haben, was sie alles auf dem Kasten haben und alles entdeckt haben und wo ihre Ansprüche stehen, was aber oft natürlich nicht mehr der realistischen Schülerleistung entspricht“ (BW1, Position 10). Die Beschreibung des Einigungsprozesses hinsichtlich des Werts des Schülerproduktes steigert sich teilweise derart, dass es bereits an eine konfliktreiche bzw. kämpferische Auseinandersetzung erinnert, in welcher Aspekte streitbar sind (vgl. BW5, Position 56; NW1, Position 106) und die sonstigen Einzelkämpfer (vgl. BW4, Position 162) mit „teilweise doch verschiedene[n] Ansichten aufeinanderprallen, was eben ein Schüler können muss“ (BW5, Position 54). Die Darstellung der Beurteilung als Aushandlungsvorgang auf einem Markt suggeriert, dass die Lehrkräfte deutliche Ermessensspielräume wahrnehmen. Das Anforderungsniveau oder die erwarteten Leistungen sind nicht analog zu einer Buchpreisbindung verbindlich festgelegt, sondern lassen sich verhandeln. Die Beurteilung einer Prüfungsarbeit erscheint aus der Sicht der Lehrkraft wie eine situative Entscheidung, die u. a. von dem Verhandlungsgeschick bzw. den Argumenten der beteiligten Parteien abhängig ist. Die zusätzliche Wahrnehmung, dass einige Lehrpersonen ohne einen Bezug zur realistischen Schülerleistung zeigen, was sie auf dem Kasten haben (vgl. BW1, Position 10) bzw. „sich aufspielen mit irgendwelchen Ansichten, die da unbedingt noch rein müssten“ (BW5, Position 56), könnte auf eine teilweise empfundene Verschiebung des Fokus von der Prüfungsleistung als Produkt der Schülerinnen und Schüler hin zu einer Art Selbstdarstellung der

11.2 Zielbereich Beziehungskonstellationen

357

Fähigkeiten der Lehrkräfte hindeuten. Hierbei entsteht zudem der Eindruck einer gewissen Konkurrenzsituation zwischen den Lehrkräften bezüglich deren Kompetenzen, welcher sich u. a. durch die Aussage verstärkt, dass einige Lehrkräfte den Kolleginnen bzw. Kollegen ihre Unwissenheit im Nachhinein vorhalten (vgl. BW1, Position 54). Im Gegensatz zur Gefangenschaft deutet sich außerdem weniger eine Hierarchie als eine Gleichstellung zwischen den Lehrpersonen an. Die gemeinsame Interaktion auf einem Marktplatz, auf dem keine Festlegung durch eine Lehrkraft, sondern eine Aushandlung zwischen den Beteiligten erfolgt, deutet daraufhin, dass sich die Lehrpersonen als „Teil von einem genau gleichwertigen Kollegium [empfinden]“ (BW5, Position 190). In diesem Kontext hilft der Erwartungshorizont aus Sicht der Lehrkräfte dabei, sich auf das Kerngeschäft zu konzentrieren (vgl. BW1, Position 10). Diese bildliche Darstellung suggeriert, dass die Abstimmungsprozesse als zusätzliche Arbeiten im Rahmen des Beurteilungsprozesses gewertet werden. Zwei Lehrkräfte nehmen den Erwartungshorizont diesbezüglich als Instrument wahr, welches Diskussionen erspart (vgl. BW5, Position 54) oder die Zusammenarbeit erleichtert (vgl. BW1, Position 16). Sie heben anhand der Formulierung das wahrgenommene Potenzial des Erwartungshorizontes hervor, zu einer zeitlichen und inhaltlichen Entlastung der Aushandlungsprozesse beizutragen. Allerdings scheint die Existenz eines Erwartungshorizontes die Aushandlungsprozesse im Kontext der Beurteilung nicht vollständig zu unterbinden. So wird die Gewichtung der Leistungen weiterhin ver- bzw. ausgehandelt (vgl. BW5, Position 84) und durch den Wegfall der Drittkorrektur in Baden-Württemberg „treffen sich die [Lehrkräfte] beim Rektor jeweils und man verhandelt dann, feilscht dann rum, bis man sich doch irgendwo in der Mitte trifft, also ein bisschen unbefriedigend das Ergebnis“ (ebd., 146). Folglich deutet sich an, dass die Aushandlung von Leistungen nicht nur als zusätzliche Arbeit wahrgenommen wird, sondern ebenfalls als ungeeignetes Verfahren. Eine Zusammenarbeit von Lehrkräften, welche zu einer Beurteilung führt, die nicht leistungsorientiert ist, scheint aus Sicht der Lehrkraft weiterhin zu existieren, jedoch als wenig wünschenswert wahrgenommen zu werden.

Ergebnisse der Typenbildung

12

Die inhaltlich strukturierende Inhaltsanalyse dient nicht nur der systematischen Deskription der Wahrnehmungen der Lehrkräfte, sondern ebenfalls als Grundlage für eine Typenbildung (vgl. Abschnitt 8.4). Anhand des Verfahrens der typenbildenden Inhaltsanalyse (vgl. Kuckartz, 2018) wurden Lehrkräfte gruppiert, die möglichst ähnliche Wahrnehmungen bezüglich des Erwartungshorizontes sowie des Umgangs mit diesem beschreiben. Hierzu definierte die Autorin einen dreidimensionalen Merkmalsraum, welcher eine Typenbildung anhand der folgenden Merkmale vorsieht: – wünschenswerte Konfiguration des Erwartungshorizontes – Nutzungsintensität des Erwartungshorizontes – Begründung der Nutzungsintensität Die Gruppierung erfolgte induktiv anhand des konkreten Materials, sodass nur Typen entstanden sind, die auch tatsächlich existieren. Wie bereits erläutert, bestehen diese sogenannten polythetischen oder natürlichen Typen aus Fällen, die sich hinsichtlich der ausgewählten Merkmale möglichst ähnlich, jedoch nicht vollständig homogen sind (vgl. Abschnitt 8.4). Es wurde konkret auf die Ergebnisse der folgenden Kategorien zurückgegriffen: – 14.1 Wünschenswerte formale Gestaltung des Erwartungshorizontes – 14.2 Wünschenswerte Lösungsdarstellung im Erwartungshorizont – 14.3 Wünschenswerte Anleitung der Bewertung und Benotung im Erwartungshorizont – 15.1.1 Nutzungsintensität des Erwartungshorizontes – 15.1.2 Begründung der starken Nutzung des Erwartungshorizontes © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_12

359

360

12

Ergebnisse der Typenbildung

– 15.1.3 Begründung der geringen Nutzung oder Nicht-Nutzung des Erwartungshorizontes Zur Gruppierung der Lehrkräfte wechselte die Autorin ihre Analyseperspektive von der Merkmals- zur Fallebene und verglich bzw. ordnete die Fälle. „Das Aufstellen von Ordnungsprinzipien und die nach diesem Schema vollzogene Konstruktion von Typen sind [zwar] kreative Akte, die sich einer präzisen codifizierten Beschreibung verweigern“ (Kuckartz, 2018, S. 152), dennoch versuchte die Autorin ihr Vorgehen weitestgehend zu systematisieren. Orientiert an Kuckartz Empfehlung notierte sie sowohl die inhaltsanalytisch zugeordneten Merkmalsausprägungen wie auch diesbezüglich veranschaulichende Interviewausschnitte für jeden Fall auf jeweils einer Moderationskarte (vgl. ebd., S. 150 ff.), um den Vergleichs- und Ordnungsprozess (kognitiv) zu erleichtern. Im Anschluss an die Gruppierung der Karten wurden die Ergebnisse zusätzlich Personen außerhalb des Wissenschaftskontexts vorgestellt und hinsichtlich der Plausibilität der Typologie unabhängig von methodischen Kenntnissen diskutiert. Im Folgenden präsentiert die Autorin die drei entstandenen Typen. Hierzu beschreibt sie detailliert deren einzelne Merkmale und fügt zur Veranschaulichung protototypische Interviewausschnitte an. Abschließend erfolgt eine tabellarische Zusammenstellung der zugehörigen Fälle eines Typus.

12.1

Die tendenziell vorschriftenorientierte Lehrkraft

Die Bezeichnung tendenziell vorschriftenorientierte Lehrkraft bildet den Überbegriff für eine Gruppe von Lehrkräften, die in den zentralen Prüfungen eine möglichst detaillierte Vorgabe der Beurteilung befürwortet und sich vergleichsweise stark an den vorgegebenen Erwartungshorizonten orientiert. Lehrpersonen dieses Typus wünschen sich einen Erwartungshorizont, welcher den Beurteilungsprozess umfassend und verbindlich anleitet, sodass eine vergleichbare Beurteilungspraxis gewährleistet werden kann. In einem ersten Schritt fordert dieser Typus eine eindeutige Beschreibung der erwarteten Leistungen. Die Lösungsdarstellung soll folglich möglichst konkret sein, d. h. Angaben mit einem deutlichen Aufgabenbezug und/ oder einer hohen Detaillierung: B: Und oben drüber steht ja häufig noch Dinge, die man bearbeiten soll/ die man beachten soll, wie hier die Hinweise, sowas gibt es bei uns ja auch. Leider steht da immer dasselbe drin. Auch da würde ich mir manchmal wünschen, die würden ein

12.1 Die tendenziell vorschriftenorientierte Lehrkraft

361

bisschen konkreter, was die eigentlich so genau damit meinen. Aber (..) ich finde es gut, dass das da steht, ja. (NW4, Position 82)

Zudem sollen die erwarteten Lösungen möglichst vollständig dargestellt werden, d. h. die Beschreibungen im Erwartungshorizont dürfen kaum Spielräume enthalten: B: Ja, ich würde es vielleicht auch kleinschrittiger machen. Ich würde auch nicht hier Pünktchen, Pünktchen, Pünktchen machen, sondern wenn die wirklich wollen, dass wir Punkte dafür geben, dann sollen sie auch hinschreiben, was wir wofür geben sollen, weil es sonst eben auch von Schule zu Schule verschieden ist. Schon alleine bei uns im Lehrerkollegium, in den Tandems, in denen wir arbeiten, in den anderen Tandems sieht es ja/ würde es dann schon anders aussehen. (NW3, Position 144)

In einem zweiten Schritt begrüßt der tendenziell vorschriftenorientierte Typus eine Regelung der Leistungsbewertung anhand einer Punktevergabe. Die reine Existenz eines Punktesystems wird jedoch nicht als ausreichend wahrgenommen, vielmehr wünschen die Lehrkräfte dieses Typus eine Differenzierung in kleinere Punktzahlen, die wiederum eindeutig einzelnen Leistungen zugeordnet sind: I: Was hältst du von Punktebewertung, hältst du die für sinnvoll? B: Würde ich schon, denn, also es muss natürlich gewichtet werden, wenn ich jetzt etwas lese mit Einleitung, Hauptteil, Schluss, und da steht 15 Punkte, dann muss man halt überlegen, wie man die jetzt verteilt auf die einzelnen Teilbereiche. Ansonsten, wüsste ich jetzt gerade keine Alternative, wie ich bewerten sollte, wenn ich keine Punkte verteilen könnte. Das halte ich schon für wichtig, aber es muss halt genauer angegeben werden, für was es wie viel Punkte gibt, sonst kann man es nicht vergleichbar machen. (NW5, Position 97–98)

Zusätzlich zur wünschenswerten Konfiguration des Erwartungshorizontes spiegelt sich die starke Vorschriftenorientierung auch in der beschriebenen Nutzungspraxis wider. Die eingeschätzte Nutzungsintensität ist sehr hoch und beträgt mindestens 75 Prozent. Die tendenziell vorschriftenorientierte Lehrkraft begründet die starke Berücksichtigung des Instruments vorrangig mit der wahrgenommenen Nutzungspflicht, über welche sie sich nicht hinwegsetzt: B: […] Wir machen das [Anm. d. Verf.: Nutzung der Erwartungshorizonte], weil es die Vorgaben sind. Viele von uns sind Beamte, wir funktionieren so. Das heißt, wenn da steht, ich spinn jetzt mal rum, Goethe, Der Fischer, ja, die Nixe zieht ihn nach

362

12

Ergebnisse der Typenbildung

unten, er fängt an, vorher zu sabbern und zack ist er weg, so, er ist ihr auf den Leim gegangen, ja, sozusagen. So. Und wenn da jetzt stehen würde, 3 von 80 Punkten, der Schüler erkennt, ich spinn jetzt mal rum, dass Wasser nass ist, das mit dem/ ja gut, da steht, das Wasser rauscht, das Wasser schwoll, das mit dem Wasser ein stehendes oder fließendes Gewässer gemeint ist, also ein Null-Aussagesatz im Grunde genommen, ja. Dann würden wir und da kann ich die erste Plural benutzen, furchtbar über diese drei oder vier Punkte ärgern, die ein möglicherweise Dummkopf und Faulpelz da hinterher geworfen hat, wir würden sie geben. Das ist Absicht von Düsseldorf letztendlich oder von mir aus Soest, also dann würden wir sie geben, ja. Bei der Besprechung sitzen wir schon und schütteln den Kopf und denken, offensichtlich kann man sein Hirn vorher raus schrauben, aber so funktioniert das. Deswegen hier der Punkt. Wir sind ja formal auch dazu gezwungen, das heißt, Frau Mathes, Sie werden jetzt von mir nicht den Aufruf zur Revolution hören oder das Eingeständnis, schon irgendwo gezündelt zu haben, obwohl das schon dann ab und an, überwiegend nicht, aber ab und an ärgerlich ist, das ist sicherlich der Fall. (NW2, Position 128)

Die Argumentation der verbindlichen Anwendung des Erwartungshorizontes wird teilweise verstärkt, indem auf eine stichprobenartige Überprüfung der Nutzung sowie den eigenen Beamtenstatus und das damit verbundene besondere „öffentlichrechtliche Dienst- und Treueverhältnis“ (Gesetz zur Regelung des Statusrechts der Beamtinnen und Beamten in den Ländern [Beamtenstatusgesetz – BeamtStG], § 3) verwiesen wird. In diesem Kontext wird vereinzelt auch auf eine Pflicht vor dem Hintergrund der Erreichung der angestrebten vergleichbaren Beurteilungspraxis eingegangen. Zudem erweitern einige Lehrkräfte dieses Typus ihre Argumentation um eine juristische Facette und begründen ihre starke Nutzung auch mit dem Erfordernis einer rechtlichen Absicherung: B: […] Es muss ja auch/ im Notfall muss das Ganze [Anm. d. Verf.: die Prüfungsbeurteilung] ja einklagbar sein, um das mal auf diese Ebene zu heben. Dann werde ich einen Teufel tun, das Ganze irgendwie nach eigenen Maßstäben zu bewerten, weil wenn dann ein Schüler sagt, jetzt habe ich meinen Abschluss nicht, und ich habe das aber nicht nach der Vorgabe, da komm ich ja in Teufels Küche, das kann ich ja nicht machen. Das heißt, das ist ja schon/ ich verpflichte mich ja indem ich den Beruf ausübe, das nach diesen Vorgaben zu machen. Das heißt, ich sehe da jetzt für mich gar keine Freiheit, das anders zu machen. (NW1, Position 180)

Insgesamt besitzt die tendenziell vorschriftenorientierte Lehrkraft im Kontext der Leistungsbeurteilung der zentralen Prüfung ein starkes Bedürfnis nach Absicherung. Folglich präferieren Angehörige dieses Typus einen möglichst verbindlich gestalteten Erwartungshorizont, welchen sie im Kontext der Beurteilung verstärkt nutzen (Tabelle 12.1).

„I: Ja, das heißt, eine gewisse Kleinschrittigkeit ist wünschenswert. B: Ich meine schon, ich meine schon.“ (NW2, Position 51–52)

„Ja, ich würde es [Anm. d. Verf.: die Lösungsdarstellung] vielleicht auch kleinschrittiger machen. Ich würde auch nicht hier Pünktchen, Pünktchen, Pünktchen machen, sondern […] hinschreiben, was wir wofür geben sollen“ (NW3, Position 144)

„Möglichst eine knappe Aufzählung von allen Aspekten, die zur Beantwortung der Aufgabe möglich wären.“ (NW4, Position 72)

„Also möglichst viel Details, wirklich konkret auf „Ansonsten, wüsste ich jetzt gerade keine die Aufgabe bezogen [Anm. d. Verf.: Gestaltung der Alternative, wie ich bewerten sollte, wenn ich keine Lösungsdarstellung].“ (NW5, Position 94) Punkte verteilen könnte. Das halte ich schon für wichtig, aber es muss halt genauer angegeben werden, für was es wie viel Punkte gibt, sonst kann man es nicht vergleichbar machen.“ (NW5, Position 98)

NW2

NW3

NW4

NW5

„Und dann zusätzlich dazu die Verteilung der Punkte, […] dass man das irgendwie besser erklärt, wie die auf die Punktzahl gekommen sind.“ (NW4, Position 72)

„Also ich glaube, wenn die das einfach besser gelöst hätten und das klarer ausdrücken, wofür jetzt die Punkte vergeben werden, dann wäre das auch kein Problem.“ (NW3, Position 36)

„Wenn sie [Anm. d. Verf.: die Punktevergabe] (..) noch (..), ich zitiere mich, Mist und Gold unterscheiden lässt, völlig okay. Ja. Wenn es darauf hinausläuft, dass ein Schüler […] die Kernaussage nicht erkennt und dann auf 35 von 60 Punkten kommt oder noch mehr, dann ist das Murks.“ (NW2, Position 62)

„Also eine klare Punkteverteilung macht Sinn. […] Häufig ist es ja so, […] dann muss ich diese 15 Punkte für mich im Kopf jetzt nochmal sortieren […], das würde ich genauer halten, wenn ich eine wirkliche Vergleichbarkeit schaffen will.“ (NW1, Position 120)

„[…] die Dinge, (.) die genauer sein müssten, sowas wie ein Leseverstehen, was geht da jetzt noch durch, das ist immer relativ kurz gefasst. […] Das müsste häufig genauer sein.“ (NW1, Position 80)

NW1

Konfiguration des Erwartungshorizontes: Anleitung der Bewertung und Benotung

Konfiguration des Erwartungshorizontes: Anleitung der Leistungsfeststellung

Lehrkraft

Tabelle 12.1 Übersicht der Fälle des Typus tendenziell vorschriftenorientierte Lehrkraft

„Okay, also ich nutze den Bewertungsbogen, also den Leistungshorizont auf jeden Fall zu 100 %, denn das ist ja auch irgendwie das, was die Arbeiten vergleichbar machen soll.“ (NW5, Position 248)

„Also an der Zahl der Punkte, die es pro Aufgabe gibt, muss man sich ja sowieso halten. Jetzt könnte ich natürlich die Vorgaben, die dann da zu den Punkten führen, völlig über Bord werfen, aber (…) ich sehe da/ nee, kann ich mir nicht vorstellen“ (NW4, Position 164)

„[…] aber ansonsten (.) muss ich mich ja schon daran [Anm. d. Verf.: den Erwartungshorizont] halten. Besonders weil ja auch […] ein paar eingesammelt und nochmal nachkorrigiert und mal geguckt, wie wir uns da so dran gehalten haben.“ (NW3, Position 198)

„Wir machen das, weil es die Vorgaben sind. Viele von uns sind Beamte, wir funktionieren so. […] Wir sind ja formal auch dazu gezwungen“ (NW2, Position 128)

„Dadurch, dass ich den so verstehe als (..) die Maxime, an der ich mich orientiere, so ist es richtig, und meine eigene Meinung ja keine Rolle spielt, ist das für mich die maßgebliche Vorgabe. Das heißt, ich muss das natürlich nutzen.“ (NW1, Position 174)

Nutzung des Erwartungshorizontes

12.1 Die tendenziell vorschriftenorientierte Lehrkraft 363

364

12.2

12

Ergebnisse der Typenbildung

Die tendenziell kompetenzorientierte Lehrkraft

Die Bezeichnung tendenziell kompetenzorientierte Lehrkraft bildet den Überbegriff für eine Gruppe von Lehrkräften, welche die Beurteilung in den zentralen Prüfungen primär auf der Grundlage der eigenen professionellen Kompetenz durchführt und lediglich eine teilweise bzw. fakultative Unterstützung der Beurteilung befürwortet sowie den Erwartungshorizont situationsabhängig nutzt. Der Begriff Kompetenzorientierung wird in diesem Rahmen folglich nicht im Sinne eines kompetenzorientierten Unterrichts als eine Orientierung an (bundesweit) vorgegebenen Standards verstanden, sondern rekurriert darauf, dass die Lehrkraft sich primär auf die eigene professionelle Kompetenz beruft. Konkret wünschen sich Lehrpersonen dieses Typus einen Erwartungshorizont, welcher den Beurteilungsprozess unterstützt, allerdings nicht verbindlich regelt. Die Lösungsdarstellung soll ausschließlich inhaltliche Schwerpunkte enthalten, da die Angehörigen dieses Typus davon ausgehen, dass eine differenziertere Darstellung nicht sinnvoll ist, da sowieso nicht alle potenziellen Lösungen antizipiert werden können. Es wird vielmehr gefordert, dass die Konkretisierung der erwarteten Inhalte den korrigierenden Lehrpersonen überlassen bleibt und diese auch individuelle Schwerpunktsetzungen (z. B. Passung zur Prüfungsvorbereitung, Entwicklung des Prüflings) vornehmen können: B: […] Dann wäre es gut, wenn inhaltlich Schwerpunkte angelegt sind, die aber eben so formuliert sind, dass sie noch füllbar sind, vielleicht mit Möglichkeiten, ein Angebot, was könnte da drunter verstanden sein, aber nicht als, ja, / I: Muss. B: nicht als Muss und nicht als feste Forderung. (BW1, Position 136–138)

Folglich empfindet der tendenziell kompetenzorientierte Typus einen detaillierten und verbindlichen Erwartungshorizont als Einschränkung und Spielräume im Rahmen der Lösungsdarstellung des Instruments werden positiv bewertet: I: Genau. Und den Rest [Anm. d. Verf.: des Erwartungshorizontes] müssen Sie dann halt für sich ausdifferenzieren. B: Will ich auch für mich. I: Oder wollen Sie für sich. (lacht)

12.2 Die tendenziell kompetenzorientierte Lehrkraft

365

B: Also diese empfinde ich schon als angenehm, dass man da noch ein bisschen Luft hat, ein bisschen Spielraum. (BW5, Position 181–184)

Im Gegensatz zur tendenziell vorschriftenorientierten Lehrkraft schätzten die Angehörigen dieses Typus eine Bewertung anhand eines vorgegebenen Punktesystems kritisch ein und merken an, dass hierdurch die Beurteilung verzerrt werden könnte und die Leistungen der Prüflinge nicht korrekt abgebildet werden. Folglich wünscht die tendenziell kompetenzorientierte Lehrkraft grundsätzlich keine Punktevergabe im Erwartungshorizont, sondern möchte, dass die Bewertung und Notenvergabe ungeregelt bleiben bzw. maximal eine grobe Regelung der Bewertung über Hinweise im Instrument erfolgt: B: […] Ich wünsche mir hinsichtlich der Wertung nichts, das ist (..), nee, wollte ich nicht, sondern vor allem inhaltlich, vielleicht auch formal noch ein bisschen (.) so Hinweise. […] I: Also einfach die Bewertung, Bepunktung komplett raus lassen? B: Ja. (BW5, Position 110–112)

Zusätzlich zur wünschenswerten Konfiguration des Erwartungshorizontes spiegelt sich die starke Orientierung an der eigenen professionellen Kompetenz auch in der beschriebenen Nutzungspraxis wider. Die tendenziell kompetenzorientierte Lehrkraft beschreibt ihre Nutzungspraxis als bedarfsorientiert, d. h. die Lehrkraft nutzt den Erwartungshorizont punktuell, in Teilen bzw. überhaupt nicht, sofern es ihr sinnvoll erscheint. Alternativ orientiert sie sich an selbsterstellten Erwartungshorizonten, den Inhalten des vorgelagerten Unterrichts oder den Lehrplänen bzw. dem Bildungsplan. Die eingeschätzte Nutzungsintensität ist deutlich eingeschränkt und beträgt weniger als 75 Prozent: B: Ich schau mir sie [Anm. d. Verf.: die Erwartungshorizonte]/ ich schau sie mir an. Ich schau sie mir auf jeden Fall an, weil irgendjemand hat sich mal Mühe gemacht und hat das Ding erstellt. Und es wird ja auch, es steckt ja auch eine Sinnhaftigkeit dahinter. Ich schau mir es an, (..) dann kommt ja die/ dann mache ich für mich meine Geschichte, das habe ich ja schon angesprochen gehabt, und dann kommt am Nachmittag die verpflichtende Besprechung und da spielen die auch eine Rolle, werden als Ausgangspunkt genommen. Und dann wird noch darüber hinaus, also ein bisschen nach oben gearbeitet, und dann gucken wir, inwieweit nach unten differenziert wird, was/ also der minimalst/, die minimalste Anforderung sein muss, um überhaupt, um

366

12

Ergebnisse der Typenbildung

keine Fünf zu bekommen, sagen wir mal so, (.) um noch im Viererbereich zu sein. Von daher gibt es einen Ausgangspunkt. Aber wenn ich dann tatsächlich an die Korrektur gehe, richte ich mich nach meinen Unterlagen, die sicherlich auch ein Stück weit genährt wurden. (BW2, Position 54)

Die tendenziell kompetenzorientierte Lehrkraft begründet die eingeschränkte bis ausbleibende Nutzung des Instruments vorrangig mit dem eigenen Anspruch die Prüfungsleistungen möglichst korrekt abzubilden. Dies bedeutet, dass alle individuellen Facetten einer Leistung im Rahmen der Beurteilung berücksichtigt werden sollen sowie des Weiteren situationsspezifisch bzw. generell weitere Aspekte, wie die Situation bzw. Entwicklung des Prüflings oder die Schwerpunktsetzungen des vorgelagerten Unterrichts, zu gewissen Teilen einbezogen werden sollen. Die Lehrkräfte nehmen den Erwartungshorizont diesbezüglich als begrenzt wahr, da dieser nicht alle potenziellen Lösungen enthalten kann und die konkreten Entscheidungen im Beurteilungsprozess nach wie vor durch die Lehrkraft gefällt werden müssen. Einige Angehörige dieses Typus verweisen in diesem Kontext auf ihre eigene professionelle Kompetenz sowie ihren Erfahrungsschatz bezüglich der Erstellung von Erwartungshorizonten: B: […] Und wie gesagt, es gibt diese Sicherheit, ich kann abhaken. Ob ich dann auch tatsächlich auch dem einzelnen Kind und Jugendlichen gerecht werde, das ist eine andere Frage, aber dafür habe ich ja meine Freiheit, meine pädagogische Freiheit, und kann ja dann auch entscheiden, ob ich dieses oder jenes noch dazu rechne oder ob ich auf dieses und jenes eben verzichten kann. (BW2, Position 38)

Insgesamt besitzt die tendenziell kompetenzorientierte Lehrkraft im Kontext der Leistungsbeurteilung der zentralen Prüfung ein starkes Bedürfnis den Beurteilungsprozess mitzubestimmen. Folglich präferieren Angehörige dieses Typus einen möglichst offenen Erwartungshorizont, welchen sie im Kontext der Beurteilung bedarfsorientiert nutzen (Tabelle 12.2).

Konfiguration des Erwartungshorizontes: Anleitung der Leistungsfeststellung

„Und wenn da solche engen Erwartungen wären, dann können die Schüler das nicht erfüllen […]. Da muss es offener formuliert sein, meiner Meinung nach, der Erwartungshorizont.“ (BW1, Position 28)

„Ich möchte einfach das Gefühl haben, dass diese Hinweise mich nicht zu sehr (…) einschränken.“ (BW2, Position 88)

„Und da gibt es einerseits natürlich von den Prüfungskommissionen vorgegebene Schwerpunkte für die Lösung, einerseits. […] Es ist, zum Beispiel wenn Sie jetzt Deutsch anschauen, eigentlich wirklich egal, was sich jemand im Vorfeld gedacht hat, Sie sehen erst am Prüfungstag selber, wie hat man gewisse Themen in Deutsch in der Feinheit verstanden.“ (BW3, Position 10)

„[…] inhaltliche (.)/ grundlegende inhaltliche (..) Bestandteile, ein bisschen erläutert vielleicht, je nachdem. Und (.) durch die Strukturierung, wie man es darlegt, vielleicht auch so einen Hinweis, wie könnte es aufgebaut sein“ (BW5, Position 114)

Lehrkraft

BW1

BW2

BW3

BW5

„B:[…] Ich wünsche mir hinsichtlich der Wertung nichts, das ist (..), nee, wollte ich nicht […] I: Also einfach die Bewertung, Bepunktung komplett raus lassen? B: Ja.“ (BW5, Position 110–112)

„Machen wir in der Abschlussprüfung jetzt gar nicht mit Punkten, sondern mehr eben diese allgemeine Geschichte, und (..) was jetzt vielleicht nichts mit Prüfung zu tun hat, aber was ich immer wieder rückgemeldet bekomme, wenn ich sehr kleinschrittige Korrekturbögen habe, fallen die Noten eher besser aus. Das ist so eine Erfahrung, die man hat, ja“ (BW3, Position 56)

„I: Was halten Sie von einer Punktebewertung im Fach Deutsch? B: Das halte ich für sehr problematisch. […] Und ich habe die Erfahrung gemacht, dass, wenn Kolleginnen und Kollegen ausschließlich nach Kriterien arbeiten, dann wird das dem Schüler von der Note häufig nicht gerecht.“ (BW2, Position 45–46)

„Ob das eher eine Wortdefinition sein sollte, welche Aspekte da berücksichtigt sein müssen. Ich denke das wäre fairer […] Insofern finde ich die Punkte nicht (…) klug, sag ich mal, oder nicht so praktikabel, ehrlich gesagt.“ (BW1, Position 30)

Konfiguration des Erwartungshorizontes: Anleitung der Bewertung und Benotung

Tabelle 12.2 Übersicht der Fälle des Typus tendenziell kompetenzorientierte Lehrkraft

„Man kann ja in dem Fall, wenn ich sage, meine Textbeschreibung kann ich ja sagen in der Einleitung, würde ich erwarten, also dann ein, zwei Sachen aufzählen, Hauptteil und dann die Unterpunkte, Inhalt, Form Sprache. Und dann kann ich mir selber aber überlegen, ob ich das jetzt als (.) Maß aller Dinge nehme, oder ob ich es auch völlig anders akzeptiere“ (BW5, Position 114)

„Aber prinzipiell im Fach Deutsch, es mag bestimmt ein Anhaltspunkt sein, das haben andere Menschen alles erkannt, aber stellen Sie sich vor, hier sitzen am Prüfungstag jetzt in unserem Fall 10 bis 12 erfahrene Deutschlehrer mit am Tisch, die schaffen das garantiert (lacht), die Feinheit in der Gedichtbeschreibung auch selber (.) zu erkennen.“ (BW3, Position 116)

„Ich habe die Hinweise nicht auswendig gelernt. Und ich muss Ihnen ehrlich sagen, ich nutz die so, wie sie mir sinnvoll erscheinen. Ich mache mich den Hinweisen nicht untertan. Vor allem habe ich ja immer auch den Jugendlichen vor mir.“ (BW2, Position 48)

„Also, nicht weil ich sag, der ist mir eh wurscht, der Erwartungshorizont, sondern die Freiheit ist da. Und das ist auch gewünscht, dass man dem Schüler gerecht wird und jetzt nicht nur sklavisch sich an irgendwelchen Richtlinien abarbeitet.“ (BW1, Position 112)

Nutzung des Erwartungshorizontes

12.2 Die tendenziell kompetenzorientierte Lehrkraft 367

368

12.3

12

Ergebnisse der Typenbildung

Die kompetenz- und vorschriftenorientierte Lehrkraft

Die kompetenz- und vorschriftenorientierte Lehrkraft wird von einer badenwürttembergischen Lehrkraft repräsentiert und bildet eine Mischform, die bezüglich der gewünschten Konfiguration wie auch der Nutzung gleichermaßen gewisse Übereinstimmungen mit beiden zuvor beschriebenen Typen zeigt. Die Lehrkraft wünscht sich insgesamt einen Erwartungshorizont, welcher den Beurteilungsprozess unterstützt, begrüßt jedoch bis zu einem gewissen Grad auch Elemente die den Beurteilungsprozess verbindlicher anleiten. Die Lösungsdarstellung soll folglich direkte Aufgabenbezüge aufweisen, jedoch auch Spielräume besitzen, um die individuelle Leistung des Prüflings korrekt abbilden zu können: B: […] Ich glaube, man kann keinen Text verfassen, vielleicht einen Zeitungsbericht, wäre vielleicht noch eine Möglichkeit, wenn man rein die Fakten einbringt, aber ansonsten ist es schwierig, weil eine Interpretation ist also immer in gewisser Weise was Subjektives. Und das steckt ja auch mit drin und ich weiß nicht, ob man mit einer reinen Tabelle [Anm. d. Verf.: im Kontext der Lösungsdarstellung], wo man einfach nur, das muss drin sein, das muss drin sein, dass muss, ob man da dem gerecht wird. Denn das müsste dann irgendwo noch eine Variationsmöglichkeit oder eine Bandbreite geben, die man noch am Schluss plus oder minus setzen kann, um das Ganze dann auch tatsächlich, dem gerecht zu werden. (BW4, Position 98)

Im Hinblick auf die Anleitung der Bewertung wird eine Punktevergabe als positiv eingeschätzt, jedoch soll es sich auch hierbei nicht um eine vollständig verbindliche Regelung handeln, sondern ebenfalls Spielräume bestehen bleiben, „also dass so ein, zwei Punkte hoch und runter, dass man die Möglichkeit hat, das entsprechend zu geben“ (BW4, Position 136): B: […] Bei der Benotung gibt es auch keine so direkte Vorgabe [Anm. d. Verf.: im baden-württembergischen Erwartungshorizont], aber sowas, glaube ich, ist etwas geschickter für eine Prüfung tatsächlich, weil dann doch gewährleistet wird, dass die Leistungen in ähnlichem Maß bewertet werden. (..) Ja, ich glaube, gerade für eine Prüfung, für eine Abschlussprüfung, wo doch dann auch relativ viel von abhängt, ist schon ein bisschen detaillierter, wahrscheinlich besser, einfach um zu schauen, ja, oder einfach um das, wenn man es in einem Bundesland macht, das dann auch wirklich, ja, die Noten vergleichbar sind, sonst ist es so von Schule zu Schule unterschiedlich. (BW4, Position 66)

12.3 Die kompetenz- und vorschriftenorientierte Lehrkraft

369

Die gewünschten Spielräume beziehen sich jedoch ausschließlich auf die Gestaltung des Erwartungshorizontes, im Rahmen der Nutzung sollen keine weiteren Freiheiten bestehen, d. h. der Erwartungshorizont soll folglich Offenheiten enthalten, die bestehenden Regelungen im Instrument werden jedoch vollständig berücksichtigt. Entsprechend ist die eingeschätzte Nutzungsintensität sehr hoch und beträgt mindestens 75 Prozent. Die Lehrkraft begründet die starke Berücksichtigung des Erwartungshorizontes vorrangig mit der wahrgenommenen Qualität des Instruments sowie der Nutzungspflicht: B: Gute Frage, wir nehmen es immer als verbindlich an [Anm. d. Verf.: den Erwartungshorizont], ich weiß aber nicht, ob es tatsächlich im Schulgesetz so drin steht. (lacht) Müsste ich tatsächlich mal nachschauen, ob es als verbindlich hier drin steckt. (…) Hm, (..) das heißt Hinweise, glaube ich, steht oben drüber, aber wie verbindlich ist ein Hinweis, der vom Kulturministerium kommt, hm. (lacht) Nee, also da es bisher auch immer sinnvoll war, was da drin stand, haben wir das auch noch nie infrage gestellt. (BW4, Position 58)

Insgesamt weist der beschriebene Fall eine stärkere Nähe zum tendenziell kompetenzorientierten Typus auf, da Spielräume in der Gestaltung des Erwartungshorizontes erwünscht sind und im Kontext der Begründung der Nutzung des Instruments auf dessen Qualität bzw. Übereinstimmung mit den Erwartungen der Lehrkraft verwiesen wird. Es ist zu vermuten, dass weitere Mischtypen existieren, die dem Typus der kompetenz- und vorschriftenorientierten Lehrkraft zugeordnet werden können, die wiederum eine stärkere Tendenz zum tendenziell vorschriftenorientierten Typus aufweisen. Deskription weiterer Zusammenhänge Im Anschluss an die Typenbildung analysierte die Autorin zusätzlich, inwiefern sich Zusammenhänge mit weiteren Faktoren andeuten. Hinsichtlich der sozio-demographischen Merkmale Berufserfahrung und Geschlecht konnten keine Beziehungen festgestellt werden, da das Sample ausschließlich erfahrene Lehrkräfte enthält und sich nicht die Fälle eines Geschlechts innerhalb eines Typus häufen. Allerdings zeigen sich erneut landesspezifische Tendenzen: so wurden dem tendenziell vorschriftenorientierten Typus ausschließlich nordrhein-westfälische Lehrkräfte zugeordnet und der tendenziell kompetenzorientierte Typus besteht nur aus baden-württembergischen Lehrpersonen. Folglich ist anzunehmen, dass die landesspezifischen Rahmenbedingungen einen wesentlichen Einfluss auf die

370

12

Ergebnisse der Typenbildung

Wahrnehmung der Konfiguration des Erwartungshorizontes sowie dessen Nutzung besitzen.

12.4

Metaphernanalytische Betrachtung der konträren Typen

Eine zusätzliche Triangulation der Ergebnisse aus der inhaltsanalytischen Typenbildung sowie der Metaphernanalyse verdeutlicht, dass sich die Tendenzen der beiden konträren Typen nicht nur anhand der Gesprächsinhalte, sondern auch im Rahmen der Analyse und Interpretation der sprachlichen Ebene zeigen. Im Folgenden werden ausgewählte metaphorische Formulierungen der tendenziell kompetenzorientierten sowie der tendenziell vorschriftenorientierten Lehrkraft komparativ betrachtet, um die jeweiligen zugrundeliegenden Einstellungen gegenüber dem Erwartungshorizont und dessen Gestaltung vertiefend zu veranschaulichen, welche wiederum eine variierende Anwendungspraxis des Instruments begünstigen. Konzeptualisierung des Erwartungshorizontes Zwei metaphorische Formulierungen, welche die unterschiedliche Wahrnehmung des Erwartungshorizontes durch die beiden Typen besonders anschaulich machen, stammen aus den Konzepten Beurteilung als handwerkliche Tätigkeit sowie Erwartungshorizont als Schutz (vgl. Kapitel 11). Eine tendenziell kompetenzorientierte Lehrkraft konzeptualisiert den Beurteilungsprozess als handwerkliche Tätigkeit und den Erwartungshorizont als Werkzeug: B: Erwartungshorizonte sind Instrumente, genauso ein Instrument wie ein Hammer. Wenn ich nicht mit ihm umgehen kann, dann richte ich Schaden an. (BW2, Position 48)

Wie bereits verdeutlicht (vgl. Abschnitt 11.1.2), kann der Hammer als Instrument verstanden werden, welches die eigene Tätigkeit vereinfacht bzw. verbessert. Ein Hammer trägt dazu bei, dass die anwendende Person weniger Kraft benötigt, um ein Ergebnis zu erzielen und begünstigt einen präziseren Krafteinsatz, der bewusst auf einen bestimmten Punkt gerichtet ist. Diese Eigenschaften des Werkzeugs könnten auf das bereits thematisierte Potenzial des Erwartungshorizontes verweisen, die Beurteilungstätigkeit zu erleichtern. Im übertragenen Sinne benötigt die Lehrkraft weniger Kraft und erfährt eine zeitliche Entlastung, da es nicht notwendig

12.4 Metaphernanalytische Betrachtung der konträren Typen

371

ist, selbstständig Kriterien zur Leistungsbeurteilung zu erarbeiten. Zudem unterstützt der Erwartungshorizont die Lehrperson dabei auf die relevanten Aspekte der Prüflingsarbeiten zu fokussieren. Jedoch zeigt sich im zweiten Teil des Zitats auch, dass die Lehrkraft den Erwartungshorizont nicht per se als nützlich einschätzt, sondern der Nutzen des Instruments an die Kompetenzen der anwendenden Person gebunden ist. Aus Sicht der Lehrperson kann eine fehlende Anwendungskompetenz nicht nur dazu führen, dass der Erwartungshorizont nutzlos wird, sondern sogar gefährlich. Folglich veranschaulicht diese metaphorische Formulierung die Wahrnehmung der Angehörigen des Typus der tendenziell kompetenzorientierten Lehrkraft hinsichtlich des Erwartungshorizontes als ein Instrument, welches ein Unterstützungspotenzial bietet, jedoch gegenüber der eigenen Kompetenz von untergeordneter Relevanz ist. Im Vergleich dazu konzeptualisiert eine tendenziell vorschriftenorientierte Lehrkraft den Erwartungshorizont hingegen als Schutz: B: Du hast ja, stehst ja als Lehrer, egal was du machst, meist schon mit einem Bein im Knast, und wenn es dann um sowas Wichtiges geht wie die zentralen Abschlussprüfungen. […] Also deswegen gibt mir das auch eine Sicherheit und eine Art, dass man eben nicht angreifbar wird. (NW3, Position 160)

Die Lehrperson nimmt sich im Kontext der zentralen Prüfung sowie insbesondere der Leistungsbeurteilung als angreifbar und verletzbar wahr. Sie verweist anhand der metaphorischen Formulierung auf eine unsichere, bedrohliche Umgebung. Der Erwartungshorizont schafft aus ihrer Sicht einen Schutz gegenüber Angreiferinnen bzw. Angreifern und wendet in jedem Fall potenziellen Schaden ab, d. h. das Instrument sorgt ganz konkret im juristischen Kontext gegenüber den Eltern und Prüflingen dafür, dass die Lehrkraft schlussendlich nicht „mit beiden Beinen im Knast steht“. Folglich ergeben sich auch auf der sprachlichen Ebene zwei deutlich unterschiedliche Wahrnehmungstendenzen der beiden Typen bezüglich des Erwartungshorizontes. In der metaphorischen Formulierung der tendenziell kompetenzorientierten Lehrkraft steht die Lehrperson im Vordergrund und bildet einen aktiven Akteur, welcher das Instrument bedarfsabhängig anwendet. Der Erwartungshorizont bzw. dessen Wirken ist stark abhängig von den Kompetenzen der anwendenden Person, d. h. die Lehrperson ist der ausschlaggebende Faktor hinsichtlich des „Gelingens“ der Beurteilungstätigkeit. Die Konzeptualisierung der tendenziell vorschriftenorientierten Lehrkraft hebt im Gegensatz hierzu das Instrument in den Vordergrund. Die Lehrperson sowie

372

12

Ergebnisse der Typenbildung

deren Schutz sind vom Erwartungshorizont abhängig, dementsprechend erscheint die intensive Anwendung des Instruments eine logische Folgerung zu sein. Eine geringe Kompetenz der anwendenden Person führt nicht dazu, dass das Instrument schädlich ist. Es kann sogar angenommen werden, dass weniger erfahrene Lehrkräfte noch stärker auf den Schutz des Erwartungshorizontes angewiesen sind, da diese durch ihr begrenztes Wissen und Können „angreifbarer“ sind. Anhand des Beispiels zeigt sich der Mehrwert einer ergänzenden Betrachtung der sprachlichen Ebene. Die Analyse und Interpretation der metaphorischen Formulierungen veranschaulichen die Einstellungen bezüglich des Erwartungshorizontes, die eine unterschiedliche Anwendungspraxis begünstigen könnten (Tabelle 12.3). Tabelle 12.3 Beispielhafte Konzeptualisierung des Erwartungshorizontes durch die konträren Typen Merkmal

tendenziell tendenziell kompetenzorientierte Lehrkraft vorschriftenorientierte Lehrkraft

analysiertes Zitat

„Erwartungshorizonte sind Instrumente, genauso ein Instrument wie ein Hammer. Wenn ich nicht mit ihm umgehen kann, dann richte ich Schaden an.“ (BW2, Position 48)

„Du hast ja, stehst ja als Lehrer, egal was du machst, meist schon mit einem Bein im Knast, und wenn es dann um sowas Wichtiges geht wie die zentralen Abschlussprüfungen. […] Also deswegen gibt mir das auch eine Sicherheit und eine Art, dass man eben nicht angreifbar wird.“ (NW3, Position 160)

Situation des Quellbereichs

handwerkliche Tätigkeit

bedrohliche und kämpferische Situation

Funktion des Erwartungshorizontes

Unterstützung der handwerklichen Aufgabe

Schutz vor dem Umfeld

Nützlichkeit des Erwartungshorizontes

nützlich oder schädlich (abhängig von den Kompetenzen der Lehrkraft)

nützlich (unabhängig von den Kompetenzen der Lehrkraft)

Konzeptualisierung der wünschenswerten Gestaltung des Erwartungshorizontes Neben der Veranschaulichung der grundsätzlichen Einstellung gegenüber dem Erwartungshorizont verdeutlicht die Analyse und Interpretation ausgewählter metaphorischer Formulierungen zudem die unterschiedlichen Konfigurationswünsche

12.4 Metaphernanalytische Betrachtung der konträren Typen

373

der konträren Typen. Betrachtet man das Konzept Erwartungshorizont als Wegweiser (vgl. Abschnitt 11.1.4), deutet sich bereits ein unterschiedlicher Umfang an Anleitung an, welcher das Instrument und dessen Gestaltung aus Sicht der Lehrkräfte leisten soll. Demnach bildet der Erwartungshorizont für die Angehörigen beider Typen einen Orientierungsrahmen und dies wird grundsätzlich positiv eingeschätzt. Das gewünschte Ausmaß, wie sehr der eigene Weg durch das Instrument vorgegeben sein soll, variiert jedoch sichtbar. Eine tendenziell vorschriftenorientierte Lehrkraft bezeichnet eine detaillierte und konkrete Angabe der erwarteten Leistungen inklusive einer kleinschrittigen Punktezuordnung im Erwartungshorizont als „sehr genaue Richtschnur, an der man sich orientieren kann“ (NW2, Position 12), eine weitere Angehörige dieses Typus wünscht sich zusätzlich, dass die umfangreiche Konfigurationsvariante noch enger ist, um Willkür zu vermeiden (vgl. NW4, Position 38). Im Gegensatz dazu bewerten einige tendenziell kompetenzorientierte Lehrkräfte eine derartige Gestaltung als eine zu enge oder (sehr) einschränkende Vorgabe des Weges (vgl. BW1, Position 22, BW2, Position 88), durch welche die Lehrperson „in eine bestimmte Richtung zu stark gedrängt wird“ (BW4, Position 108). Während die tendenziell vorschriftenorientierten Lehrkräfte somit eher eine genaue Wegbeschreibung präferieren und der wünschenswerte Erwartungshorizont als konkrete Wanderkarte verstanden werden kann, befürworten die tendenziell kompetenzorientierten Lehrkräfte, dass der Weg nur grob angelegt ist und Freiräume existieren (vgl. BW2, Position 36), womit der Erwartungshorizont eher als grober Richtungspfeil eines Wegweisers vorstellbar ist. Diese bildliche Beschreibung erscheint relativ deckungsgleich mit der Präferenz einer detaillierten, konkreten und verbindlichen Gestaltung des Erwartungshorizontes durch den tendenziell vorschriftenorientierten Typus sowie eines groben Erwartungshorizontes ohne Regelung der Leistungsbewertung durch den tendenziell kompetenzorientierten Typ. Die unterschiedlichen favorisierten Gestaltungstendenzen zeigen sich außerdem in der Verwendung des Quellbereichs Gefangenschaft (vgl. Abschnitt 11.2.1). Die Einschätzung der tendenziell kompetenzorientierten Lehrkraft bezüglich einer differenzierten, verbindlichen Gestaltung des Erwartungshorizontes rekurriert auf das Anziehen eines unpassenden, engen Kleidungsstückes, welches die eigene Bewegungsfreiheit sehr begrenzt und folglich an eine Zwangsjacke erinnert: B: ich finde, man kann einen Text nicht, ich kann den nicht in Punkte zerlegen, ich kann das nicht (..), und das ist ja hier [Anm. d. Verf.: Erwartungshorizont 2] ganz strikt vorgegeben. Ich muss Punkte machen. Ist vielleicht eine Umgewöhnungssache, (..) aber (…) ich würde mich da in meiner pädagogischen Freiheit, Verantwortlichkeit eingeschränkt fühlen, wenn ich das mir überstülpen müsste. (BW5, Position 106)

374

12

Ergebnisse der Typenbildung

Die metaphorische Formulierung veranschaulicht, dass eine umfassende Regelung des Beurteilungsprozesses durch den Erwartungshorizont tendenziell unerwünscht ist, da eine derartige Konfiguration die Lehrperson stark einengt und deren Handeln behindert. Anknüpfend an die wahrgenommene Einschränkung aufgrund einer differenzierten, verbindlichen Gestaltung des Instruments nutzt eine tendenziell kompetenzorientierte Lehrkraft den Quellbereich Gefangenschaft darüber hinaus, um darauf zu verweisen, dass eine verbindliche Nutzung des Instruments ebenfalls einschränkend wirkt: B: Ich mache mich den Hinweisen nicht untertan. Vor allem habe ich ja immer auch den Jugendlichen vor mir. […] anstatt sich zum (.) zum Sklaven oder zum Untertanen von Erwartungshorizonten zu machen. (BW2, Position 48)

Im Vergleich zur verbindlichen Gestaltung des Erwartungshorizontes wird dessen Nutzungspflicht anhand der Konzeptualisierung als Sklaverei stärker einschränkend und unrechtmäßig dargestellt. Die Formulierung verdeutlicht sichtbar, die wahrgenommene Einbuße von Autonomie durch eine obligatorische Anwendung des Instruments und die daraus resultierende Ablehnung der Lehrerin. Ohne die Konzeptualisierung der tendenziell kompetenzorientierten Lehrkraft zu kennen bezieht sich eine tendenziell vorschriftenorientierte Lehrperson hierauf und positioniert sich gegensätzlich hierzu: B: das [Anm. d. Verf.: Erwartungshorizont 2] erinnert mich, von der Punktegewichtung mal abgesehen, das erinnert mich sehr an das, was ich von NRW kenne und was ich eigentlich auch gutheiße.[…] Das heißt, das ist jetzt keine Meinungsdiktatur […] Man wird nicht sklavisch an einzelne inhaltliche Punkte gehalten […] dann muss man immer noch (.) Vorgaben einhalten und beachten, nicht aus sklavischen Gründen, sondern weil sie inhaltlich Sinn machen, (.) das würde ich schon unterstützen. (NW2, Position 48)

Aus der Perspektive dieser Lehrkraft bildet eine differenzierte, verbindliche Gestaltung des Erwartungshorizontes sowie dessen intensive Nutzung keine Form der Unterdrückung, sondern im Kontrast hierzu etwas Positives. Die Gegenüberstellung der gegensätzlichen Bezugnahme auf den drastischen Quellbereich Gefangenschaft durch zwei Angehörige der konträren Typen veranschaulicht die sehr unterschiedliche Empfindung gegenüber einer umfassenden Regelung des Beurteilungsprozesses durch den Erwartungshorizont (tendenziell kompetenzorientierte Lehrkraft: Verlust von Handlungsfreiheit bzw. Autonomie vs.

12.4 Metaphernanalytische Betrachtung der konträren Typen

375

tendenziell vorschriftenorientierte Lehrkraft: sinnvolle Regelung) und die folglich deutlich variierenden Gestaltungspräferenzen, welche sich bereits auf der inhaltlichen Ebene des Gesagten abgebildet haben (tendenziell kompetenzorientierte Lehrkraft: grobe Angaben zur Leistungsfeststellung im Erwartungshorizont vs. tendenziell vorschriftenorientierte Lehrkraft: detaillierte Angaben zur Leistungsfeststellung und -bewertung, vgl. Abschnitt 11.1 und 11.2).

Diskussion der Ergebnisse

13

Der MSA bildet nach wie vor eine bedeutsame Zulassungsvoraussetzung für den Zugang zu Bildungseinrichtungen sowie beruflichen Positionen und spielt folglich eine zentrale Rolle für den persönlichen Werdegang der Absolventinnen und Absolventen (vgl. Autorengruppe Bildungsberichterstattung, 2018, S. 120 ff.; Mathes & Kühn, 2016). Mit dem Anspruch die Qualität und Vergleichbarkeit der Abschlussvergabe zu sichern bzw. zu erhöhen, haben bislang nahezu alle Bundesländer ein teilzentrales Format mit landeseinheitlichen schriftlichen Prüfungen in ausgewählten Fächern etabliert (vgl. Kühn, 2013). In diesem Rahmen erhalten die Lehrkräfte neben der landesweiten Prüfungsklausur außerdem einen landeseinheitlichen Erwartungshorizont, welcher die erwarteten Prüfungsleistungen sowie gegebenenfalls Kriterien für deren Bewertung und Benotung vorgibt. Die Implementation dieses Instruments ist mit dem gleichermaßen bedeutsamen, wie anspruchsvollen Ziel verbunden, den komplexen und fehleranfälligen Prozess der Leistungsbeurteilung zu standardisieren und eine objektive Notenvergabe zu befördern. Demnach sollen im Idealfall vergleichbare Leistungen unabhängig vom Prüfling, der beurteilenden Lehrperson oder anderen leistungsfremden Faktoren zu identischen Noten führen (vgl. Mathes & Kühn, 2016). Jedoch existieren auch mindestens 10 Jahre nach der Einführung der landeseinheitlichen schriftlichen Prüfungen zum Erwerb des MSA keine empirischen Aufschlüsse, inwiefern dies gelingt. Der Fokus der Forschung zu den zentralen Prüfung liegt deutlich auf der Betrachtung des Zentralabiturs und diesbezüglich insbesondere auf der Analyse der Prüfungsklausur sowie dem vorgelagerten Unterricht, über die Umsetzung sowie diesbezügliche Wahrnehmungen der beteiligten Lehrkräfte im Rahmen der Leistungsbeurteilung existieren kaum Befunde (vgl. vertiefend Kapitel 5). Die vorliegende Studie knüpft an dieses Desiderat an. Sie fokussiert auf den Bereich der Leistungsbeurteilung im Rahmen der zentralen Prüfungen zum Erwerb © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4_13

377

378

13

Diskussion der Ergebnisse

des MSA und möchte einen Beitrag zum Verständnis leisten, warum eine möglichst objektive Leistungsbeurteilung und folglich eine leistungsorientierte Abschlussvergabe im Kontext der zentralen Prüfung (nicht) gelingt. Im Mittelpunkt der Untersuchung steht die Deskription der Wahrnehmungen von Lehrkräften mit einem besonderen Fokus auf deren Einschätzungen sowie das beschriebene Nutzungsverhalten hinsichtlich des landesweit vorgegebenen Erwartungshorizontes. Zur gezielten Begrenzung von potenziellen Einflussfaktoren hinsichtlich der Anwendung des Erwartungshorizontes sowie der Berücksichtigung fachspezifischer Besonderheiten konzentriert sich die Studie auf ein Prüfungsfach. Das ausgewählte Fach Deutsch bildet ein Prüfungsfach, welches in allen beteiligten Bundesländern anhand einer landeseinheitlichen schriftlichen Klausur zentral abgefragt wird (vgl. Kapitel 3). Es erscheint insbesondere aufgrund dessen komplexer Beurteilungspraxis im Kontext von offenen, komplexen Langtextaufgaben mit umfangreichen fachspezifischen Anforderungen hinsichtlich der Gestaltung eines Erwartungshorizontes interessant (vgl. vertiefend Abschnitt 5.1.1). Die zusätzliche Fokussierung auf die Bundesländer Baden-Württemberg und Nordrhein-Westfalen bot neben der Chance einer vertieften, detaillierten Deskription der wahrgenommenen Beurteilungspraxis unter Berücksichtigung der landesspezifischen Besonderheiten zudem eine Vergleichsmöglichkeit der Einschätzungen von Lehrkräften aus einem traditionell zentral prüfenden Bundesland sowie von Lehrpersonen aus einem Bundesland mit einer vergleichsweise jungen zentralen Prüfungspraxis (vgl. vertiefend Kapitel 3). Die Autorin führte zehn leitfadengestützte, problemzentrierte Einzelinterviews mit an der Beurteilung beteiligten Deutschlehrkräften in Baden-Württemberg und Nordrhein-Westfalen durch (vgl. Witzel, 2000). Im Anschluss wertete sie die inhaltliche Ebene des Gesagten mithilfe eines induktiv-deduktiv entwickeltem Kategoriensystem inhaltsanalytisch aus (vgl. Kuckartz, 2018) und ergänzte die Ergebnisse um vertiefende Interpretationen auf der sprachlichen Ebene, die orientiert an der systematischen Metaphernanalyse gewonnen wurden (vgl. Schmitt, 2017b). Dieses abschließende Kapitel fasst nun die zentralen Ergebnisse unter Bezugnahme auf die Forschungsfragen der Studie zusammen, diskutiert diese mit Blick auf die theoretischen Vorüberlegungen und ordnet sie in den aktuellen Forschungsstand ein (Abschnitt 13.1). Daran anknüpfend formuliert die Autorin den theoretischen Ertrag sowie die Implikationen für die Bildungsadministration und erörtert die potenziellen Chancen bzw. Herausforderungen konkreter Handlungsoptionen (Abschnitt 13.2). In einem letzten Schritt erfolgt eine abschließende Reflexion der Studie inklusive des Forschungsdesigns und der Befunde, aber auch der Limitationen dieser Untersuchung. Hiervon ausgehend werden offene Fragestellungen identifiziert, zu deren Beantwortung es weiterer empirischer Analysen bedarf (Abschnitt 13.3).

13.1 Wahrnehmungen der Lehrkräfte

13.1

379

Wahrnehmungen der Lehrkräfte

Ausgehend von der Analyse der Interviewtranskripte ist eine detaillierte Deskription bzw. Interpretation der Wahrnehmungen von Deutschlehrkräften bezüglich der Leistungsbeurteilung sowie insbesondere des landesweit vorgegebenen Erwartungshorizontes im Kontext der zentralen Prüfungen zum Erwerb des MSA entstanden (vgl. vertiefend Kapitel 10 und 11). In diesem Subkapitel fasst die Autorin abschließend die zentralen Befunde themenspezifisch und unter Bezugnahme auf die zentralen Fragestellungen zusammen: – Wahrnehmungen der Lehrkräfte hinsichtlich der zentralen Prüfung zum Erwerb des MSA sowie der zentralen Prüfungsklausur und der Prüfungsvorbereitung (vgl. Abschnitt 13.1.1) – Wahrnehmungen der Lehrkräfte hinsichtlich des Erwartungshorizontes und dessen (wünschenswerter) Gestaltung (vgl. Abschnitt 13.1.2) – Beschreibungen und Begründungen der Lehrkräfte hinsichtlich der eigenen Nutzungspraxis des Erwartungshorizontes (vgl. Abschnitt 13.1.3) – Konzeptualisierung der Leistungsbeurteilung in zentralen Prüfungen, des landeseinheitlichen Erwartungshorizontes sowie der Wahrnehmung der Beziehung zu weiteren Beteiligten im Kontext der zentralen Prüfung zum Erwerb des MSA1 (vgl. Abschnitt 13.1.4)

13.1.1 Wie nehmen die beteiligten Lehrkräfte die zentrale Prüfung zum Erwerb des MSA sowie die jeweiligen landesspezifischen Rahmenbedingungen wahr? Rekurrierend auf die erste zentrale Fragestellung dieser Studie wurden die Wahrnehmungen der Lehrkräfte nicht ausschließlich bezüglich des Beurteilungsverfahrens bzw. des Erwartungshorizontes erfasst, sondern auch im Hinblick auf das gesamte zentrale Prüfungsformat sowie insbesondere die landesweit vorgegebene Prüfungsklausur (vgl. Abschnitt 6.2). Diesbezüglich deutet sich an, dass bereits die grundsätzliche Wahrnehmung der zentralen Prüfung zum Erwerb des MSA uneinheitlich ist. Es zeigt sich eine große Spannbreite zwischen den Wünschen der befragten Lehrpersonen, das zentrale Prüfungsformat beizubehalten bzw. bundesweit zu 1 In

den Abschnitt 13.1.2 und 13.1.3 werden bereits vereinzelt Ergebnisse der Metaphernanalyse angeführt, eine umfassende Zusammenfassung der metaphernanalytischen Befunde erfolgt separat im Abschnitt 13.1.4.

380

13

Diskussion der Ergebnisse

vereinheitlichen sowie die zentralen Prüfungen vollständig abzuschaffen. Die heterogene Gesamtwahrnehmung setzt sich auch in den spezifischen Beschreibungen bzw. Einschätzungen einzelner Themenbereiche fort. Schulspezifische bzw. individuelle Heranführung an das zentrale Prüfungsformat Das zuständige Landesbildungsministerium scheint für die befragten Lehrkräfte hinsichtlich der Anleitung des zentralen Prüfungsformats nicht federführend zu sein, da diese nur vereinzelt Maßnahmen der bildungsadministrativen Ebene nennen. Sofern die Lehrpersonen von einer Heranführung durch das zuständige Ministerium berichten, scheint diese top-down umgesetzt zu werden (d. h. in Form einer reinen Informationsweitergabe). Die zusätzliche Anmerkung der interviewten nordrhein-westfälischen Lehrerinnen und Lehrer bezüglich der Unkenntnis der prüfungsverantwortlichen Personen kann speziell vor dem Hintergrund einer über zehnjährigen zentralen Prüfungspraxis als zusätzlicher Hinweis darauf gewertet werden, dass in Nordrhein-Westfalen eine eingeschränkte bzw. vereinzelte ebenenübergreifende Kommunikation zwischen der Bildungsadministration und den Schulen stattfindet. Inwiefern es sich bei der berichteten geringen Heranführung durch die bildungsadministrative Ebene um ein landesweites Phänomen oder um Einzelwahrnehmungen handelt, bleibt jedoch an dieser Stelle offen. Grundsätzlich scheint die Anleitung durch (erfahrene) Kolleginnen und Kollegen eine bundeslandübergreifend genutzte Unterstützungsmaßnahme zu bilden, welche die befragten Lehrkräfte als hilfreich bewerten. Die beschriebene Kooperation zwischen den Lehrerinnen und Lehrern begrenzt sich nicht nur auf die Heranführung unmittelbar nach der Einführung des zentralen Prüfungsformats, sondern erstreckt sich auch auf die jährliche Prüfungsvorbereitung. Anhand der Äußerungen der Lehrpersonen ist anzunehmen, dass sie die Zusammenarbeit als inhaltliche und organisatorische Unterstützung sowie als rechtliche Absicherung wahrnehmen. Dennoch kann die kollegiale Anleitung vor dem Hintergrund einer vergleichbaren Abschlussvergabe einer kritischen Betrachtung unterzogen werden, da die Art und der Umfang der Heranführung folglich nicht landeseinheitlich geregelt sind, sondern vielmehr schulspezifisch bzw. individuell stattfinden. Ambivalente Wahrnehmung der Prüfungsklausur Die befragten Lehrkräfte bewerten mehrheitlich die Realisierung einer vergleichbaren Abschlussvergabe als bedeutsames Ziel zentraler Prüfungen und bekunden bundeslandübergreifend die Notwendigkeit einer zentral vorgegebenen Prüfungsklausur, um eine Leistungsüberprüfung mit identischem Umfang und Niveau sicherzustellen sowie einen Beitrag zur Vereinheitlichung des unterschiedlichen,

13.1 Wahrnehmungen der Lehrkräfte

381

teils opportunistischen Handelns von Lehrpersonen zu leisten (z. B. Erstellung von Prüfungsklausuren mit variierendem Schwierigkeitsgrad). Die Beschreibungen bezüglich der Prüfungsklausur sind erneut heterogen bzw. in einigen Fällen sogar gegensätzlich. So nehmen die befragten Lehrerinnen bzw. Lehrer das Instrument u. a. als qualitätssichernde Maßnahme oder als Prüfung mit niedrigem Anforderungsniveau wahr und schätzen die landesweit vorgegebene Klausur als Arbeitsentlastung oder als hoher organisatorischer Aufwand ein. Die unterschiedlichen, teils bundeslandspezifischen Tendenzen verweisen auf eine variierende Konfiguration der Klausur (z. B. die Kompendiumsaufgabe in BadenWürttemberg, die Überprüfung des Leseverstehens in Nordrhein-Westfalen) und deuten zudem an, dass die Lehrkräfte den Fokus auf unterschiedliche Aspekte der Prüfungsklausur legen bzw. diese verschieden beurteilen. Diesbezüglich ergeben sich außerdem Hinweise darauf, dass die Wahrnehmung der Prüfungsklausur und ihrer Gestaltung im Zusammenhang mit der Wahrnehmung des Erwartungshorizontes zu scheinen steht: Sofern der Erwartungshorizont als qualitätssicherndes Instrument wahrgenommen oder im Gegensatz dazu das Niveau der formulierten Leistungserwartungen als niedrig eingeschätzt wird, äußerten die Lehrpersonen zuvor ähnliche Wahrnehmungen hinsichtlich der Prüfungsklausur. Ambivalente Beurteilung der fokussierten Prüfungsvorbereitung Anknüpfend an die bereits vorliegenden Forschungsbefunde bezüglich einer starken Ausrichtung des vorgelagerten Unterrichts auf andere zentralen Prüfungsformate (vgl. z. B. Hahn, 2014; Jäger et al., 2012; Oerke et al., 2013) deutet sich ebenso eine Anwendung von Teaching to the Test-Strategien im Rahmen der zentralen Prüfungen zum Erwerb des MSA an. Die befragten Lehrkräfte beurteilen die starke prüfungsbezogene Fokussierung ambivalent und berichten sowohl von der Möglichkeit einer zielgerichteten, vergleichbaren Prüfungsvorbereitung als auch von der Einschränkung eines kreativen Deutschunterrichts, welcher zusätzlich nichtprüfungsrelevante Inhalte berücksichtigt. Die empfundene zeitliche Herausforderung eines Unterrichts, der über eine reine Prüfungsvorbereitung hinausgeht, zeigt sich auch deutlich auf der sprachlichen Ebene anhand der Nutzung des Quellbereichs Handwerk, wie beispielsweise des Freischaufelns von Zeit sowie des Reinpressens und Durchhämmerns zusätzlicher Inhalte (vgl. vertiefend Abschnitt 11.1.2). Bezogen auf die angestrebte Vergleichbarkeit deuten sich in NordrheinWestfalen bereits im Rahmen der Prüfungsvorbereitung Herausforderungen an, da das Drucken und Heften der Prüfungen innerhalb der Einzelschule erfolgt und eine diesbezügliche Einsicht bzw. Information der prüfungsbeteiligten Lehrkräfte anhand der Interviews nicht vollständig ausgeschlossen werden kann. Zudem stellt sich im Hinblick auf die Leistungsbeurteilung bundeslandübergreifend die Frage,

382

13

Diskussion der Ergebnisse

inwiefern sich der Anspruch der Lehrpersonen, die eigenen Schülerinnen und Schüler gut vorzubereiten, auf die Anwendung des Erwartungshorizontes auswirkt. Im Zuge der Beschreibung einer optimalen Konfiguration des Erwartungshorizontes zeigt sich insbesondere bei den befragten baden-württembergischen Lehrkräften, dass Beurteilungsspielräume erwünscht sind, um die Schwerpunktsetzungen der Prüfungsvorbereitung bei der Beurteilung zu berücksichtigen. Folglich ist anzunehmen, dass die Prüfungsvorbereitung ebenfalls einen potenziellen Einflussfaktor auf die Wahrnehmung und Anwendung des Erwartungshorizontes bildet. Insgesamt zeigt sich hinsichtlich der Lehrerwahrnehmung des zentralen Prüfungsformats sowie der Prüfungsklausur und -vorbereitung bereits ein hohes Ausmaß an Heterogenität. Die befragten Lehrkräfte verweisen auf landesspezifische und schulabhängige Bedingungen (z. B. unterschiedliche Vorbereitung der Prüfung, verschiedene Gestaltung der Klausur), die einen potenziellen Ausgangspunkt für variierende Rekontextualisierungsprozesse im Sinne einer heterogenen Anwendungspraxis des Erwartungshorizontes bilden (z. B. unterschiedliche Wahrnehmung und Nutzungsintensität des Erwartungshorizontes in Abhängigkeit der Prüfungsvorbereitung, Einbezug des jeweiligen Unterrichts bei der Bewertung von Schülerleistungen anstelle von oder zusätzlich zum Erwartungshorizont). Darüber hinaus deutet sich außerdem an, dass die befragten Lehrkräfte auch identische Bedingungen teilweise unterschiedlich wahrnehmen (z. B. Gestaltung der Prüfungsklausur, Einschätzung der Sinnhaftigkeit der wahrgenommenen Teaching to the Test-Strategien). Dies kann als Hinweis darauf gewertet werden, dass im Kontext der zentralen Prüfungen zum Erwerb des MSA unterschiedliche Rekontextualisierungsprozesse erfolgen und beispielsweise die Vorgabe einer landeseinheitlichen Prüfungsklausur in Abhängigkeit der individuellen Situation der Lehrkraft als Arbeitserleichterung oder Mehraufwand wahrgenommen wird. Zudem unterstützen die Schilderungen einiger Lehrpersonen die Annahme, dass die variierenden Einschätzungen der Prüfungsklausur und -vorbereitung die Wahrnehmung des Erwartungshorizontes beeinflussen (z. B. die Gestaltung der Prüfungsklausur) und folglich auch indirekt einen Einfluss auf die Vergleichbarkeit der Abschlussvergabe besitzen, da die Wahrnehmung des Erwartungshorizontes und dessen Gestaltung in einem zweiten Schritt von einigen befragten Lehrkräften als Begründung für die jeweilige Anwendung des Instruments herangezogen werden (z. B. intensive Nutzung des Erwartungshorizontes aufgrund der Schaffung einer höheren Vergleichbarkeit durch den Erwartungshorizont und dessen Gestaltung, vgl. vertiefend Abschnitt 10.3.2).

13.1 Wahrnehmungen der Lehrkräfte

383

13.1.2 Welche Wahrnehmungen besitzen die Lehrkräfte hinsichtlich der vorgegebenen Erwartungshorizonte und wie charakterisieren sie eine geeignete Gestaltungsvariante? Die zweite und dritte zentrale Fragestellung dieser Studie fokussieren auf das Beurteilungsverfahren in den zentralen Prüfungen zum Erwerb des MSA sowie speziell die Wahrnehmungen der Lehrkräfte bezüglich der landeseinheitlichen Erwartungshorizonte und deren Gestaltung. Wie bereits ausgeführt, nimmt die Autorin an, dass die Wahrnehmung des Instruments sowie der jeweiligen Konfiguration hinsichtlich dessen Anwendung bedeutsame Einflussfaktoren bilden könnten (vgl. vertiefend Abschnitt 4.2.1). Die befragten Lehrerinnen und Lehrer führen mehrheitlich die Vergleichbarkeit der Abschlussvergabe als intendiertes Ziel der Vorgabe einer landeseinheitlichen Prüfungsklausur sowie eines landeseinheitlichen Erwartungshorizontes an. Bezüglich dieses Ziels äußert sich keine Lehrperson ablehnend. Stattdessen betonen einige Lehrkräfte die Bedeutsamkeit einer vergleichbaren Abschlussvergabe und deuten in diesem Kontext die Notwendigkeit eines Instrumentes für eine möglichst objektive Leistungsbeurteilung an, indem sie sowohl auf die subjektive menschliche Wahrnehmung als auch auf konkrete unterrichtliche Situationen verweisen, welche sie hinsichtlich einer vergleichbaren Beurteilungspraxis problematisch bewerten (z. B. Existenz unterschiedlicher Anspruchsniveaus, Orientierung an einer sozialen Bezugsnorm, Beurteilung ohne Kriterien). Folglich ist anzunehmen, dass die befragten Lehrkräfte hinsichtlich der Komplexität und Fehleranfälligkeit einer einheitlichen, möglichst objektiven Leistungsbeurteilung sensibilisiert sind. Die mehrheitlich von den Lehrpersonen angestrebte Vergleichbarkeit der Abschlusszertifikate sowie die Wahrnehmung von Handlungsbedarfen im Kontext der Leistungsbeurteilung erscheinen im Hinblick auf die Akzeptanz und Nutzung des Erwartungshorizontes förderlich. Inwiefern jedoch eine Zielerreichung gelingt und eine vergleichbare Leistungsbeurteilung von Prüfungsarbeiten durch eine bzw. mehrere Lehrkräfte tatsächlich realisiert werden kann, ist auf der Grundlage der vorliegenden Schilderungen der Lehrerinnen und Lehrer zu hinterfragen. Bezüglich des Erwartungshorizontes und dessen Gestaltung zeigen sich in den folgenden beiden Bereichen Schwierigkeiten bezüglich der Schaffung einer vergleichbaren Abschlussvergabe:

384

13

Diskussion der Ergebnisse

Landesspezifisch variierende Gestaltung des Erwartungshorizontes Die Schilderungen der Lehrkräfte veranschaulichen deutlich die unterschiedliche Gestaltung der baden-württembergischen und nordrhein-westfälischen Erwartungshorizonte und unterstützen die diesbezüglichen Ergebnisse einer Dokumentenanalyse der Instrumente (vgl. Mathes & Kühn, 2016). Ausgehend von der zuvor beschriebenen landesspezifischen Auswahl und Zusammenstellung von verschiedenen Aufgabenformaten im Kontext der Prüfungsklausur (vgl. vertiefend Abschnitt 3.2) ergibt sich bereits eine differente Konfiguration des Erwartungshorizontes. Außerdem deuten die Ausführungen der Lehrpersonen an, dass sich der Umfang sowie der Konkretisierungs- und Differenzierungsgrads der Lösungsdarstellungen unterscheidet. Es zeigen sich insbesondere im Hinblick auf die Anleitung der Bewertung und Notenvergabe deutliche Differenzen. Während in der nordrhein-westfälischen Variante eine Punktevergabe sowie ein Bewertungsschlüssel existiert, ist die Gewichtung und Bewertung in der baden-württembergischen Variante nicht geregelt. Ausgehend von den zusätzlichen Berichten einiger baden-württembergischer Lehrkräfte über entsprechende Abstimmungsbedarfe bzw. -prozesse in den Korrekturbesprechungen sowie ein individuelles Vorgehen im Rahmen der Bewertung ist zu vermuten, dass die nordrhein-westfälische Variante zu einer stärkeren Standardisierung der Leistungsbeurteilung beitragen kann. Dennoch betonen die Lehrpersonen, dass beide landeseinheitlichen Erwartungshorizonte keine vollständig vergleichbare Leistungsbeurteilung gewährleisten können, da jeweils Spielräume existieren, die von den beurteilenden Personen zu konkretisieren sind. Heterogene Wahrnehmung des Erwartungshorizontes Insgesamt schätzen die befragten Lehrkräfte den Erwartungshorizont als tendenziell nützlich ein. Sie beschreiben damit einhergehende positive Aspekte (z. B. Vereinfachung der Abstimmung im Kollegium, Arbeitserleichterung, Beitrag zur vergleichbaren Abschlussvergabe) und verweisen auf eine grundlegende Zufriedenheit mit der landesspezifischen Gestaltung. Auch auf der sprachlichen Ebene der Interviewbeiträge lassen sich vertiefend grundsätzlich wahrgenommene Potenziale des Instruments rekonstruieren, die in hoher Übereinstimmung mit dem inhaltlichen Gehalt der Äußerungen in einer Arbeitsunterstützung, inhaltlichen Orientierung, rechtlichen Absicherung sowie Vereinfachung bzw. Reduktion von kollegialen Abstimmungsprozessen bestehen (vgl. vertiefend Abschnitt 13.1.4). Dennoch deutet sich anhand Interpretation der metaphorischen Konzepte die Wahrnehmung einiger Lehrkräfte an, dass das Ausmaß der tatsächlichen Unterstützung bzw. Nützlichkeit des Erwartungshorizontes nicht isoliert betrachtet werden kann, sondern in Abhängigkeit von dessen Gestaltung sowie der beurteilenden Person und deren Voraussetzungen, Einstellungen usw. variiert (vgl. vertiefend Abschnitt 11.1). Folglich ist ein Zusammenhang zwischen der Gestaltung des Erwartungshorizontes und dessen Wahrnehmung anzunehmen. Diese Vermutung verstärkt sich anhand

13.1 Wahrnehmungen der Lehrkräfte

385

der komparativen Betrachtung verschiedener Konfigurationsvarianten, welche in Abhängigkeit ihrer Gestaltung von den Lehrkräften als unterschiedlich nützlich beurteilt werden. In diesem Kontext deutet sich zudem an, dass die befragten Lehrpersonen die Gestaltung des Erwartungshorizontes nicht isoliert betrachten, sondern vielmehr im Verbund mit der Prüfungsklausur (z. B. Verständlichkeit, Anforderungsniveau), die somit ebenfalls einen potenziellen Einflussfaktor hinsichtlich der Wahrnehmung des Instruments darstellt. Des Weiteren zeigt sich auch auf der inhaltlichen Ebene des Gesagten, dass eine bestimmte Gestaltungsvariante nicht zwangsläufig ähnlich, sondern in Abhängigkeit der Person heterogen wahrgenommen wird. Anhand der Schilderungen der Lehrkräfte ist anzunehmen, dass dies u. a. auf folgende potenzielle Ursachen zurückgeführt werden kann: – angestrebte Ziele im Rahmen der Beurteilung (z. B. möglichst objektive Beurteilung aller Prüfungsleistungen oder individuelle Beurteilung der jeweiligen Leistungsentwicklung des Prüflings) – bisherige (landesspezifische) Prüfungserfahrungen – wahrgenommene eigene Kompetenz bezüglich der Feststellung und Bewertung von Schülerleistungen Es ist zu vermuten, dass die Ziele der jeweiligen Lehrperson beeinflussen, welche Konfiguration des Erwartungshorizontes als nützlich wahrgenommen wird. Streben die befragten Lehrkräfte beispielsweise primär eine vergleichbare Leistungsbeurteilung an oder legen Wert auf eine rechtliche Absicherung ihrer Beurteilung, bevorzugen sie in der Regel einen stark differenzierten Erwartungshorizont, welcher das Handeln im Beurteilungsprozess möglichst lückenlos vorgibt. Steht stattdessen die Förderung und möglichst individuelle Beurteilung der einzelnen Prüflinge für die interviewten Lehrerinnen und Lehrer im Vordergrund, präferieren sie ein Instrument mit groben Hinweisen, welches der Lehrkraft größere Beurteilungsspielräume belässt. Des Weiteren deutet sich an, dass gewisse landesspezifische Wahrnehmungstendenzen existieren könnten. Während die befragten baden-württembergischen Lehrkräfte den Erwartungshorizont eher als Orientierung bzw. Unterstützung der Beurteilung beschreiben, nehmen die befragten nordrhein-westfälischen Lehrpersonen das Instrument als verbindliche Vorgabe wahr, womit wiederum variierende Ansprüche an die Konfiguration verbunden sind. Zwar scheinen alle Lehrkräfte eine übersichtlich, möglichst knappe Gestaltung sowie ein gewisses Mindestmaß an Anleitung zu begrüßen, der gewünschte Differenzierungs- bzw. Standardisierungsgrad scheint sich jedoch grob zwischen den beiden Bundesländern zu unterscheiden. Tendenziell präferieren die interviewten baden-württembergischen Lehrkräfte

386

13

Diskussion der Ergebnisse

einen vergleichsweise weniger stark differenzierten Erwartungshorizont und nehmen eine Variante mit verbindlichen Vorgaben zur Leistungsfeststellung, -bewertung und -benotung als Einschränkung wahr. Dies betonen auch einige Lehrpersonen auf der sprachlichen Ebene, indem sie eine detaillierte Konfiguration im Rahmen des Konzepts Erwartungshorizont als Wegweiser als Einengung der Bewegungsfreiheit bzw. zu starke Vorgabe des Weges konzeptualisieren (vgl. Abschnitt 11.1.4). Im Gegensatz dazu betrachten die befragten nordrhein-westfälischen Lehrkräfte weniger stark differenzierte Erwartungshorizonte als Ausgangspunkt für eine willkürliche Beurteilung und beschreiben eine detaillierte, stärker verbindliche Variante als sinnvoll bzw. wünschenswert. Folglich ist zu vermuten, dass die landeseinheitliche Gestaltung des Erwartungshorizontes sowie die weiteren Instrumente und Rahmenbedingungen im Kontext der zentralen Prüfungen (z. B. Existenz von Korrekturschulungen, schulinterne oder -externe Zweitkorrektur) einen Einfluss auf die Einschätzung und Gestaltungswünsche der Lehrkraft hinsichtlich des Instruments ausüben. Darüber hinaus scheint auch das Ausmaß der wahrgenommenen eigenen Kompetenzen im Rahmen der Beurteilung einen Einfluss auf die Wahrnehmung des Erwartungshorizontes auszuüben. Einige Lehrkräfte verweisen auf die geringe praktische Erfahrung von Berufsanfängerinnen bzw. -anfängern und deren Präferenz einer möglichst differenzierten Konfigurationsvariante, welche die Beurteilung genauer anleitet. Es deutet sich ergänzend an, dass dieser potenzielle Einflussfaktor in einer zusätzlichen Wechselwirkung mit der landesspezifischen Wahrnehmungstendenz stehen könnte und in Nordrhein-Westfalen weniger bedeutsam ist, da sich die interviewten Lehrpersonen in diesem Bundesland grundsätzlich eine stark differenzierte und verbindliche Gestaltung des Instruments wünschen. Insgesamt muss die Realisierung einer vergleichbaren Leistungsbeurteilung im Rahmen der zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch bereits aufgrund der Gestaltung und Wahrnehmung der Erwartungshorizonte kritisch hinterfragt werden. Zum einen existieren landesspezifische Erwartungshorizonte, die deutliche Gestaltungsunterschiede aufweisen, darüber hinaus deuten sich aufgrund der heterogenen (landesspezifischen) Rahmenbedingungen sowie variierenden Wahrnehmungen der Lehrkräfte Rekontextualisierungsprozesse hinsichtlich der Einschätzung des Erwartungshorizontes an. Demnach betrachten insbesondere die befragten baden-württembergischen Lehrkräfte das Instrument als fakultative Unterstützung des Beurteilungsprozesses und benennen die verbindliche Korrekturbesprechung sowie die schulexterne Zweitkorrektur als zusätzliche Standardisierungsmaßnahmen. Demgegenüber nehmen die befragten Lehrkräfte aus Nordrhein-Westfalen den Erwartungshorizont als obligatorische Vorgabe mit einer detaillierten Gestaltung wahr.

13.1 Wahrnehmungen der Lehrkräfte

387

Diese variierenden Einschätzungen könnten einen Ausgangspunkt für unterschiedliche Nutzungsbereitschaften und -praxen bilden. Darüber hinaus erscheint eine bundesweite Angleichung der Gestaltung des Instruments im Kontext der zentralen Prüfungen zum Erwerb des MSA vor dem Hintergrund der unterschiedlichen Wahrnehmungen und Wünsche anspruchsvoll. Speziell im Hinblick auf eine Reduktion von Beurteilungsspielräumen deutet sich neben den wahrgenommenen gestalterischen Grenzen des Erwartungshorizontes auch die Herausforderung an, dass ein stärker standardisiertes Instrument von allen Lehrkräften akzeptiert und angewandt wird.

13.1.3 Wie beschreiben und begründen die Lehrkräfte die eigene Beurteilungspraxis im Rahmen der zentralen Prüfung sowie speziell den Umgang mit dem Erwartungshorizont? Die festgestellte Heterogenität der Lehrerwahrnehmungen setzt sich im Kontext der beschriebenen Beurteilungspraxis fort. Die befragten Lehrkräfte nehmen die Nutzung des Erwartungshorizontes sowie die Umsetzung der Zweitkorrektur zwar mehrheitlich als Pflichten wahr, handeln teilweise dennoch bewusst abweichend. In einem ersten Schritt lässt sich anhand der Ausführungen der Lehrpersonen eine variierende Nutzungsintensität des Erwartungshorizontes feststellen. Im Rahmen der Erstkorrektur deuten sich bundeslandspezifische Tendenzen an, wie intensiv die Lehrerinnen und Lehrer die eigene Anwendung des Instruments einschätzen. Während die befragten nordrhein-westfälischen Lehrkräfte von einer starken Nutzung berichten, verweisen die interviewten baden-württembergischen Lehrpersonen tendenziell auf einen teilweisen oder vollständigen Nutzungsverzicht. Auch im Rahmen der Zweitkorrektur zeigen sich bezüglich der Anwendung des Erwartungshorizontes deutliche Unterschiede, diese sind wiederum auf schulische oder individuelle Absprachen zurückzuführen. Das geschilderte Vorgehen im Rahmen der Zweitkorrektur reicht von einer Beurteilung der kompletten oder ausschließlich der inhaltlichen Prüfungsleistung anhand des Erwartungshorizontes bis hin zu einem vollständigen Durchführungsverzicht der Zweitkorrektur. Sofern der Erwartungshorizont angewandt wird, beschreiben die befragten Lehrerinnen und Lehrer in einem zweiten Schritt schulspezifische Absprachen sowie individuelle Entscheidungen bezüglich der konkreten Arbeit mit dem Instrument (z. B. Ausdifferenzierung von Spielräumen, Festlegung von Gewichtungen). Folglich ist zu vermuten, dass anhand der vorgegebenen Erwartungshorizonte weder eine

388

13

Diskussion der Ergebnisse

bundesweite noch eine landesweite Vergleichbarkeit der Beurteilungen im Rahmen der zentralen Prüfungen zum Erwerb des MSA erreicht wird. Anhand der Schilderungen der Lehrkräfte zeigen sich potenzielle Einflussfaktoren hinsichtlich des Umgangs mit dem Erwartungshorizont, die teilweise vermutlich wiederum in einer Wechselbeziehung stehen. Ausgehend von diesem Sample lassen sich zwar keine Kausalzusammenhänge beschreiben, jedoch die folgenden Hypothesen generieren: – Gestaltung des Erwartungshorizontes: In Abhängigkeit der Anzahl oder des Umfangs der Spielräume im Erwartungshorizont besteht ein unterschiedliches Erfordernis, im Kollegium bzw. allein die vorliegenden Angaben zu konkretisieren sowie weitere Regelungen festzulegen. Die Ergebnisse dieser Studie deuten an, dass die nordrhein-westfälische Variante intensiver genutzt wird und könnten als Hinweis darauf gewertet werden, dass ein differenzierterer Erwartungshorizont im Beurteilungsprozess vergleichsweise häufiger und intensiver angewandt wird als eine weniger differenzierte Konfigurationsvariante. Allerdings ist weiterhin auch das Gegenteil denkbar, d. h. eine intensivere Auseinandersetzung mit offeneren Varianten, um die wenigen Vorgaben im Rahmen der Beurteilung möglichst vollständig einzuhalten. Zudem weisen die Ergebnisse der Typenbildung auf eine potenzielle Korrelation zwischen den Gestaltungspräferenzen hinsichtlich des Erwartungshorizontes und der beschriebenen Nutzungsintensität der befragten Lehrkräfte hin (vgl. vertiefend Kapitel 12), d. h. der Wunsch bezüglich einer verbindlichen, detaillierten Konfiguration des Instruments geht tendenziell mit der Schilderung einer hohen Nutzungsintensität des Erwartungshorizontes einher. – Einschätzung der Verbindlichkeit der Nutzung des Erwartungshorizontes: Sofern die befragten Lehrkräfte eine Freiwilligkeit der Anwendung vermuten, bewerten sie ihre Nutzungsintensität des Instruments deutlich geringer als bei der Wahrnehmung einer Anwendungspflicht. – weitere landesspezifische Rahmenbedingungen: Die eingeschätzte Nutzungsintensität des Erwartungshorizontes durch die Lehrkräfte weist landesspezifische Tendenzen auf. Folglich ist zu vermuten, dass neben der Gestaltung des Erwartungshorizontes gegebenenfalls weitere landeseinheitliche Gestaltungsaspekte Auswirkungen auf die tatsächliche Nutzung besitzen. Beispielsweise begründen einige der befragten baden-württembergischen Lehrpersonen ihre bedarfsorientierte Nutzung mit einem Verweis auf die Existenz zusätzlicher landesspezifischer Standardisierungsmaßnahmen (z. B. Existenz einer zusätzlichen Korrekturbesprechung, schulexterne Zweitkorrektur).

13.1 Wahrnehmungen der Lehrkräfte

389

– einzelschulische Regelungen: Es deutet sich an, dass schulische Absprachen Einfluss auf die Nutzungspraxis des Erwartungshorizontes haben (z. B. abgestimmter Nutzungsverzicht des Instruments im Rahmen der Zweitkorrektur). – Erfahrungen der Lehrkraft: Die individuellen Erfahrungen im Kontext der Leistungsbeurteilung besitzen potenzielle Auswirkungen auf die Nutzungsintensität des Erwartungshorizontes. Beispielsweise deutet sich eine hohe Nutzungsintensität mit dem Ziel der juristischen Absicherung an, sofern bereits Klageerfahrungen mit Eltern bestehen. – Kompetenz der Lehrkraft: Die befragten Lehrkräfte verweisen nicht nur darauf, dass in Abhängigkeit der jeweiligen diagnostischen Kompetenz eine unterschiedlich differenzierte Konfiguration des Erwartungshorizontes gewünscht wird, sondern auch, dass sich die wahrgenommene eigene Kompetenz im Kontext der Leistungsbeurteilung ebenfalls auf die Nutzungsintensität des Erwartungshorizontes auswirkt. Diesbezüglich deutet sich teilweise ein negativer Zusammenhang an, d. h. einige Lehrpersonen geben die Wahrnehmung einer hohen, eigenen Kompetenz als Grund für eine geringe Anwendung des Erwartungshorizontes an. – Einstellungen der Lehrkraft: Die individuelle Bewertung des zentralen Prüfungsformats, dessen Instrumente und Ziele sowie relevanter Aspekte im Kontext der Leistungsbeurteilung bilden einen potenziellen Einflussfaktor auf den Umgang mit dem Erwartungshorizont (z. B. Modifikation der Punktevergabe im Erwartungshorizont aufgrund der eingeschätzten Relevanz von sprachlichen Leistungen). – Kenntnis der Prüflinge: Die Kenntnis der bisherigen Leistungen sowie der privaten Situation des Prüflings kann sich aus der Sicht der befragten Lehrkräfte auf die Nutzung des Erwartungshorizontes auswirken, indem bewusst vom Erwartungshorizont abgewichen wird (z. B. bei einer Gefährdung des Schulabschlusses) oder unbewusst subjektiv bewertet wird (z. B. variierende Erwartungshaltung in Abhängigkeit des Prüflings). Die aufgelisteten potenziellen Einflussfaktoren und die diesbezüglichen Hypothesen erheben keinen Anspruch auf Vollständigkeit, sie konkretisieren vielmehr die bisherigen theoretischen Annahmen hinsichtlich relevanter Aspekte im Kontext des zentralen Prüfungsverfahrens (vgl. Abschnitt 4.2). Die Schilderungen der Lehrkräfte unterstützen einige Annahmen des heuristischen Modells, sodass auf der Grundlage der Ergebnisse dieser Studie folgende Aspekte hervorgehoben werden können (Abbildung 13.1):

390

13

Diskussion der Ergebnisse

landesspezifische Rahmenbedingungen der Prüfung -

landeseinheitliche Konfiguration der Prüfungsklausur Kenntnis der Prüflinge sowie deren bisheriger Leistungen und ggf. privater Situation kommunizierte Verbindlichkeit bzw. Nutzungspflicht des Erwartungshorizontes Existenz einer verbindlichen Korrekturbesprechung schulinterne bzw. -schulexterne Gestaltung der Zweitkorrektur

Einzelschule landesweit vorgegebener Erwartungshorizont -

Umfang des Instruments Detailliertheits- und Konkretisierungsgrad der Lösungsdarstellung Existenz einer Punktevorgabe

-

-

schulspezifische Absprachen (z. B. bezüglich des Abweichens vom Erwartungshorizont oder einem Verzicht auf die Zweitkorrektur) kollegiale Zusammenarbeit (z. B. gemeinsame Konkretisierung des Erwartungshorizontes, gegenseitige Unterstützung bei Fragen)

Lehrkraft -

-

-

-

wahrgenommenes Ausmaß der eigenen praktischen Erfahrung und Kompetenzen (z. B. fachliche Kompetenzen, Routine im Kontext der Prüfungskorrektur) Orientierungen und Rollenverständnis (z. B. primäre Eigenwahrnehmung als pflichtbewusste(r) Beamt_in oder als Pädagog_in) Erfahrungen und Erwartungen (z. B. hohe Klagebereitschaft der Eltern, Verbindlichkeit des Erwartungshorizontes) Einstellungen und eigene Ziele (z. B. möglichst objektive Beurteilung, juristische Absicherung der Beurteilung, Berücksichtigung der Prüfungsvorbereitung oder Abbildung der Leistungsentwicklung der Prüflinge im Rahmen der Beurteilung, niedrige oder hohe Relevanz sprachlicher Leistungen)

individuelle Beurteilungspraxis der Prüfungsarbeiten mit variierender Anwendung des Erwartungshorizontes

Abbildung 13.1 Konkretisierung der angenommenen multifaktoriellen Beeinflussung der Leistungsbeurteilung im Kontext der zentralen Prüfung auf der Grundlage der Ergebnisse dieser Studie. (In grober Anlehnung an Mathes & Kühn, 2015)

13.1 Wahrnehmungen der Lehrkräfte

391

Zusammenfassend zeigt sich eine auffällige Heterogenität bezüglich der Wahrnehmungen der Lehrkräfte (z. B. Gestaltung des Erwartungshorizontes, Nutzungspflicht) und ihrem beschriebenen Umgang mit dem Erwartungshorizont (z. B. Nutzungsintensität, Umgang mit Spielräumen im Erwartungshorizont). Die Ergebnisse reihen sich in die wenigen vorliegenden Befunde sowie Erfahrungsberichte hinsichtlich Erwartungshorizonten in zentralen Prüfungen ein (vgl. Appius & Holmeier, 2012; Klein et al., 2009; Odendahl, 2008; Zabka & Stark, 2010), die ebenfalls auf eine variierende Konfiguration der Instrumente sowie unterschiedliche diesbezügliche Wahrnehmungen der Lehrkräfte verweisen. Unter Bezugnahme auf den Educational Governance-Ansatz unterstützen die Aussagen der Lehrkräfte darüber hinaus die Annahme, dass im Kontext der Beurteilung von zentralen Prüfungsarbeiten zum Erwerb des MSA im Fach Deutsch unterschiedliche Rekontextualisierungsprozesse ablaufen. Diesbezüglich kann auf die Beschreibung einer unterschiedlich intensiven Anwendung des Erwartungshorizontes rekurrierend auf die wahrgenommene Verbindlichkeit des Instruments, vermutete Folgen der (Nicht-)Nutzung, die wahrgenommene eigene Kompetenzen oder schulische Absprachen verwiesen werden. Beispielsweise schätzt eine befragte Lehrkraft ihre Nutzungsintensität des Instruments als gering ein und begründet dies mit der Wahrnehmung keiner Nutzungspflicht des Erwartungshorizontes sowie einer hohen eigenen Erfahrung bzw. Kompetenz im Rahmen der Beurteilung. Es erscheint auffällig, dass die Bildungsadministration aus der Perspektive der befragten Lehrpersonen wenig präsent ist und hinsichtlich verschiedener Aspekte keine bzw. unterschiedliche Informationen vorliegen sowie Unsicherheiten bestehen (z. B. Nutzungspflicht des Erwartungshorizontes, Existenz von Unterstützungsangeboten). Während sich folglich anhand der Schilderungen der Lehrkräfte eine ausbleibende bzw. geringe ebenenübergreifende Kommunikation mit der Bildungsadministration vermuten lässt, deutet sich im Gegensatz dazu ein vermehrter kollegialer Austausch an (z. B. gegenseitige Anleitung und Abstimmung im Rahmen der Prüfungsvorbereitung sowie Anwendung bzw. Ausdifferenzierung des Erwartungshorizontes). Die Autorin nimmt an, dass die Bedeutung der kollegialen Unterstützung und Abstimmung u. a. aus dem Bedürfnis einer zusätzlichen (rechtlichen) Absicherung sowie der niedrigschwelligen Möglichkeit der Kontaktaufnahme andere Lehrkräfte am gemeinsamen Arbeitsplatz resultiert. Im Gegensatz zu den statischen Angaben im Erwartungshorizont können die Kolleginnen bzw. Kollegen situativ flexibel und unter Kenntnis gewisser Rahmenbedingungen (z. B. Prüflinge, schulinterne Beurteilungskultur) auf individuelle Fragen im Beurteilungsvorgehen eingehen.

392

13

Diskussion der Ergebnisse

Neben der Relevanz landesspezifischer Rahmenbedingungen scheinen somit auch die einzelschulischen Abstimmungsprozesse die tatsächliche Beurteilungspraxis zu beeinflussen. Ausgehend von den Aussagen der Lehrpersonen erfolgen sämtliche schulspezifische Absprachen und Modifikationen sowie deviantes Vorgehen im Sinne der Prüflinge (d. h. Abweichungen führen ausschließlich zu einer Besserbewertung), jedoch ist zu hinterfragen, ob die hierdurch eingeschränkte Vergleichbarkeit tatsächlich im Sinne aller Schülerinnen und Schüler ist.

13.1.4 Wie konzeptualisieren die Lehrkräfte ihr Verständnis der Leistungsbeurteilung und insbesondere des Erwartungshorizontes sowie die Beziehung zu weiteren Beteiligten im Kontext der zentralen Prüfung zum Erwerb des MSA? Die Ergebnisse der sprachlichen Analyse unterstützen die Befunde der systematischen Deskription und Interpretation der Interviewinhalte. Anhand der vermehrten Konzeptualisierung der Leistungsbeurteilung als visueller Vorgang deutet sich an, dass die befragten Lehrkräfte die Feststellung und Bewertung von Leistungen als komplexen, fehleranfälligen Prozess einschätzen. Sie verweisen unter anderem darauf, dass die Wahrnehmung im Beurteilungsvorgang durch äußere Faktoren (z. B. situative Rahmenbedingungen) und die jeweiligen persönlichen Voraussetzungen der Lehrperson verzerrt werden kann. Neben der multifaktoriellen Beeinflussung der Wahrnehmung thematisieren zudem einige Lehrkräfte die Existenz unterschiedlicher Blicke in Abhängigkeit der betrachtenden Person sowie der Rahmenbedingungen und verweisen auf die empfundene Sinnhaftigkeit eines kollegialen Austausches zur Vereinheitlichung der subjektiven bzw. situativen Wahrnehmungen. Die Tatsache, dass die interviewten Lehrpersonen den Beurteilungsprozess nicht nur als visuellen Vorgang konzeptualisieren, sondern neben der Relevanz der Augen auch die Beteiligung weiterer Körperteile beschreiben, könnte zusätzlich auf die wahrgenommene Komplexität der Beurteilungstätigkeit hindeuten. Es ist anzunehmen, dass einige Lehrkräfte anhand der metaphorischen Wendungen bezüglich des Kopfes auf die kognitive Komplexität des Beurteilungsprozesses rekurrieren und die Metapher Bauch stellvertretend für die teils zusätzliche Relevanz der Intuition nutzen. Die befragten Lehrkräfte scheinen grundsätzlich eine klare, unverzerrte Sicht, d. h. im übertragenen Sinn eine möglichst objektive Beurteilung anzustreben und

13.1 Wahrnehmungen der Lehrkräfte

393

nur vereinzelt bzw. in Sonderfällen zugunsten der Prüflinge hiervon bewusst abzuweichen. Der Erwartungshorizont wird im Hinblick auf die Schaffung einer objektiven Beurteilung grundsätzlich als hilfreiches Instrument konzeptualisiert, dessen Wirksamkeit in Abhängigkeit der Gestaltung variiert. Während die befragten badenwürttembergischen Lehrkräfte tendenziell der Ansicht sind, dass ihre landesspezifische Variante Klarheit schafft, wünschen die interviewten nordrhein-westfälischen Lehrkräfte punktuelle Modifizierungen des landeseinheitlichen Erwartungshorizontes für mehr Klarheit. Analog hierzu weisen die weiteren Konzeptualisierungen des Erwartungshorizontes als Fundament und Wegweiser darauf hin, dass die befragten Lehrpersonen das Instrument als grundlegend richtungsweisend wahrnehmen und in Abhängigkeit der Gestaltung wiederum den Grad der Hilfestellung bzw. Einschränkung bestimmen. Die zusätzliche Konzeptualisierung der Leistungsbeurteilung als handwerkliche Tätigkeit deutet ergänzend darauf hin, dass aus der Perspektive einiger Lehrkräfte bestimmte Kompetenzen bei den beurteilenden Personen vorhanden sein sollten, die nicht kurzfristig erworben werden können. Der Erwartungshorizont wird in diesem Rahmen erneut als sinnvolles Instrument dargestellt, welches zur Arbeitserleichterung und Objektivierung der Beurteilung beitragen kann. Das Unterstützungspotenzial des Erwartungshorizontes ergibt sich in diesem metaphorischen Konzept in Abhängigkeit der beurteilenden Person und der vorhandenen Kompetenzen, deren Fehlen aus Sicht einiger Befragter schlussendlich dazu führen kann, dass das Instrument falsch angewandt wird und vielmehr schädlich ist. Des Weiteren konzeptualisieren die interviewten Lehrkräfte den Erwartungshorizont als Schutz. Die Autorin interpretiert die diesbezüglichen metaphorischen Ausführungen derart, dass sich einige Lehrkräfte im Beurteilungskontext juristisch angreifbar fühlen. Der Erwartungshorizont wird als Möglichkeit der rechtlichen Absicherung wahrgenommen. Das Ausmaß des Schutzes durch das Instrument ergibt sich aus der Perspektive einiger Lehrkräfte erneut aus dessen Gestaltung, d. h. je detaillierter die Angaben im Erwartungshorizont sind, desto höher wird die rechtliche Absicherung eingeschätzt. Insgesamt deuten die Konzeptualisierungen bezüglich der Leistungsbeurteilung und des Erwartungshorizontes darauf hin, dass die befragten Lehrkräfte grundsätzlich eine objektive Beurteilung im Rahmen der zentralen Prüfungen zum Erwerb des MSA anstreben sowie bezüglich deren hoher Fehleranfälligkeit sensibel sind. Der Erwartungshorizont wird in vielerlei Hinsicht von den befragten Lehrkräften positiv wahrgenommen und kann aus ihrer Perspektive einen Beitrag dazu leisten, die Beurteilungstätigkeit zu erleichtern, zu objektivieren und rechtlich abzusichern.

394

13

Diskussion der Ergebnisse

Das tatsächliche Potenzial variiert gemäß einiger Lehrpersonen jedoch in Abhängigkeit der Gestaltung des Instruments sowie der beurteilenden Person und der vorhandenen Kompetenzen. Ergänzend erlaubt die metaphorische Analyse zusätzliche Aufschlüsse bezüglich der wahrgenommenen Beziehungskonstellationen im Kontext der zentralen Prüfung zum Erwerb des MSA. In Übereinstimmung zum schulischen Mehrebenenmodell nach Brüsemeister (2007) deutet sich anhand der Formulierungen einiger befragter Lehrerinnen bzw. Lehrer an, dass sie die Bildungsadministration als hierarchisch übergeordnet, die Lehrkräfte als gleichberechtigt und die Schülerschaft als hierarchisch untergeordnet wahrnehmen. Speziell im Hinblick auf den Beurteilungskontext erscheint es interessant, dass trotz der hierarchisch wahrgenommenen Beziehung zur Bildungsadministration eine umfangreiche Festlegung der Beurteilung durch den Erwartungshorizont zumindest von einigen badenwürttembergischen Lehrpersonen nicht gewünscht ist. Die Beziehung der Lehrkraft zur Bildungsadministration wird im Kontext einer fiktiven verbindlichen Vorgabe von detaillierten Erwartungshorizonten bzw. deren Nutzungspflicht als Gefangenschaft konzeptualisiert, d. h. die Lehrperson beschreibt sich als gefangene Person. Anhand der Konzeptualisierung einer Handelsbeziehung zwischen den Lehrkräften im Kontext der Beurteilung in den zentralen Prüfungen zum Erwerb des MSA deuten darüber hinaus einige baden-württembergische Lehrpersonen die Herausforderung der grundlegenden Gleichwertigkeit zwischen den Lehrkräften im Rahmen der Besprechung des Beurteilungsvorgehens an. Sie verweisen diesbezüglich auf die Relevanz eines Erwartungshorizontes zur Vereinheitlichung der Beurteilung sowie der Vereinfachung des Abstimmungsprozesses.

13.2

Theoretische und praktische Erträge

Rekurrierend auf die Ergebnisse der Inhaltsanalyse (vgl. vertiefend Kapitel 10) sowie der Metaphernanalyse (vgl. vertiefend Kapitel 11) lassen sich folgende theoretische Erträge dieser Studie identifizieren: – Einblick in die schulische Praxis sowie die Wahrnehmungen von Lehrkräften in Bezug auf die Leistungsbeurteilung in zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch unter besonderer Berücksichtigung des landeseinheitlichen Erwartungshorizontes

13.2 Theoretische und praktische Erträge

395

– Aufschlüsse bezüglich des Educational Governance-Ansatzes bzw. der angenommenen Existenz von Rekontextualisierungsprozessen im Sinne einer heterogenen Wahrnehmung und Anwendung des landeseinheitlichen Erwartungshorizontes im Kontext der zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch sowie Hinweise auf diesbezügliche Einflussfaktoren – Hinweise auf die Steuerungswirksamkeit zentraler Prüfungen sowie insbesondere der landesweit vorgegebenen Erwartungshorizonte hinsichtlich einer vergleichbaren Abschlussvergabe – Deskription von heterogenen Lehrerwahrnehmungen bezüglich des Erwartungshorizontes und dessen Anwendung im Kontext der zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch sowie potenzieller diesbezüglicher Einflussfaktoren als Grundlage bzw. Ausgangspunkt für weiterführende Forschung (z. B. Zusammenhangsanalyse zwischen dem Nutzungsverhalten des Erwartungshorizontes und ausgewählten Variablen) Die vorliegende Studie ermöglicht einen Einblick in die dezentrale Beurteilungspraxis im Kontext der zentralen Abschlussprüfungen und gibt einen strukturierten Überblick über die Wahrnehmungen der Lehrkräfte als umsetzende Akteurinnen bzw. Akteure. Sie erweitert den hauptsächlichen Fokus des aktuellen Forschungsstandes vom Zentralabitur auf die zentralen Prüfungen zum Erwerb des MSA und generiert erste Aufschlüsse über die Wahrnehmungen der Lehrpersonen bezüglich der Prüfungsklausur bzw. -vorbereitung sowie der Leistungsbeurteilung, die wiederum als Grundlage für künftige Forschungsvorhaben genutzt werden können (vgl. Abschnitt 13.3). Die Konzentration auf das Prüfungsfach Deutsch sowie die Bundesländer Baden-Württemberg und Nordrhein-Westfalen erlaubten gleichermaßen die Berücksichtigung von Fachspezifika (z. B. Einsatz von Langtextaufgaben, Relevanz inhaltlicher und sprachlicher Leistungen) sowie die komparative Betrachtung von zwei länderspezifischen Ausgestaltungen des zentralen Prüfungsformats. Anschlussfähig an die entsprechende Forschung zu weiteren zentralen Prüfungsformaten nehmen die befragten Lehrkräfte auch im Kontext des MSA schul- und bundeslandübergreifend das Vorliegen eines Teaching to the Test-Effekts im Sinne einer thematischen Engführung des Unterrichts hinsichtlich der Abschlussprüfung wahr (vgl. z. B. Hahn, 2014; Jäger et al., 2012; Oerke et al., 2013). Darüber hinaus zeigt sich übereinstimmend zu den vorliegenden Befunden und Erfahrungsberichten eine Heterogenität hinsichtlich der landesspezifischen Ausgestaltung des Erwartungshorizontes wie auch der Wahrnehmungen der Lehrkräfte bezüglich dessen Konfiguration und Nutzung (vgl. Appius & Holmeier, 2012; Klein et al., 2009; Odendahl, 2008; Zabka & Stark, 2010).

396

13

Diskussion der Ergebnisse

Des Weiteren leistet die Studie einen Beitrag zur Educational GovernanceForschung. Zwar ist vor dem Hintergrund unterschiedlicher länderspezifischer Rahmenbedingungen und deren potenziellen Einfluss auf die Wahrnehmungen und Handlungen der Lehrkräfte von einer Generalisierung der Ergebnisse auf weitere Prüfungsfächer, Bundesländer oder nationale zentrale Abschlussverfahren abzusehen, alternativ ermöglicht das qualitative Design jedoch einen vergleichsweise differenzierten Einblick in die schulische Beurteilungspraxis im Rahmen des zentralen Prüfungsformats. Die Heterogenität der Wahrnehmungen und beschriebenen Handlungen der Lehrpersonen gibt erste Hinweise darauf, dass keine vollständige Übereinstimmung zwischen der intendierten und der tatsächlichen Umsetzung besteht, sondern vielmehr auf der Grundlage unterschiedlicher Rekontextualisierungsprozesse variierende personen- oder schulspezifische Beurteilungspraxen existieren. Zudem deuten sich potenzielle Einflussfaktoren an, die eine unterschiedliche Einschätzung und Anwendung der Erwartungshorizonte bedingen können bzw. einen Beitrag zu dessen Erklärung leisten (z. B. Gestaltung des Instruments, Voraussetzungen bzw. Kompetenzen der Lehrperson, schulspezifische Absprachen). Obwohl die tatsächlichen bildungspolitischen Steuerungsprozesse im Rahmen dieser Studie nicht untersucht wurden, sondern vielmehr die diesbezüglichen Wahrnehmungen von beteiligten Lehrkräften, geben die Ergebnisse zudem Hinweise auf die Steuerungswirksamkeit des Erwartungshorizontes hinsichtlich einer vergleichbaren Abschlussvergabe. Steuerungstheoretisch betrachtet ist die Beschreibung einer teils stark differierenden länderspezifischen Gestaltung des Instruments sowie insbesondere die Unsicherheiten und unterschiedlichen Wahrnehmungen der Lehrkräfte bezüglich der Anwendung des Erwartungshorizontes im Kontext der Erst- bzw. Zweitkorrektur problematisch zu bewerten. Im Rahmen der Beschreibung unterschiedlicher Nutzungsintensitäten und Anwendungspraktiken des Erwartungshorizontes durch die befragten Lehrpersonen deutet sich die Existenz unterschiedlicher Rekontextualisierungsprozesse an, welche wiederum einen Beitrag zum Verständnis des variierenden Nutzungsverhalten (z. B. vollständige, teilweise oder keine Nutzung des Erwartungshorizontes) leisten könnten. Die Steuerungswirksamkeit der Erwartungshorizonte muss vor diesem Hintergrund hinterfragt werden. Die detaillierte Deskription der Wahrnehmungen von Lehrkräften hinsichtlich der zentralen Prüfungen zum Erwerb des MSA bzw. insbesondere der Beurteilungspraxis leistet nicht nur einen theoretischen Beitrag, ausgehend von den Wahrnehmungen der Lehrpersonen lassen sich außerdem Entwicklungspotenziale und bildungsadministrative Implikationen diskutieren, die praktische Impulse für die Weiterentwicklung des zentralen Prüfungsformats bilden können (z. B. die Implementation bzw. der Ausbau eines Feedbackformats, in dessen Rahmen die

13.2 Theoretische und praktische Erträge

397

Lehrkräfte eine Rückmeldung hinsichtlich der Gestaltung und Anwendung des Erwartungshorizontes an die bildungsadministrative Ebene geben). Da die Lehrerinnen und Lehrer für die tatsächliche Umsetzung des zentralen Formats zuständig sind, bildet die Kenntnis ihrer Wahrnehmungen eine wichtige Grundlage, um ein Verfahren zu gestalten, welches zielführend und möglichst akzeptiert ist. Speziell vor dem Hintergrund, dass sich im Rahmen der Studie eine geringe bis ausbleibende ebenübergreifende Kommunikation im Kontext der zentralen Prüfung in Nordrhein-Westfalen andeutet, erscheint der vorliegende Einblick in die Schulebene relevant, um Informationslücken bezüglich der Wahrnehmungen und Handlungen der Lehrkräfte zu reduzieren. Darüber hinaus lassen sich anhand der Schilderungen der Lehrkräfte konkrete Aspekte identifizieren, die für die Lehrpersonen besonders bedeutsam und/ oder hinsichtlich der Zielerreichung einer vergleichbaren Abschlussvergabe problematisch sind. Folglich kann die Deskription der Wahrnehmungen auch als Ausgangspunkt für die Diskussion von praktischen Entwicklungspotenzialen dienen. Im Folgenden erörtert die Autorin unter Bezugnahme auf die dargestellten Ergebnisse ausgewählte Handlungsoptionen, die als Impulse für die Bildungsadministration verstanden werden sollen. Gestaltung des Erwartungshorizontes Die Präferenzen der Lehrpersonen bezüglich der konkreten Konfiguration des Erwartungshorizontes variieren deutlich (z. B. Konkretisierungsgrad der Lösungsdarstellungen, Existenz einer Punktevorgabe). Insbesondere die befragten badenwürttembergischen Lehrkräfte nehmen eine differenzierte und verbindliche Gestaltung als Einschränkung wahr, dennoch nimmt die Autorin vor dem Hintergrund der Schilderungen der Lehrpersonen an, dass eine derartige Konfigurationsvariante einen größeren Beitrag zur Prävention einer Beurteilung anhand von schulspezifischen oder individuellen Kriterien leisten kann. Anhand der konkreten Erfahrungsberichte der Lehrkräfte deutet sich an, dass bereits durch die Existenz eines Erwartungshorizontes der Einfluss leistungsfremder Faktoren sowie Abstimmungsprobleme zwischen den Lehrpersonen reduziert werden. In Abhängigkeit der konkreten Gestaltung bestehen allerdings unterschiedlich große Beurteilungsspielräume fort, welche die Lehrkräfte im Kollegium oder individuell konkretisieren. Die Lehrpersonen beschreiben speziell das Vorhandensein unterschiedlicher Ansichten hinsichtlich des Einbezugs und der Gewichtung von Teilleistungen, welche im Falle von einer geringen oder ausbleibenden Vorgabe im Erwartungshorizont zu einer heterogenen Beurteilungspraxis führen, die nicht landeseinheitlich vergleichbar ist. Die Schilderungen der nordrhein-westfälischen Lehrkräfte verweisen zwar darauf, dass auch anhand einer Punktevergabe im Erwartungshorizont keine vollständige Vergleichbarkeit geschaffen werden kann

398

13

Diskussion der Ergebnisse

und teilweise Abstimmungsbedarfe bestehen (z. B. Zuordnung von Punkten zu Leistungen), jedoch ein grundlegender Handlungsrahmen existiert. Grundsätzlich erscheint es vor dem Hintergrund einer eingeschränkten Möglichkeit, alle Leistungen einer (Langtext-)Aufgabe zu antizipieren und im Erwartungshorizont abzubilden, weder machbar noch sinnvoll ein Instrument zu konfigurieren, welches Beurteilungsspielräume vollständig vermeidet. Dennoch könnte es hilfreich sein, die Spielräume so gering wie möglich zu gestalten, um die berichteten individuellen und schulspezifischen Entscheidungen zu vermeiden und eine vergleichbare, möglichst objektive Beurteilung zu ermöglichen. Vor diesem Hintergrund sind auch die jüngeren Entwicklungen in Baden-Württemberg positiv zu bewerten. Während die Lehrkräfte zum Zeitpunkt des Interviews berichten, dass keine Regelung der Bewertung existiert, wird in einer der aktuelleren Ausführungsbestimmungen die grobe Gewichtung von Teilbereichen wie z. B. Inhalt und sprachlicher Ausdruck vorgegeben (vgl. Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2017, S. 5). Dies leistet nicht nur einen Beitrag zur Vergleichbarkeit der Beurteilungen, sondern die Festlegungen können auch zu einer kognitiven Entlastung der Beurteilenden führen sowie Transparenz schaffen bzw. die rechtliche Absicherung der Lehrkräfte unterstützen. Zusätzlich wäre es im Hinblick auf eine Qualitätssicherung denkbar, eine Feedbackschleife zu implementieren. Auf diese Weise könnte die bildungsadministrative Ebene Informationen zur praktischen Anwendung des Instruments sowie diesbezüglicher Unklarheiten und Schwierigkeiten von den Lehrkräften erhalten. Zudem ist anzunehmen, dass ein Rückmeldesystem auch im Hinblick auf die Akzeptanz des Erwartungshorizontes hilfreich sein könnte. Die Lehrkräfte wären hierdurch am Erstellungsprozess beteiligt und angeregt, den Erwartungshorizont und dessen Gestaltung zu reflektieren. Analog zum Interview besteht die Option, dass sich die Lehrkräfte im Rahmen der Rückmeldung über ihre grundsätzliche Zufriedenheit mit der Konfiguration bewusstwerden bzw. für die Schwierigkeit sensibilisiert werden, konkrete Optimierungen vorzuschlagen. Ausgehend von den heterogenen Schilderungen der befragten badenwürttembergischen Lehrkräfte hinsichtlich der Inanspruchnahme der bestehenden freien Rückmeldeoption in Form der Angabe einer Kontaktperson ist anzunehmen, dass sich bei einem freiwilligen Format ausschließlich bestimmte Lehrerinnen und Lehrer beteiligen (z. B. unzufriedene Lehrkräfte) und die Bedarfe hierdurch stark verzerrt abgebildet werden könnten. Folglich erscheint es sinnvoll, dass die Rückmeldung für alle Lehrkräfte verbindlich ist, die an der Prüfungsbeurteilung in den zentralen Prüfungen zum Erwerb des MSA beteiligt sind. Vor dem Hintergrund, dass einige Lehrkräfte im Kontext der Prüfungsvorbereitung, -beurteilung und auch im Anschluss an die Prüfung von geringen zeitlichen Kapazitäten berichten, erscheint

13.2 Theoretische und praktische Erträge

399

eine jährliche Abfrage gegebenenfalls als zu hohe Arbeitsbelastung, stattdessen könnte ein größerer Turnus sinnvoll sein. Unabhängig von der Verbindlichkeit der Teilnahme sowie der Frequenz der Abfrage gilt es darüber hinaus ein geeignetes Rückmeldeformat zu finden. Denkbar wäre ein Feedback mithilfe eines kurzen Fragebogens, der sowohl geschlossene als auch offene Antwortformate enthält. Diese Variante erlaubt für die Lehrkräfte eine möglichst bedarfsorientierte Rückmeldung mit geringem Aufwand sowie für die Erstellergruppe bzw. Bildungsadministration eine vergleichsweise zeitökonomische Auswertung. Allerdings gilt es zunächst zu prüfen, inwiefern die schriftliche Feedbackgabe aus rechtlicher Perspektive problematisch ist und eine Grundlage für juristische Einwände bezüglich der Qualität des Erwartungshorizontes bildet. Nutzung des Erwartungshorizontes Die geeignete Gestaltung des Erwartungshorizontes bildet in einem ersten Schritt eine notwendige Grundlage für eine vergleichbare Abschlussvergabe, in einem zweiten Schritt muss jedoch außerdem der intendierte Umgang mit dem Instrument sichergestellt werden. Anhand der vorangegangenen Ausführungen deutet sich bereits an, dass die Nützlichkeit des Erwartungshorizontes nicht isoliert bestimmbar ist, sondern in Abhängigkeit der Anwenderin bzw. des Anwenders und dessen Nutzung des Instruments (vgl. vertiefend Abschnitt 13.1). Die Lehrkräfte äußern zwar kein grundsätzliches Unverständnis des Instruments, allerdings verweisen sie auf Abstimmungsbedarfe sowie Unklarheiten im Kontext der konkreten Anwendung (z. B. Konkretisierung der Lösungsdarstellungen, Zuordnung der einzelnen Punkte), die wiederum auf der Schulebene geklärt werden, da den Lehrpersonen keine zentrale Ansprechperson bekannt ist. Zur einheitlichen Klärung von Fragen könnte es hilfreich sein, eine spezifische Fortbildungsveranstaltung zu den zentralen Prüfungen zum Erwerb des MSA für die beteiligten Lehrkräfte anzubieten, die sich auf das Tätigkeitsfeld der Leistungsbeurteilung fokussiert, dieses jedoch nicht isoliert thematisiert, sondern unter Berücksichtigung der zugrundeliegenden Prüfungsklausur behandelt. Neben der Erläuterung von inhaltlichen Aspekten sowie organisatorischen Abläufe könnte auch eine praktische Heranführung an die Arbeit mit dem Erwartungshorizont erfolgen, die insbesondere für fachfremde Lehrkräfte und Seiteneinsteigerinnen bzw. Seiteneinsteiger eine Hilfestellung bietet. Ergänzend scheint es sinnvoll, für den Zeitrahmen der Prüfung eine Ansprechperson zur Verfügung zu stellen, die bestenfalls an der Erstellung der Prüfung beteiligt war und bei Unsicherheiten kontaktiert werden kann, ähnlich wie es eine nordrheinwestfälische Lehrerin für das Prüfungsfach Mathematik berichtet hat (vgl. NW4, Position 200). Vor dem Hintergrund der tendenziellen Ablehnung einer umfangreichen bildungsadministrativen Anleitung durch die Lehrpersonen bildet diese

400

13

Diskussion der Ergebnisse

flankierende Maßnahme ein bedarfsorientiertes Angebot, welches die Autonomie bzw. Kompetenzen der Lehrerinnen und Lehrer anerkennt und diese gleichzeitig unterstützt. Zusätzlich zu diesen beiden spezifischen und punktuellen Maßnahmen könnte ein früher ansetzender bzw. umfangreicherer Ansatz sinnvoll sein, der sich nicht nur auf die Fort- sondern auch auf die Ausbildung erstreckt. Beispielsweise wäre es denkbar, dass die Erstellung und Anwendung von Erwartungshorizonten zukünftig feste Bestandteile der Lehrerausbildung sind. Darüber hinaus bedarf es insbesondere der Vermittlung von Kompetenzen des Bereichs Beurteilen2 , um die Arbeit mit den unvermeidlichen Spielräumen des Instruments zu unterstützen sowie einen professionellen Umgang zwischen der erst- und zweitkorrigierenden Lehrperson zu ermöglichen (z. B. Kenntnis von Beurteilungsfehlern und Maßnahmen zu deren Reduktion). In diesem Kontext wäre auch eine dahingehende Einstellungsbildung das Ziel, dass die Lehrkräfte eine mögliche Kontrolle ihrer Beurteilungen anhand des Erwartungshorizontes durch weitere Lehrpersonen oder die bildungsadministrative Ebene nicht ausschließlich als Einschränkung bzw. Bevormundung, sondern vielmehr als Maßnahme wahrnehmen, die einen Beitrag zur Qualitätssicherung der Zertifizierung leisten kann. Neben der Notwendigkeit von Kompetenzen des Bereichs Beurteilens deuten die Äußerungen einiger Lehrpersonen auf die Relevanz des Aufbaus einer Kritikfähigkeit gegenüber den Kolleginnen und Kollegen hin, sodass sich die zweitkorrigierende Lehrkraft traut die erstkorrigierende Lehrperson auf Beurteilungsfehler hinzuweisen sowie mögliche Unstimmigkeiten zwischen den beiden Beurteilungen zu diskutieren. Speziell unter Bezugnahme auf die Beschreibung einer heterogenen Beurteilungspraxis in der zentralen Prüfung zum Erwerb des MSA könnte über eine Form der Qualitätskontrolle nachgedacht werden. Bedingt durch die Anzahl der beteiligten Akteurinnen bzw. Akteure sowie zeitliche und personenschutzrechtliche Vorgaben erscheint eine umfassende Überprüfung anspruchsvoll und wird zudem von den Lehrkräften kritisch bewertet. Allerdings könnte es sinnvoll sein, entsprechende Maßnahmen zu erwägen, um die Nutzung des Erwartungshorizontes sowie die Durchführung der Zweitkorrektur sicherzustellen. Anhand von stichprobenartigen Kontrollen durch die bildungsadministrative Ebene könnte nicht nur überprüft werden, ob die Lehrkräfte das Instrument anwenden, sondern auch 2 Die

KMK hat mit dem Ziel der Qualitätssicherung und Weiterentwicklung schulischer Bildung bundesweite Standards bzw. Kompetenzbereiche für die Lehrerbildung im Bereich Bildungswissenschaften eingeführt. Der Kompetenzbereich Beurteilen subsumiert die erwarteten Fähigkeiten hinsichtlich der Diagnose, Messung und Bewertung von Leistungen sowie der Förderung und Beratung der Schülerinnen bzw. Schüler (vgl. vertiefend KMK, 2004c, S. 11).

13.2 Theoretische und praktische Erträge

401

inwiefern der Erwartungshorizont geeignet ist, um eine vergleichbare Beurteilung anzuleiten. Sofern gleichermaßen die Korrekturen von der erst- und zweitkorrigierenden Lehrkraft gesichtet werden, ist es möglich anhand von Abweichungen oder Fehlinterpretationen des Instruments Hinweise auf problematische bzw. mehrdeutige Konfigurationselemente zu erhalten und dieses Wissen wiederum für künftige Erstellungsprozesse sowie die Schulung von Lehrkräften zu nutzen. Analog zur Abfrage eines schriftlichen Feedbacks könnte jedoch auch diese Maßnahme aus juristischer Perspektive problematisch sein und dazu führen, dass die Qualität des Erwartungshorizontes in Frage gestellt wird. Neben der Implementation von stichprobenartigen Kontrollen könnten außerdem Maßnahmen im Rahmen der Zweitkorrektur getroffen werden. In den Interviews wird ausschließlich im Kontext einer schulinternen Zweitkorrektur auf deren Verzicht verwiesen, da zuvor entsprechende schulspezifische Absprachen getroffen wurden. Es wäre folglich denkbar, dass eine schulexterne Zweitkorrektur die Wahrscheinlichkeit derartiger Absprachen reduziert, indem zwei unterschiedliche Schulen zusammenarbeiten und ggf. die kooperierenden Schulen zusätzlich regelmäßig wechseln. Zudem könnte das Verfahren dahingehend modifiziert werden, dass die Note und/ oder die Korrekturen der Erstkorrektur nicht sichtbar sind, damit die Durchführung der Zweitkorrektur sich abbildet. Aus Sicht der Autorin könnte die Zweitkorrektur nicht nur als überprüfende, sondern ebenfalls als intervenierende bzw. korrigierende Maßnahme verstanden werden. Konkret bedeutet dies, sofern Abweichungen zwischen den beiden korrigierenden Lehrkräften bestehen, sollten sich diese zunächst austauschen bevor das arithmetische Mittel der Zensuren gebildet wird. Auf diese Weise besteht die Chance, dass die Lehrpersonen ihre Beurteilungen diskutieren, plausibilisieren und bei möglichen Fehlern oder Verzerrungen auch korrigieren. Allerdings müssen derartige zusätzliche Gespräche im Hinblick auf deren unter Umständen hohen Aufwand und die potenzielle Herausforderung einer Einigung unter gleichberechtigten Lehrkräften einer weiteren kritischen Betrachtung unterzogen werden. Ausgehend von den Anmerkungen der Lehrkräfte existieren außerdem weitere Maßnahmen, welche die Vergleichbarkeit erhöhen könnten (z. B. Anonymisierung der Prüfungsleistungen durch deren Nummerierung oder das Abtippen der Prüfungsantworten durch externe Personen). Diese Optionen sind jedoch vor dem Hintergrund des damit verbundenen Aufwands und des von den Lehrkräften angedeuteten knappen verfügbaren Zeitbudgets im Rahmen der zentralen Prüfungen kritisch zu betrachten. Zudem bildet der Vorgang des Entzifferns und Abtippens der Prüfungsantworten durch eine externe Person, damit die Lehrkraft nicht auf den Prüfling schließen kann, bereits einen subjektiven Interpretationsprozess, der ebenfalls zu Verzerrungen führen kann.

402

13

Diskussion der Ergebnisse

Insgesamt wäre es wünschenswert, dass die Kompetenz und Bereitschaft der Lehrkräfte hinsichtlich einer intendierten Umsetzung der Leistungsbeurteilung langfristig anhand der Unterstützung sowie des Einbezugs der Lehrkräfte gewährleistet werden können. Aktuell könnte es jedoch sinnvoll sein, die intendierte Durchführung vor dem Hintergrund der Bedeutsamkeit des Abschlusses und der angestrebten Vergleichbarkeit der Zertifikate mithilfe von Qualitätskontrollen sicherzustellen. Zudem bildet die Qualitätskontrolle ähnlich wie die Implementation einer Feedbackschleife eine Chance, die teilweise geringe Kommunikation zwischen der bildungsadministrativen Ebene sowie der Schulebene zu verbessern sowie anhand der gewonnenen Informationen stetig zur Weiterentwicklung des zentralen Prüfungsverfahrens bzw. der optimierten Erstellung des Erwartungshorizontes und der anwenderorientierten Schulung der Lehrkräfte beizutragen (Abbildung 13.2):

bildungsadministrative Ebene

Erstellung

Erwartungshorizont

Schulung

Wahrnehmung

Lehrkraft

Feedback

Beurteilung

Aufschlüsse

Prüfungsarbeit

Abbildung 13.2 Potenzielle Prozessoptimierungen im Rahmen der zentralen Prüfungen zum Erwerb des MSA

13.3

Reflexion und Ausblick

Im Rahmen der Erläuterung des Forschungsdesigns wurde bereits auf potenzielle Chancen und Limitationen der Studie hingewiesen. Nach dem Abschluss der Untersuchung reflektiert die Autorin diese nun rückblickend auf methodischer und inhaltlicher Ebene. Hiervon ausgehend zeigt sie ausgewählte vertiefende bzw. weiterführende Fragestellungen auf, die sich aus der vorliegenden Studie ergeben und leitet mögliche Ansatzpunkte für Forschungsvorhaben ab.

13.3 Reflexion und Ausblick

403

Zusammenfassend wird mit dieser Studie das Ziel verfolgt, – anhand von inhalts- und metaphernanalytisch ausgewerteten Einzelinterviews – mit insgesamt zehn baden-württembergischen und nordrhein-westfälischen Deutschlehrerinnen bzw. -lehrern – einen möglichst differenzierten Einblick in die Wahrnehmungen der Lehrkräfte – bezüglich der Leistungsbeurteilung in den zentralen Prüfungen zum Erwerb des MSA unter besonderer Berücksichtigung des landeseinheitlichen Erwartungshorizontes zu geben. Diesbezüglich ist relativierend auf die bereits diskutierten methodischen Limitationen zu verweisen (vgl. vertiefend Abschnitt 7.5, 8.5 und 9.3). Zusammengefasst existieren im Rahmen dieser Studie die folgenden (potenziellen) Einschränkungen: – Zusammensetzung des Samples: Die Kontaktanbahnung erfolgte primär über Dritte (z. B. zuständige Landesbildungsministerien und -institute), weshalb von einer Vorabselektion der Lehrkräfte durch diese ausgegangen werden muss. Zudem ist aufgrund der eigeninitiativen (Rück-)Meldung von Interessierten sowie der fakultativen Interviewteilnahme anzunehmen, dass das Sample aus einem bestimmten Personenkreis besteht (z. B. besonders engagierte oder unzufriedene Lehrerinnen und Lehrer). Die Tatsache, dass sich in der Gruppe der befragten Lehrkräfte keine Berufsanfängerinnen bzw. -anfänger befinden, könnte ein mögliches Resultat der Vorabselektion und der Freiwilligkeit der Teilnahme sein. – Umfang des Samples: Das Sample umfasst insgesamt zehn Deutschlehrkräfte aus Baden-Württemberg und Nordrhein-Westfalen. Bedingt durch die kleine Stichprobengröße besteht keine Repräsentativität der Ergebnisse. Insbesondere vor dem Hintergrund variierender länder- und prüfungsfachspezifischer Rahmenbedingungen des zentralen Prüfungsformats zum Erwerb des MSA können ohne weitere Untersuchungen keine verallgemeinerbaren Aussagen getroffen werden. – tatsächliche Durchführungsbedingungen der Interviews: Bei einigen Interviews ergaben sich am Gesprächsort unerwartet zeitliche Einschränkungen, weshalb teilweise die angestrebte Offenheit der Interviews reduziert und stattdessen eine stärkere Strukturierung der Gespräche notwendig wurde. – Offenheit der Interviews: Die angestrebte Offenheit der Gespräche erschwert grundsätzlich die Vergleichbarkeit von Aussagen der Lehrkräfte und folglich die Auswertung. Zudem führte die offene Interviewgestaltung teilweise zu Störungen im Kommunikationsprozess (z. B. Unsicherheit der Befragten aufgrund der

404

13

Diskussion der Ergebnisse

offen formulierten Fragen) sowie Interviewfehlern (z. B. ein unbeabsichtigtes Formulieren geschlossener Fragen). – Existenz von Codierer-Effekten: Zwar wurden im Rahmen des inhaltsanalytischen Auswertungsprozesses qualitätssichernde Maßnahmen ergriffen (z. B. Raterschulung, regelmäßige Besprechungen, vgl. vertiefend Abschnitt 8.1), dennoch können Fehlentscheidungen bzw. -interpretationen nicht vollständig ausgeschlossen werden (z. B. aufgrund der subjektiven Wahrnehmung oder der abnehmenden Konzentration der codierenden Personen). – komplexer Identifikationsprozess der Metaphern: Der Erkennungsprozess von Metaphern gestaltet sich ausgehend von der relativ vagen Metapherndefinition sehr komplex (vgl. vertiefend Abschnitt 9.1). Insbesondere die Schwierigkeit die Metaphern in den Transkripten zu identifizieren, welche die analysierende Person selber nutzt, kann dazu führen, dass Metaphern im Rahmen dieser Studie übersehen wurden. Neben den Limitationen, die sich aus der konkreten methodischen Gestaltung der Studie ergeben, ist vor dem Hintergrund einer inzwischen zwei bis nahezu drei Jahre zurückliegenden Datenerhebung anzunehmen, dass seither Modifikationen im Kontext der zentralen Prüfung zum Erwerb des MSA vorgenommen wurden (z. B. phasenweise Vorgabe einer Leistungsgewichtung in zusätzlichen Handreichungen in Baden-Württemberg), sodass die Ergebnisse nicht ungeprüft auf die aktuelle Situation übertragen werden können. Nach der Durchführung dieser Studie zeigen sich jedoch auch deutlich die Stärken des qualitativen Designs, welches es erlaubt, die komplexen und heterogenen Wahrnehmungen möglichst differenziert zu erfassen und abzubilden. Die vermutete Eignung der ausgewählten Methoden lässt sich anschaulich anhand der generierten Daten und Ergebnisse bestätigen. Mithilfe des problemzentrierten Interviews gelang es (vgl. vertiefend Kapitel 7), umfassende Auskünfte über die Wahrnehmungen der Lehrkräfte im Kontext der Leistungsbeurteilung in den zentralen Prüfungen zum Erwerb der MSA sowie insbesondere des landeseinheitlichen Erwartungshorizontes zu erfassen. Die Lehrpersonen zeigten sich in den Interviews auskunftsfreudig und äußerten sich zu allen angesprochenen Themenbereichen. Aufgrund der offenen Fragestellungen war es den Lehrerinnen und Lehrern möglich, individuelle Schwerpunkte zu setzen und auf diese Weise die Autorin für (weitere) Themen zu sensibilisieren, die aus der Perspektive der schulischen Akteurinnen bzw. Akteure relevant sind und teilweise nicht antizipiert wurden (z. B. organisatorische Herausforderungen im Prüfungsprozess, die geringe Berücksichtigung der sprachlichen Kompetenzen von Prüflingen im Kontext der Leistungsbeurteilung).

13.3 Reflexion und Ausblick

405

Die gleichermaßen thematisch strukturierte und offene Interviewform führte des Weiteren dazu, dass sich die Heterogenität der Wahrnehmungen sowie der beschriebenen Handlungen deutlich abbilden (z. B. unterschiedliche Gestaltungswünsche hinsichtlich des Erwartungshorizontes, variierende Durchführung der Zweitkorrektur). Unter Bezugnahme auf die theoretischen Annahmen der Educational Governance-Perspektive war zwar zu vermuten, dass in Abhängigkeit der umsetzenden Akteurinnen bzw. Akteure und des jeweiligen schulischen sowie bildungsadministrativen Umfeldes variierende Rekontextualisierungsprozesse erfolgen (vgl. vertiefend Abschnitt 4.1), jedoch war die Autorin dennoch überrascht über die stellenweise große Spanne unterschiedlicher Wahrnehmungen, die sich für das kleine Sample von 10 Lehrkräften zeigte. Zwar scheint das Gruppendiskussionsverfahren im Hinblick auf das Forschungsinteresse weiterhin eine gewinnbringende Erhebungsmethode zu sein, die zusätzlich zu den Einzelwahrnehmungen der Lehrkräfte „komplexe Einstellungs-, Wahrnehmungs-, Gefühls-, Bedürfnis-, Orientierungs- und Motivationsgefechte von Menschen und Gruppen aus bestimmten sozialen Kontexten [sichtbar macht]“ (Kühn & Koschel, 2018, S. 22), jedoch ist rückblickend zu vermuten, dass die Variante des Einzelinterviews tatsächlich gesprächsfördernder wirkt. Speziell vor dem Hintergrund, dass von den Lehrkräften mehrfach Unsicherheiten bezüglich des Prüfungsverfahrens geäußert wurden (z. B. bezüglich der Existenz von Ansprechpersonen, der Verbindlichkeit des Erwartungshorizontes) und sich teilweise Hemmungen andeuteten, das eigene Handeln zu beschreiben oder die Handlungen von Kolleginnen und Kollegen einzuschätzen (z. B. Wechsel zu einer flüsternden Sprechweise), muss zumindest kritisch hinterfragt werden, ob die entsprechenden Auskünfte auch bei Interviews mit mehreren Lehrkräften erfolgt wären oder vielmehr in Abhängigkeit der Gruppenkonstellation ein sozial erwünschtes Antwortverhalten begünstigt worden wäre. Die anschließende Anwendung der inhaltlich strukturierenden qualitativen Inhaltsanalyse erleichterte den Auswertungsprozess durch eine thematische Selektion bzw. eine Reduktion der gesamten Datenmenge und ermöglichte eine systematische Deskription der erfassten Wahrnehmungen (vgl. Kapitel 10). Ausgehend von den thematisch strukturierten Daten gelang in einem weiteren Schritt mithilfe der typenbildenden qualitativen Inhaltsanalyse wiederum eine Verdichtung der Ergebnisse anhand der Konstruktion von polythetischen Typen, d. h. zwei Gruppen von Lehrkräften, die ihren Umgang mit dem Erwartungshorizont ähnlich beschreiben und begründen sowie vergleichbare Präferenzen hinsichtlich dessen Konfiguration äußern (vgl. Kapitel 12).

406

13

Diskussion der Ergebnisse

Die Metaphernanalyse hat sich zudem als gewinnbringende Ergänzung zur inhaltsanalytischen Auswertung erwiesen (vgl. Kapitel 11). Die Untersuchung ausgewählter sprachlicher Realisationen erlaubte es, vertiefende Hinweise auf weitere, teils unbewusste Einschätzungen der Lehrkräfte zu erhalten, welche die Befunde bezüglich der inhaltlichen Ebene der Interviews unterstützen. Insgesamt bildet die Studie somit ein praktisches Beispiel, welches zur Veranschaulichung der Anwendung bzw. Kombination der Erhebungsmethode problemzentriertes Interview sowie der Auswertungsmethoden qualitative inhaltlich strukturierende Inhaltsanalyse, qualitative typenbildende Inhaltsanalyse und Metaphernanalyse beiträgt. Folglich kann die Untersuchung für kommende Forschungsvorhaben hilfreiche Impulse hinsichtlich der Auswahl und Anwendung dieser Methoden geben. Anknüpfende Forschungsmöglichkeiten Trotz des Mehrwerts der Studie bleiben einige interessante Fragen offen, zu deren Beantwortung es weiterer Forschungsvorhaben bedarf. Die vorliegende Untersuchung eignet sich hierfür als empirische Basis bzw. Ausgangspunkt. Mit Blick auf die Erweiterung der Befunde wird im Folgenden eine Auswahl unbeantworteter Fragestellungen und potenzieller empirischer Zugänge vorgestellt. Die Zusammenschau erhebt keinen Anspruch auf Vollständigkeit, sondern soll vielmehr Impulse für weiterführende Forschungsmöglichkeiten aufzeigen, die gewinnbringend sein könnten. Eine naheliegende Option bildet die Erweiterung der vorliegenden Studie auf Schulen in freier Trägerschaft sowie andere Bundesländer, Prüfungsfächer und nationale zentrale Prüfungsformate (in einer entsprechend modifizierten Form). Die Befunde dieser Untersuchung deuten bereits an, dass die unterschiedlichen schulbzw. landesspezifischen prüfungsstrukturellen und -organisatorischen Bedingungen einen Einfluss auf die Wahrnehmungen und Handlungen der Lehrkräfte nehmen, weshalb die Durchführung und Auswertung von Einzelinterviews mit Deutschlehrkräften auch an nicht-staatlichen Schulen oder in weiteren Bundesländern interessant sein könnten. Im Rahmen des DFG-Projektes „Konfiguration und professionelle Nutzung kriterialer Bewertungsvorgaben in zentralen Abschlussprüfungen“ wurden einige weitere Interviews mit Deutschlehrkräften in Hamburg und Sachsen durchgeführt, die entsprechende Aufschlüsse ermöglichen, wozu jedoch bislang keine Publikationen vorliegen. In einem weiteren Schritt wäre es wünschenswert die Studie auf sämtliche Bundesländer zu erweitern, um national komparative Analysen anzuschließen. Unter der Voraussetzung einer umfangreicheren Anpassung des Interviewleitfadens könnte es ergänzend auch aufschlussreich sein, Gespräche

13.3 Reflexion und Ausblick

407

mit Deutschlehrkräften in Rheinland-Pfalz zu führen und die Perspektiven von Lehrpersonen zu berücksichtigen, die bislang keine praktischen Erfahrungen mit einem zentralen Prüfungsformat besitzen. Diesbezüglich wäre es interessant zu erfahren, ob und aus welchen Gründen zentrale Prüfungen von rheinland-pfälzischen Lehrkräften gewünscht bzw. nicht gewünscht werden, welche konkrete Prüfungsgestaltung als sinnvoll erachtet wird (z. B. bezüglich der Existenz und Konfiguration eines vorgegebenen Erwartungshorizontes) und ob bereits Erfahrungen im Kontext der Anwendung selbsterstellter Erwartungshorizonte bestehen. In der vorliegenden Studie vermuteten einige der befragten Lehrkräfte außerdem fachspezifische Unterschiede im Rahmen der Leistungsbeurteilung (z. B. eine variierende Schwierigkeit, vergleichbare Beurteilungen anhand eines Erwartungshorizontes anzuleiten oder eine unterschiedliche Nützlichkeit eines Erwartungshorizontes), die eine Ausweitung der Studie auf weitere Prüfungsfächer im Kontext des MSA spannend erscheinen lassen. Auch diesbezüglich existieren bereits erste Bemühungen im zuvor genannten DFG-Projekt, in dessen Rahmen Interviews mit Mathematiklehrkräften in Baden-Württemberg, Nordrhein-Westfalen sowie Sachsen erfolgten. Die vorliegenden Befunde könnten auch in diesem Fall durch Analysen in den restlichen Bundesländern oder Untersuchungen hinsichtlich anderer Prüfungsfächer ergänzt werden. In einem weiteren Schritt ist ein Ausbau der Studie auf das Zentralabitur denkbar, da in den schriftlichen Abschlussprüfungen der Sekundarstufe II ebenfalls ein landeseinheitlicher Erwartungshorizont zur Beurteilung der Prüfungsarbeiten vorgegeben wird. Es wäre gleichermaßen möglich, dass die Lehrpersonen aufgrund des höherwertigen Schulabschlusses eine stärkere Standardisierung der Leistungsbeurteilung wünschen oder aufgrund der höheren Komplexität der Prüfungsleistungen größere Spielräume bevorzugen. Folglich erscheint es auch in diesem Kontext interessant, ob und falls ja, wie sich die jeweiligen Rahmenbedingungen auf die Wahrnehmungen der Lehrkräfte auswirken. Neben einem Ausbau der Studie bieten sich auch Analysen an, die ausgewählte Aspekte vertiefend betrachten. Speziell um die vorliegenden qualitativen Befunde „aus der Beschränkung auf Sonderkonstellationen […] herauszuführen und generalisierungsfähig zu machen, wären […] wieder repräsentative Fragestellungen und korrespondierende Forschungen nötig“ (Fend, 2011, S. 21). Beispielsweise bildet eine standardisierte Lehrkräftebefragung zu den Wahrnehmungen und Bedarfen hinsichtlich der Gestaltung des Erwartungshorizontes eine denkbare Option. Unter Rückgriff auf die vorliegenden Ergebnisse hinsichtlich der Konfigurationswünsche der Lehrerinnen und Lehrer könnte ein standardisierter Fragebogen entwickelt werden, der es erlaubt, die Wahrnehmungen einer Vielzahl von Lehrkräften abzubilden und statistisch repräsentative Aussagen zu treffen. Gegebenenfalls könnten in einem

408

13

Diskussion der Ergebnisse

weiteren Schritt außerdem Korrelationen bzw. Kausalzusammenhänge zwischen den Wünschen der Lehrpersonen und anderen Faktoren (z. B. Geschlecht, Berufserfahrung, landesspezifische Gestaltung des Instruments) abgeleitet werden. In diesem Rahmen ließe sich folglich analysieren, ob und inwiefern sich die landesspezifischen Tendenzen der Konfigurationswünsche bestätigen, die sich in dieser Untersuchung bereits angedeutet haben. In Ergänzung zu den Wahrnehmungen des Erwartungshorizontes ist auch die Untersuchung der tatsächlichen Gestaltung und Nutzung des Instruments interessant und könnte weitere Aufschlüsse darüber geben, ob bzw. inwieweit die angestrebte vergleichbare Abschlussvergabe erreicht wird. Wie bereits angedeutet, wurden die landeseinheitlichen Varianten der Erwartungshorizonte für die Prüfungsfächer Deutsch und Mathematik in einer bundesweiten, kategoriengeleiteten Analyse bereits im Rahmen des mehrfach genannten DFG-Projekts in den Blick genommen und um eine Untersuchung bezüglich der Steuerungserwartungen von Verantwortlichen der Bildungsadministration erweitert (vgl. Kapitel 7). Zusätzlich könnte es darüber hinaus sinnvoll sein, den vorgelagerten Erstellungsprozess der Erwartungshorizonte in den Blick zu nehmen. Für eine möglichst vollständige Deskription der zentralen Prüfungen zum Erwerb des MSA könnte es aufschlussreich sein, aus welchen Personen sich die Erstellungskommissionen zusammensetzen (z. B. Anzahl, Expertise der Beteiligten) und wie der Konfigurationsprozess konkret abläuft (z. B. gegenseitige Abstimmung von Prüfung und Erwartungshorizont, Herausforderungen im Erstellungsprozess). Des Weiteren bilden fachdidaktische Analysen zur Eignung des Erwartungshorizontes hinsichtlich der Anleitung einer vergleichbaren, möglichst objektiven Leistungsbeurteilung eine Anknüpfungsmöglichkeit. Orientiert an der Arbeit von Disdorn-Liesen (2016) könnte das Instrument mit Blick auf dessen fachwissenschaftliche Korrektheit und Passung zur Prüfungsklausur untersucht werden. Die anschließende Korrektur von Prüfungsarbeiten mithilfe des Erwartungshorizontes durch unterschiedliche beurteilende Personen würde außerdem einen Beitrag zur Untersuchung der Reliabilität des Instruments leisten. In diesem Rahmen könnten auch gezielt ausgewählte Annahmen von Lehrkräften aus dieser Studie überprüft werden (z. B. Besserbewertung bei der Anwendung von Erwartungshorizonten mit Punkten, hohe Beurteilerübereinstimmung ohne oder mit vorheriger Absprache). Darüber hinaus wäre es denkbar, über einen ethnographischen Zugang die tatsächliche Beurteilungspraxis in den zentralen Prüfungen zum Erwerb des MSA zu beobachten. So könnten beispielsweise die vorgelagerten obligatorischen oder informellen Korrekturbesprechungen betrachtet werden. Neben Informationen über den grundsätzlichen Ablauf wäre es interessant zu erfahren, an welchen Stellen

13.3 Reflexion und Ausblick

409

unterschiedliche Meinungen bzw. Abstimmungsbedarfe hinsichtlich der Leistungsbeurteilung bestehen und ob bzw. wie eine Einigung zwischen den Lehrkräften erfolgt. Auf diese Weise könnten nicht nur die Wahrnehmungen der Lehrpersonen aus der vorliegenden Studie zu entsprechenden Beobachtungen in Bezug gesetzt werden, sondern die Forscherin bzw. der Forscher bezüglich (weiterer) Herausforderungen im Beurteilungsprozess sensibilisiert werden. Des Weiteren wäre eine Beobachtung des individuellen Umgangs mit dem Erwartungshorizont bzw. des tatsächlichen Beurteilungsprozesses interessant, hierfür könnte die Think Aloud Methode eine gewinnbringende Unterstützung darstellen (vgl. vertiefend Scholl, 2018, S. 136 ff.). Die kommentierte Durchführung der Prüfungsbeurteilung durch die Lehrerin oder den Lehrer (z. B. Verbalisierung von Überlegungen) erlaubt vertiefende Erkenntnisse über kognitive Prozesse und subjektive Einschätzungen der beurteilenden Person, die nicht beobachtbar sind (vgl. Süt˝o & Greatorex, 2008). Hieraus ergeben sich wiederum weiterführende Hinweise auf Strategien oder Herausforderungen im Beurteilungsprozess. Mit Blick auf den Beurteilungsprozess zeigt sich, dass die Zweitkorrektur für die Lehrkräfte ebenfalls ein relevantes Thema bildet. Mehrere Lehrpersonen berichteten in diesem Zusammenhang von einer hohen Übereinstimmung zwischen den Noten der Erst- und Zweitkorrektur. Folglich bietet sich an dieser Stelle erneut eine Anknüpfungsoption für eine quantitative Untersuchung, in deren Rahmen berechnet wird, inwiefern tatsächlich eine hohe Übereinstimmung zwischen den Noten besteht und ob sich in Abhängigkeit der Korrekturverfahren (z. B. schulinterne oder schulexterne Zweitkorrektur) oder der Prüfungsfächer signifikante Unterschiede bezüglich der Interraterreliabilität ergeben. Nicht nur im Bereich der Bildungsforschung sowie der deutschdidaktischen Forschung sind Forschungsvorhaben wünschenswert, auch in der pädagogischen Professionsforschung bieten sich ausgehend von der vorliegenden Studie weitere Forschungsanlässe an. Anschlussfähig an die Befunde von Kaiser und Möller (2017) sowie Terhart (2014) deuteten mehrere der befragten Lehrkräfte an, dass eine Leistungsbeurteilung primär informell in der praktischen Arbeit an der Schule bzw. unterstützt durch erfahrene Lehrpersonen erlernt wird und keine systematische Einübung erfolgt. Dies wirft die Frage auf, wie die Lehrkräfte aktuell ihre Ausbildung bzw. Kompetenzen im Bereich der Leistungsbeurteilung einschätzen. In einer standardisierten Lehrkräftebefragung könnte gezielt erfasst werden, welche theoretischen Kenntnisse und praktischen Kompetenzen Lehrpersonen im Bereich der schulischen Leistungsbeurteilung im Rahmen ihrer universitären und schulischen Ausbildung vermittelt werden und inwiefern (weitere) Bedarfe bestehen. Wie bereits vereinzelt angedeutet, macht es abschließend durchaus Sinn, einige der vorgestellten Untersuchungen in Metaanalysen in Bezug zu setzen (z. B.

410

13

Diskussion der Ergebnisse

Wahrnehmungen und beschriebene Handlungen der Lehrkräfte aus verschiedenen Prüfungsfächern oder Bundesländern, wahrgenommene Übereinstimmung der Noten aus der Erst- und Zweitkorrektur sowie deren berechnete Übereinstimmung). Fazit Abschließend lässt sich festhalten, dass die vorliegende Studie einen Baustein zum Verständnis der zentralen Prüfungen zum Erwerb des MSA darstellt, der gleichermaßen für zukünftige empirische, theoriebezogene und methodische Forschung nutzbar ist. Zusammenfassend deutet sich anhand der grundsätzlich positiven Einschätzung bzw. der Wahrnehmungen von Chancen durch die Lehrpersonen an, dass keine grundlegende Ablehnung gegenüber den zentralen Prüfungen und dem Erwartungshorizont besteht. Der Großteil der Lehrkräfte bewertet die zentralen Prüfungen, den Erwartungshorizont und die Zweitkorrektur grundsätzlich als sinnvoll. Jedoch werden anhand der Schilderungen der Lehrkräfte sowie mit Blick auf die angestrebte Zielerreichung auch punktuelle Entwicklungsbedarfe im Kontext der Leistungsbeurteilung in den zentralen Prüfungen zum Erwerb des MSA im Fach Deutsch sichtbar. Insbesondere die konkrete Ausgestaltung des Erwartungshorizontes bildet einen Bereich, der sich im Hinblick auf die angestrebte vergleichbare Abschlussvergabe und die Wünsche bzw. Akzeptanz der Lehrkräfte herausfordernd darstellt. Auch anhand der Wahrnehmungen der Lehrkräfte lässt sich kein eindeutiges Best-Practice Beispiel eines fachwissenschaftlich korrekten Erwartungshorizontes definieren, der die Beurteilungspraxis (als alleiniges Instrument) bis hin zu einer möglichst objektiven Leistungsbeurteilung standardisiert. Des Weiteren weisen die beschriebenen heterogenen Wahrnehmungen der Lehrkräfte sowie die variierenden Nutzungspraktiken hinsichtlich des Erwartungshorizontes darauf hin, dass auch im Kontext der Leistungsbeurteilung in den zentralen Prüfungen zum Erwerb des MSA eine Diskrepanz zwischen der intendierten Umsetzung und der tatsächlichen Beurteilungspraxis besteht. Die Befunde unterstützen die Annahme der Existenz von Rekontextualisierungsprozessen bezüglich der Wahrnehmung sowie Anwendung von Erwartungshorizonten. Sie deuten zudem diesbezügliche Einflussfaktoren auf der landes- und schulspezifischen sowie der persönlichen Ebene an (z. B. die spezifische Gestaltung von Erwartungshorizonten, die Existenz weiterer landesspezifischer Maßnahmen wie u. a. obligatorische Korrekturbesprechungen, schulspezifische Abstimmungen oder die wahrgenommenen eigenen Kompetenzen der Lehrkräfte). Folglich reihen sich die Befunde der qualitativen Analyse in die Studien der Educational Governance-Perspektive ein und zeigen, dass zwar keine Verhaltenssteuerung realisierbar ist, aber eine Führung bzw. Vereinheitlichung der Prozesse und Handlungen sinnvoll und möglich erscheint.

13.3 Reflexion und Ausblick

411

Bezogen auf den theoretischen Hintergrund erscheint es weiterführend interessant, die Ergebnisse dieser Studie zu den Befunden aus den Experteninterviews mit einzelnen Vertreterinnen bzw. Vertretern der zuständigen Landesbildungsministerien im Rahmen des DFG-Projekt „Konfiguration und professionelle Nutzung kriterialer Bewertungsvorgaben in zentralen Abschlussprüfungen“ in Bezug zu setzen und die von der bildungsadministrativen Ebene formulierten, zugrundeliegenden Steuerungsintentionen mit der von den Lehrkräften beschriebenen Beurteilungspraxis in den zentralen Prüfungen zum Erwerb des MSA abzugleichen. Insgesamt sensibilisiert die Studie hinsichtlich der anspruchsvollen Umsetzung des Anliegens, eine möglichst objektive Beurteilung bzw. eine vergleichbare Abschlussvergabe zu realisieren. Sie verweist auf die komplexen, teils widersprüchlichen Anforderungen an die Konfiguration des Erwartungshorizontes sowie auf die Herausforderungen im Kontext der unterschiedlichen Rekontextualisierungsprozesse eine vergleichbare Beurteilungspraxis zu schaffen. Hierbei rückt sie die Wahrnehmungen der umsetzenden Akteurinnen bzw. Akteure inklusive ihrer Bedarfe sowie empfundener Herausforderungen in den Fokus und bietet sowohl für die empirische Forschung wie auch die Bildungsadministration einen differenzierten Einblick in die Leistungsbeurteilung in den zentralen Prüfungen zum Erwerb des MSA im Prüfungsfach Deutsch unter besonderer Berücksichtigung des landesweit vorgegebenen Erwartungshorizontes.

Literaturverzeichnis

Abraham, U. (2008). Zentral + Föderal = Katastrophal? Ein Länderbericht zum Zentralabitur. Didaktik Deutsch, 25, 52–77. Abs, H. J., Brüsemeister, T., Schemmann, M. & Wissinger, J. (2015). Akzentsetzungen bei der Erforschung von Steuerung und Koordination in Mehrebenensystemen. In H. J. Abs, T. Brüsemeister, M. Schemmann & J. Wissinger (Hrsg.), Governance im Bildungssystem. Analysen zur Mehrebenenperspektive, Steuerung und Koordination (S. 7–17). Wiesbaden: Springer VS. Ackeren, I. van (2005). Vom Daten- zum Informationsreichtum? Erfahrungen mit standardisierten Vergleichstests in ausgewählten Nachbarländern. Pädagogik, 57 (5), 24–28. Ackeren, I. van. (2007). Zentrale Abschlussprüfungen. Entstehung, Struktur und Steuerungsperspektiven. Pädagogik, 59 (3), 12–15. Ackeren, I. van, Block, R., Klein, E. D. & Kühn, S. M. (2012). The Impact of State-Wide Exit Exams in Germany: A Descriptive Case Study. Education Policy Analysis Archives, 20 (8). Verfügbar unter: http://epaa.asu.edu/ojs/article/view/1011, zuletzt geprüft am 23.09.2018. Ackeren, I. van, Klemm, K. & Kühn, S. M. (2015). Entstehung, Struktur und Steuerung des deutschen Schulsystems (3. Aufl.). Wiesbaden: Springer VS. Ackeren, I. van, Zlatkin-Troitschanskaia, O., Binnewies, C., Clausen, M., Dormann, C., Preisendörfer, P. et al. (2011). Evidenzbasierte Schulentwicklung. Ein Forschungsüberblick aus interdisziplinärer Perspektive. Die Deutsche Schule, 103 (2), 170–184. Ahmed, A. & Pollitt, A. (2011). Improving marking quality through a taxonomy of mark schemes. Assessment in Education: Principles Policy & Practice, 18 (3), 259–278. Allmendinger, J., Ebner, C. & Nikolai, R. (2018). Soziologische Bildungsforschung. In R. Tippelt & B. Schmidt-Hertha (Hrsg.), Handbuch Bildungsforschung (4. Aufl., S. 47–72). Wiesbaden: Springer VS. Altrichter, H., Brüsemeister, T. & Wissinger, J. (2007). Einführung. In ebd. (Hrsg.), Educational Governance. Handlungskoordination und Steuerung im Bildungssystem (1. Aufl., S. 9–13). Wiesbaden: Springer VS. Altrichter, H. & Heinrich, M. (2007). Kategorien der Governance-Analyse und Transformationen der Systemsteuerung in Österreich. In H. Altrichter, T. Brüsemeister & J.

© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 S. Kötter-Mathes, Leistungsbeurteilung in zentralen Prüfungen, Educational Governance 51, https://doi.org/10.1007/978-3-658-31224-4

413

414

Literaturverzeichnis

Wissinger (Hrsg.), Educational Governance. Handlungskoordination und Steuerung im Bildungssystem (1. Aufl., S. 55–103). Wiesbaden: Springer VS. Altrichter, H. & Maag Merki, K. (2016). Steuerung der Entwicklung des Schulwesens. In ebd. (Hrsg.), Handbuch Neue Steuerung im Schulsystem (2. Aufl., S. 1–28). Wiesbaden: Springer VS. Appius, S. (2012). Kooperation zwischen Lehrpersonen im Zusammenhang mit dem Abitur. In K. Maag Merki (Hrsg.), Zentralabitur. Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (S. 95–117). Wiesbaden: Springer VS. Appius, S. & Holmeier, M. (2012). Beurteilung der Abituraufgaben und Korrekturhinweise. In K. Maag Merki (Hrsg.), Zentralabitur. Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (S. 353–383). Wiesbaden: Springer VS. Arbeitsgemeinschaft der Industrie- und Handelskammern zu Flensburg, zu Kiel und zu Lübeck (o. J.). Argumente für zentrale Abschlussprüfungen. Verfügbar unter: https://www.ihk-schleswig-holstein.de/bildung/IHK_pruefungen/zentrale-abs chlusspruefungen/1359982, zuletzt geprüft am 08.06.2019. Arbeitsgruppe Schulinspektion (Hrsg.) (2016). Schulinspektion als Steuerungsimpuls? Ergebnisse aus Forschungsprojekten (1. Aufl.). Wiesbaden: Springer. Autorengruppe Bildungsberichterstattung (2016). Bildung in Deutschland 2016. Ein indikatorgestützter Bericht mit einer Analyse zu Bildung und Migration. Bielefeld: Bertelsmann. Autorengruppe Bildungsberichterstattung (2018). Bildung in Deutschland 2018. Ein indikatorengestützter Bericht mit einer Analyse zu Wirkungen und Erträgen von Bildung. Bielefeld: wbv. Baader, M. S. & Freytag, T. (Hrsg.) (2017). Bildung und Ungleichheit in Deutschland. Wiesbaden: Springer VS. Bachmayer, o. A. (2018, 1. Juni). So trickse ich bei meinen Abschlussarbeiten. BILD. Verfügbar unter: https://www.bild.de/ratgeber/job-karriere/schule/lehrerblog-so-trickse-ich-beimeinen-abschlussarbeiten-55790536.bild.html, zuletzt geprüft am 01.02.2019. Baird, J.-A., Greatorex, J. & Bell J. F. (2004). What makes marking reliable? Experiments with UK examinations. Assessment in Education, 11 (3), 331–348. Barkaoui, K. (2011). Effects of marking method and rater experience on ESL essay scores and rater performance. Assessment in Education: Principles, Policy & Practice, 18 (3), 279–293. Baumert, J., Cortina, K. S. & Leschinsky, A. (2008). Grundlegende Entwicklungen und Strukturprobleme im allgemeinbildenden Schulwesen. In K. S. Cortina, J. Baumert, A. Leschinsky, K. U. Mayer & L. Trommer (Hrsg.), Das Bildungswesen in der Bundesrepublik Deutschland (S. 53–130). Reinbek bei Hamburg: Rowohlt. Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefele, U., Schneider, W. et al. (Hrsg.) (2001). PISA 2000. Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Opladen: Leske + Budrich. Baumert, J. & Schümer, G. (2001). Familiäre Lebensverhältnisse, Bildungsbeteiligung und Kompetenzerwerb. In J. Baumert, E. Klieme, M. Neubrand, M. Prenzel, U. Schiefele, W. Schneider, P. Stanat, K.-J. Tillmann & M. Weiß (Hrsg.), PISA 2000. Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich (S. 323–407). Opladen: Leske + Budrich.

Literaturverzeichnis

415

Baumert, J. & Watermann, R. (2000). Institutionelle und regionale Variabilität und die Sicherung gemeinsamer Standards in der gymnasialen Oberstufe. In J. Baumert, W. Bos & R. Lehmann (Hrsg.), TIMSS/III. Dritte Internationale Mathematik- und Naturwissenschaftsstudie. Mathematische und Naturwissenschaftliche Bildung am Ende der gymnasialen Oberstufe (S. 317–372). Opladen: Leske + Budrich. Baurmann J. (2017). Schreiben – Überarbeiten – Beurteilen. Ein Arbeitsbuch zur Schreibdidaktik (5. Aufl.). Seelze-Velbert: Klett/Kallmeyer. Baurmann, J. & Dehn, M. (2004). Beurteilen im Deutschunterricht. Praxis Deutsch, 184, 6–13. Baurmann, J. & Kammler, C. (2012). Interpretationsaufgaben stellen – Interpretationen bewerten. Praxis Deutsch, 234, 4–12. Bayerisches Staatsministerium für Unterricht und Kultus (o. J.). Der mittlere Schulabschluss an der Mittelschule. Verfügbar unter: https://www.km.bayern.de/eltern/abschluesse/mittle rer-schulabschluss/mittelschule.html, zuletzt geprüft am 07.08.2018. Beck, O. (1974). Kriterien zur Aufsatzbeurteilung. Mainz: Hase & Koehler. Beck, O. (1979). Theorie und Praxis der Aufsatzbeurteilung. Forschungsstand. Wege der Objektivierung und Leistungsförderung. Ein Handbuch für Lehrende und Studierende (1. Aufl.). Bochum: Ferdinand Kamp. Beck, U. (1994). Jenseits von Stand und Klasse? In U. Beck & E. Beck-Gernsheim (Hrsg.), Riskante Freiheiten (1. Aufl., S. 43–60). Frankfurt am Main: Suhrkamp. Beck, U. (2000). Risikogesellschaft. Auf dem Weg in eine andere Moderne (1. Aufl.). Frankfurt am Main: Suhrkamp. Becker, D. & Birkelbach, K. (2010). Intelligenz und Schulleistung als Kontextmerkmale: Big-Fish-Little-Pond- oder Reflected-Glory-Effekt? Eine Mehrebenen-Analyse von Lehrerurteilen. In T. Beckers, K. Birkelbach, J. Hagenah & U. Rosar (Hrsg.), Komparative empirische Sozialforschung (S. 113–141). Wiesbaden: Springer VS. Becker, R. & Hadjar, A. (2017). Meritokratie – Zur gesellschaftlichen Legitimation ungleicher Bildungs-, Erwerbs- und Einkommenschancen in modernen Gesellschaften. In R. Becker (Hrsg.), Lehrbuch der Bildungssoziologie (3. Aufl., S. 33–62). Wiesbaden: Springer VS. Becker-Mrotzek, M. & Böttcher, I. (2018). Schreibkompetenz entwickeln und beurteilen (7. Aufl.). Berlin: Cornelsen Scriptor. Behörde für Schule und Berufsbildung (2015). Ausbildungs- und Prüfungsordnungen. Verfügbar unter: http://www.hamburg.de/bsb/ausbildungs-und-pruefungsordnungen/, zuletzt geprüft am 09.08.2018. Bellmann, J. (2016). Output- und Wettbewerbssteuerung im Schulsystem. In M. Heinrich & B. Kohlstock (Hrsg.), Ambivalenzen des Ökonomischen. Analysen zur „Neuen Steuerung“ im Bildungssystem (S. 13–34). Wiesbaden: Springer VS. Bellmann, J. & Weiß, M. (2009). Risiken und Nebenwirkungen Neuer Steuerung im Schulsystem. Theoretische Konzeptualisierung und Erklärungsmodelle. Zeitschrift für Pädagogik, 55 (2), 286–308. Benz, A. & Dose N. (2010). Governance – Modebegriff oder nützliches sozialwissenschaftliches Konzept? In A. Benz (Hrsg.), Governance – Regieren in komplexen Regelsystemen. Eine Einführung (2. Aufl., S. 13–36). Wiesbaden: Springer VS. Berger, P. L. & Luckmann, T. (2009). Die gesellschaftliche Konstruktion der Wirklichkeit (22. Aufl.). Frankfurt am Main: Fischer.

416

Literaturverzeichnis

Berkemeyer, N. (2016). Chancengerechtigkeit: Gewollt ungewollt!? In B. Jungkamp & M. John-Ohnesorg (Hrsg.), Soziale Herkunft und Bildungserfolg (1. Aufl., S. 25–31). Berlin: Friedrich-Ebert-Stiftung. Berkemeyer, N., Bos, W., Manitius, V., Hermstein, B., Berkemeyer, J., Kämmer, I. et al. (2014). Chancenspiegel 2014. Gütersloh: Bertelsmann Stiftung. Berkemeyer, N., Bos, W., Manitius, V., Hermstein, B. & Khalatbari, J. (2013). Chancenspiegel 2013. Zur Chancengerechtigkeit und Leistungsfähigkeit der deutschen Schulsysteme mit einer Vertiefung zum schulischen Ganztag. Gütersloh: Bertelsmann. Beste, G. (2015). Deutsch-Methodik. Praxishandbuch für die Sekundarstufe I und II (5. Aufl.). Berlin: Cornelsen Scriptor. Birkelbach, K. (2007). Lehrerurteile im Lebenslauf: Valide Prognose oder selffulfilling prophecy? Ein erster Überblick. Arbeitspapier Nr. 1 der Projektgruppe „Lehrerurteile im Lebenslauf“, Universität Duisburg-Essen. Verfügbar unter: http://www.bwpaed.uni-duisburg-essen.de/wirtschaft/aktpublik/Birkelbach_2007_ AP_I_Lehrerurteile%20.pdf, zuletzt geprüft am 09.06.2018. Birkelbach, K. (2010). Lehrerurteile in der Leistungsgesellschaft. Ergebnisse einer Längsschnittstudie (1969–1997). In K. Birkelbach, A. Bolder & K. Düsseldorf (Hrsg.), Berufliche Bildung in Zeiten des Wandels. Festschrift für Rolf Dobischat zum 60. Geburtstag (S. 107–125). Baltmannsweiler: Schneider Hohengehren. Black, B. (2010). Investigating seeding items used for monitoring on-line marking: factors affecting marker agreement with the gold standard marks. Paper presented at International Association for Educational Assessment 36th Annual Conference, Bangkok, Thailand. Black, B., Süt˝o, W. M. I., & Bramley, T. (2011). The interrelations of features of questions, mark schemes, and examinee responses and their impact upon marker agreement. Assessment in Education: Principles, Policy and Practice, 18 (3), 295–318. Blömeke, S., Herzig, B. & Tulodziecki, G. (2007). Gestaltung von Schule. Eine Einführung in Schultheorie und Schulentwicklung. Bad Heilbrunn: Klinkhardt. Blumenthal, J. von (2005). Governance – eine kritische Zwischenbilanz. Zeitschrift für Politikwissenschaft, 15, 1149–1180. Blumentritt, L. (2016). Veränderte Schulzeit – veränderte Freizeit? Freizeitkonstruktionen von Kindern am Beispiel der gymnasialen Schulzeitverkürzung. Weinheim [u. a.]: Beltz Juventa. Blumer, H. (1954). What is wrong with Social Theory? American Sociological Review, 19, 3–10. Blumer, H. (2013). Der methodologische Standort des symbolischen Interaktionismus. In H. Bude & M. Dellwing (Hrsg.), Symbolischer Interaktionismus. Aufsätze zu einer Wissenschaft der Interpretation (1. Aufl., S. 63–140). Berlin: Suhrkamp. Bohl, T. (2008). Theoretische Strukturierung – Begründung neuer Beurteilungsformen. In H.-U. Grunder & T. Bohl (Hrsg.), Neue Formen der Leistungsbeurteilung in den Sekundarstufen I und II (3. Aufl., S. 9–49). Baltmannsweiler: Schneider Hohengehren. Böhme, K. (2011). Methodische und didaktische Überlegungen sowie empirische Befunde zur Erfassung sprachlicher Kompetenzen im Deutschen. Analysen zu den Bildungsstandards im Fach Deutsch für den Primarbereich. Dissertation, Humboldt-Universität zu Berlin. Verfügbar unter: https://edoc.hu-berlin.de/handle/18452/17280, zuletzt geprüft am 12.07.2018.

Literaturverzeichnis

417

Bohnsack, R. (2014). Rekonstruktive Sozialforschung. Einführung in qualitative Methoden (9. Aufl.). Opladen [u. a.]: Budrich. Bölling, R. (2010). Kleine Geschichte des Abiturs. Paderborn [u. a.]: Schöningh. Bonsen, M. & Priebe, B. (2016). Einleitung: Folgen und Fragen nach PISA. In ebd. (Hrsg.), PISA – Folgen und Fragen. Anstöße zur Qualitätsentwicklung im Bildungssystem (S. 6–15). Seelze: Klett Kallmeyer. Borowski, S., Schauberger, M. & Weimar, D. (2018). Zugangs- und Zulassungsvoraussetzungen an deutschen Hochschulen. Eine deskriptive Bestandsaufnahme. Hochschulmanagement, 13 (2), 41–48. Bos, W., Lankes, E.-M., Prenzel, M., Schwippert, K., Valtin, R. & Walther, G. (2003). Erste Ergebnisse aus IGLU. Schülerleistungen am Ende der vierten Jahrgangsstufe im internationalen Vergleich. Zusammenfassung ausgewählter Ergebnisse. Verfügbar unter: https://www.kmk.org/fileadmin/pdf/PresseUndAktuelles/2003/iglu_kurz-end.pdf, zuletzt geprüft am 11.09.2018. Böttcher, I. & Becker-Mrotzek, M. (2009). Texte bearbeiten, bewerten und benoten (4. Aufl.). Berlin: Cornelsen Scriptor. Böttcher, W. (2012). Teaching to the test: Warnung vor dem falschen Vorbild. Friedrich Jahresheft, 30, 88–89. Böttcher, W. & Dicke, J. N. (2008). Implementation von Standards. Empirische Ergebnisse einer Umfrage bei Deutschlehrern. In W. Böttcher, W. Bos, H. Döbert & H. G. Holtappels (Hrsg.), Bildungsmonitoring und Bildungscontrolling in nationaler und internationaler Perspektive (S. 143–156). Münster: Waxmann. Bramley, T. (2007). Mark scheme features associated with different levels of marker agreement. Verfügbar unter: http://www.cambridgeassessment.org.uk/Images/109770mark-scheme-features-associated-with-different-levels-of-marker-agreement.pdf, zuletzt geprüft am 17.07.2018. Brammer, P. (2017). Das Zentralabitur in Niedersachsen. Ergebnisse einer Studie unter Schulleiterinnen und Schulleitern und Oberstufenkoordinatorinnen und Oberstufenkoordinatoren. Bildung und Erziehung, 70 (2), 135–150. Brehm, R. & Brehm-Kaiser, A. (2017). Die Beschlüsse zur Zulassung zum Medizinstudium im Rahmen des Masterplans Medizinstudium 2020. Ordnung der Wissenschaft, 4 (3), 215–216. Breidenstein, G., Meier, M. & Zaborowski, K. U. (2012). Die Ethnographie schulischer Leistungsbewertung – Ein Beispiel für qualitative Unterrichtsforschung. In F. Ackermann, T. Ley, C. Machold & M. Schrödter (Hrsg.), Qualitatives Forschen in der Erziehungswissenschaft (S. 157–175). Wiesbaden: Springer VS. Breidenstein, G. & Zaborowski, K. U. (2013). Unterrichtsalltag, Verhaltensregulierung und Zensurengebung. Zur Schulformspezifik schulischer Leistungsbewertung. In F. Dietrich, M. Heinrich, N. Thieme (Hrsg.), Bildungsgerechtigkeit jenseits von Chancengleichheit. Theoretische und empirische Ergänzungen und Alternativen zu, PISA‘ (S. 293–312). Wiesbaden: Springer VS. Breitschuh, G. (1991). Benotung und Zeugnis. In M. Liedtke (Hrsg.), Handbuch der Geschichte des Bayerischen Bildungswesens (S. 504–515). Bad Heilbrunn: Klinkhardt. Bremerich-Vos, A. (2013). Bildungsstandards für den Mittleren Schulabschluss und Aspekte der Testung literaler Kompetenzen. In C. Rosebrock & A. Bertschi-Kaufmann (Hrsg.),

418

Literaturverzeichnis

Literalität erfassen: bildungspolitisch, kulturell, individuell (S. 14–28). Weinheim [u. a.]: Beltz Juventa. Brosius, H.-B., Haas, A. & Koschel, F. (2016). Methoden der empirischen Kommunikationsforschung. Eine Einführung (7. Aufl.). Wiesbaden: Springer VS. Brüsemeister, T. (2004). Schulische Inklusion und neue Governance. Zur Sicht der Lehrkräfte. Münster: Münsterscher Verlag für Wissenschaft. Brüsemeister, T. (2007). Steuerungsakteure und ihre Handlungslogiken im Mehrebenensystem der Schule. In J. Kussau & T. Brüsemeister (Hrsg.), Governance, Schule und Politik. Zwischen Antagonismus und Kooperation (1. Aufl., S. 63–95). Wiesbaden: Springer VS. Brüsemeister, T. (2008). Qualitative Forschung. Ein Überblick (2. Aufl.). Wiesbaden: Springer VS. Brüsemeister, T. (2011). Governance im Schulbereich – Von der evaluationsbasierten Steuerung zur Qualitätsbürokratie. In T. Brüsemeister & M. Heinrich (Hrsg.), Autonomie und Verantwortung. Governance in Schule und Hochschule (S. 47–63). Münster: Münsterscher Verlag für Wissenschaft. Brüsemeister, T. & Heinrich, M. (Hrsg.) (2011). Autonomie und Verantwortung. Governance in Schule und Hochschule. Münster: Münsterscher Verlag für Wissenschaft. Büchel, E. & Isler, D. (2002). Sprachfenster. Lehrerhandbuch (3. Aufl.). Zürich: Lehrmittelverlag. Büchner, P. (2003). Stichwort: Bildung und soziale Ungleichheit. Zeitschrift für Erziehungswissenschaft, 6 (1), 5–24. Bundesinstitut für Berufsbildung (2018). Richtlinie des Hauptausschusses des Bundesinstituts für Berufsbildung Musterprüfungsordnung für die Durchführung von Abschlussund Umschulungsprüfungen. Verfügbar unter: https://www.ihk.de/ausbildungsprufungen, zuletzt geprüft am 08.06.2019. Bundesverfassungsgericht (2017). Urteil des Ersten Senats vom 19. Dezember 2017 – 1 BvL 3/14 – Rn. (1–253). Verfügbar unter: https://www.bundesverfassungsgericht.de/Sha redDocs/Entscheidungen/DE/2017/12/ls20171219_1bvl000314.html, zuletzt geprüft am 17.01.2019. Butcher, P. G. & Jordan, S. E. (2010). A comparison of human and computer marking of short free-text student responses. Computers & Education 55, 489–499. Calmbach, M. & Borgstedt, S. (2013). Do it yourself. Über Selbstsozialisation und kulturelles Kapital Jugendlicher. In P. M. Thomas & M. Calmbach (Hrsg.), Jugendliche Lebenswelten. Perspektiven für Politik, Pädagogik und Gesellschaft (S. 125–134). Berlin: Springer. CDU (2017). Zuhören. Entscheiden. Handeln. Regierungsprogramm der CDU für NordrheinWestfalen 2017–2022. Verfügbar unter: https://www.cdu-nrw.de/sites/default/files/media/ docs/2017-04-01_regierungsprogramm_cdu_fuer_nrw_2017-2022.pdf, zuletzt geprüft am 25.09.2018. Chamberlain, S. & Taylor, R. (2011). Online or Face-to-Face? An Experimental Study of Examiner Training. British Journal of Educational Technology, 42 (4), 665–675. Chen, P. P. & Bonner, S. M. (2017). Teachers’ Beliefs about Grading Practices and a Constructivist Approach to Teaching. Educational Assessment, 22 (1), 18–34. Child, S., Munro, J. & Benton, T. (2015). An experimental investigation of the effects of mark scheme features on marking reliability. Verfügbar unter: http://www.cambridgeassess ment.org.uk/Images/417277-an-experimental-investigation-of-the-effects-of-mark-sch eme-features-on-marking-reliability.pdf, zuletzt geprüft am 13.10.2018.

Literaturverzeichnis

419

Conrad, D. (2014). Erfahrungsbasiertes Verstehen geowissenschaftlicher Phänomene. Eine didaktische Rekonstruktion des Systems Plattentektonik. Dissertation, Universität Bayreuth. Verfügbar unter: https://epub.uni-bayreuth.de/1716/1/Disseration%20Dominik% 20Conrad.pdf, zuletzt geprüft am 27.08.2017. Crisp, V. (2008). Exploring the nature of examiner thinking during the process of examination marking. Cambridge Journal of Education, 38 (2), 247–264. Dahmen, M. (2009). Textqualität angemessen beurteilen. Deutschunterricht, 62 (1), 38–42. Dautel, K. (2007). Arbeitsökonomie und Transparenz. Über die Erstellung und den Einsatz von Korrekturbögen. Deutschmagazin, 4 (4), 53–58. Degen, M. (2015). Codierer-Effekte in Inhaltsanalysen – ein vernachlässigtes Forschungsfeld. In W. Wirth, K. Sommer, M. Wettstein & J. Matthes (Hrsg.), Qualitätskriterien in der Inhaltsanalyse (S. 78–95). Köln: von Halem. Deißner, D. (2010). Wider die paternalistische Schonhaltung: Warum standardisierte Leistungstests Schule gerechter machen können. In Vodafone-Stiftung Deutschland (Hrsg.), Herkunft und Chance: Wege zu mehr Bildungsgerechtigkeit an Deutschlands Schulen (S. 58–69). Düsseldorf: Vodafone Stiftung. Demmer, M. (2014). Die Aufgaben der Schule zwischen Anspruch und Realisierbarkeit. Ein kritischer Blick auf die Entwicklung der vergangenen 20 Jahre. In G. Birkigt (Hrsg.), Leistung zwischen Anspruch und Wirklichkeit. Wohin geht Schule? (S. 7–26). Stuttgart: Josef Raabe. Demski, D. (2017). Evidenzbasierte Schulentwicklung. Empirische Analysen eines Steuerungsparadigmas. Wiesbaden: Springer VS. Dietrich, D. (2008). Friedrich Althoff und das Ende des preußischen Schulstreites. Vorgeschichte und Inhalt der Schulreform des Jahres 1900: Die Junikonferenz. Norderstedt: Books on Demand. Disdorn-Liesen, V. (2016). Vergleichbarkeit in der Vielfalt. Leistungsanforderungen und Leistungsfeststellung im Zentralabitur Deutsch. Wiesbaden: Springer VS. Ditton, H. (2010). Bildungsungleichheit. In Vodafone-Stiftung Deutschland (Hrsg.), Herkunft und Chance: Wege zu mehr Bildungsgerechtigkeit an Deutschlands Schulen (S. 26–36). Düsseldorf: Vodafone Stiftung. Ditton, H. (2013). Chancenungleichheit in schulischen Laufbahnen. In D. Deißner (Hrsg.), Chancen bilden. Wege zu einer gerechteren Bildung – ein internationaler Erfahrungsaustausch (S. 57–77). Wiesbaden: Springer VS. Ditton, H. & Maaz, K. (2015). Sozioökonomischer Status und Ungleichheit. In H. Reinders, H. Ditton, C. Gräsel & B. Gniewosz (Hrsg.), Empirische Bildungsforschung. Gegenstandsbereiche (2. Aufl., S. 229–244). Wiesbaden: Springer VS. Doff, S. & Komoss, R. (Hrsg.) (2017). Making Change happen. Wandel im Fachunterricht analysieren und gestalten. Wiesbaden: Springer VS. Dollinger, B., Coelen, T., Buchna, J. & Rother, P. (2016). Normalisierte Hierarchie in Ganztagsgrundschulen. Zeitschrift für Soziologie der Erziehung und Sozialisation, 36 (3), 281–295. Dresing, T. & Pehl, T. (2018). Praxisbuch Interview, Transkription & Analyse. Anleitungen und Regelsysteme für qualitativ Forschende (8. Aufl.). Marburg: Eigenverlag. Drewek, P. (2009). Grenzen und Probleme der Steuerung des Bildungssystems. In R. Tippelt (Hrsg.), Steuerung durch Indikatoren? Methodologische und theoretische Reflexion zur

420

Literaturverzeichnis

deutschen und internationalen Bildungsberichterstattung (S. 181–186). Opladen [u. a.]: Budrich. Dudenredaktion (2013). Redewendungen. Wörterbuch der deutschen Idiomatik (4. Aufl.). Berlin: Dudenverlag. Dudenredaktion (2017). Duden: Die deutsche Rechtschreibung. Das umfassende Standardwerk auf der Grundlage der amtlichen Regeln (27. Aufl.). Mannheim [u. a.]: Dudenverlag. Dudenredaktion (2018a). durchwurschteln, durchwursteln. Verfügbar unter: https://www. duden.de/node/813966/revisions/1662622/view, zuletzt geprüft am 07.08.2018. Dudenredaktion (2018b). Hammer, der. Verfügbar unter: https://www.duden.de/rechtschreib ung/Hammer, zuletzt geprüft am 29.01.2019. Dudenredaktion (2018c). Lehrer, der. Verfügbar unter: https://www.duden.de/rechtschreib ung/Lehrer, zuletzt geprüft am 27.12.2018. Dunkake, I., Kiechle, T., Klein, M. & Rosar, U. (2012). Schöne Schüler, schöne Noten? Eine empirische Untersuchung zum Einfluss der physischen Attraktivität von Schülern auf die Notenvergabe durch das Lehrpersonal. Zeitschrift für Soziologie, 41 (2), 142–161. Dünnebier, K., Gräsel, C. & Krolak-Schwerdt, S. (2009). Urteilsverzerrungen in der schulischen Leistungsbeurteilung. Eine experimentelle Studie zu Ankereffekten. Zeitschrift für Pädagogische Psychologie, 23 (3–4), 187–195. Eder, F., Dämon, K. & Hörl, G. (2011). Das „Autonomie-Paritäts-Muster“: Vorberuflich erlerntes Stereotyp, Bewältigungsstrategie oder Ergebnis der beruflichen Sozialisation? Zeitschrift für Bildungsforschung, 1 (3), 199–217. Eickelmann, B., Kahnert, J., Lorenz, R. & Bos, W. (2011). Das Zentralabitur in NordrheinWestfalen aus der Lehrerperspektive. Veränderungen für den Unterricht. SchulVerwaltung Nordrhein-Westfalen, 22 (11), 31–32. Elliott, V. (2017). What does a good one look like? Marking A-level English scripts in relation to others. English in Education, 51 (1), 58–75. Fahim, M. & Bijani, H. (2011). The Effects of Rater Training on Raters’ Severity and Bias in Second Language Writing Assessment. Iranian Journal of Language Testing, 1 (1), 1–16. Fend, H. (1980). Theorie der Schule. München: Urban & Schwarzenberg. Fend, H. (2008a). Neue Theorie der Schule. Einführung in das Verstehen von Bildungssystemen (2. Aufl.). Wiesbaden: Springer VS. Fend, H. (2008b). Schule gestalten. Systemsteuerung, Schulentwicklung und Unterrichtsqualität (1. Aufl.). Wiesbaden: Springer VS. Fend, H. (2011). Die Wirksamkeit der Neuen Steuerung – theoretische und methodische Probleme ihrer Evaluation. Zeitschrift für Bildungsforschung, 1 (1), 5–24. Fiegert, M. (2001). Der Leistungsbegriff in historisch-systematischer Perspektive. In C. Solzbacher & C. Freitag (Hrsg.), Anpassen, verändern abschaffen? Schulische Leistungsbewertung in der Diskussion (S. 19–38). Bad Heilbrunn: Klinkhardt. Flick, U. (2017a). Konstruktivismus. In U. Flick, E. von Kardorff & I. Steinke (Hrsg.), Qualitative Forschung. Ein Handbuch (12. Aufl., S. 150–164). Reinbek bei Hamburg: Rowohlt. Flick, U. (2017b). Design und Prozess qualitativer Forschung. In U. Flick, E. v. Kardorff & I. Steinke (Hrsg.), Qualitative Forschung. Ein Handbuch (12. Aufl., S. 252–265). Reinbek bei Hamburg: Rowohlt.

Literaturverzeichnis

421

Flick, U., Kardorff, E. von & Steinke, I. (2017). Was ist qualitative Forschung? Einleitung und Überblick. In ebd. (Hrsg.), Qualitative Forschung. Ein Handbuch (12. Aufl., S. 13–29). Reinbek bei Hamburg: Rowohlt. Florian, C., Schmiemann, P. & Sandmann, A. (2015). Aufgaben im Zentralabitur Biologie – eine kategoriengestützte Analyse charakteristischer Aufgabenmerkmale schriftlicher Abituraufgaben. Zeitschrift für Didaktik der Naturwissenschaften, 21 (1), 69–86. Freitag, C. (2001). Die Schulreform in England und ihre Auswirkungen auf die Leistungsbewertung. In C. Solzbacher & C. Freitag (2001). Anpassen, verändern abschaffen? Schulische Leistungsbewertung in der Diskussion (S. 59–75). Bad Heilbrunn: Klinkhardt. Freudenberg, R. (2012). Zur Rolle des Vorwissens beim Verstehen literarischer Texte. Wiesbaden: Springer VS. Freudenthaler, H. H. & Specht, W. (2005). Bildungsstandards aus der Sicht der Anwender. Evaluation der Pilotphase I zur Umsetzung nationaler Bildungsstandards in der Sekundarstufe I. Graz: Zentrum für Schulentwicklung. Friebertshäuser, B. & Langer, A. (2013). Interviewformen und Interviewpraxis. In B. Friebertshäuser, A. Langer & A. Prengel, Handbuch qualitative Forschungsmethoden in der Erziehungswissenschaft (4. Aufl., S. 437–456). Weinheim [u. a.]: Beltz Juventa. Fröhlich, M., Rattay, C. & Schneider, J. (2013). Effizienter korrigieren. Das Praxisbuch. Profi-Tipps und Materialien aus der Lehrerfortbildung (2. Aufl.). Donauwörth: Auer. Früh, W. (2017). Inhaltsanalyse (9. Aufl.). Konstanz [u. a.]: UVK. Gadamer, H. G. (1975). Wahrheit und Methode. Grundzüge einer philosophischen Hermeneutik (4. Aufl.). Tübingen: Mohr. Geißler, G. (2011). Schulgeschichte in Deutschland. Von den Anfängen bis in die Gegenwart (2. Aufl.). Frankfurt am Main: Peter Lang. Geißler, R. (2013). Die Metamorphose der Arbeitertochter zum Migrantensohn. Zum Wandel der Chancenstruktur im Bildungssystem nach Schicht, Geschlecht, Ethnie und deren Verknüpfungen. In P. A. Berger & H. Kahlert (Hrsg.), Institutionalisierte Ungleichheiten. Wie das Bildungswesen Chancen blockiert (3. Aufl., S. 71–100). Weinheim [u. a.]: Beltz Juventa. Gesetz zur Regelung des Statusrechts der Beamtinnen und Beamten in den Ländern (Beamtenstatusgesetz – BeamtStG). Verfügbar unter: https://www.gesetze-im-internet.de/bea mtstg/, zuletzt geprüft am 29.10.2018. Gillmann, B. (2018, 7. Oktober). Bildungsministerin Anja Karliczek verärgert Sozialpartner. Handelsblatt. Verfügbar unter: https://www.handelsblatt.com/politik/deutschland/nation aler-bildungsrat-bildungsministerin-anja-karliczek-veraergert-sozialpartner/23152440. html, zuletzt geprüft am 27.01.2019. Glaser, B. G. & Strauss, A. L. (2010). Grounded theory. Strategien qualitativer Forschung (3. Aufl.). Bern: Huber. Gläser, J. & Laudel, G. (2010). Experteninterviews und qualitative Inhaltsanalyse als Instrumente rekonstruierender Untersuchungen (4. Aufl.). Wiesbaden: Springer VS. Goethe, J. W. von (o. J.). Goethes Werke. Herausgegeben im Auftrag der Großherzogin Sophie von Sachsen. IV. Abteilung: Goethes Briefe, Bd. 12, Weimar 1887–1912. Verfügbar unter: http://www.zeno.org/Literatur/M/Goethe,+Johann+Wolfgang/Briefe/1797, zuletzt geprüft am 28.03.2020. Goethe, J. W. von (1977). Italienische Reise (3. Aufl.). Zürich [u. a.]: Artemis Verlag.

422

Literaturverzeichnis

Gräsel, C. & Parchmann, I. (2004). Implementationsforschung – oder: der steinige Weg, Unterricht zu verändern. Unterrichtswissenschaft, 32 (3), 196–214. Greatorex, J. & Bell, J. F. (2008). What makes AS marking reliable? An experiment with some stages from the standardisation process. Research Papers in Education, 23 (3), 333–355. Greatorex, J. & Süt˝o, W. M. I. (2006). An empirical exploration of human judgement in the marking of school examinations. Verfügbar unter: http://www.iaea.info/documents/paper_ 1162a2471.pdf, zuletzt geprüft am 17.07.2018. Greatorex, J. & Süt˝o, W. M. I. (2008). What do GCSE examiners think of ‘thinking aloud’? Findings from an exploratory study. Educational Research, 50 (4), 319–331. Groeben, N. & Rustemeyer, R. (2002). Inhaltsanalyse. In E. König & P. Zedler (Hrsg.), Qualitative Forschung (2. Aufl., S. 233–258). Weinheim [u. a.]: Beltz. Gruber, O. & Magin, M. (2015). Qualitätssicherung in Inhaltsanalysen – ein empirisch fundierter Maßnahmenkatalog. In W. Wirth, K. Sommer, M. Wettstein & J. Matthes (Hrsg.), Qualitätskriterien in der Inhaltsanalyse (S. 119–139). Köln: von Halem. Grzesik, J. & Fischer, M. (1984). Was leisten Kriterien für die Aufsatzbeurteilung? Theoretische, empirische und praktische Aspekte des Gebrauchs von Kriterien und der Mehrfachbeurteilung nach globalem Ersteindruck. Opladen: Westdeutscher Verlag. Haase, R. (2015). Schulpolitik im Föderalismus: Eine Fallanalyse des einheitlichen AbiturPrüfungs-Verfahrens 2007 bis 2013. Dissertation, Universität Hagen. Hahn, J. S. (2014). Steuerungswirkungen zentraler Vergleichsarbeiten auf den vorgelagerten Unterricht. Testcoaching am Beispiel von Lernstand8. Dissertation, Universität DuisburgEssen. Hak, T. & Bernts, T. (2009). Coder Training. Explicit Instruction and Implicit Socialization? In K. Krippendorff & M. A. Bock (Hrsg.), The Content Analysis Reader (S. 220–233). Thousand Oaks [u. a.]: Sage. Han, M., Elsäßer, S., Lang, V. & Ditton, H. (2017). Geschlechtsspezifische Benotung? Der Einfluss der von Lehrkräften eingeschätzten Verhaltensmerkmale auf die Notengebung. Zeitschrift für Soziologie der Erziehung und Sozialisation, 37 (2), 174–194. Hannover, B. (2015). Geschlecht und soziale Ungleichheit. In H. Reinders, H. Ditton, C. Gräsel & B. Gniewosz (Hrsg.), Empirische Bildungsforschung. Gegenstandsbereiche (2. Aufl., S. 201–213). Wiesbaden: Springer VS. Hasselhorn, M., Köller, O., Maaz, K. & Zimmer, K. (2014). Implementation wirksamer Handlungskonzepte im Bildungsbereich als Forschungsaufgabe. Psychologische Rundschau, 65 (3), 140–149. Hattie, J. (2013). Lernen sichtbar machen. Baltmannsweiler: Schneider Verlag Hohengehren. Hattie, J. & Timperley, H. (2007). The Power of Feedback. Review of Educational Research, 77 (1), 81–112. He, Q., Anwyll, S., Glanville, M. & Deavall, A. (2013). An investigation of the reliability of marking of the Key Stage 2 National Curriculum English writing tests in England, Educational Research, 55 (4), 393–410. Heid, H. (2003). Eliteförderung oder Chancengleichheit im Bildungswesen? In A. Bolder & A. Witzel (Hrsg.), Berufsbiographien. Beiträge zu Theorie und Empirie ihrer Bedingungen, Genese und Gestaltung (S. 35–50). Opladen: Leske + Budrich. Heinrich, M. (2012). Vermessen, um zu steuern! Geht das überhaupt? Friedrich Jahresheft, 30, 35–38.

Literaturverzeichnis

423

Heinz, W. R. & Witzel, A. (1995). Das Verantwortungsdilemma in der beruflichen Sozialisation. In E.-H. Hoff & L. Lappe (Hrsg.), Verantwortung im Arbeitsleben (S. 99–113). Heidelberg: Asanger. Heise, H. (2008). Bildungsbenachteiligung im Zeitalter „Neuer Steuerung“. Die Reform der Schulsteuerung in Baden-Württemberg. Saarbrücken: VDM. Helfferich, C. (2011). Die Qualität qualitativer Daten. Manual für die Durchführung qualitativer Interviews (4. Aufl.). Wiesbaden: Springer VS. Helfferich, C. (2016). Qualitative Einzelinterviews zu Gewalt: Die Gestaltung der Erhebungssituation und Auswertungsmöglichkeiten. In C. Helfferich, B. Kavemann & H. Kindler (Hrsg.), Forschungsmanual Gewalt. Grundlagen der empirischen Erhebung von Gewalt in Paarbeziehungen und sexualisierter Gewalt (S. 121–142). Wiesbaden: Springer VS. Helsper, W. (2004). Antinomien, Widersprüche, Paradoxien: Lehrerarbeit – ein unmögliches Geschäft? Eine strukturtheoretisch-rekonstruktive Perspektive auf das Lehrerhandeln. In B. Koch-Priewe, F.-U. Kolbe & J. Wildt (Hrsg.), Grundlagenforschung und mikrodidaktische Reformansätze zur Lehrerbildung (S. 49–98). Bad Heilbrunn [u. a.]: Klinkhardt. Helsper, W. (2014). Lehrerprofessionalität – der strukturtheoretische Professionsansatz zum Lehrberuf. In E. Terhart, H. Bennewitz & M. Rothland (Hrsg.), Handbuch der Forschung zum Lehrerberuf (2. Aufl., S. 216–240). Münster [u. a.]: Waxmann. Helsper, W. (2018). Lehrerhabitus. Lehrer zwischen Herkunft, Milieu und Profession. In A. Paseka, M. Keller-Schneider & A. Combe (Hrsg.), Ungewissheit als Herausforderung für pädagogisches Handeln (S. 105–140). Wiesbaden: Springer VS. Helsper, W. & Kramer, R.-T. (2007). Selektion und Übergänge im Bildungssystem. Einleitung in den Thementeil. Zeitschrift für Pädagogik, 53 (4), 439–443. Henke, R. (2015). Zentrale Abschlussarbeiten an Hauptschulen, Realschulen und Oberschulen. Qualitätsentwicklung und -sicherung. SchulVerwaltung Niedersachsen, 26 (3), 79–81. Herdegen, P. (2009). Schulische Prüfungen. Entstehung – Entwicklung – Funktion. Prüfungen am bayerischen Gymnasium vom 18. bis zum 20. Jahrhundert. Bad Heilbrunn: Klinkhardt. Herrlitz, H.-G. (1973). Studium als Standesprivileg. Die Entstehung des Maturitätsproblems im 18. Jahrhundert. Lehrplan- und gesellschaftsgeschichtliche Untersuchungen. Frankfurt am Main: Athenäum Fischer Taschenbuch Verlag. Herzmann, P. & König, J. (2016). Lehrerberuf und Lehrerbildung. Bad Heilbrunn: Klinkhardt. Herzog, W. (2013). Beurteilungskultur. Profi -L, 1, 4–6. Hessisches Kultusministerium (o. J.). Mittlerer Abschluss. Verfügbar unter: https://kultusmin isterium.hessen.de/schule/schulformen/gymnasium/mittlerer-abschluss, zuletzt geprüft 15.08.2018. Hillbrandt, C. & Sintzen-Königsfeld, W. (2009). Schulentwicklung durch Standardisierung. Anmerkungen zur Entwicklung von Schule durch Bildungsstandards aus historischer und aktueller Sicht. In W. Helsper (Hrsg.), Schule und Bildung im Wandel. Anthologie historischer und aktueller Perspektiven (1. Aufl., S. 15–35). Wiesbaden: Springer VS. Hochweber, J. (2010). Was erfassen Mathematiknoten? Korrelate von MathematikZeugniszensuren auf Schüler- und Schulklassenebene in Primar- und Sekundarstufe. Münster: Waxmann. Holder, K. & Kessels, U. (2018). Lehrkräfte zwischen Bildungsstandards und Inklusion: Eine experimentelle Studie zum Einfluss von „Standardisierung“ und „Individualisierung“ auf die Bezugsnormorientierung. Unterrichtswissenschaft, 46 (1), 87–104.

424

Literaturverzeichnis

Holmeier, M. (2012a). Bezugsnormorientierung im Unterricht im Kontext zentraler Abiturprüfungen. In K. Maag Merki (Hrsg.), Zentralabitur. Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (S. 237–262). Wiesbaden: Springer VS. Holmeier, M. (2012b). Vergleichbarkeit der Punktzahlen im schriftlichen Abitur. In K. Maag Merki (Hrsg.), Zentralabitur. Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (S. 293–324). Wiesbaden: Springer VS. Holmeier, M. (2013). Leistungsbeurteilung im Zentralabitur. Wiesbaden: Springer VS. Holmeier, M. & Maag Merki, K. (2012). Unterstützung im Unterricht im Kontext der Einführung zentraler Abiturprüfungen. In K. Maag Merki (Hrsg.), Zentralabitur. Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (S. 155–178). Wiesbaden: Springer VS. Holtappels, H. G. (2017). Schulsystem im Umbruch. Entwicklungstendenzen in zentralen Feldern der Schulstruktur in Deutschland. In ebd. (Hrsg.), Entwicklung und Qualität des Schulsystems. Neue empirische Befunde und Entwicklungstendenzen (S. 11–52). Münster [u. a.]: Waxmann. Homuth, C. (2017). Die G8-Reform in Deutschland. Auswirkungen auf Schülerleistungen und Bildungsungleichheit. Wiesbaden: Springer VS. Honer, A. (2011). Interview. In R. Bohnsack, W. Marotzki & M. Meuser (Hrsg.), Hauptbegriffe qualitativer Sozialforschung (3. Aufl., S. 94–99). Opladen [u. a.]: Budrich. Hoppe, A. & Ukert, A. (2006). Was Schüler können müssen. Wege zum standardorientierten Deutschunterricht. Deutschmagazin, 3 (3), 15–20. Huebner, M. & Marcus, J. (2015). Auswirkungen der G8-Schulzeitverkürzung. Erhöhte Zahl von Klassenwiederholungen, aber jüngere und nicht weniger Abiturienten. DIWWochenbericht, 82 (18), 447–456. Hurrelmann, K. (2013). Das Schulsystem in Deutschland: Das „Zwei-Wege-Modell“ setzt sich durch. Zeitschrift für Pädagogik, 59 (4), 455–468. Ingenkamp, K. (Hrsg.) (1971). Die Fragwürdigkeit der Zensurengebung. Texte und Untersuchungsberichte. Weinheim [u. a.]: Beltz. Ingenkamp, K. (1980). Die diagnostische Problematik des Aufsatzes als Prüfungsinstrument und die Bemühungen zur Verbesserung der Auswertungsqualität. In O. Beck & F.-J. Payrhuber (Hrsg.), Aufsatzbeurteilung heute. Problematik – Diagnose – Therapievorschläge (S. 16–31). Freiburg im Breisgau: Herder. Ingenkamp, K. (1995). Die Fragwürdigkeit der Zensurengebung. Texte und Untersuchungsberichte (9. Aufl.). Weinheim [u. a.]: Beltz. Ingenkamp, K. & Lissmann, U. (2008). Lehrbuch der Pädagogischen Diagnostik (6. Aufl.). Weinheim [u. a.]: Beltz. Institut für Qualitätsentwicklung Mecklenburg-Vorpommern (2017). Vorabhinweise zur Mittleren Reife 2018. Eine Handreichung für Lehrerinnen und Lehrer. Verfügbar unter: https://www.bildung-mv.de/schueler/pruefungen-und-abschluesse/vorabhinweise/, zuletzt geprüft am 28.01.2019. Institut für Qualitätsentwicklung Mecklenburg-Vorpommern (2018). Vorabhinweise zur Mittleren Reife 2019. Eine Handreichung für Lehrerinnen und Lehrer. Verfügbar unter: https://www.bildung-mv.de/schueler/pruefungen-und-abschluesse/vorabhinweise, zuletzt geprüft am 28.01.2019.

Literaturverzeichnis

425

Institut zur Qualitätsentwicklung im Bildungswesen (2016). VERA – Ein Überblick. Verfügbar unter: https://www.iqb.hu-berlin.de/vera, zuletzt geprüft am 17.08.2018. Jacobs, J. (2009). Pfadkonkurrenz und Pfadinterferenz im organisationalen Wandel. Studienstruktur- und IT-Reformen in einer Universität. Dissertation, Freie Universität Berlin. Verfügbar unter: http://www.diss.fu-berlin.de/diss/servlets/MCRFileNodeServlet/ FUDISS_derivate_000000005606/Jan_Jacobs_Diss_2009-05-11.pdf, zuletzt geprüft am 27.10.2018. Jäger, D. J., Maag Merki, K., Oerke, B., & Holmeier, M. (2012). Statewide low-stakes tests and a teaching to the test effect? An analysis of teacher survey data from two German states. Assessment in Education: Principles, Policy & Practice, 19 (4), 451–467. Janssen, J. & Laatz, W. (2017). Statistische Datenanalyse mit SPSS. Eine anwendungsorientierte Einführung in das Basissystem und das Modul Exakte Tests (9. Aufl.). Wiesbaden: Springer VS. Johnson, M., Hopkin, R., Shiell, H. and Bell, J. F. (2012). Extended essay marking on screen: is examiner marking accuracy influenced by marking mode? Educational Research and Evaluation, 18 (2), 107–124. Johnson, M., Mehta, S. & Rushton, N. (2015). Assessment, aim and actuality: insights from teachers in England about the validity of a new language assessment model. Pedagogies: An International Journal, 10 (2), 128–148. Jones, I. & Inglis, M. (2015). The problem of assessing problem solving: can comparative judgement help? Educational Studies in Mathematics, 89 (3), 337–355. Jost, J. & Böttcher, I. (2018). Leistung messen, bewerten und beurteilen. In M. Becker-Mrotzek & I. Böttcher (Hrsg.), Schreibkompetenz entwickeln und beurteilen (7. Aufl., S. 113–144). Berlin: Cornelsen Scriptor. Jürgens, E. (2010). Leistung und Beurteilung in der Schule. Eine Einführung in Leistungs- und Bewertungsfragen aus pädagogischer Sicht (7. Aufl.). Sankt Augustin: Academia Verlag. Jürges, H. & Schneider, K. (2008). Ressourcen und Anreize im Bildungswesen. Aufgaben und Handlungsmöglichkeiten des Staates aus Sicht der Bildungsökonomik. Zeitschrift für Erziehungswissenschaft, 11 (2), 234–252. Jürges, H., & Schneider, K. (2010). Central exit examinations increase performance… but take the fun out of mathematics. Journal of population economics, 23 (2), 497–517. Jürges, H., Schneider, K., Senkbeil, M. & Carstensen, C. H. (2012). Assessment drives learning. The effect of central exit exams on curricular knowledge and mathematical literacy. Economics on Education Review, 31 (1), 56–65. Kaefer, F., Roper, J. & Sinha, P. (2015). A Software-Assisted Qualitative Content Analysis of News Articles: Example and Reflections. Forum Qualitative Sozialforschung/Forum: Qualitative Social Research, 16 (2), Art. 8. Verfügbar unter: http://nbn-resolving.de/urn: nbn:de:0114-fqs150283, zuletzt geprüft am 11.08.2018. Kahnert, J. (2014). Das Zentralabitur im Fach Mathematik. Eine empirische Analyse von Abitur- und TIMSS-Daten im Vergleich. Münster [u. a.]: Waxmann. Kahnert, J., Eickelmann, B., Lorenz, R. & Bos, W. (2015). Die Steuerungsfunktion von zentralen Abiturprüfungen. Analysen und kontroverse Einschätzungen der Aufgabenschwierigkeit und mögliche Rückkopplungen auf den Unterricht. In H. J. Abs, T. Brüsemeister, M. Schemmann & J. Wissinger (Hrsg.), Governance im Bildungssystem. Analysen zur Mehrebenenperspektive, Steuerung und Koordination (S. 89–116). Wiesbaden: Springer VS.

426

Literaturverzeichnis

Kaiser, J. & Möller, J. (2017). Diagnostische Kompetenzen von Lehramtsstudierenden. In C. Gräsel & K. Trempler (Hrsg.), Entwicklung von Professionalität pädagogischen Personals. Interdisziplinäre Betrachtungen, Befunde und Perspektiven (S. 55–74). Wiesbaden: Springer VS. Kaiser, J., Möller, J., Helm, F. & Kunter, M. (2015). Das Schülerinventar: Welche Schülermerkmale die Leistungsurteile von Lehrkräften beeinflussen. Zeitschrift für Erziehungswissenschaft, 18, 279–302. Kammler, C. (2012). Deutschunterricht und Outcome-Orientierung. Zur Kritik eines bildungspolitischen Paradigmas aus fachdidaktischer Sicht. Friedrich Jahresheft, 30, 23–25. Kasper, B. (2017). Implementation von Schulqualität. Governanceanalyse des Orientierungsrahmens Schulqualität in Niedersachsen. Wiesbaden: Springer VS. Kauffeldt, R. (2017). Reifeprüfung reloaded. 10 Jahre Zentralabitur im Fach Deutsch. SchulVerwaltung NRW, 28 (3), 90–92. Kelle, U. & Kluge, S. (2010). Vom Einzelfall zum Typus. Fallvergleich und Fallkontrastierung in der qualitativen Sozialforschung (2. Aufl.). Wiesbaden: Springer VS. Keller, F. (2014). Strukturelle Faktoren des Bildungserfolgs. Wie das Bildungssystem den Übertritt ins Berufsleben bestimmt. Wiesbaden: Springer VS. Kellers, R. (2018). G9: NRW führt zentrale Prüfung nach Klasse Zehn ein. Verfügbar unter: https://www1.wdr.de/nachrichten/landespolitik/schule-gneun-mittlere-reife100.html, zuletzt geprüft am 14.08.2018. Kemper, T. & Weishaupt, H. (2015). Region und soziale Ungleichheit. In H. Reinders, H. Ditton, C. Gräsel & B. Gniewosz (Hrsg.), Empirische Bildungsforschung. Gegenstandsbereiche (2. Aufl., S. 245–257). Wiesbaden: Springer VS. Kiel, E., Kollmannsberger, M., Saalfrank, W.-T. & Steinherr, E. (2016). Leistungsbeurteilung – Die Sicht von Referendaren. Pädagogische Rundschau, 70 (4), 375–390. Klein, H. P. (2016). 10 Jahre Bildungsstandards und Kompetenzorientierung – Innovation oder Scheininnovation? In K. Zierer, J. Kahlert & M. Burchardt (Hrsg.), Die pädagogische Mitte. Plädoyers für Vernunft und Augenmaß in der Bildung (S. 63–78). Bad Heilbrunn: Klinkhardt. Klein, E. D. & Ackeren, I. van (2011). Challenges and Problems for Research in the Field of Statewide Exams. A stock taking of differing procedures and standardization levels. Studies in Educational Evaluation, 37 (4), 180–188. Klein, E. D., Krüger, M., Kühn, S. M. & Ackeren, I. van (2014). Wirkungen zentraler Abschlussprüfungen im Mehrebenensystem Schule. Eine Zwischenbilanz internationaler und nationaler Befunde und Forschungsdesiderata. Zeitschrift für Erziehungswissenschaft, 17 (7), 7–33. Klein, E. D., Krüger, M., Kühn, S. M. & Ackeren, I. van (2016). Funktionen, Formen und Wirkungen zentraler Abschlussprüfungen. Ein Überblick. In Bundesministerium für Bildung und Forschung (Hrsg.), Bildungsforschung 2020. Zwischen wissenschaftlicher Exzellenz und gesellschaftlicher Verantwortung (S. 75–86). Verfügbar unter: https://www.bmbf.de/ pub/Bildungsforschung_Band_42.pdf, zuletzt geprüft am 28.09.2018. Klein, E. D., Kühn, S. M., Ackeren, I. van & Block, R. (2009). Wie zentral sind zentrale Prüfungen? Abschlussprüfungen am Ende der Sekundarstufe II im nationalen und internationalen Vergleich. Zeitschrift für Pädagogik, 55 (4), 596–621. Kleining, G. & Witt, H. (2000). Qualitativ-heuristische Forschung als Entdeckungsmethodologie für Psychologie und Sozialwissenschaften: Die Wiederentdeckung der Methode der

Literaturverzeichnis

427

Introspektion als Beispiel. Forum Qualitative Sozialforschung/Forum: Qualitative Social Research, 1 (1), Art. 13. Verfügbar unter: http://nbn-resolving.de/urn:nbn:de:0114-fqs000 1136, zuletzt geprüft am 22.08.2018. Klieme, E. (2003). Benotungsmaßstäbe an Schulen: Pädagogische Praxis und institutionelle Bedingungen. Eine empirische Analyse auf Basis der PISA-Studie. In H. Döbert et al. (Hrsg.), Bildung vor neuen Herausforderungen (S. 195–210). Neuwied: Luchterhand. Klieme, E. (2005). Bildungsqualität und Standards. Anmerkungen zu einem umstrittenen Begriffspaar. In G. Becker, A. Bremerich-Vos, M. Demmer, K. Maag Merki, B. Priebe, K. Schwippert, L. Stäudel & K.-J. Tillmann (Hrsg.), Standards. Unterrichten zwischen Kompetenzen, zentralen Prüfungen und Vergleichsarbeiten (S. 6–7). Seelze: Friedrich. Klovert, H. (2018, 7. Mai). Pläne der Bildungsministerin sorgen für Streit. Spiegel Online. Verfügbar unter: https://www.spiegel.de/lebenundlernen/schule/nationaler-bildun gsrat-plaene-von-anja-karliczek-stossen-auf-widerstand-a-1206520.html, zuletzt geprüft am 16.01.2019. Kluge, S. (1999). Empirisch begründete Typenbildung. Zur Konstruktion von Typen und Typologien in der qualitativen Sozialforschung. Opladen: Leske + Budrich. KMK (1995). Weiterentwicklung der Prinzipien der gymnasialen Oberstufe und des Abiturs. Bonn: Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland. KMK (1997). Grundsätzliche Überlegungen zu Leistungsvergleichen innerhalb der Bundesrepublik Deutschland – Konstanzer Beschluss –. Verfügbar unter: https://www.kmk.org/ fileadmin/veroeffentlichungen_beschluesse/1997/19971024-Konstanzer-Beschluss.pdf, zuletzt geprüft am 12.11.2018. KMK (2002a). Bewertung der bundesinternen Leistungsvergleiche (PISA-E). Verfügbar unter: https://www.bildungsserver.de/PISA-und-PISA-E-2000-3350-de.html, zuletzt geprüft am 11.11.2018. KMK (2002b). PISA 2000 – Zentrale Handlungsfelder. Zusammenfassende Darstellung der laufenden und geplanten Maßnahmen in den Ländern. Verfügbar unter: https://www. kmk.org/fileadmin/Dateien/veroeffentlichungen_beschluesse/2002/2002_10_07-Pisa2000-Zentrale-Handlungsfelder.pdf, zuletzt geprüft am 09.08.2018. KMK (2003). Vereinbarung über Bildungsstandards für den Mittleren Schulabschluss (Jahrgangsstufe 10). Verfügbar unter: https://www.kmk.org/fileadmin/Dateien/veroeffen tlichungen_beschluesse/2003/2003_12_04-Bildungsstandards-Mittleren-SA.pdf, zuletzt geprüft am 16.01.2019. KMK (2004a). Bildungsstandards der Kultusministerkonferenz. Erläuterungen zur Konzeption und Entwicklung. Verfügbar unter: https://www.kmk.org/fileadmin/Dateien/veroef fentlichungenbeschluesse/2004/20041216-Bildungsstandards-Konzeption-Entwicklung. pdf, zuletzt geprüft am 12.08.2018. KMK (2004b). Bildungsstandards im Fach Deutsch für den Mittleren Schulabschluss. Neuwied: Luchterhand. KMK (2004c). Standards für die Lehrerbildung: Bildungswissenschaften. Verfügbar unter: https://www.kmk.org/fileadmin/veroeffentlichungen_beschluesse/2004/2004_12_16-Sta ndards-Lehrerbildung.pdf, zuletzt geprüft am 18.07.2019. KMK (2005). Bildungsstandards der Kultusministerkonferenz. Erläuterungen zur Konzeption und Entwicklung. Verfügbar unter: https://www.kmk.org/fileadmin/veroeffentlichu

428

Literaturverzeichnis

ngen_beschluesse/2004/2004_12_16-Bildungsstandards-Konzeption-Entwicklung.pdf, zuletzt geprüft am 23.11.2018. KMK (2011). Vereinbarung über die Schularten und Bildungsgänge im Sekundarbereich I. Verfügbar unter: https://www.kmk.org/themen/allgemeinbildende-schulen/bildungsw ege-und-abschluesse/sekundarstufe-i.html, zuletzt geprüft am 13.09.2018. KMK (2017). Einstellung von Lehrkräften 2016. Verfügbar unter: https://www.kmk.org/fil eadmin/Dateien/pdf/Statistik/EVL_2016.pdf, zuletzt geprüft am 06.02.2019. KMK (2018). Studienplatzvergabe im Zentralen Vergabeverfahren: Kultusministerkonferenz verabschiedet Entwurf des Staatsvertrags über die Hochschulzulassung. Verfügbar unter: https://www.kmk.org/presse/pressearchiv/mitteilung/studienplatzvergabe-imzentralen-vergabeverfahren-kultusministerkonferenz-verabschiedet-entwurf-des.html, zuletzt geprüft am 18.01.2019. Knoblauch, H. (2017). Die kommunikative Konstruktion der Wirklichkeit. Wiesbaden: Springer VS. Koch, A. (2014). Hochschuleigene Studienplatzvergabe und Determinanten individuellen Studienerfolgs im Rahmen des Bologna-Systems. Eine empirische Untersuchung der Bachelor- und Masterstudierenden der Betriebswirtschaftslehre an der Westfälischen Wilhelms-Universität Münster. Dissertation, Westfälische Wilhelms-Universität Münster. Verfügbar unter: https://miami.uni-muenster.de/Record/9d52a52d-3466-4d5c-b68c38d286e9f3db, zuletzt geprüft am 18.05.2019. Koch, S. (2009). Einstellungsmuster von Lehrkräften als Ermöglichung und Begrenzung ‚Neuer Steuerung‘ – Eine empirische Rekonstruktion. In U. Lange, S. Rahn, & R. Körzel (Hrsg.), Steuerungsprobleme im Bildungswesen. Festschrift für Klaus Harney (1. Aufl., S. 117–135). Wiesbaden: Springer VS. Köller, O., Baumert, J., Cortina, K. S., Trautwein, U. & Watermann, R. (2004). Öffnung von Bildungswegen in der Sekundarstufe II und die Wahrung von Standards. Zeitschrift für Pädagogik, 50 (5), 679–700. König, B. (2017). Schriftliches Korrigieren im Schulalltag. Eine qualitative Analyse der Korrekturtätigkeit von Grundschullehrkräften. Opladen [u. a.]: Budrich. Konrad, K. (2010). Lauten Denken. In G. Mey (Hrsg.), Handbuch qualitative Forschung in der Psychologie (1. Aufl., S. 476–490). Wiesbaden: Springer VS. Koretz, D. (2017). The Testing Charade. Pretending to Make Schools Better. Chicago [u. a.]: The University of Chicago Press. Köster, J. (2006). Das Deutschabitur in Zeiten von Bildungsstandards – Vergleichbarkeit der Prüfungsleistungen und ihrer Bewertung. Didaktik Deutsch, 21, 78–90. Köster, J. (2010a). Aufgabentypen für Erfolgskontrollen und Leistungsmessung im Literaturunterricht. In M. Kämper-van den Boogaart & K. H. Spinner (Hrsg.), Lese- und Literaturunterricht. 3. Erfolgskontrollen und Leistungsmessung: exemplarische Unterrichtsmodelle (S. 3–26). Baltmannsweiler: Schneider Hohengehren. Köster, J. (2010b). Leistung und Qualität von Korrekturanleitungen im Zentralabitur Deutsch. Der Deutschunterricht, 62 (1), 31–39. Krüger, M. (2015). Aufgabenkultur in zentralen Abschlussprüfungen. Exploration und Deskription naturwissenschaftlicher Aufgabenstellungen im internationalen Vergleich. Münster [u. a.]: Waxmann. Kruse, J. (2015). Qualitative Interviewforschung. Ein integrativer Ansatz (2. Aufl.). Weinheim [u. a.]: Beltz Juventa.

Literaturverzeichnis

429

Kruse, J., Biesel, K. & Schmieder, C. (2011). Metaphernanalyse. Ein rekonstruktiver Ansatz (1. Aufl.). Wiesbaden: Springer VS. Krüssel, H. (2001). Lernen und Leistungsbewertung als Elemente einer konstruktivistischen Lernkultur. In C. Solzbacher & C. Freitag (2001). Anpassen, verändern abschaffen? Schulische Leistungsbewertung in der Diskussion (S. 123–145). Bad Heilbrunn: Klinkhardt. Kubinger, K. D. (2014). Gutachten zur Erstellung „gerichtsfester“ Multiple-ChoicePrüfungsaufgaben. Psychologische Rundschau, 65 (3), 169–178. Kubiszyn, T. & Borich, G. (2007). Educational Testing and Measurement. Classroom Application and Practice (8. Aufl.). Hoboken: Wiley. Kuckartz, U. (2010). Einführung in die computergestützte Analyse qualitativer Daten (3. Aufl.). Wiesbaden: Springer VS. Kuckartz, U. (2018). Qualitative Inhaltsanalyse. Methoden, Praxis, Computerunterstützung (4. Aufl.). Weinheim [u. a.]: Beltz Juventa. Kuckartz, U. (2016). Typenbildung und typenbildende Inhaltsanalyse in der empirischen Sozialforschung. In M. W. Schnell, C. Schulz, U. Kuckartz & C. Dunger (Hrsg.), Junge Menschen sprechen mit sterbenden Menschen. Eine Typologie (S. 31–51). Wiesbaden: Springer VS. Kuckartz, U., Dresing, T., Rädiker, S. & Stefer, C. (2008). Qualitative Evaluation. Der Einstieg in die Praxis (2. Aufl.). Wiesbaden: Springer VS. Kuhlee, D., Buer, J. van & Winch, C. (Hrsg.) (2015). Governance in der Lehrerausbildung: Analysen aus England und Deutschland. Governance in Initial Teacher Education: Perspectives on England and Germany. Wiesbaden: Springer VS. Kühn, S. M. (2010). Steuerung und Innovation durch Abschlussprüfungen? Wiesbaden: Springer VS. Kühn, S. M. (2012). Zentrale Abiturprüfungen im nationalen und internationalen Vergleich mit besonderer Perspektive auf Bremen und Hessen. In K. Maag Merki (Hrsg.), Zentralabitur. Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (S. 27–44). Wiesbaden: Springer VS. Kühn, S. M. (2013). Vergleichbarkeit beim Mittleren Schulabschluss? Ein Überblick über die Vielfalt schulstrukturell möglicher Bildungswege und Prüfungsverfahren in den deutschen Ländern. Die Deutsche Schule, 105 (1), 87–101. Kühn, S. M., Ackeren, I. van, Block, R. & Klein E. D. (2009). Zentrale Abiturprüfungen. Zur Heterogenität der Prüfungsverfahren in Deutschland. SchulVerwaltung, Ausgabe Hessen und Rheinland-Pfalz, 14 (10), 281–285. Kühn, S. M. & Drüke-Noe, C. (2013). Qualität und Vergleichbarkeit durch Bildungsstandards und zentrale Prüfungen? – Ein bundesweiter Vergleich von Prüfungsanforderungen im Fach Mathematik zum Erwerb des Mittleren Schulabschlusses. Zeitschrift für Pädagogik, 59 (6), 912–932. Kühn, T. & Koschel, K.-V. (2018). Gruppendiskussionen. Ein Praxis-Handbuch (2. Aufl.). Wiesbaden: Springer VS. Kunter, M. & Pohlmann, B. (2015). Lehrer. In E. Wild & J. Möller (Hrsg.), Pädagogische Psychologie (2. Aufl., S. 261–282). Heidelberg: Springer. Kuper, H. & Thiel, F. (2018). Erziehungswissenschaftliche Institutionen- und Organisationsforschung. In R. Tippelt & B. Schmidt-Hertha (Hrsg.), Handbuch Bildungsforschung (4. Aufl., S. 587–606). Wiesbaden: Springer VS.

430

Literaturverzeichnis

Kurz, A., Stockhammer, C., Fuchs, S. & Meinhard, D. (2009). Das problemzentrierte Interview. In R. Buber & H. H. Holzmüller (Hrsg.), Qualitative Marktforschung. Konzepte – Methoden – Analysen (2. Aufl., S. 463–475). Wiesbaden: Gabler. Kussau, J. & Brüsemeister, T. (2007). Educational Governance: Zur Analyse der Handlungskoordination im Mehrebenensystem Schule. In H. Altrichter, T. Brüsemeister & J. Wissinger (Hrsg.), Educational Governance. Handlungskoordination und Steuerung im Bildungssystem (S. 15–54). Wiesbaden: Springer VS. Lakoff, G. & Johnson, M. (1980). Metaphors we live by. Chicago: The University of Chicago Press. Lakoff, G. & Johnson, M. (2007). Philosophy in the flesh. The embodied mind and its challenge to western thought. New York: Basic Books. Lakoff, G. & Johnson, M. (2014). Leben in Metaphern. Konstruktion und Gebrauch von Sprachbildern (8. Aufl.). Heidelberg: Auer. Lamnek, S. (2005). Gruppendiskussion. Theorie und Praxis (2. Aufl.). Weinheim [u. a.]: Beltz. Lamnek, S. & Krell, C. (2016). Qualitative Sozialforschung (6. Aufl.). Weinheim [u. a.]: Beltz. Landesverordnung über Gemeinschaftsschulen (GemVO) vom 18. Juni 2014. Verfügbar unter: http://www.gesetze-rechtsprechung.sh.juris.de/jportal/?quelle=jlink&query= GemSchulV+SH&psml=bsshoprod.psml&max=true&aiz=true, zuletzt geprüft am 15.09.2018. Lange, E. (2005). Soziologie des Erziehungswesens (2. Aufl.). Wiesbaden: Springer VS. Leslie, L. J. & Gorman, P. C. (2017). Collaborative Design of Assessment Criteria to Improve Undergraduate Student Engagement and Performance. European Journal of Engineering Education, 42 (3), 286–301. Leschinsky, A. (2008). Die Realschule – ein zweischneidiger Erfolg. In K. S. Cortina, J. Baumert, A. Leschinsky, K. U. Mayer & L. Trommer (Hrsg.), Das Bildungswesen in der Bundesrepublik Deutschland (S. 407–436). Reinbek bei Hamburg: Rowohlt. Lewis, A. (2000). High Stakes Testing: Trends and Issues. Verfügbar unter: https://files.eric. ed.gov/fulltext/ED442806.pdf, zuletzt geprüft am 21.08.2018. Liermann, C. (2009). Individualkonzepte unter dem Einfluss von Standardisierungsprozessen in der Schule. In J. Bilstein & J. Ecarius (Hrsg.), Standardisierung – Kanonisierung. Erziehungswissenschaftliche Reflexionen (1. Aufl., S. 235–249). Wiesbaden: Springer VS. Lijia, W., Lai, M. & Lo, L. N. K. (2016). Teachers’ Interpretations of the Ethical Dimensions of Teaching on the Chinese Mainland. A Case Study of Two Secondary Schools in Shanghai. Frontiers of Education in China, 11 (2), 165–186. Link, L. (2018). Teachers’ Perceptions of Grading Practices: How Pre-Service Training Makes a Difference. Journal of Research in Education, 28 (1), 62–91. Lippuner, F. (2018). Das Biografiespiel. Strukturelle Kopplungen und Transferprozesse im Rahmen adoleszenter Computerspielnutzung. Wiesbaden: Springer VS. Löbner, S. (2012). Semantik. Eine Einführung. Berlin [u. a.]: de Gruyter. Lorenz, R. (2017). Der Beitrag des Zentralabiturs zur Qualität des Schulsystems. Befunde zur Einführung des Zentralabiturs in Nordrhein-Westfalen. In H. G. Holtappels (Hrsg.), Entwicklung und Qualität des Schulsystems. Neue empirische Befunde und Entwicklungstendenzen (S. 221–239). Münster [u. a.]: Waxmann.

Literaturverzeichnis

431

Lorenz, R., Kahnert, J., Eickelmann, B. & Bos, W. (2011). Mehr Gerechtigkeit durch Zentralabitur? Analysen einer Lehrerbefragung in NRW. Schul-Management, 42 (6), 24–27. Lortie, D. C. (1975). Schoolteacher. A Sociological Study. Chicago [u. a.]: The University of Chicago Press. Lötscher, H. & Roos, M. (2014). Leistungsbeurteilung im Spannungsfeld von Förderung und Selektion. Schweizerische Zeitschrift für Heilpädagogik, 20 (5), 5–11. Lotz, M. (2016). Kognitive Aktivierung im Leseunterricht der Grundschule. Eine Videostudie zur Gestaltung und Qualität von Leseübungen im ersten Schuljahr. Wiesbaden: Springer VS. Lüders, M. (2006). Argumentationen von Lehrkräften angesichts von Beurteilungsdilemmata. In A. Tanner, H. Badertscher & R. Holzer (Hrsg.), Heterogenität und Integration (S. 191– 201). Zürich: Seismo. Maag Merki, K. (2012a). Die Leistungen der Gymnasiastinnen und Gymnasiasten in Mathematik und Englisch. In ebd. (Hrsg.), Zentralabitur. Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (S. 263–292). Wiesbaden: Springer VS. Maag Merki, K. (2012b). Forschungsfragen und theoretisches Rahmenmodell. In ebd. (Hrsg.), Zentralabitur. Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (S. 11–25). Wiesbaden: Springer VS. Maag Merki, K. (2016a). Die Einführung zentraler Abiturprüfungen in Bremen und Hessen. Eine Bilanz nach fünf Jahren. In J. Kramer, M. Neumann & U. Trautwein (Hrsg.), Abitur und Matura im Wandel. Historische Entwicklungslinien, aktuelle Reformen und ihre Effekte (S. 129–159). Wiesbaden: Springer VS. Maag Merki, K. (2016b). Theoretische und empirische Analysen der Effektivität von Bildungsstandards, standardbezogenen Lernstandserhebungen und zentralen Abschlussprüfungen. In H. Altrichter & K. Maag Merki (Hrsg.), Handbuch Neue Steuerung im Schulsystem (2. Aufl., S. 151–182). Wiesbaden: Springer VS. Maag Merki, K. & Altrichter, H. (2016a). Educational Governance. In D. Fickermann & H.W. Fuchs (Hrsg.), Bildungsforschung – disziplinäre Zugänge. Fragestellungen, Methoden und Ergebnisse (S. 175–189). Münster [u. a.]: Waxmann. Maag Merki, K. & Altrichter, H. (2016b). Empirische Erforschung schulischer Governance. Eine Zwischenbilanz und offene Forschungsfragen. In ebd. (Hrsg.), Handbuch Neue Steuerung im Schulsystem (2. Aufl., S. 479–486). Wiesbaden: Springer VS. Maag Merki, K., Holmeier, M., Jäger, D. J. & Oerke, B. (2010). Die Effekte der Einführung zentraler Abiturprüfungen auf die Unterrichtsgestaltung in Leistungskursen in der gymnasialen Oberstufe. Unterrichtswissenschaft, 38 (2), 173–192. Maag Merki, K., Langer, R. & Altrichter, H. (Hrsg.) (2014). Educational Governance als Forschungsperspektive. Strategien, Methoden, Ansätze (2. Aufl.). Wiesbaden: Springer VS. Maag Merki, K. & Oerke, B. (2017). Long-term effects of the implementation of state-wide exit exams: a multilevel regression analysis of mediation effects of teaching practices on students’ motivational orientations. Educational Assessment, Evaluation and Accountability, 29, 23–54.

432

Literaturverzeichnis

Maaz, K. (2017). Mehrgliedrigkeit versus Eingliedrigkeit, eine unnötige Debatte? In N. McElvany, W. Bos, H. G. Holtappels, J. Hasselhorn & A. Ohle (Hrsg.), Bedingungen gelingender Lern- und Bildungsprozesse. Aktuelle Befunde und Perspektiven für die Empirische Bildungsforschung (S. 141–154). Münster [u. a.]: Waxmann. Maaz, K., Baeriswyl, F. & Trautwein, U. (2013). Studie: „Herkunft zensiert?“ Leistungsdiagnostik und soziale Ungleichheiten in der Schule. In D. Deißner (Hrsg.), Chancen bilden. Wege zu einer gerechteren Bildung – ein internationaler Erfahrungsaustausch (S. 185–341). Wiesbaden: Springer VS. MacQueen, K. M., McLellan, E., Kay, K. & Milstein, B. (2009). Codebook Development for Team-Based Qualitative Analysis. In K. Krippendorff & M. A. Bock (Hrsg.), The Content Analysis Reader (S. 211–219). Thousand Oaks [u. a.]: Sage. Maier, M. S. (2016). Die Prozessierung schulischer Selektion. Zur Entwicklung kollektiver Orientierungen und Begründungen im kollegialen Austausch von Lehrkräften. In ebd. (Hrsg.), Organisation und Bildung. Theoretische und empirische Zugänge (S. 139–160). Wiesbaden: Springer VS. Maier, U. (2008). Rezeption und Nutzung von Vergleichsarbeiten aus der Perspektive von Lehrkräften. Zeitschrift für Pädagogik, 54 (1), 95–117. Maier, U. (2010). Effekte von testbasiertem Rechenschaftsdruck auf Schülerleistungen: Ein Literaturüberblick zu quasi-experimentellen Ländervergleichsstudien. Journal for Educational Research Online, 2 (2), 125–152. Maier, U., Bohl, T., Kleinknecht, M. & Metz, K. (2011). Einflüsse von Merkmalen des Testsystems und Schulkontextfaktoren auf die Akzeptanz und Rezeption von zentralen Testrückmeldungen durch Lehrkräfte. Journal for Educational Research Online, 3 (2), 62–93. Massey, A. & Raikes, N. (2006). Item-level examiner agreement. Paper presented at the 2006 Annual Conference of the British Educational Research Association. Warwick, UK. Mathes, S. & Kühn, S. M. (2016). „… dann kommt alles auf die Korrekturanleitungen an …“. In S. Keller & C. Reintjes (Hrsg.), Aufgaben als Schlüssel zur Kompetenz. Didaktische Herausforderungen, wissenschaftliche Zugänge und empirische Befunde (S. 169–178). Münster: Waxmann. Mathes, S. & Kühn, S. M. (2015). Leistungsbeurteilung in zentralen Prüfungen. Eine qualitative Studie zur Wahrnehmung, Reflexion und Nutzung einheitlicher Bewertungsvorgaben. Posterpräsentation im Rahmen der Nachwuchstagung der 3.Tagung der „Gesellschaft für Empirische Bildungsforschung“ (GEBF) an der Ruhr-Universität Bochum. Maué, E. (2013). Vergleichbarkeit von Abiturnoten – eine Fiktion? Längerfristige Effekte der Implementation zentraler Abiturprüfungen in Bremen. In J. Asdonk, S. U. Kuhnen & P. Bornkessel (Hrsg.), Von der Schule zur Hochschule. Analysen, Konzeptionen und Gestaltungsperspektiven des Übergangs (S. 114–128). Münster: Waxmann. Maué, E. (2016). Achievement – and what else? The standardisation of semester grades due to the implementation of state-wide exit examinations. Studies in Educational Evaluation, 51, 42–54. Maué, E. (2017). Die Implementation zentraler Abiturprüfungen und deren potentielle Auswirkungen auf die Erfolgsunsicherheit im Abitur und die Angst vor Misserfolg von Schülerinnen und Schülern. Zeitschrift für Pädagogik, 63 (6), 803–826. Maué, E. (2018). Wer profitiert von zentralen Abiturprüfungen? Längerfristige Effekte der Implementation zentraler Abiturprüfungen im Bundesland Freie Hansestadt Bremen auf

Literaturverzeichnis

433

Handlungen und Emotionen von Lehrpersonen, Schülerinnen und Schülern. Verfügbar unter: https://www.zora.uzh.ch/id/eprint/165187/, zuletzt geprüft am 03.07.2019. Maué, E., Maag Merki, K. & Oerke, B. (2012). Emotionales Erleben des Zentralabiturs von Lehrpersonen in Bremen. Längerfristige Effekte der Implementation zentraler Abiturprüfungen. In S. Hornberg & M. Parreira do Amaral (Hrsg.), Deregulierung im Bildungswesen (S. 109–130). Münster [u. a.]: Waxmann. Mayer, H. O. (2013). Interview und schriftliche Befragung. Grundlagen und Methoden empirischer Sozialforschung (6. Aufl.). München: Oldenbourg. Mayring, P. (2015). Qualitative Inhaltsanalyse. Grundlagen und Techniken (12. Aufl.). Weinheim [u. a.]: Beltz. Merkens, H. (2017). Auswahlverfahren, Sampling, Fallkonstruktion. In U. Flick, E. v. Kardorff & I. Steinke (Hrsg.), Qualitative Forschung. Ein Handbuch (12. Aufl., S. 286–299). Reinbek bei Hamburg: Rowohlt. Merten, K. (1995). Inhaltsanalyse. Einführung in Theorie, Methode und Praxis (2. Aufl.). Opladen: Westdeutscher Verlag. Mey, G. & Mruck, K. (2007). Qualitative Research in Germany. A Short Cartography. International Sociology, 22 (2), 138–154. Meyer-Hesemann, W. (2010). Bildungsreform im Bildungsföderalismus. Ein zweigliedriges Schulsystem für Deutschland ist möglich. Anmerkungen aus gegebenem Anlass. Die deutsche Schule, 102 (1), 86–90. Michels, I. (2012). Was wäre PISA ohne die Medien?! Bilanz nach zehn Jahren. Friedrich Jahresheft, 30, 18–19. Mietzel, G. (2017). Pädagogische Psychologie des Lernens und Lehrens (9. Aufl.). Göttingen [u. a.]: Hogrefe. Ministerium für Bildung des Landes Sachsen-Anhalt (o. J.). Abschlüsse an der Sekundarschule im Überblick. Verfügbar unter: https://bildung.sachsen-anhalt.de/schulen/weitere-sch ulinfos/schulformen/allgemein-bildende-schulen/sekundarschulen/abschluesse/, zuletzt geprüft am 14.01.2019. Ministerium für Bildung, Jugend und Sport (Hrsg.) (2017). Schullaufbahnen in Thüringen. Schuljahr 2017/2018. Verfügbar unter: https://www.thueringen.de/th2/tmbjs/bildung/sch ulwesen/schulsystem/broschuere/index.aspx, zuletzt geprüft am 07.09.2018. Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein (o. J.). Mittlerer Schulabschluss (MSA). Verfügbar unter: https://za.schleswig-holstein.de/content/ msa.php?group=66&ugroup=0, zuletzt geprüft am 23.01.2019. Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein (2017a). Zentrale Abschlussarbeit 2017. Deutsch. Korrekturanweisung. Mittlerer Schulabschluss. Verfügbar unter: http://za.schleswig-holstein.de/content/rsa_abschluss17.php?group=66&ugr oup=605, zuletzt geprüft am 23.01.2019. Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein (2017b). Zentrale Abschlussarbeit 2017. Deutsch. Mittlerer Schulabschluss. Verfügbar unter: http://za.sch leswig-holstein.de/content/rsa_abschluss17.php?group=66&ugroup=605, zuletzt geprüft am 13.09.2018. Ministerium für Kultus, Jugend und Sport Baden-Württemberg (2013). Ausführungsbestimmungen zur Durchführung der Abschlussprüfung an Realschulen 2014 und zur Vorbereitung auf die Abschlussprüfung 2015 im Fach Deutsch.

434

Literaturverzeichnis

Ministerium für Kultus, Jugend und Sport Baden-Württemberg (2017). Ausführungsbestimmungen zur Durchführung der Realschulabschlussprüfung 2018 und zur Vorbereitung auf die Realschulabschlussprüfung 2019 im Fach Deutsch. Verfügbar unter: http://www. km-bw.de/,Lde/Startseite/Schule/Ausfuehrungsbestimmungen+2018, zuletzt geprüft am 17.09.2018. Ministerium für Kultus, Jugend und Sport Baden-Württemberg (2018). Ausführungsbestimmungen zur Durchführung der Realschulabschlussprüfung 2019 und zur Vorbereitung auf die Realschulabschlussprüfung 2020 im Fach Deutsch. Verfügbar unter: https://www. km-bw.de/,Len/Startseite/Schule/Ausfuehrungsbestimmungen+2019, zuletzt geprüft am 28.01.2019. Ministerium für Schule und Bildung des Landes Nordrhein-Westfalen (o. J.). Zentrale Klausuren am Ende der Einführungsphase. Verfügbar unter: https://www.schulministr ium.nrw.de/docs/Schulsystem/Schulformen/Gymnasium/Sek-II/FAQ-Oberstufe/FAQ07Einfuehrungsphase_Ende/index.html, zuletzt geprüft am 19.09.2018. Ministerium für Schule und Weiterbildung des Landes Nordrhein-Westfalen (2013). Zentrale Prüfungen nach Klasse 10. Verfügbar unter: https://www.standardsicherung.schulm inisterium.nrw.de/cms/zentrale-pruefungen-10/weiteredokumente/, zuletzt geprüft am 22.08.2018. Misoch, S. (2015). Qualitative Interviews. Berlin [u. a.]: De Gruyter Oldenbourg. Mogapi, M. (2016). Examinations Wash Back Effects: Challenges to the Criterion Referenced Assessment Model. Journal of Education and e-Learning Research, 3 (3), 78–86. Möller, S. (2015). Mehr Transparenz wagen. Mit Bewertungsrastern im Unterricht arbeiten. Der fremdsprachliche Unterricht. Englisch, 49 (133), 38–43. Müller-Benedict, V. (2010). Grenzen von leistungsbasierten Auswahlverfahren. Zeitschrift für Erziehungswissenschaft, 13 (3), 451–472. Mullis, I. V. S., Martin, M. O. & Loveless, T. (2016). 20 Years of TIMSS. International Trends in Mathematics and Science Achievement, Curriculum, and Instruction. Chestnut Hill, MA: TIMSS & PIRLS International Study Center, Boston College. Munsch, J.-P. (2009). Schule: Funktion und Spielraum. Bern [u. a.]: Haupt. Munzinger, P. (2017, 4. Oktober). Wenn Note 1,1 nicht zum Medizinstudium reicht. Süddeutsche Zeitung. Verfügbar unter: https://www.sueddeutsche.de/bildung/hochschulen-wennnote-nicht-zum-medizinstudium-reicht-1.3693835, zuletzt geprüft am 19.01.2019. Nacos, B. L., Shapiro, R. Y., Young, J. T., Fan, D. P., Kjellstrand, T. & McCaa, C. (2009). Comparing Human Coding and a Computer-Assisted Method. In K. Krippendorff & M. A. Bock (Hrsg.), The Content Analysis Reader (S. 243–252). Thousand Oaks [u. a.]: Sage. Nagel, J. (2017). Prüfungspraktiken an Gymnasien und Lateinschulen in der Frühen Neuzeit. Musterung, Selektion, Übergangsrituale. Zeitschrift für Pädagogik, 63 (3), 259–279. Nave-Herz, R. (1973). Der Lehrer im Spannungsfeld antagonistischer Funktionen. Die Deutsche Schule, 65, 387–393. Nave-Herz, R. (1977). Die Rolle des Lehrers. Eine Einführung in die Lehrersoziologie und in die Diskussion um den Rollenbegriff . Neuwied: Luchterhand. Neuendorf, K. A. (2010). The Content Analysis Guidebook. Thousand Oaks [u. a.]: Sage. Neuland, E. & Peschel, C. (2013). Einführung in die Sprachdidaktik. Stuttgart [u. a.]: Metzler. Neumann, M. (2014). Das Abitur in Deutschland – Aktuelle Entwicklungen und Herausforderungen im Überblick. In F. Eberle, B. Schneider-Taylor & D. Bosse (Hrsg.), Abitur

Literaturverzeichnis

435

und Matura zwischen Hochschulvorbereitung und Berufsorientierung (S. 245–259). Wiesbaden: Springer VS. Neumann, M., Nagy, G., Trautwein, U. & Lüdtke, O. (2009). Vergleichbarkeit von Abiturleistungen. Leistungs- und Bewertungsunterschiede zwischen Hamburger und BadenWürttemberger Abiturienten und die Rolle zentraler Abiturprüfungen. Zeitschrift für Erziehungswissenschaft, 12 (4), 691–714. Neumann, M., Trautwein, U. & Nagy, G. (2011). Do state-wide examinations lead to greater grading comparability? A study of frame-of-reference effects on the University entrance qualifcation in Germany. Studies in Educational Evaluation, 37, 206–217. Neuweg, G. H. (2014). Schulische Leistungsbeurteilung. Rechtliche Grundlagen und pädagogische Hilfestellungen für die Schulpraxis (5. Aufl.). Linz: Trauner. Niedersächsisches Kultusministerium (2017). Hinweise zur Abschlussprüfung im Fach Deutsch zum Erwerb des Sekundarabschlusses I – Realschulabschluss – für die Schulformen, die nach den Kerncurricula der Realschule unterrichten Schuljahrgang 10, Schuljahr 2017/18. Verfügbar unter: http://www.nibis.de/nibis.php?menid=1590, zuletzt geprüft am 11.09.2018. Nussbaumer, M. (1996). Lernerorientierte Textanalyse – Eine Hilfe zum Textverfassen? In H. Feilke & P. R. Portmann (Hrsg.), Schreiben im Umbruch. Schreibforschung und schulisches Schreiben (S. 96–112). Stuttgart [u. a.]: Klett. Nussbaumer, P. & Sieber, P. (1994). Texte analysieren mit dem Zürcher Textanalyseraster. In P. Sieber (Hrsg.), Sprachfähigkeiten – Besser als ihr Ruf und nötiger denn je! Ergebnisse und Folgerungen aus einem Forschungsprojekt (S. 141–186). Aarau: Sauerländer. Odendahl, J. (2008). Zentral, nicht zerebral. Wider die Benotung zentral gestellter Klausuren anhand eines Bewertungsrasters. Pädagogische Rundschau, 62 (4), 451–457. Odendahl, W. (2017). Bildungskrise – PISA and the German Educational Crisis. IAFOR Journal of Education, 5 (1), 209–226. Oerke, B. (2012). Emotionaler Umgang von Lehrkräften und Schüler/-innen mit dem Zentralabitur. Unsicherheit, Leistungsdruck und Leistungsattributionen. In K. Maag Merki (Hrsg.), Zentralabitur. Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (S. 119–153). Wiesbaden: Springer VS. Oerke, B., Maag Merki, K., Maué, E. & Jäger, D. J. (2013). Zentralabitur und Themenvarianz im Unterricht: Lohnt sich Teaching-to-the-Test? In D. Bosse, F. Eberle & B. SchneiderTaylor (Hrsg.), Standardisierung in der gymnasialen Oberstufe (S. 27–50). Wiesbaden: Springer VS. Offe, C. (2009). Governance: An “Empty Signifier”? Constellations, 16 (4), 550–562. Ofqual (2017). Regulating GCSEs, AS and A levels: guide for schools and colleges. Verfügbar unter: https://www.gov.uk/guidance/regulating-gcses-as-and-a-levels-guide-for-schoolsand-colleges/about-gcses-as-and-a-levels, zuletzt geprüft am 31.01.2019. Otto, S. & Kühn, S. M. (2014). Zwischen Tradition und Innovation: Eine Analyse zentraler Prüfungsaufgaben im Fach Deutsch im nationalen Vergleich. Schulpädagogik heute, 5 (9), 1–16. Paradies, L., Wester, F. & Greving, J. (2018). Leistungsmessung und -bewertung (8. Aufl.). Berlin: Cornelsen. Patry, J.-L. & Dick, A. (2002). Qualitative Feldforschung. In E. König & P. Zedler (Hrsg.), Qualitative Forschung (2. Aufl., S. 71–97). Weinheim [u. a.]: Beltz. Peisert, H. (1967). Soziale Lage und Bildungschancen in Deutschland. München: Piper.

436

Literaturverzeichnis

Perkhofer-Czapek, M. & Potzmann, R. (2016). Begleiten, Beraten und Coachen. Der Lehrberuf im Wandel. Wiesbaden: Springer VS. Petermann, F. (2014). Implementationsforschung: Grundbegriffe und Konzepte. Psychologische Rundschau, 65 (3), 122–128. Phelps, R. P. (2017). Kill the Messenger. The War on Standardized Testing. London: Routledge. Piaschinski, S. (2009). Macht, Glaube, Tradition – Der Wandel des Gymnasiums von 1800 bis PISA. Hamburg: Kovaˇc. Piopiunik, M., Schwerdt, G. & Wößmann, L. (2016). Zentrale Abschlussprüfungen als Steuerungsinstrument im Schulsystem. Arbeitsmarkteffekte und Wirkungsmechanismen. In Bundesministerium für Bildung und Forschung (Hrsg.), Steuerung im Bildungssystem. Implementation und Wirkung neuer Steuerungsinstrumente im Schulwesen (S. 68– 83). Verfügbar unter: https://www.bmbf.de/pub/Bildungsforschung_Band_43.pdf, zuletzt geprüft am 10.07.2018. Prisching, M. (2011). Governance zwischen Autonomie und Verantwortung. Was ist BildungsGovernance? In T. Brüsemeister & M. Heinrich (Hrsg.), Autonomie und Verantwortung. Governance in Schule und Hochschule (S. 15–44). Münster: Münsterscher Verlag für Wissenschaft. Protsch, P., Gerhards, C. & Mohr, S. (2017). Welche Anforderungen stellen Betriebe an zukünftige Auszubildende mit mittlerem Schulabschluss? Stellenwert kognitiver und nichtkognitiver schulischer Leistungsmerkmale bei regional-beruflichen Rekrutierungsschwierigkeiten. Bonn: BIBB Report. Qualitäts- und UnterstützungsAgentur – Landesinstitut für Schule (o. J.). ZP10 – Verfügung. Schuljahr 2017/2018. Hauptschulen, Realschulen, Sekundarschulen, Gesamtschulen, Förderschulen. Verfügbar unter: https://www.standardsicherung.schulministerium.nrw.de/ cms/zentrale-pruefungen-10/rechtsgrundlagen/, zuletzt geprüft am 11.09.2018. Racherbäumer, K. & Kühn, S. M. (2013). Zentrale Prüfungen und individuelle Förderung. Gegensatz oder zwei Seiten derselben Medaille? Zeitschrift für Bildungsforschung, 3, 27–45. Rademacher, S. (2014). Die Beurteilung schulischer Leistungen aus rechtlicher Sicht. In W. Sacher, Leistungen entwickeln, überprüfen und beurteilen: Bewährte und neue Wege für die Primar- und Sekundarstufe (6. Aufl., S. 183–194). Bad Heilbrunn: Klinkhardt. Randall, J. & Engelhard, G. (2010). Examining the grading practices of teachers. Teaching and Teacher Education, 26, 1372–1380. Rattay, C. & Schneider, J. (2010). Erwartungshorizonte sinnvoll gestalten und verwenden – die fünf Gestaltungsprinzipien. In M. Fröhlich, C. Rattay & J. Schneider, Effizienter korrigieren. Das Praxisbuch (S. 23–27). Donauwörth: Auer Verlag. Rauch, M. (2010). Das bayerische Zentralabitur – ein strittiges Vorbild. Der Deutschunterricht, 62 (1), 78–82. Rausch, T., Karing, C., Dörfler, T. & Artelt, C. (2016). Personality similarity between teachers and their students influences teacher judgement of student achievement. Educational Psychology, 36 (5), 863–878. Reichertz, J. (2016). Qualitative und interpretative Sozialforschung. Eine Einladung. Wiesbaden: Springer VS. Rekus, J. & Mikhail, T. (2013). Neues schulpädagogisches Wörterbuch (4. Aufl.). Weinheim [u. a.]: Beltz Juventa.

Literaturverzeichnis

437

Rheinberg, F. (2014). Bezugsnormen und schulische Leistungsbeurteilung. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (3. Aufl., S. 59–72). Weinheim [u. a.]: Beltz. Rogge, B. & Groh-Samberg, O. (2015). Statuserhalt und Statusbewusstsein. Zur familialen Transmission von Bildung. In H.-P. Müller & T. Reitz (Hrsg.), Bildung und Klassenbildung. Kritische Perspektiven auf eine Leitinstitution der Gegenwart (S. 26–49). Weinheim [u. a.]: Beltz Juventa. Rogge, M. (2018). Bewertungskriterien im Unterricht erarbeiten. Der fremdsprachliche Unterricht. Englisch, 52 (153), 8–10. Rolff, H.-G. (1995). Wandel durch Selbstorganisation. Theoretische Grundlagen und praktische Hinweise für eine bessere Schule (2. Aufl.). Weinheim [u. a.]: Juventa. Rosemann, B. & Bielski, S. (2001). Einführung in die pädagogische Psychologie. Weinheim [u. a.]: Beltz. Rossa, H. (2016). Wie verändern Bildungsstandards und zentrale Prüfungen den Fremdsprachenunterricht? Skizze eines Forschungsdesiderats zu intendierten und beobachteten Effekten der Standard- und Kompetenzorientierung. Zeitschrift für Fremdsprachenforschung, 27 (1), 99–122. Rössler, P. (2017). Inhaltsanalyse (3. Aufl.). Konstanz: UVK. Rürup, M., Fuchs, H.-W. & Weishaupt, H. (2016). Bildungsberichterstattung – Bildungsmonitoring. In H. Altrichter & K. Maag Merki (Hrsg.), Handbuch Neue Steuerung im Schulsystem (2. Aufl., S. 411–437). Wiesbaden: Springer VS. Sacher, W. (2014). Leistungen entwickeln, überprüfen und beurteilen. Bewährte und neue Wege für die Primar- und Sekundarstufe (6. Aufl.). Bad Heilbrunn: Klinkhardt. Sahli Lozano, C. (2012). Schulische Selektion und berufliche Integration. Theorien, Positionen und Ergebnisse einer Längsschnittstudie zu den Wirkungen integrativer und separativer Schulformen auf Ausbildungszugänge und -wege. Dissertation, Universität Freiburg. Verfügbar unter: https://edudoc.ch/record/109965/files/zu13095.pdf, zuletzt geprüft am 16.08.2018. Schäfer, A. (2016). Chancengleichheit. Anmerkungen zum Spannungsverhältnis von Schule, Bildung und Gerechtigkeit. In A. Schippling, C. Grunert & N. Pfaff (Hrsg.), Kritische Bildungsforschung. Standortbestimmungen und Gegenstandsfelder (S. 255–271). Opladen [u. a.]: Budrich. Scharenberg, K. & Rollet, W. (2013). Schulische Belastung und Beanspruchung von Lehrkräften. Eine Überprüfung des Erfurter Modells im Rahmen der Hamburger KESS-Studie. In K. Schwippert, M. Bonsen & N. Berkemeyer (Hrsg.), Schul- und Bildungsforschung: Diskussionen, Befunde und Perspektiven (S. 129–146). Münster [u. a.]: Waxmann. Schelsky, H. (1967). Schule und Erziehung in der industriellen Gesellschaft (6. Aufl.). Würzburg: Werkbund-Verlag. Schimank, U. (2005). Die akademische Profession und die Universitäten: „New Public Management“ und eine drohende Entprofessionalisierung. In T. Klatetzki & V. Tacke (Hrsg.), Organisation und Profession (1. Aufl., S. 143–164). Wiesbaden: Springer VS. Schimank, U. (2016). Handeln und Strukturen. Einführung in die akteurtheoretische Soziologie (5. Aufl.). Weinheim: Beltz Juventa. Schindler, C. J. (2015). Herausforderung Prüfen: Eine fallbasierte Untersuchung der Prüfungspraxis von Hochschullehrenden im Rahmen eines Qualitätsentwicklungsprogramms. Dissertation, Technische Universität München. Verfügbar unter: http://mediatum.ub.tum. de/node?id=1271273, zuletzt geprüft am 08.11.2018.

438

Literaturverzeichnis

Schmidt, C. (2013). Auswertungstechniken für Leitfadeninterviews. In B. Friebertshäuser, A. Langer & A. Prengel (Hrsg.), Handbuch Qualitative Forschungsmethoden in der Erziehungswissenschaft (4. Aufl., S. 473–486). Weinheim [u. a.]: Beltz Juventa. Schmidt-Hertha, B. & Tippelt, R. (2011). Typologien. In E. Nuissl (Hrsg.), Forschungsmethoden in der Weiterbildung (S. 23–35). Bielefeld: Bertelsmann. Schmitt, R. (2017a). Metaphernanalyse: Zentrale Definitionen und Überlegungen. Unveröffentlichtes Manuskript, Hochschule Zittau/Görlitz. Schmitt, R. (2017b). Systematische Metaphernanalyse als Methode der qualitativen Sozialforschung. Wiesbaden: Springer VS. Schmoll, H. (2019). Das unvergleichbare Abitur. Wird aus dem einst bedeutsamen Zertifikat ein wertloses Stück Papier? Frankfurter Allgemeine Zeitung für Deutschland. Verfügbar unter: https://edition.faz.net/faz-edition/seite-eins/2019-06-13/adffe2751cd4711b31 b68e1b4b6c96da/?GEPC=s9, zuletzt geprüft am 13.06.2019. Schnurr, N. (2018, 20. Juni). Die Abiturnote darf kein Fallbeil sein. Weser Kurier. Verfügbar unter: https://www.weser-kurier.de/deutschland-welt/deutschland-welt-politik_artikel,die-abiturnote-darf-kein-fallbeil-sein-_arid,1741390.html, zuletzt geprüft am 16.01.2019. Schober, B. (2011). Governance als institutionelle Aufgabe – ein Kommentar. In T. Brüsemeister & M. Heinrich (Hrsg.), Autonomie und Verantwortung. Governance in Schule und Hochschule (S. 145–151). Münster: Münsterscher Verlag für Wissenschaft. Scholl, A. (2018). Die Befragung (4. Aufl.). Konstanz: UVK. Schönig, W. (2002). Organisationskultur der Schule als Schlüsselkonzept der Schulentwicklung. Zeitschrift für Pädagogik, 48 (6), 815–834. Schönknecht, G. (2005). Die Entwicklung der Innovationskompetenz von LehrerInnen aus (berufs-)biographischer Perspektive. In H. Ertl & H. H. Kremer (Hrsg.), Innovationen in schulischen Kontexten. Ansatzpunkte für berufsbegleitende Lernprozesse bei Lehrkräften (S. 15–42). Paderborn: Eusl. Schrader, J., Schmid, J., Amos, K. & Thiel, A. (2015). Governance im Bildungsbereich – Erträge, Desiderate und Potenziale der Forschung. In ebd. (Hrsg.), Governance von Bildung im Wandel. Interdisziplinäre Zugänge (S. 3–21). Wiesbaden: Springer VS. Schramm, M. W. (2014). Symbolische Formung und die gesellschaftliche Konstruktion von Wirklichkeit. Konstanz [u. a.]: UVK. Schreier, M. (2014). Varianten qualitativer Inhaltsanalyse: Ein Wegweiser im Dickicht der Begrifflichkeiten. Forum Qualitative Sozialforschung/Forum: Qualitative Social Research, 15 (1), Art. 18. Verfügbar unter: http://nbn-resolving.de/urn:nbn:de:0114-fqs1401185, zuletzt geprüft am 01.07.2018. Schreven, M. & Bentgens, W. (2006). Zentrale Prüfungen in Nordrhein-Westfalen. SchulVerwaltung NRW, 17 (6), 164–166. Schulordnung für die Mittelschulen in Bayern (Mittelschulordnung – MSO) vom 4. März 2013. Verfügbar unter: http://www.gesetze-bayern.de/Content/Document/BayMSO, zuletzt geprüft am 22.06.2018. Schulordnung für die öffentlichen Realschulen plus, Integrierten Gesamtschulen, Gymnasien, Kollegs und Abendgymnasien (Übergreifende Schulordnung) vom 12. Juni 2009. Verfügbar unter: https://www.lsvrlp.de/kontext/controllers/document.php/644.e8f.pdf, zuletzt geprüft am 28.09.2018.

Literaturverzeichnis

439

Schulordnung für die Realschulen (Realschulordnung – RSO) vom 18. Juli 2007. Verfügbar unter: http://www.gesetze-bayern.de/Content/Document/BayRSO, zuletzt geprüft am 06.09.2018. Schulordnung Mittel- und Abendmittelschulen (SächsGVBl. S. 277, 365) vom 11. Juli 2011. Verfügbar unter: https://www.revosax.sachsen.de/vorschrift/12053-Schulordnung-Mittelund-Abendmittelschulen#p36, zuletzt geprüft am 06.09.2018. Schumacher, C. (2016). Prüfungsangst in der Schule. Ursachen, Bewältigung und Folgen am Beispiel einer zentralen Abschlussprüfung. Münster [u. a.]: Waxmann. Schumann, S. (2018). Quantitative und qualitative empirische Forschung. Ein Diskussionsbeitrag. Wiesbaden: Springer VS. Schuppert, G. F. (2008). Governance – auf der Suche nach Konturen eines „anerkannt uneindeutigen Begriffs“. In G. F. Schuppert & M. Zürn (Hrsg.), Governance in einer sich wandelnden Welt (1. Aufl., S. 13–40). Wiesbaden: Springer VS. Schütz, A. (2010). Begriffs- und Theoriebildung in den Sozialwissenschaften. In T. S. Eberle, J. Dreher & G. Sebald (Hrsg.), Werkausgabe. 4. Zur Methodologie der Sozialwissenschaften (1. Aufl., S. 443–471). Konstanz: UVK. Schütz, A. & Luckmann, T. (2017). Strukturen der Lebenswelt (2. Aufl.). Konstanz: UVK. Schwarz, B. (2004). Bildung, Kompetenz und Schule. In B. Schwarz & T. Eckert (Hrsg.), Erziehung und Bildung nach TIMSS und PISA (S. 79–102). Frankfurt am Main: Peter Lang. Schwibbe, A., Lackamp, J., Knorr, M., Hissbach, J., Kadmon, M. & Hampe, W. (2018). Medizinstudierendenauswahl in Deutschland. Messung kognitiver Fähigkeiten und psychosozialer Kompetenzen. Bundesgesundheitsblatt, 61 (2), 178–186. Schwippert, K. (2005). Tests. Oder: wie man Äpfel mit Birnen vergleicht. In G. Becker, A. Bremerich-Vos, M. Demmer, K. Maag Merki, B. Priebe, K. Schwippert, L. Stäudel & K.J. Tillmann (Hrsg.), Standards. Unterrichten zwischen Kompetenzen, zentralen Prüfungen und Vergleichsarbeiten (S. 15–17). Seelze: Friedrich. Shaw, S. (2008). Essay Marking On-Screen: implications for assessment validity. E-Learning, 5 (3), 256–274. Sieber, P. (2008). Kriterien der Textbewertung am Beispiel Parlando. In N. Janich (Hrsg.), Textlinguistik – 15 Einführungen (S. 271–289). Tübingen: Narr Verlag. Sliwka, A. (2010). Chancengerechtigkeit und Exzellenz: Was das deutsche Schulsystem von Kanada lernen kann. In Vodafone-Stiftung Deutschland (Hrsg.), Herkunft und Chance: Wege zu mehr Bildungsgerechtigkeit an Deutschlands Schulen (S. 38–57). Düsseldorf: Vodafone Stiftung. Solga, H. (2005). Ohne Abschluss in die Bildungsgesellschaft. Die Erwerbschancen gering qualifizierter Personen aus soziologischer und ökonomischer Perspektive. Opladen: Budrich. Solga, H. (2013). Meritokratie – die moderne Legitimation ungleicher Bildungschancen. In P. A. Berger & H. Kahlert (Hrsg.), Institutionalisierte Ungleichheiten. Wie das Bildungswesen Chancen blockiert (3. Aufl., S. 19–38). Weinheim [u. a.]: Beltz Juventa. Song, T., Wolfe, E. W., Hahn, L., Less-Petersen, M., Sanders, M. & Vickers, D. (2014). Relationship between Rater Background and Rater Performance. Verfügbar unter: http://researchnetwork.pearson.com/wp-content/uploads/SongRaterBackground04 212014.pdf, zuletzt geprüft am 21.07.2018.

440

Literaturverzeichnis

Souvignier, E. & Philipp, M. (2016). Implementation – Begrifflichkeiten, Befunde und Herausforderungen. In (ebd.), Implementation von Lesefördermaßnahmen. Perspektiven auf Gelingensbedingungen und Hindernisse (S. 9–22). Münster [u. a.]: Waxmann. SPD (2017). Der NRW-Plan. Unser Programm für 2017-2022. Verfügbar unter: https://www. nrwspd.de/wp-content/uploads/sites/2/2017/03/regierungsprogramm_der_nrwspd.pdf, zuletzt geprüft am 28.09.2018. Spinner, K. H. (2010). Umgang mit Lyrik in der Sekundarstufe I (8. Aufl.). Baltmannsweiler: Schneider Hohengehren. Stamann, C., Janssen, M. & Schreier, M. (2016). Qualitative Inhaltsanalyse – Versuch einer Begriffsbestimmung und Systematisierung. Forum Qualitative Sozialforschung/Forum: Qualitative Social Research, 17 (3), Art. 16. Verfügbar unter: http://nbn-resolving.de/urn: nbn:de:0114-fqs1603166, zuletzt geprüft am 17.05.2018. Stanat, P., Artelt, C., Baumert, J., Klieme, E., Neubrand, M., Prenzel, M. et al. (2002). PISA 2000: Die Studie im Überblick. Grundlagen, Methoden und Ergebnisse. Berlin: Max-Planck-Institut für Bildungsforschung. Stanat, P., Becker-Mrotzek, M., Blum, W. & Tesch, B. (2016). Vergleichbarkeit in der Vielfalt. Bildungsstandards der Kultusministerkonferenz für die Allgemeine Hochschulreife. In J. Kramer, M. Neumann, & U. Trautwein (Hrsg.), Abitur und Matura im Wandel. Historische Entwicklungslinien, aktuelle Reformen und ihre Effekte (S. 29–58). Wiesbaden: Springer VS. Stanat, P. & Edele, A. (2015). Zuwanderung und soziale Ungleichheit. In H. Reinders, H. Ditton, C. Gräsel & B. Gniewosz (Hrsg.), Empirische Bildungsforschung. Gegenstandsbereiche (2. Aufl., S. 215–228). Wiesbaden: Springer VS. Steinke, I. (2017). Gütekriterien qualitativer Forschung. In U. Flick, E. v. Kardorff & I. Steinke (Hrsg.), Qualitative Forschung. Ein Handbuch (12. Aufl., S. 319–331). Reinbek bei Hamburg: Rowohlt. Stepath, K. (2008). Bewertungsbögen als Unterrichtskonzept. Schüler erarbeiten induktiv die Schreibform »Problemerörterung«. Deutschmagazin, 2, 19–24. Stolz, S. A. (2017). Can Educationally Significant Learning Be Assessed? Educational Philosophy and Theory, 49 (4), 379–390. Streckeisen, U., Hänzi, D. & Hungerbühler, A. (2007). Fördern und Auslesen. Deutungsmuster von Lehrpersonen zu einem beruflichen Dilemma (1. Aufl.). Wiesbaden: Springer VS. Strübing, J. (2018). Theoretisches Sampling. In R. Bohnsack, W. Marotzki & M. Meuser (Hrsg.), Hauptbegriffe qualitativer Sozialforschung (4. Aufl., S. 227–229). Opladen [u. a.]: Budrich. Stumpf, S., Leenen, W. R. & Scheitza, A. (2017). Adverse Impact in der Personalauswahl einer deutschen Behörde: Eine Analyse ethnischer Subgruppendifferenzen. German Journal of Human Resource Management, 31 (1), 4–31. Sturm, R. (2008). Bemerkungen zum Zentralabitur in Niedersachsen im Fach Geschichte. Geschichte in Wissenschaft und Unterricht, 59 (4), 218–230. Süt˝o, W. M. I. & Greatorex, J. (2006). A cognitive psychological exploration of the GCSE marking process. Research Matters, 2, 7–10. Süt˝o, W. M. I. & Greatorex, J. (2008). What goes through an examiner’s mind? Using verbal protocols to gain insights into the GCSE marking process. British Educational Research Journal, 34 (2), 213–233.

Literaturverzeichnis

441

Süt˝o, W. M. I. & Nádas, R. (2008). What determines GCSE marking accuracy? An exploration of expertise among maths and physics markers. Research papers in education, 23 (4), 477–497. Süt˝o, W. M. I. & Nádas, R. & Bell, J. (2011). Who should mark what? A study of factors affecting marking accuracy in a biology examination. Research Papers in Education, 26 (1), 21–51. Täger, M. K. (2010). Der Hochschulzugang. Eine bildungs- und organisationssoziologische Untersuchung der Reform der Hochschulzulassung durch Auswahl- und Eignungsfeststellungsverfahren. Dissertation, Ludwig-Maximilians-Universität München. Verfügbar unter: https://edoc.ub.uni-muenchen.de/11697/, zuletzt geprüft am 18.05.2019. Tarazona, M. & Brückner, Y. (2016). Finanzierungsformen, Zielvereinbarung, New Public Management und Globalbudgets. In H. Altrichter & K. Maag Merki (Hrsg.), Handbuch Neue Steuerung im Schulsystem (2. Aufl., S. 74–105). Wiesbaden: Springer VS. Terhart, E. (1999). Zensurengebung und innerschulisches Selektionsklima – die Rolle der Schulleitung. Zeitschrift für Soziologie der Erziehung und Sozialisation, 19 (3), 277–292. Terhart, E. (2000). Qualität und Qualitätssicherung im Schulsystem. Hintergründe – Konzepte – Probleme. Zeitschrift für Pädagogik, 46 (6), 809–829. Terhart, E. (2002). Nach PISA. Bildungsqualität entwickeln. Hamburg: Europäische Verlagsanstalt. Terhart, E. (2008). Giving marks – constructing diffrences. Explorations in the micro-politics of selection in schools. In H.-H. Krüger, W. Helsper, G. Foljanty-Jost, R.-T. Kramer & M. Hummrich (Hrsg.), Family, School, Youth Culture. International Perspectives of Pupil Research (S. 151–161). Frankfurt am Main [u. a.]: Peter Lang. Terhart, E. (2011). Lehrerberuf und Professionalität: Gewandeltes Begriffsverständnis – neue Herausforderungen. In W. Helsper & R. Tippelt (Hrsg.), Pädagogische Professionalität (S. 202–224). Weinheim [u. a.]: Beltz. Terhart, E. (2013). Widerstand von Lehrkräften in der Schulreformprozessen: Zwischen Kooperation und Obstruktion. In N. McElvany & H. G. Holtappels (Hrsg.), Empirische Bildungsforschung: Theorien, Methoden, Befunde und Perspektiven. Festschrift für Wilfried Bos (S. 75–92). Münster [u. a.]: Waxmann. Terhart, E. (2014). Die Beurteilung von Schülern als Aufgabe des Lehrers: Forschungslinien und Forschungsergebnisse. In E. Terhart, H. Bennewitz & M. Rothland (Hrsg.), Handbuch der Forschung zum Lehrerberuf (2. Aufl., S. 883–904). Münster: Waxmann. Thiel, F., Cortina, K. S. & Pant, H. A. (2014). Steuerung im Bildungssystem im internationalen Vergleich. In R. Fatke & J. Oelkers (Hrsg.), Das Selbstverständnis der Erziehungswissenschaft. Geschichte und Gegenwart (S. 123–138). Weinheim [u. a.]: Beltz Juventa. Thurn, S. (2017). Leistungsbewertung und Vielfalt. Oder: Umgang mit den Widersprüchen des Systems. Pädagogik, 9 (4), 6–9. Tillmann, K.-J., Dedering, K., Kneuper, D., Kuhlmann, C. & Nessel, I. (2008). PISA als bildungspolitisches Ereignis. Fallstudien in vier Bundesländern (1. Aufl.). Wiesbaden: Springer VS. Trautmann, M. & Wischer, B. (2011). Heterogenität in der Schule. Eine kritische Einführung. Wiesbaden: Springer VS. Trautwein, U. & Baeriswyl, F. (2007). Wenn leistungsstarke Klassenkameraden ein Nachteil sind. Referenzgruppeneffekte bei Übergangsentscheidungen. Zeitschrift für Pädagogische Psychologie, 21, 119–133.

442

Literaturverzeichnis

Urabe, M. (2009). Funktion und Geschichte des deutschen Schulzeugnisses. Bad Heilbrunn: Klinkhardt. Urhahne, D., Timm, O., Zhu, M. & Tang, M. (2013). Sind unterschätzte Schüler weniger leistungsmotiviert als überschätzte Schüler? Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 45 (1), 34–43. Vergés Bausili, A. (2018). From piloting e-submission to electronic management of assessment (EMA): Mapping grading journeys. British Journal of Educational Technology, 49 (3), 463–478. Verordnung – Prüfungsordnung – über die staatliche Abschlussprüfung zum Erwerb des mittleren Bildungsabschlusses an Gemeinschaftsschulen vom 12. Juli 2000. Verfügbar unter: http://sl.juris.de/sl/MiBAbschlPrO_SL_rahmen.htm, zuletzt geprüft am 21.09.2018. Verordnung über die Abschlüsse im Sekundarbereich I der allgemein bildenden Schulen einschließlich der Freien Waldorfschulen (AVO – Sek I) vom 7. April 1994. Verfügbar unter: http://www.nds-voris.de/jportal/portal/t/i0y/page/bsvorisprod.psml?doc.hl= 1&doc.id=jlr-SekBIAbschlVNDrahmen&documentnumber=3&numberofresults=5& doctyp=Norm&showdoccase=1&doc.part=R¶mfromHL=true#focuspoint, zuletzt geprüft am 17.09.2018. Verordnung über die Abschlüsse in der Sekundarstufe I (Abschluss-VO Sek I) vom 9. Juli 2012. Verfügbar unter: http://www.landesrecht.sachsen-anhalt.de/jportal/?quelle=jlink&psml= bssahprod.psml&feed=bssah-lr&docid=jlr-SekIAbschlVST2012V1P11, zuletzt geprüft am 19.09.2018. Verordnung über die Ausbildung und die Abschlussprüfungen in der Sekundarstufe I (Ausbildungs- und Prüfungsordnung Sekundarstufe I – APO-S I) vom 2. November 2012. Verfügbar unter: https://www.schulministerium.nrw.de/docs/Recht/Schulrecht/ APOen/HS-RS-GE-GY-SekI/APO_SI.pdf, zuletzt geprüft am 22.09.2018. Verordnung über die Bildungsgänge in der Sekundarstufe I (Sekundarstufe I-Verordnung – Sek I-V) vom 2. August 2007. Verfügbar unter: https://bravors.brandenburg.de/verordnun gen/sek_i_v/2#, zuletzt geprüft am 23.09.2018. Verordnung über die Durchführung von Prüfungen zum Erwerb der Mittleren Reife (MittlereReife-Verordnung – MittReifVO M-V) vom 14. Juli 2013. Verfügbar unter: https://www. regierung-mv.de/Landesregierung/bm/Bildung/Schule/Pr%C3%BCfungen-&-Abschl% C3%BCsse/, zuletzt geprüft am 22.09.2018. Verordnung über die Prüfungen zu den Abschlüssen der Sekundarstufe I (Prüfungsverordnung Sekundarstufe I – PrüfV Sek. I) vom 20. Juni 2013. Verfügbar unter: https://www.transp arenz.bremen.de/sixcms/detail.php?gsid=bremen2014_tp.c.69674.de&asl=bremen203_ tpgesetz.c.55340.de&template=20_gp_ifg_meta_detail_d, zuletzt geprüft am 22.09.2018. Verordnung über die Schularten und Bildungsgänge der Sekundarstufe I (Sekundarstufe I-Verordnung – Sek I-VO) vom 31. März 2010. Verfügbar unter: http://gesetze.berlin.de/ jportal/?quelle=jlink&query=SekIV+BE&psml=bsbeprod.psml&max=true&aiz=true, zuletzt geprüft am 21.09.2018. Verordnung zur Ausgestaltung der Bildungsgänge und Schulformen der Grundstufe (Primarstufe) und der Mittelstufe (Sekundarstufe I) und der Abschlussprüfungen in der Mittelstufe (VOBGM) vom 14. Juni 2005. Verfügbar unter: https://kultusministerium.hessen.de/sch ulsystem/schulrecht/schulorganisation, zuletzt geprüft am 22.09.2018. Vidal Rodeiro, C. L. (2007). Agreement between outcomes from different double marking models. Research Matters, 4, 28–33. Verfügbar unter: http://www.cambridgeassessment.

Literaturverzeichnis

443

org.uk/ca/digitalAssets/136145_Research_Matters_4_Jun_2007.pdf, zuletzt geprüft am 17.07.2018. Vocelka, K. (2017). Frühe Neuzeit 1500–1800 (2. Aufl.). Konstanz [u. a.]: UVK. Vogelgesang, J. & Scharkow, M. (2012). Reliabilitätstests in Inhaltsanalysen. Eine Analyse der Dokumentationspraxis in Publizistik und Medien & Kommunikationswissenschaft. Publizistik, 57 (3), 333–345. Volkhausen, B. & Kammer, M. von der (2017). Training 2018 Mittlerer Schulabschluss. Nordrhein-Westfalen. Deutsch 10. Klasse. Freising: Stark. Voß, R. (2005). Unterricht ohne Belehrung. In R. Voß (Hrsg.), Unterricht aus konstruktivistischer Sicht. Die Welten in den Köpfen der Kinder (2. Aufl., S. 40–62). Weinheim [u. a.]: Beltz. Wacker, A., Maier, U. & Wissinger, J. (2012). Zu Bedeutung und Kritik der Steuerungsforschung – Fazit und Ausblick. In ebd. (Hrsg.), Schul- und Unterrichtsreform durch ergebnisorientierte Steuerung. Empirische Befunde und forschungsmethodische Implikationen (S. 303–324). Wiesbaden: Springer VS. Wagner, P. (2010, 27. Mai). „Die Abiturnote ist eine Krücke“. Spiegel Online. Verfügbar unter: http://www.spiegel.de/lebenundlernen/schule/studienwahl-die-abiturnote-ist-einekruecke-a-691256.html, zuletzt geprüft am 18.01.2019. Waldow, F. (2012). Gerechtigkeit, Leistungsbeurteilung und Schuldifferenzierung in Deutschland und Schweden. In S. Fürstenau & M. Gomolla (Hrsg.), Migration und schulischer Wandel: Leistungsbeurteilung (S. 171–185). Wiesbaden: VS Springer. Waldow, F. (2014). Von der Meritokratie zur Parentokratie? Elitenreproduktion und die Legitimierung der Zuweisung von Lebenschancen im englischen Bildungssystem. Zeitschrift für Erziehungswissenschaft, 17 (19), 43–58. Weingarten, M. (2015). Wahrnehmung (1. Aufl.). Bielefeld: transcript. Welch, C. (2006). Item and Prompt Development in Performance Testing. In S. M. Downing & T. M. Haladyna (Hrsg.), Handbook of test development (S. 303–327). Mahwah, NJ [u. a.]: Erlbaum. Wilde, A. & Kunter, M. (2016). Überzeugungen von Lehrerinnen und Lehrern. In M. Rothland (Hrsg.), Beruf Lehrer/Lehrerin. Ein Studienbuch (S. 299–317). Münster [u. a.]: Waxmann. Winkler, O. (2017). Aufstiege und Abstiege im Bildungsverlauf. Eine empirische Untersuchung zur Öffnung von Bildungswegen. Wiesbaden: Springer VS. Winter, F. (2015). Lerndialog statt Noten. Neue Formen der Leistungsbeurteilung. Weinheim: Beltz. Wirth, W. (2001). Der Codierprozeß als gelenkte Rezeption. Bausteine für eine Theorie des Codierens. In W. Wirth & W. Lauf (Hrsg.), Inhaltsanalyse: Perspektiven, Probleme, Potentiale (S. 157–182). Köln: von Halem. Wirth, W., Sommer, K., Wettstein, M. & Matthes, J. (Hrsg.) (2015). Qualitätskriterien in der Inhaltsanalyse. Köln: von Halem. Wirth, W., Wettstein, M., Kühne, R. & Reichel, K. (2015). Theorie und Empirie des Codierens: Personelle und situative Einflussfaktoren auf Qualität und Quantität des Codierens bei der Inhaltsanalyse. In W. Wirth, K. Sommer, M. Wettstein & J. Matthes (Hrsg.), Qualitätskriterien in der Inhaltsanalyse (S. 96–118). Köln: von Halem. Wirtz, A. (Hrsg.) (2014). Dorsch Lexikon der Psychologie (17. Aufl.). Bern: Huber.

444

Literaturverzeichnis

Wirtz, M. & Casper, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität. Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Göttingen [u. a.]: Hogrefe. Wissenschaftsrat (2018). Neustrukturierung des Medizinstudiums und Änderung der Approbationsordnung für Ärzte. Empfehlungen der Expertenkommission zum Masterplan Medizinstudium 2020. Verfügbar unter: https://www.wissenschaftsrat.de/download/archiv/727118.pdf, zuletzt geprüft am 18.01.2019. Witt, H. (2001). Forschungsstrategien bei quantitativer und qualitativer Sozialforschung. Forum Qualitative Sozialforschung / Forum Qualitative Social Research, 2 (1), Art. 8. Verfügbar unter: http://nbn-resolving.de/urn:nbn:de:0114-fqs010189, zuletzt geprüft am 18.08.2018. Witzel, A. (1982). Verfahren der qualitativen Sozialforschung. Überblick und Alternativen. Frankfurt [u. a.]: Campus-Verlag. Witzel, A. (1989). Das problemzentrierte Interview. In G. Jüttemann (Hrsg.), Qualitative Forschung in der Psychologie. Grundfragen, Verfahrensweisen, Anwendungsfelder (1. Aufl., S. 227–255). Weinheim: Beltz. Witzel, A. (1996). Auswertung problemzentrierter Interviews. Grundlagen und Erfahrungen. In R. Strobl & A. Böttger (Hrsg.), Wahre Geschichten? Zu Theorie und Praxis qualitativer Interviews (S. 49–76). Baden-Baden: Nomos. Witzel, A. (2000). Das problemzentrierte Interview. Forum Qualitative Sozialforschung / Forum: Qualitative Social Research, 1 (1), Art. 22. Verfügbar unter: http://nbn-resolving. de/urn:nbn:de:0114-fqs0001228, zuletzt geprüft am 28.11.2018. Witzel, A. & Reiter, H. (2012). The Problem-centred Interview. Principles and Practice. Los Angeles [u. a.]: SAGE. Wößmann, L. (2008). Zentrale Abschlussprüfungen und Schülerleistungen. Individualanalysen anhand von vier internationalen Tests. Zeitschrift für Pädagogik, 54 (6), 810–827. Wößmann, L., Lergetporer, P., Grewenig, E., Kugler, F. & Werner, K. (2017). Fürchten sich die Deutschen vor der Digitalisierung? Ergebnisse des ifo Bildungsbarometers 2017. ifo Schnelldienst, 70 (17), 17–38. Wößmann, L., Lüdemann, E., Schütz, G. & West, M. R. (2009). School Accountability, Autonomy and Choice around the World. Cheltenham [u. a.]: Elgar. Wurster, S. & Richter, D. (2016). Nutzung von Schülerleistungsdaten aus Vergleichsarbeiten und zentralen Abschlussprüfungen für Unterrichtsentwicklung in Brandenburger Fachkonferenzen. Journal for Educational Research Online, 8 (3), 159–183. Wurster, S., Richter, D. & Lenski, A. E. (2017). Datenbasierte Unterrichtsentwicklung und ihr Zusammenhang zur Schülerleistung. Zeitschrift für Erziehungswissenschaft, 20 (4), 628–650. Wyatt-Smith, C. & Castelton, G. (2005). Examining how teachers judge student writing: an Australian case study. Journal of Curriculum Studies, 37 (2), 131–154. Yarker, P. (2008). Personalised Corruption: testing, cheating and teacher-integrity. FORUM, 50 (1), 113–126. Zabka, T. & Stark, T. (2010). Aufgabenstellungen und Erwartungshorizonte als Steuerungsinstrumente. Der Deutschunterricht, 16 (1), 19–29. Zeuske, M. (2018). Sklaverei. Eine Menschheitsgeschichte von der Steinzeit bis heute. Ditzingen: Reclam.

Literaturverzeichnis

445

Ziegenspeck, J. W. (1999). Handbuch Zensur und Zeugnis in der Schule. Historischer Rückblick, allgemeine Problematik, empirische Befunde und bildungspolitische Implikationen. Bad Heilbrunn: Klinkhardt. Zürn, M. (2008). Governance in einer sich wandelnden Welt – eine Zwischenbilanz. In G. F. Schuppert & M. Zürn (Hrsg.), Governance in einer sich wandelnden Welt (1. Aufl., S. 553–580). Wiesbaden: Springer VS. Zydatiß, W. (2007). Die Aufgabe von Aufgaben in den zentralen Prüfungen für den „Mittleren Schulabschluss“: Ein Plädoyer für die empirisch-quantitative Erforschung entwicklungsbezogener Lern- und Überprüfungsaufgaben im Englischunterricht. In H. J. Vollmer (Hrsg.), Synergieeffekte in der Fremdsprachenforschung. Empirische Zugänge, Probleme, Ergebnisse (S. 299–312). Frankfurt am Main: Peter Lang.