Formatives Assessment in der Grundschule: Konzept, Einschätzungen der Lehrkräfte und Zusammenhänge [1. Aufl.] 978-3-658-26920-3;978-3-658-26921-0

Christin Schmidt legt dar, dass formatives Assessment aus Sicht von Grundschullehrkräften gegenwärtig bereits in Ansätze

1,033 131 6MB

German Pages XXII, 300 [312] Year 2020

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Formatives Assessment in der Grundschule: Konzept, Einschätzungen der Lehrkräfte und Zusammenhänge [1. Aufl.]
 978-3-658-26920-3;978-3-658-26921-0

Table of contents :
Front Matter ....Pages I-XXII
Einleitung (Christin Schmidt)....Pages 1-6
Formatives Assessment – Begriffsannäherung und theoretische Einordnung (Christin Schmidt)....Pages 7-23
Strategien und Praktiken formativen Assessments (Christin Schmidt)....Pages 25-62
Empirische Befunde zum formativen Assessment (Christin Schmidt)....Pages 63-81
Formatives Assessment im Kontext professioneller Handlungskompetenz (Christin Schmidt)....Pages 83-108
Untersuchungsschwerpunkte, Fragestellungen und Hypothesen (Christin Schmidt)....Pages 109-114
Methode (Christin Schmidt)....Pages 115-151
Ergebnisse (Christin Schmidt)....Pages 153-227
Diskussion und Schlussfolgerungen (Christin Schmidt)....Pages 229-257
Back Matter ....Pages 259-300

Citation preview

Christin Schmidt

Formatives Assessment in der Grundschule Konzept, Einschätzungen der Lehrkräfte und Zusammenhänge

Formatives Assessment in der Grundschule

Christin Schmidt

Formatives Assessment in der Grundschule Konzept, Einschätzungen der Lehrkräfte und Zusammenhänge

Christin Schmidt Institut für Grundschulpädagogik, Schulpädagogik des Primarbereichs Universität Leipzig Leipzig, Deutschland Zgl. Dissertation an der Universität Leipzig, 2018

ISBN 978-3-658-26920-3 ISBN 978-3-658-26921-0  (eBook) https://doi.org/10.1007/978-3-658-26921-0 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen National­ bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer VS © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informa­ tionen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Springer VS ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany

Danksagung Die vorliegende Arbeit ist mit der Unterstützung einer Reihe von Personen entstanden, denen ich an dieser Stelle herzlich danken möchte. Mein Dank gilt zunächst Prof. Dr. Thomas Hofsäss, der mich zur Erstellung dieser Dissertation ermutigt und während des gesamten Promotionszeitraumes stets unterstützt hat. Dass diese Arbeit nun in dieser Form vorliegt, habe ich in erster Linie der hervorragenden Betreuung durch Prof. Dr. Katrin Liebers zu verdanken. Ihre Rückmeldungen und Hinweise sind ein wunderbares Beispiel für eine formative Begleitung. Auch während unserer Zusammenarbeit im gemeinsamen Forschungsprojekt ERINA habe ich vieles dazulernen können, was sich für die Erstellung dieser Arbeit als sehr hilfreich erwiesen hat. Meinen Kolleginnen und Kollegen am Lehrstuhl Pädagogik im Förderschwerpunkt Lernen sowie am Lehrstuhl Schulpädagogik des Primarbereichs danke ich für ihre wertvollen Kommentare und Anregungen im Rahmen von Kolloquien und dafür, dass sie mich stets bestärkt und motiviert haben. Insbesondere Dr. Anett Platte, Stefan Kolke, Oliver Zetsche, Hannes Delto und Dr. Anika Bürgermeister danke ich für ihre mentale Unterstützung sowie ihre Hilfe bei methodischen Fragen und beim Lektorat der Arbeit. Vielen Dank auch an die studentischen Hilfskräfte Vera Kreipe, Frederik Lücke und Carmen Leupold für ihre Mitarbeit an der Eingabe der Daten. Bedanken möchte ich mich natürlich auch bei den Lehrkräften, die bereit waren, an der Befragung teilzunehmen und dadurch diese Studie erst ermöglicht haben. Abschließend gilt mein größter Dank meiner Familie. Ohne den Rückhalt, das Verständnis und die Ermutigung meines Mannes sowie die persönliche Unterstützung meiner Eltern und Schwiegereltern hätte ich diese Arbeit nicht fertigstellen können.

Inhaltsverzeichnis 1

Einleitung ..................................................................................................... 1

2

Formatives Assessment – Begriffsannäherung und theoretische Einordnung .................................................................................................. 7 2.1 Begriffsklärung ..................................................................................... 7 2.1.1 Begriffliche Abgrenzung ............................................................ 8 2.1.2 Definitionsversuche .................................................................. 11 2.1.3 Formatives Assessment als Prozess .......................................... 13 2.2 Lerntheoretische Verortung ................................................................ 14 2.3 Einordnung im Kontext inklusiver Diagnostik ................................... 17 2.4 Zusammenfassung und Konsequenzen für die empirische Studie ...... 21

3

Strategien und Praktiken formativen Assessments ................................ 25 3.1 Schlüsselstrategien formativen Assessments nach Black und Wiliam 25 3.1.1 Lernziele und Erfolgskriterien festlegen und kommunizieren .. 27 3.1.2 Kognitiv aktivierende Unterrichtsgespräche etablieren ............ 28 3.1.3 Aktivierung zur Verantwortungsübernahme für das Lernen ..... 30 3.1.4 Aktivierung als instruktionale Ressourcen füreinander ............ 32 3.1.5 Lernförderliches Feedback ........................................................ 33 3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren ..... 37 3.2.1 Formen der alternativen Leistungserfassung ............................ 38 3.2.2 Curriculumbasierte Diagnoseverfahren .................................... 45 3.2.3 Informelle diagnostische Verfahren .......................................... 47 3.2.4 Formelle diagnostische Verfahren ............................................ 54 3.3 Zusammenfassung und Konsequenzen für die empirische Studie ...... 56 3.3.1 Konsequenzen für die empirische Studie .................................. 61

4

Empirische Befunde zum formativen Assessment ................................. 63 4.1 Effekte formativen Assessments ......................................................... 63 4.1.1 Effekte auf die Leistungsentwicklung der Schülerinnen und Schüler ...................................................................................... 63 4.1.2 Effekte auf die Motivation und Selbstregulation ...................... 66 4.1.3 Zur Praxis formativen Assessments .......................................... 67 4.2 Vorstellungen und Einstellungen bezüglich Assessment .................... 73 4.3 Befragungsinstrumente und empirische Modellbildung ..................... 76 4.4 Zusammenfassung und Konsequenzen für die empirische Studie ...... 79 4.4.1 Konsequenzen für die empirische Studie .................................. 80

VIII

Inhaltsverzeichnis

5

Formatives Assessment im Kontext professioneller Handlungskompetenz............................................................................... 83 5.1 Formatives Assessment als Facette adaptiver Lehrkompetenz ........... 83 5.1.1 Diagnostische Kompetenz ........................................................ 87 5.1.2 Zum Zusammenspiel zwischen diagnostischer und didaktischer Kompetenz ............................................................ 90 5.2 Relevante Einflussfaktoren formativen Assessment-Handelns ........... 92 5.2.1 Überzeugungen und Werthaltungen .......................................... 93 5.2.2 Professionswissen ................................................................... 101 5.2.3 Weitere Einflussfaktoren ........................................................ 103 5.3 Zusammenfassung und Konsequenzen für die empirische Studie .... 105

6

Untersuchungsschwerpunkte, Fragestellungen und Hypothesen ....... 109

7

Methode ................................................................................................... 115 7.1 Forschungsdesign .............................................................................. 115 7.2 Fragebogenentwicklung und Erhebungsinstrument .......................... 116 7.2.1 Operationalisierung der Konstrukte ........................................ 116 7.2.2 Pilotierung des Befragungsinstruments .................................. 118 7.2.3 Beschreibung des Fragebogens ............................................... 124 7.3 Durchführung und Stichprobe der Haupterhebung ........................... 126 7.3.1 Durchführung .......................................................................... 126 7.3.2 Stichprobe ............................................................................... 127 7.4 Auswertungsmethoden ...................................................................... 129 7.4.1 Datenaufbereitung und Umgang mit fehlenden Werten.......... 129 7.4.2 Güteprüfung der reflektiven Messmodelle .............................. 134 7.4.3 Deskriptivstatistische Analysen .............................................. 139 7.4.4 Strukturgleichungsanalysen .................................................... 139

8

Ergebnisse ................................................................................................ 153 8.1 Güteprüfung der Messmodelle .......................................................... 153 8.1.1 Reliabilitätsprüfung mit Hilfe der Gütekriterien der ersten Generation ............................................................................... 153 8.1.2 Reliabilitätsprüfung mit Hilfe der konfirmatorischen Faktorenanalyse ...................................................................... 177 8.1.3 Validitätsprüfung der Messmodelle ........................................ 179 8.1.4 Interne Konsistenz der endgültigen Skalen ............................. 182 8.2 Deskriptivstatistische Analysen ........................................................ 183 8.2.1 Deskriptive Analyse der formativen Assessment-Skalen ....... 184 8.2.2 Deskriptive Analyse weiterer Skalen und Items ..................... 195

Inhaltsverzeichnis

IX

8.3 Strukturgleichungsanalysen .............................................................. 201 8.3.1 Konfirmatorische Faktorenanalyse und Modellvergleich ....... 201 8.3.2 Analyse der Zusammenhänge ................................................. 209 8.3.3 Latente Profilanalyse .............................................................. 219 9

Diskussion und Schlussfolgerungen ...................................................... 229 9.1 Zusammenfassende Ergebnisdiskussion ........................................... 231 9.1.1 Fragebogenentwicklung und Modellprüfung .......................... 231 9.1.2 Formative Assessment-Praxis an Grundschulen ..................... 236 9.1.3 Zusammenhänge mit ausgewählten Lehrer- und Unterrichtsmerkmalen ......................................... 243 9.2 Grenzen der Studie und Forschungsausblick .................................... 249 9.2.1 Repräsentativität und Größe der Stichprobe ........................... 249 9.2.2 Zur Validität der Erfassung der selbsteingeschätzten Assessment-Praxis .................................................................. 249 9.2.3 Einschränkungen aufgrund der korrelativen Anlage der Studie ... ...................................................................................... 251 9.2.4 Weitere Forschungsperspektiven ............................................ 251 9.3 Implikationen .................................................................................... 252 9.3.1 Begriffsverständnis ................................................................. 252 9.3.2 Weiterentwicklung im Kontext eines inklusiven Assessments ............................................................................ 253 9.3.3 Lehrerbildung.......................................................................... 254 9.4 Fazit .................................................................................................. 255

Literaturverzeichnis ....................................................................................... 259

Abkürzungsverzeichnis AIC BIC BLRT BN CBM CFI CO DEV DI DM EFA FA FBE FBF IDM KFA KMK LZ LK NU RMSEA SA SAK SFA SGA SGM SMNHD SPF SRMR ST TLI UG VLMR

Akaike Information Criterion Bayes Information Criterion Bootstrap-Likelihood-Ratio-Differenztest Individuelle Bezugsnormorientierung Curriculumbasierte Messungen Comparative Fit Index Konstruktivistische Überzeugungen zum Lehren und Lernen Durchschnittliche je Faktor extrahierte Varianz Tendenz zur aufgabenbezogenen Differenzierung Formelle diagnostische Methoden und Verfahren Exploratorische/Explorative Faktorenanalyse Formatives Assessment Feedback-Ebenen Feedback-Fragen Informelle diagnostische Methoden und Verfahren Konfirmatorische Faktorenanalyse Kultusministerkonferenz Transparente Lernziele Kommunikation der Beurteilungskriterien Pädagogische Nutzung diagnostischer Informationen Root-Mean-Square-Error of Approximation Self- und Peer-Assessment Aktivierung der Schülerinnen und Schüler als instruktionale Ressourcen Second-Order-Faktorenanalyse Strukturgleichungsanalyse Strukturgleichungsmodelle Schülerinnen und Schüler mit nichtdeutscher Herkunftssprache Sonderpädagogischer Förderbedarf Standardized Root Mean Square Residual Strategievermittlung Tucker Lewis Index Kognitiv aktivierendes Unterrichtsgespräch Vuon-Lo-Mendell-Rubin-Test

Abbildungsverzeichnis Abbildung 1:

Schlüsselstrategien formativen Assessments .......................................... 26

Abbildung 2:

Modell der Strategien formativen Assessments ..................................... 61

Abbildung 3:

Erweitertes Angebots-Nutzungs-Modell ................................................ 84

Abbildung 4:

Konfirmatorische Faktorenanalyse erster Ordnung .............................. 144

Abbildung 5:

Konfirmatorische Faktorenanalyse zweiter Ordnung ........................... 147

Abbildung 6:

Strukturgleichungsmodell einer multiplen latenten Regressionsanalyse .............................................................................. 149

Abbildung 7:

Nennungen verwendeter diagnostischer Verfahren (n = 56) ................ 190

Abbildung 8:

Alter der Grundschullehrkräfte (n = 338) ............................................. 199

Abbildung 9:

Besuch von Fort- und Weiterbildung (n = 72) ..................................... 200

Abbildung 10: Messmodell für das Konstrukt FBF (Feedback-Fragen) ...................... 202 Abbildung 11: Strukturgleichungsmodell IDM, SAK, CO und DI .............................. 218 Abbildung 12: Latente Profilanalyse mit drei Klassen ................................................. 224 Abbildung 13: Factorscores der drei Assessment-Gruppen auf den Skalen CO, BN und DI ............................................................................................ 227

Tabellenverzeichnis Tabelle 1:

KMO- und Bartlett-Test für Skala Lernzielorientierung ........................... 121

Tabelle 2:

Kommunalitäten der Items Lernzielorientierung....................................... 121

Tabelle 3:

Faktorladungen der Skala Lernzielorientierung. Mustermatrix ................. 122

Tabelle 4:

Item-Skala-Statistiken der Skala Lernzielorientierung .............................. 123

Tabelle 5:

Reliabilitätsstatistik der Skala Lernzielorientierung .................................. 123

Tabelle 6:

Übersicht über Konstrukte und Anzahl der Items in Fragebogenteil A ..... 125

Tabelle 7:

Gütemaße zur Beurteilung des Gesamtfits eines Modells ......................... 142

Tabelle 8:

KMO- und Bartlett-Test des ersten Faktors .............................................. 154

Tabelle 9:

MSA-Werte, Kommunalitäten und Faktorladungen des ersten Faktors .... 155

Tabelle 10: KMO- und Bartlett-Test des zweiten Faktors............................................ 156 Tabelle 11: MSA-Werte, Kommunalitäten und Faktorladungen des zweiten Faktors . 156 Tabelle 12: KMO- und Bartlett-Test des dritten Faktors.............................................. 157 Tabelle 13: MSA-Werte, Kommunalitäten und Faktorladung des dritten Faktors ....... 157 Tabelle 14: KMO- und Bartlett-Test des vierten Faktors ............................................. 158 Tabelle 15: MSA-Werte, Kommunalitäten und Faktorladungen des vierten Faktors ... 158 Tabelle 16: KMO- und Bartlett-Test des fünften Faktors ............................................ 159 Tabelle 17: MSA-Werte, Kommunalitäten und Faktorladungen des fünften Faktors .. 159 Tabelle 18: KMO- und Bartlett-Test des sechsten Faktors .......................................... 160 Tabelle 19: MSA-Werte, Kommunalitäten und Faktorladungen des sechsten Faktors 160 Tabelle 20: KMO- und Bartlett-Test des siebten Faktors ............................................. 161 Tabelle 21: MSA-Werte, Kommunalitäten und Faktorladungen des siebten Faktors .. 161 Tabelle 22: KMO- und Bartlett-Test des achten Faktors.............................................. 162 Tabelle 23: MSA-Werte, Kommunalitäten und Faktorladungen des achten Faktors ... 162 Tabelle 24: KMO- und Bartlett-Test des neunten Faktors ........................................... 163 Tabelle 25: MSA-Werte, Kommunalitäten und Faktorladungen des neunten Faktors . 163 Tabelle 26: KMO- und Bartlett-Test des zehnten Faktors............................................ 164 Tabelle 27: MSA-Werte, Kommunalitäten und Faktorladungen des zehnten Faktors . 164 Tabelle 28: KMO- und Bartlett-Test des elften Faktors ............................................... 165 Tabelle 29: MSA-Werte, Kommunalitäten und Faktorladungen des elften Faktors ..... 165

XVI

Tabellenverzeichnis

Tabelle 30: KMO- und Bartlett-Test des zwölften Faktors .......................................... 166 Tabelle 31: MSA-Werte, Kommunalitäten und Faktorladungen des zwölften Faktors 166 Tabelle 32: KMO- und Bartlett-Test des 13. Faktors ................................................... 167 Tabelle 33: MSA-Werte, Kommunalitäten und Faktorladungen des 13. Faktors ......... 167 Tabelle 34: KMO- und Bartlett-Test des Faktors CO .................................................. 168 Tabelle 35: MSA-Werte, Kommunalitäten und Faktorladungen des Faktors CO ........ 168 Tabelle 36: KMO- und Bartlett-Test des Faktors BN .................................................. 169 Tabelle 37: MSA-Werte, Kommunalitäten und Faktorladungen des Faktors BN ........ 169 Tabelle 38: KMO- und Bartlett-Test des Faktors DI .................................................... 169 Tabelle 39: MSA-Werte, Kommunalitäten und Faktorladungen des Faktors DI ......... 170 Tabelle 40: Indikator- und Konstruktreliabilität des Faktors NU ................................. 170 Tabelle 41: Indikator- und Konstruktreliabilität des Faktors DM ................................ 171 Tabelle 42: Indikator- und Konstruktreliabilität des Faktors SA.................................. 172 Tabelle 43: Indikator- und Konstruktreliabilität des Faktors FBF................................ 172 Tabelle 44: Indikator- und Konstruktreliabilität des Faktors UG ................................. 173 Tabelle 45: Indikator- und Konstruktreliabilität des Faktors IDM ............................... 173 Tabelle 46: Indikator- und Konstruktreliabilität des Faktors SAK ............................... 174 Tabelle 47: Indikator- und Konstruktreliabilität des Faktors LZ .................................. 174 Tabelle 48: Indikator- und Konstruktreliabilität des Faktors LK ................................. 175 Tabelle 49: Indikator- und Konstruktreliabilität des Faktors ST .................................. 175 Tabelle 50: Indikator- und Konstruktreliabilität des Faktors FBE ............................... 176 Tabelle 51: Indikator- und Konstruktreliabilität des Faktors CO ................................. 176 Tabelle 52: Indikator- und Konstruktreliabilität des Faktors BN ................................. 177 Tabelle 53: Indikator- und Konstruktreliabilität des Faktors DI .................................. 177 Tabelle 54: KMO- und Bartlett-Test bei simultaner Betrachtung aller Konstrukte ...... 179 Tabelle 55: Ergebnisse des ²-Differenztests ............................................................... 181 Tabelle 56: Interne Konsistenz, Mittelwerte, Standardabweichung und Anzahl der Items................................................................................................... 182 Tabelle 57: Mittelwerte und Standardabweichung der Items zur Skala LK ................. 184 Tabelle 58: Mittelwerte und Standardabweichung der Items zur Skala LK ................. 185

Tabellenverzeichnis

XVII

Tabelle 59: Mittelwerte und Standardabweichung der Items der Skala SA ................. 186 Tabelle 60: Mittelwerte und Standardabweichung der Items der Skala ST .................. 187 Tabelle 61: Mittelwerte und Standardabweichung der Items der Skala SAK .............. 187 Tabelle 62: Mittelwerte und Standardabweichung der Items der Skala UG ................. 188 Tabelle 63: Mittelwerte und Standardabweichung der Items der Skala DM ................ 189 Tabelle 64: Mittelwerte und Standardabweichung der Items der Skala IDM ............... 191 Tabelle 65: Mittelwerte und Standardabweichung der Items der Skala FBE ............... 192 Tabelle 66: Mittelwerte und Standardabweichung der Items der Skala FBF ............... 194 Tabelle 67: Mittelwerte und Standardabweichung der Items der Skala NU ................. 194 Tabelle 68: Mittelwerte und Standardabweichung der Items der Skala CO ................. 196 Tabelle 69: Mittelwerte und Standardabweichung der Items der Skala DI .................. 197 Tabelle 70: Mittelwerte und Standardabweichung der Items der Skala BN ................. 198 Tabelle 71: Güteprüfung der einzelnen Messmodelle .................................................. 202 Tabelle 72: Güteprüfung des 11-Faktorenmodells ....................................................... 204 Tabelle 73: Korrelationsmatrix der Assessment Faktoren............................................ 205 Tabelle 74: Güteprüfung des Second-Order-Modells................................................... 206 Tabelle 75: Faktorladungen der Konstrukte 1. Ordnung auf den Faktor 2. Ordnung (FO) ............................................................................ 207 Tabelle 76: Modellvergleich ........................................................................................ 207 Tabelle 77: Korrelationsmatrix .................................................................................... 209 Tabelle 78: Korrelationsanalysen ................................................................................. 211 Tabelle 79: Ergebnisse der Multiplen Regressionsanalysen ......................................... 214 Tabelle 80: Latente Multiple Regressionanalyse auf Faktor Differenzierung (DI) ...... 215 Tabelle 81: Gütekriterien des Regressionsmodells DI ................................................. 216 Tabelle 82: Reduzierte latente multiple Regressionsanalyse der Variable DI .............. 216 Tabelle 83: Gütekriterien des reduzierten latenten Regressionsmodells DI ................. 217 Tabelle 84: Gütekriterien des komplexen Strukturmodells .......................................... 218 Tabelle 85: Signifikanzwerte der Bootstrap-Likelihood-Ratio-Differenztests ............. 220 Tabelle 86: Signifikanzwerte des VLMR-Test............................................................. 221 Tabelle 87: Informationstheoretische Kennwerte zum Modellvergleich ...................... 221

XVIII

Tabellenverzeichnis

Tabelle 88: Vergleich der Entropy-Werte .................................................................... 222 Tabelle 89: Überblick über Kennwerte zum Modellvergleich ..................................... 222 Tabelle 90: Durchschnittliche Klassenzuordnungswahrscheinlichkeit......................... 223 Tabelle 91: Geschätzte Klassengrößenparameter, Klassengrößen und Bezeichnung ... 225 Tabelle 92: Einfaktorielle Varianzanalysen ................................................................. 226

Abstract In this study a model of formative assessment is empirically examined and the formative assessment practice in German lessons is described from the perspective of primary school teachers. In addition, the interaction of formative assessment with selected teacher and teaching variables is examined. Data from a quantitative survey of primary school teachers in Saxony (n = 338) are analyzed descriptively and with structural equation models. The model tests show that formative assessment includes eleven strategies, which are closely related. Only one third of the teachers report that they intensively apply appropriate assessment tools and feedback and use diagnostic information to make pedagogical decisions. Teachers with pronounced constructivist beliefs on teaching and learning implement strategies of formative assessment more likely than teachers with less constructivist beliefs. The work provides initial indications that the use of informal assessment methods and procedures is associated with a stronger tendency towards task-related differentiation. The results suggest that formative assessment represents a promising approach to effective assessment and teaching, which is already being implemented in current classroom practice in the perspective of primary school teachers. However, particular attention should be paid to the application and pedagogical use of appropriate assessment methods and procedures.

Zusammenfassung Die vorliegende Studie beschäftigt sich mit „formativem Assessment“ im Grundschulunterricht. Im Detail fokussiert die Arbeit auf die Konzeptionalisierung dieses neuen Ansatzes, die Beschreibung der formativen Assessment-Praxis aus Sicht von Grundschullehrkräften und die Klärung von Zusammenhängen mit weiteren Lehrer- und Unterrichtsvariablen. Formatives Assessment kann als Form pädagogischer Diagnostik angesehen werden, die darauf abzielt, Lehr- und Lernprozesse zu optimieren. Im Fokus stehen dabei unterrichtsimmanente Strategien der Leistungsbeurteilung und Unterrichtsgestaltung, die als lernwirksam gelten und die aktive Beteiligung der Schülerinnen und Schüler am Diagnose- und Lernprozess unterstützen. Vorstellungen von formativem Assessment divergieren zum Teil stark, weshalb ein Modell formativen Assessment entwickelt und empirisch geprüft wird. Über die gegenwärtige Praxis formativen Assessments an Grundschulen liegen aktuell kaum Befunde vor. Die empirische Studie untersucht daher die Praktiken formativen Assessments im Fach Deutsch an Grundschulen aus der Sicht von Grundschullehrkräften. Da davon ausgegangen wird, dass formatives Assessment im Kontext eines adaptiven Unterrichts dazu beitragen soll, dass Lehrkräfte Unterrichtsangebote besser an die individuellen Lernvoraussetzungen und bedürfnisse der Schülerinnen und Schüler anpassen können, wird auch der Frage nachgegangen, inwieweit die Strategien formativen Assessments mit einem differenzierten Unterricht zusammenhängen. Über die Bedingungsfaktoren, die formatives Assessment begünstigen, ist gegenwärtig noch wenig bekannt. Es wird angenommen, dass neben dem Professionswissen insbesondere die Überzeugungen der Lehrkräfte einen wichtigen Gelingensfaktor für die Implementierung formativen Assessments spielen. In die Analyse einbezogen werden daher die Überzeugungen der Lehrkräfte zum Lehren und Lernen sowie deren Bezugsnormorientierung. Zur Untersuchung dieser Fragestellungen wurde ein Fragebogen für Grundschullehrkräfte entwickelt und eingesetzt. In einer quantitativen Querschnittstudie wurden Grundschullehrkräfte (n = 338) zu ihren selbstwahrgenommenen formativen Assessment-Praktiken, deren Tendenz zur Differenzierung, deren konstruktivistischen Überzeugungen zum Lehren und Lernen und ihrer individuellen Bezugsnormorientierung befragt. Die Daten wurden deskriptiv und strukturgleichungsanalytisch ausgewertet. Bei der theoretischen und empirischen Modellierung des Konstrukts formatives Assessment konnte gezeigt werden, dass dieses elf Handlungsstrategien umfasst, die zum Teil eng miteinander zusammenhängen, jedoch nicht umfassend durch eine gemeinsame übergeordnete formative Orientierung erklärt werden können. Ein weiteres Hauptergebnis bezieht sich auf die Assessment-Praxis, wobei

XXII

Zusammenfassung

deutlich geworden ist, dass knapp ein Drittel der befragten Grundschullehrkräfte formative Assessment-Strategien aus ihrer Sicht in ausgeprägter Form nutzt. Bei zwei Dritteln der Lehrkräfte ist der Einsatz geeigneter diagnostischer Verfahren (z.B. Portfolio oder Kompetenzraster) sowie lernförderlicher Rückmeldungen gering bis mäßig ausgeprägt und diagnostische Informationen werden nur bedingt pädagogisch genutzt. Lehrkräfte mit ausgeprägten konstruktivistischen Überzeugungen realisieren dabei Strategien formativen Assessments eher als Grundschullehrkräfte mit geringeren konstruktivistischen Überzeugungen. Die Arbeit liefert Hinweise darauf, dass insbesondere der Einsatz informeller diagnostischer Methoden und Verfahren, wie Beobachtung und Fehleranalysen mit einer stärkeren Tendenz zur aufgabenbezogenen Differenzierung einhergeht. Zusammenfassend deuten die Ergebnisse darauf hin, dass formatives Assessment einen vielversprechenden Ansatz der lernförderlichen Leistungsbeurteilung und Unterrichts-gestaltung darstellt, der aus Sicht von Grundschullehrkräften in der gegenwärtigen Unterrichtspraxis bereits in Ansätzen realisiert wird. Insbesondere dem Einsatz und der pädagogischen Nutzung geeigneter diagnostischer Methoden und Verfahren sollte jedoch verstärkt Aufmerksamkeit geschenkt werden, will man die Lehr- und Lernangebote für die heterogene Schülerschaft der Grundschule weiter optimieren.

1

Einleitung

Die gesellschaftliche Wertschätzung von Heterogenität und die Thematisierung von Differenzen im Kontext sozialer und schulischer Benachteiligung sind zwei Entwicklungen, die in den letzten Jahren eine verstärkte Beschäftigung mit Verschiedenheit angestoßen haben. In Folge dessen wird von Seiten der Allgemeinen Didaktik und Pädagogik verstärkt der normative Anspruch eines (pro-)aktiven Umgangs mit Heterogenität an die (Grund-)schule gestellt (Beutel & Beutel, 2014; Prengel, 2009; Vock & Gronostaj, 2017; Wischer & Trautmann, 2014). Auch die Ergebnisse internationaler Vergleichsstudien haben Handlungsbedarf deutlich gemacht und gezeigt, dass sich Länder auf hohem Leistungsniveau durch einen bewussten Umgang mit Heterogenität auszeichnen (Bräu & Schwerdt, 2005). Infolge dessen wurde unter der übergeordneten Zielstellung, „die Leistungspotentiale aller Schülerinnen und Schüler in Deutschland zukünftig noch erfolgreicher zu entwickeln und auszuschöpfen“ (KMK, 2016, S. 4) der Umgang mit Heterogenität auch aus bildungspolitischer Perspektive zum Kernthema der Schul- und Unterrichtsentwicklung erklärt. Maßgeblich verstärkt wird diese Entwicklung durch die Debatte um ein inklusives Bildungssystem und um die Beschulung geflüchteter Kinder und Jugendlicher (Vock & Gronostaj, 2017). Die Anforderungen, die angesichts dessen an Grundschullehrkräfte gestellt werden, sind vielfältig: Schließlich geht es darum, auf die Individualität jedes Schülers und jeder Schülerin einzugehen und Unterschiede pädagogisch fruchtbar zu machen. Ohne innere Differenzierung, ohne individuell zugeschnittene Lernangebote auf der Basis formativer Diagnostik und ohne eine respektvolle adaptive Unterstützung durch die Lehrer_innen kann dies nicht gelingen. Individualisierung ist zentral, zugleich aber sind Normen und Standards einzuhalten und darf kooperatives Lernen keinesfalls vernachlässigt werden – und das in einem gut choreografierten, kognitiv anspruchsvollen Unterricht, der auch die Förderung von Akzeptanz und Empathie groß schreibt. (Vock & Gronostaj, 2017, S. 6)

Neben schulsystemischen Veränderungen stellt demnach die Gestaltung eines Unterrichts, der sehr unterschiedliche Schülerinnen und Schüler möglichst gut fördert und unterstützt eine zentrale Herausforderung dar. Aus pädagogisch-didaktischer Perspektive werden insbesondere die Individuelle Förderung, Innere Differenzierung und Individualisierung als geeignete Antworten auf Heterogenität angesehen (Wischer & Trautmann, 2012; 2014). Darüber hinaus wird zunehmend der aus der Lehr-Lern-Forschung stammende Ansatz des Adaptiven Unterrichts (Beck et al., 2008) als Möglichkeit des adäquaten Umgangs mit Heterogenität diskutiert. Stärker als die pädagogischen Ansätze zur Differenzierung und Individualisierung fokussiert Adaptivität auf die Optimierung der Lernprozesse durch die Passung des © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0_1

2

1 Einleutng

Unterrichtsangebotes zu den Lernvoraussetzungen der Schülerinnen und Schüler (Wischer & Trautmann, 2012). Im englischsprachigen Raum werden in diesem Zusammenhang seit den 1990er Jahren unter der Bezeichnung „formative Assessment“1 (Black & Wiliam, 1998a; Sadler, 1989) Formen der Diagnose und Unterrichtsgestaltung diskutiert, die zur besseren Adaption des Unterrichtsangebotes an die individuellen Lernvoraussetzungen der Schülerinnen und Schüler und dadurch zur Optimierung deren Lernleistungen führen sollen. In Deutschland erfährt dieser Ansatz erst seit einigen Jahren Aufmerksamkeit (Maier, 2010; Prengel, Riegler & Wannack, 2009) und ist entsprechend im grundschulpädagogischen Diskurs noch wenig verankert. Zwar existieren ähnliche Konzepte, wie die individuelle Lernbegleitung (Beutel & Beutel, 2014), Lernprozessbegleitung (Liebers, Landwehr, Marquardt & Schlotter, 2015) und alternative Leistungsbewertung (Bohl & Grunder, 2008; Winter, 2015), welche ebenfalls Ansätze einer pädagogisch orientierten Diagnostik bzw. Leistungsbeurteilung darstellen. Auch liegen Befunde im Bereich der Lehr-Lern-Forschung zu Effekten formativen Assessments vor (Bürgermeister, 2014; Decristan et al., 2015; Rakoczy, Klieme, Bürgermeister & Harks, 2008; Smit, Bachmann, Blum, Birri & Hess, 2017). Insgesamt ist jedoch zu konstatieren, dass es sich bei formativem Assessment um einen Ansatz handelt, der im deutschsprachigen Raum noch wenig rezipiert wird. Im angloamerikanischen Raum ist formatives Assessment deutlich bekannter, dennoch ist auch hier nicht von einem einheitlichen Begriffsverständnis auszugehen. Vielmehr existieren zahlreiche Beschreibungen unterschiedlicher Maßnahmen, die je nach primärer Zielstellung und Bezugstheorie variieren (Bennett, 2011; Filsecker & Kerres, 2012). Ein zentrales Anliegen dieser Arbeit liegt daher in der theoretischen Bestimmung formativen Assessments einschließlich einer Abgrenzung zu anderen Formen von Assessment (Kapitel 1). Um zu einer substanziellen Darstellung des Ansatzes zu gelangen, werden die Bestimmungsmerkmale aus einschlägigen Publikationen zum formativen Assessment analysiert und zentrale Strategien und Praktiken herausgearbeitet. Darauf aufbauend wird ein theoretisches Modell formativen Assessments entworfen (Kapitel 2).

1

Im Folgenden wird zur besseren Lesbarkeit die deutsche Variante ‚formatives Assessment‘ verwendet.

1 Einleitung

3

Da der Mehrwert des Ansatzes insbesondere darin gesehen wird, dass er vorrangig Strategien umfasst, die sich in der Lehr-Lern-Forschung als effektiv auf die Schülerleistungen erwiesen haben, sollen im dritten Kapitel (Forschungsstand) unter anderem die Effekte formativen Assessments skizziert werden. Dabei wird deutlich, dass die von Black und Wiliam (1998b) propagierten großen Effekte (zwischen d = .4 und .7) aktuellen Meta-Analysen (Kingston & Nash, 2011) und Reviews (Bennett, 2011; Dunn & Mulvenon, 2009; Filsecker & Kerres, 2012; McMillan, 2013) nach deutlich geringer ausfallen als zunächst angenommen, aber dennoch praktisch bedeutsam sind. Weiterhin werden Studien zur aktuellen diagnostischen Praxis an Grundschulen sowie Einstellungen und Vorstellungen von Lehrkräften zu Assessment diskutiert, wobei festgestellt werden muss, dass über die aktuelle formative Praxis von Grundschullehrkräften in Deutschland nur wenig bekannt ist. Die diagnostische Praxis an Grundschulen scheint insgesamt relativ heterogen auszufallen (Inckemann, 2008; Racherbäumer, 2009; Solzbacher, 2012), wobei Methoden wie Kompetenzraster, Portfolios oder Lerntagebücher nur wenig verbreitet sind und auch lernförderliche Rückmeldungen eher selten gegeben werden (Bol, Stephenson, O'Connell & Nunnery, 1998; Smit & Engeli, 2017; Solzbacher, 2012). Entsprechend dieser noch nicht sehr umfangreichen Forschungslage besteht ein wesentliches Desiderat in der „Forschung zur Praxis des fördernden Beurteilens“ (Terhart, 2014, S. 900). Im vierten Kapitel wird der Frage nachgegangen, wie sich formatives Assessment als Aspekt professioneller Kompetenz von Grundschullehrkräften verorten lässt. Dabei wird herausgearbeitet, dass formatives Assessment insbesondere als Facette adaptiver Lehrkompetenz verstanden werden kann, wobei das Zusammenspiel zwischen diagnostischer und didaktischer Kompetenz im Fokus der Auseinandersetzung steht. Einige Studien deuten bereits darauf hin, dass Zusammenhänge zwischen einzelnen Assessment-Strategien und didaktischen Maßnahmen bestehen (Beck et al., 2008; Brühwiler, 2017; Schrader, 1997; Smit & Engeli, 2017), dennoch wird die Notwendigkeit weiterer Untersuchungen zur Klärung der Rolle von diagnostischen Aktivitäten für das adaptive Unterrichten betont (Smit & Engeli, 2017). Basierend auf Befunden aus der Professionsforschung werden mögliche Einflussfaktoren auf das Assessment-Handeln besprochen, wobei insbesondere das Professionswissen und die Überzeugungen der Lehrkräfte als zentrale Bedingungsvariablen diskutiert werden (Baumert & Kunter, 2006; Hartinger, Kleickmann & Hawelka, 2006; Hertel, 2014; Pauli, Reusser & Grob, 2007). Jedoch mangelt es an spezifischen Studien, die den Einsatz adaptiver Unterrichtsaspekte und deren Bedingungsfaktoren, insbesondere an Grundschulen, betrachten (Seidel,

4

1 Einleutng

Schwindt, Rimmele & Prenzel, 2008; Warwas, Hertel & Labuhn, 2011) und klären, unter welchen Bedingungen Verfahren formativer Leistungsdiagnostik genutzt werden (Maier, 2011a). Es ist deutlich geworden, dass die Entwicklung von Formen der Leistungsbeurteilung und Unterrichtsgestaltung, die zur besseren Adaption des Unterrichtsangebotes an die individuellen Lernvoraussetzungen der Schülerinnen und Schüler beitragen, ein zentrales grundschulpädagogisches Entwicklungs- und Forschungsfeld darstellt. Formatives Assessment wird hierfür aktuell als aussichtsreicher Ansatz diskutiert, allerdings ist wenig darüber bekannt, inwieweit Lehrkräfte die dafür notwendigen Strategien gegenwärtig in ihrem Unterricht realisieren. Ein weiteres Kernanliegen dieser Arbeit liegt deshalb darin, einen Einblick in die aktuelle Praxis an Grundschulen diesbezüglich zu erlangen. Darüber hinaus ist die Forschungslage zum Zusammenspiel zwischen Assessment-Handeln und didaktischem Handeln sowie mit anderen Bereichen professioneller Kompetenz von Grundschullehrkräften noch schwach und mitunter widersprüchlich, weshalb auch diesbezüglich der erziehungswissenschaftliche Kenntnisstand im Rahmen der empirischen Studie erweitert werden soll. Insgesamt lassen sich fünf Untersuchungsschwerpunkte festhalten (Kapitel 5): In der vorliegenden Arbeit soll die Assessment-Praxis an Grundschulen aus Sicht von Grundschullehrkräften untersucht und deskriptiv beschrieben werden. Da bislang kein Instrument vorliegt, welches die formative Assessment-Praxis an Grundschulen umfänglich erfasst, soll zunächst ein Fragebogen für Grundschullehrkräfte entwickelt werden. Die Operationalisierung der Konstrukte erfolgt theoriebasiert, in Orientierung an die im zweiten Kapitel beschriebenen Assessment-Strategien. Das theoretisch aufgestellte Modell formativen Assessments wird anhand der Daten der Erhebungsstichprobe empirisch mittels Strukturgleichungsanalysen überprüft (Modellprüfung), wobei auch untersucht wird, wie die einzelnen formativen Assessment-Strategien miteinander zusammenhängen. Weiterhin interessiert das Zusammenspiel zwischen Assessment-Handeln und Unterrichtsgestaltung, da eine zentrale Zielstellung formativen Assessments darin besteht, dass die diagnostischen Informationen pädagogisch genutzt werden. Deshalb soll der Frage nachgegangen werden, inwiefern der Einsatz formativer Assessment-Strategien einen Effekt auf die Tendenz der Lehrkräfte zur aufgabenbezogenen Differenzierung hat. Angesichts des widersprüchlichen Forschungsstandes zu Bedingungsfaktoren formativen Assessments soll in der vorliegenden Arbeit der Fokus auf den Einfluss der Lehrerüberzeugungen auf das formative Assessment-Handeln gerichtet werden. Es wird untersucht, inwiefern die konstruktivistischen Überzeugungen der

1 Einleitung

5

Lehrkräfte zum Lehren und Lernen sowie deren individuelle Bezugsnormorientierung mit dem selbstwahrgenommenen formativen Assessment-Handeln zusammenhängen. Auf den Aspekt des Professionswissens kann im Rahmen der empirischen Studie nicht eingegangen werden. Um die Befragungspopulation der Lehrkräfte näher charakterisieren zu können und deren Selbsteinschätzungen besser einordnen zu können, sollen in einem letzten Analyseschritt Assessment-Typen bzw. Gruppen formativen Assessment-Handelns identifiziert und beschrieben werden. Im sechsten Kapitel wird auf die methodischen und forschungstheoretischen Grundlagen eingegangen. Die vorliegende Untersuchung lässt sich im Kontext der Forschung zum Lehrerhandeln im Unterricht (Seidel, 2014) einordnen und folgt einem quantitativen Querschnittdesign mit einem deskriptiven Untersuchungsplan (Rost, 2013, S. 131; Döring & Bortz, 2016, S. 183). Es wurde eine schriftliche Fragebogenerhebung im Paper-Pencil-Format durchgeführt. Befragt wurden Grundschullehrkräfte in Sachsen (Fach Deutsch, dritte Klassenstufe), welche mittels eines Klumpenstichprobenverfahrens ausgewählt wurden (n = 338). Zur Auswertung werden sowohl deskriptivstatistische als auch inferenzstatistische Verfahren (Strukturgleichungsanalysen) angewendet, um die aufgeworfenen Fragestellungen adäquat beantworten zu können. Da in der vorliegenden Untersuchung eine Annäherung an das bislang kaum empirisch untersuchte Konstrukt formatives Assessment stattfindet, kann die Studie als explorative Studie gekennzeichnet werden (Döring & Bortz, 2016, S. 612). Die Studie verfolgt darüber hinaus aber auch das Ziel, aus der Theorie abgeleitete Hypothesen zu überprüfen, womit auch ein explanatives Erkenntnisinteresse besteht (Döring & Bortz, 2016, S. 192). Die Ergebnisse der Untersuchung werden im siebten Kapitel berichtet, wobei zunächst die Güteprüfung der Messmodelle und die deskriptiven Ergebnisse vorgestellt werden. Anschließend werden die Befunde der Strukturgleichungsanalysen beschrieben. Das achte Kapitel umfasst schließlich die Diskussion der zentralen Ergebnisse unter Bezug auf die aufgestellten Fragestellungen und Hypothesen. Es werden Besonderheiten und Grenzen der Studie aufgezeigt. Daraus werden Implikationen für Theorie und Praxis sowie Überlegungen zu weiterführenden Studien abgeleitet. Die vorliegende Arbeit soll einen Beitrag auf der Ebene der Theoriebildung im Diskurs um lernförderliche Diagnostik und Unterrichtsgestaltung leisten, indem der in Deutschland noch neue Ansatz des formativen Assessments theoretisch modelliert, empirisch geprüft und weiterentwickelt wird. Die Ergebnisse zur selbstwahrgenommenen Assessment-Praxis geben Einblick in das aktuelle Praxisfeld

6

1 Einleutng

und erweitern somit zum einen den Kenntnisstand der Forschung zum Lehrerhandeln bezüglich der Gestaltung lernförderlichen Unterrichts in der Grundschule und ermöglichen zum anderen die Ableitung zentraler assessmentbezogener Entwicklungsfelder der professionellen Kompetenz von Grundschullehrkräften. Die Analyse der Zusammenhänge zwischen Assessment-Strategien und Überzeugungen der Lehrkräfte soll zu einer Stärkung der empirischen Basis zu Determinanten professioneller Kompetenz von Lehrkräften beitragen. Darüber hinaus kann der entwickelte Fragebogen einen Ausgangspunkt für weitere Untersuchungen des formativen Assessment-Handelns von Lehrkräften darstellen.

2

Formatives Assessment – Begriffsannäherung und theoretische Einordnung

Der Begriff „formative Assessment“ (FA) wird im deutschsprachigen Raum erst seit einigen Jahren im Kontext der Schul- und Unterrichtsforschung gebraucht (Köller, 2005; Maier, 2010; Prengel et al., 2009). Wenngleich im angloamerikanischen Raum bereits seit den 1960er Jahren zwischen formativer und summativer Evaluation unterschieden wird (Scriven, 1967), ist die Konfusion um diese Termini nach wie vor groß (Dunn & Mulvenon, 2009; Filsecker & Kerres, 2012; Klauer, 2014) (Kapitel 1.1). Die begriffliche Unschärfe des Konzepts formatives Assessment ist unter anderem auf das Vorherrschen unterschiedlicher Paradigmen und der damit verbundenen lerntheoretischen Annahmen über Lernen, Leistungsbeurteilung und Unterricht zurückzuführen (Filsecker & Kerres, 2012), wobei insbesondere konstruktivistische, kognitivistische sowie interaktionistisch-soziokulturelle Lehr-Lern-Theorien relevante Bezugstheorien darstellen (Kapitel 1.2). Ansätze formativen Assessments wurden ursprünglich für die Grund- und Sekundarschule entwickelt, ohne dabei die spezifischen Anforderungen eines inklusiven Unterrichts zu berücksichtigen. Dennoch lässt sich formatives Assessment als Element einer inklusiven Diagnostik einordnen und vermag zu einer stärkeren Berücksichtigung der Grundprinzipien eines inklusionsorientierten Assessments beizutragen (Kapitel 1.3). 2.1

Begriffsklärung

Im Kontext aktueller Forschung und Entwicklung bezüglich der lernprozessbegleitenden Diagnostik und alternativen Leistungsbewertung findet zunehmend der aus dem angloamerikanischen Raum stammende Begriff Assessment Beachtung (Hasselhorn, Schneider & Trautwein, 2014; Maier, 2015; Prengel, 2016; Winter, 2015). Im pädagogischen Kontext wird unter Assessment (dt. Beurteilung, Einschätzung, Bewertung) „a wide range of methods for evaluating pupil performance and attainment including formal testing and examination, practical oral assessment, classroom based assessment carried out by teachers and portfolios…“ (Gipps, 1994, S. 7) verstanden. Im deutschsprachigen Kontext wird der Begriff Assessment ebenfalls so verwendet, dass er „alle möglichen Formen von Methoden und Verfahren […], mit denen systematische Informationen über die Entwicklung und das Lernen gesammelt werden“ (Geiling & Liebers, 2014, S. 529), einschließt. Damit besteht eine große inhaltliche Nähe zum üblicheren Terminus der pädagogischen bzw. pädagogisch-psychologischen Diagnostik, welche nach Ingenkamp und Lissmann „alle diagnostischen Tätigkeiten [umfasst], durch die bei einzelnen Lernenden und den in einer Gruppe Lernenden Voraussetzungen und © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0_2

8

2 Formatives Assessment – Begriffsannäherung und theoretische Einordnung

Bedingungen planmäßiger Lehr- und Lernprozesse ermittelt, Lernprozesse analysiert und Lernergebnisse festgestellt werden, um individuelles Lernen zu optimieren“ (Ingenkamp & Lissmann, 2008, S. 13). In Anbetracht der Begrenztheit einer objektivierenden pädagogisch-psychologischen Diagnostik im Sinne einer „Feststellung“ ermöglicht es die Verwendung des Begriffs Assessment, den Fokus stärker auf die subjektive Wahrnehmung und Interpretation der Lehrkraft zu legen (Speck, 2008, S. 381) und kann demnach eher als der Begriff Diagnostik als Deutung bzw. Einschätzung verstanden werden. 2.1.1

Begriffliche Abgrenzung

Folgt man dem Assessment-Begriff, lässt sich diesbezüglich zwischen „summative“ und „formative Assessment“ unterscheiden (Bloom, Hastings & Madaus, 1971; Sadler, 1989; Scriven, 1967). Summatives Assessment dient primär dem Zweck der Rechenschaftslegung, geknüpft an festgelegte Standards gegenüber Lehrkräften, Eltern, Schülerinnen und Schülern (Bildungsentscheidungen) sowie externen Beteiligten (Monitoring). Obwohl summatives Assessment bedeutsame pädagogische Konsequenzen für die Schülerinnen und Schüler haben kann, ist es als überwiegend passiv zu charakterisieren und hat normalerweise keinen direkten Einfluss auf das Lernen (Bell & Cowie, 2001; Harlen, 2007b; Sadler, 1989). Demgegenüber zielt formatives Assessment2 explizit auf die Optimierung des Lernprozesses bzw. auf die Förderung des Lernens ab (Black & Wiliam, 2009; Stiggins, 2005). Black und Wiliam (1998a, S. 82) betonen in ihrer Definition formativen Assessments die Bedeutung der Informationen über die Schülerleistungen für die Adaption des Unterrichts: „assessment becomes formative assessment when the evidence is actually used to adapt the teaching to meet students needs“ (Black & Wiliam, 1998a, S. 82). In einer späteren Publikation weist Wiliam (2010, S. 25) darauf hin, dass dies aber nicht bedeutet, dass geplante Unterrichtsschritte zwangsläufig verändert werden müssen. Vielmehr können pädagogische Entscheidungen auf Basis der diagnostischen Informationen fundierter getroffen und begründet werden: Assessment ist also formativ „to the extent that evidence about student achievement is elicited, interpreted, and used by teachers, learners and their peers, to make decisions about the next steps in instruction that are likely to be better or better founded, than the decisions they would have taken in the absence of the evidence that was elicited“ (Black & Wiliam, 2009, S. 6). Die pädagogische Nutzung der diagnostischen Information für die Unterrichtsgestaltung wird von Black und Wiliam als übergeordnete Zielstellung formativen Assessments betont (Wiliam, 2010), die alle Assessment-Handlungen miteinander

2

formative = dt. gestaltend.

2.1 Begriffsklärung

9

verbindet: „The ‚big idea‘ that ties all of this together is that evidence of student learning is used to adapt teaching and learning activities in order to meet students needs“ (Wiliam, 2007, S. 13). Auch Harlen (2007a), Bürgermeister, Klieme, Rakoczy, Harks und Blum (2014) sowie Maier (2015, S. 132) beschreiben den Aspekt der Verknüpfung von Leistungsbeurteilung und Unterricht bzw. die Ableitung von Konsequenzen für den weiteren Lehr-Lernprozess als Qualitätsmerkmal formativen Assessments. In ähnlicher Weise kennzeichnet Prengel (2014, 2016) formatives Assessment als „Didaktische Diagnostik“ und weist darauf hin, dass diese der Unterstützung kindlicher Lernaktivitäten durch angemessene didaktische Vorkehrungen im alltäglichen Unterricht dienen sollte. Obwohl also offenbar Konsens darüber besteht, „that formative assessment is not simply the elicitation of evidence but also includes making inferences from that evidence“ (Bennett, 2011, S. 16), findet dieser Aspekt der Nutzung diagnostischer Informationen in der Literatur zu formativem Assessment bislang zu wenig Berücksichtigung (Bennett, 2011). Die Unterscheidung zwischen formativem und summativem Assessment erfolgt demzufolge primär hinsichtlich der Funktion bzw. der Nutzung der diagnostischen Informationen. Auch der Zeitpunkt wird von einigen Autoren zur Differenzierung herangezogen, wonach summatives Assessment vorrangig am Ende einer Lerneinheit stattfindet, während formatives Assessment während des Lernprozesses erfolgt (Hattie, 2003; Ingenkamp & Lissmann, 2008; Prengel, 2016, S. 3; Schrader, 2014; Scriven, 1967). Eine Zuordnung anhand der verwendeten Methoden ist nur bedingt sinnvoll, da jedes diagnostische Verfahren je nach Kontext und Nutzung summative oder formative Aspekte aufweisen kann (Maier, 2015, S. 41). Formen der alternativen Leistungsbeurteilung wie Portfolios, Lerntagebücher und Bewertungsraster bieten zwar eher die Möglichkeit zur formativen Nutzung als klassische Formen der Leistungsmessung wie schriftliche Klausuren oder Tests, allerdings können auch Portfolios durch Benotung ihren formativ-lernprozessbegleitenden Charakter verlieren und die Ergebnisse eines standardisierten Testverfahrens wiederum formativ genutzt werden (Maier, 2015, S. 138). Summatives und formatives Assessment sollten nicht als sich gegenseitig ausschließende diagnostische Zugänge aufgefasst werden. Vielmehr stellen beide Formen im Rahmen eines ausbalancierten Assessment-Systems unterschiedliche Modi der Erkenntnisgewinnung dar, die je eine spezifische Funktion im Interesse der Lernenden und auch der Gesellschaft einnehmen können (Harlen, 2007b, S. 56; Jürgens & Lissmann, 2015; Schmidt & Liebers, 2017). Auch wenn die Differenzierung zwischen formativem und summativem Assessment hilfreich ist, um zu einem besseren Verständnis der unterschiedlichen Anforderungen und Funktionen schulischer Diagnostik zu gelangen, so muss dennoch auf die Begrenztheit dieser dichotomen Unterscheidung hingewiesen werden, da eine strikte Trennung

10

2 Formatives Assessment – Begriffsannäherung und theoretische Einordnung

der vielfach miteinander verwobenen diagnostischen Zielstellungen innerhalb eines komplexen Bildungssystems kaum möglich ist (Remesal, 2011). Die Diskussion um formatives Assessment weist eine große inhaltliche Nähe zum deutschsprachigen Diskurs um individuelle Lernbegleitung (Beutel & Beutel, 2014), Lernprozessbegleitung (Liebers et al., 2015) und alternative Leistungsbewertung auf (Bohl & Grunder, 2008; Winter, 2015). Die Ansätze sind mitunter ebenfalls definitorisch unscharf und werden zum Teil kontrovers diskutiert (vgl. u.a. Streitgespräch von Breidenstein, Carle, Heinzel, Lipowksy & Götz, 2015). Ebenso wie formatives Assessment zielen diese Ansätze unter anderem darauf ab, dass die gewonnenen diagnostischen Informationen pädagogisch genutzt werden, z.B. zur Schaffung adaptiver Lerngelegenheiten (Breidenstein et al., 2015) oder zur Beteiligung der Schülerinnen und Schüler an ihrem Lernprozess (Beutel & Beutel, 2014). Darüber hinaus wird ebenfalls die stärkere Integration der Diagnose in den Lernprozess betont (Winter, 2004). Auch zum sonderpädagogischen Ansatz der Förderdiagnostik (Bundschuh, 2007; Kobi, 1977) können Verbindungslinien hergestellt werden. Mit dem Konzept der Förderdiagnostik sollte, in Abgrenzung zur traditionellen Statusdiagnostik, der Fokus daraufgelegt werden, die diagnostischen Informationen nicht für Selektions- bzw. Platzierungsentscheidungen, sondern für die Ableitung von Fördermaßnahmen zu nutzen. Darüber hinaus wurde in Modellen zur Förderdiagnostik insbesondere die Prozesshaftigkeit des diagnostischen Vorgehens und deren Verbindung zur Förderung betont (Bundschuh, 2007; Kautter & Munz, 1974; Kornmann, 1983). In den letzten Jahren ist allerdings deutlich geworden, dass der Begriff Förderdiagnostik seinen hohen Anspruch nicht erfüllen konnte (Schlee, 1985) und mitunter auch für diagnostisches Handeln im Rahmen von Selektionsentscheidungen verwendet wird (z.B. Sächsisches Staatsministerium für Kultus, 2005). Dennoch stimmen grundlegende Gedanken der Verknüpfung von Diagnose und Förderung bzw. didaktischen Aktivitäten mit dem Ansatz formativen Assessments überein. Neuere Entwicklungen im Bereich der sonderpädagogischen Diagnostik fokussieren ebenfalls auf Formen der prozessbegleitenden Diagnostik, weshalb in Kapitel 1.3 vertiefend auf die inklusive Diagnostik und deren Gemeinsamkeiten mit formativem Assessment eingegangen werden soll. Weiterhin existieren seit geraumer Zeit Ansätze psychologisch-pädagogischer Diagnostik mit didaktischer Orientierung wie die strukturbezogene bzw. qualitative Diagnostik (Probst, 1979), die Lerndiagnostik (Schnotz, 1979) sowie die lernprozess- und handlungsorientierte Diagnostik (Bundschuh, 2007, S. 63). Bei der für formatives Assessment zentralen Zielstellung, diagnostische Informationen pädagogisch zu nutzen, handelt es sich also keineswegs um eine gänzlich neue diagnostische Sichtweise. Die Besonderheit besteht jedoch in der Verknüpfung dieser

2.1 Begriffsklärung

11

pädagogischen Zielstellung mit Erkenntnissen aus der Lehr-Lern-Forschung, die den Fokus auf den Einsatz evidenzbasierter Maßnahmen richtet. 2.1.2

Definitionsversuche

Das Konzept formatives Assessment geht insbesondere auf die Arbeiten von Black und Wiliam im Rahmen des „King’s-Medway-Oxfordshire Formative Assessment Project“ (KMOFAP) zurück (Black & Wiliam, 2005a). Black und Wiliam haben im Rahmen dieses Projektes neben praxisbezogenen Erkenntnissen einen bedeutsamen Beitrag zur Klärung der Begrifflichkeiten und theoretischen Rahmung formativen Assessments geleistet (Black & Wiliam, 2009; Wiliam, 2011). Neben dem Terminus formative Assessment existiert eine Reihe von verwandten Begrifflichkeiten, die überwiegend synonym verwendet werden, zum Teil aber eine leicht abweichende Schwerpunktsetzung haben, wie Assessment for Learning (Wiliam, 2009), formative (Leistungs-)Beurteilung (Bürgermeister, 2014; Smit, 2009b) und formative Leistungsdiagnostik (Klauer, 2014; Maier, 2014, 2015). Black und Wiliam (Black et al., 2002; 2002; Black & Wiliam, 2005b; Wiliam, 2009) betonen, dass der Terminus Assessment for Learning die Intention von Assessment meint, während formatives Assessment die konkrete Funktion beschreibt, die ein Assessment tatsächlich einnimmt: Assessment for learning is any assessment for which the first priority in its design and practice is to serve the purpose of promoting pupils‘ learning. It thus differs from assessment designed primarily to serve the purposes of accountability, or of ranking, or of certifying competence. An assessment activity can help learning if it provides information to be used as feedback, by teachers, and by their pupils, in assessing themselves and each other, to modify the teaching and learning activities in which they are engaged. Such assessment becomes ‚formative assessment‘ when the evidence is actually used to adapt the teaching work to meet learning needs. (Black et al., 2002, S. 0)

Für formatives Assessment ist es also zentral, pädagogische Entscheidungen aus den diagnostischen Informationen abzuleiten (Black & Wiliam, 2009, S. 6) und den Unterricht entsprechend an die Lernbedürfnisse der Schülerinnen und Schüler zu adaptieren: „What matters is how the information is used, not the purpose behind its collection“ (Wiliam, 2009, S. 3). Obwohl insbesondere Black und Wiliam (2009) in den letzten Jahren große Bemühungen gezeigt haben, den Begriff formatives Assessment zu definieren und theoretisch zu untermauern, gibt es nach wie vor große Konfusion um den Terminus, welcher von einigen Autoren als „unscharf“ kritisiert wird (Bennett, 2011; Dunn & Mulvenon, 2009). Die Unschärfe des Begriffs führte auch zum „Missbrauch“ beispielsweise durch die amerikanische Testindustrie, die vermehrt

12

2 Formatives Assessment – Begriffsannäherung und theoretische Einordnung

Benchmarking-Tests mit dem Label „formative“ versieht (Popham, 2008). Aus diesem Grund warnen Vertreter des formativen Assessments auch vor den Folgen eines mangelhaften bzw. reduktionistischen Verständnisses von formativem Assessment: [We] already risk losing the promise that formative assessment holds for teaching and learning. The core problem lies in the false, but nonetheless widespread, assumption that formative assessment is a particular kind of measurement instrument, rather than a process that is fundamental and indigenous to the practice of teaching and learning. This distinction is critical, not only for understanding how formative assessment functions, but also for realizing its promise for our students and our society. (Heritage, 2010, S. 1)

Zur Konkretisierung des Begriffs differenziert Wiliam (2009, 2010) zwischen long-cycle, medium-cycle und short-cycle formative Assessment. Zu long-cycle Assessment zählt laut Wiliam (2009) beispielsweise die Nutzung der Ergebnisse von jährlich stattfindenden nationalen Vergleichstests zur Ableitung von Fehlerschwerpunkten. Medium-cycle Assessment bezieht sich auf einen Zeitraum zwischen einer und vier Wochen. Allerdings beschreibt Wiliam beide Formen als wenig effektiv. Der größte Einfluss auf die Schülerleistung wird dem short-cycle Assessment (minute-to-minute, day-by-day) beigemessen: In other words, if students leave the classroom before teachers have used the information about their students‘ achievements to adjust their teaching, the teachers are already playing catch-up. If the teachers have not made adjustments by the time the students arrive the next day, it is probably too late. (Wiliam, 2009, S. 11)

Wiliam (2009) geht davon aus, dass diese Form formativen Assessments so effektiv ist, weil sie zu einem erhöhten Engagement auf Seiten der Schülerinnen und Schüler führt und die Unterrichtspraxis der Lehrkräfte verbessert, indem der Unterricht besser an die Bedürfnisse der Schülerinnen und Schüler angepasst wird. Auch hinsichtlich des Formalisierungsgrades kann formatives Assessment differenziert werden (Bell & Cowie, 2001; Ruiz-Primo & Furtak, 2007). Formelles formatives Assessment wird gewöhnlich von der Lehrkraft im Voraus geplant, wodurch präzisere Informationen gesammelt werden können. Typischerweise zählen dazu kurze Überprüfungen in einem bestimmten Lernbereich, aber auch Quizzes, Brainstorming und Ähnliches (Bell & Cowie, 2001), welche zu Beginn, in der Mitte oder am Ende einer Lerneinheit durchgeführt werden. Informelles formatives Assessment hingegen erfolgt spontaner und kann in jeder Lehrer-Schüler- und Schüler-Schüler-Interaktion stattfinden (Ruiz-Primo & Furtak, 2007). Dabei können mündliche (z.B. Fragen und Antworten der Schülerinnen und Schüler),

2.1 Begriffsklärung

13

schriftliche (z.B. Ergebnisse im Arbeitsheft), grafische (z.B. Zeichnungen, Concept Maps), praktische (z.B. Beobachtung bei der Durchführung eines Experiments) und nonverbale Informationen (z.B. Körpersprache) Quellen informellen Assessments darstellen (Ruiz-Primo, 2011). Bell und Cowie (2001) sowie RuizPrimo (2011) weisen auf die enge Verknüpfung mit dem weiteren Unterrichtsgeschehen und die kurze Zeitspanne informellen formativen Assessments hin: To complete an informal formative assessment cycle, the newly acquired information must be used to shape the immediate course of events within the given context. […] Relative to formal formative assessments, the timeframe for interpreting and using that evidence is rather limited […]. Therefore, often times, informal formative assessment activities go unrecorded. (Ruiz-Primo, 2011, S. 16)

Bezugnehmend auf Dunn und Mulvenons (2009) Kritik an der Unschäfe des Begriffs formatives Assessment haben Filsecker und Kerres (2012) Definitionen von Sadler (1989), Black und Wiliam (1998b), der OECD (2005), Heritage (2007) und anderen gegenübergestellt und kommen zu dem Ergebnis, dass formatives Assessment als “series of informed and informing actions that change the current state of the reciprocal teaching-learning relationship toward a more knowledgeable one” (Filsecker & Kerres, 2012, S. 4) verstanden werden kann. Das Vorherrschen unterschiedlicher Paradigmen (traditionelle Testkultur vs. neuere Assessment-Ansätze) mit unterschiedlichen Annahmen über Lernen, Assessment und Unterricht kann mitunter zu unterschiedlichen Konzeptualisierungen formativen Assessments führen, weshalb Filsecker und Kerres deutlich machen, “that there is no right or wrong definition of formative assessment” (2012, S. 7). Gemein haben die meisten Definitionen, dass sie unterrichtsimmanente Praktiken umfassen, die den Fokus auf das Was? und Wie? (Lernprozess) und weniger darauf, wie viel gelernt wurde, richten und der Unterricht kontinuierlich (“moment to moment”) an die Bedürfnisse der Schülerinnen und Schüler angepasst wird (Filsecker & Kerres, 2012). 2.1.3

Formatives Assessment als Prozess

Wie bereits bei der Unterscheidung zwischen long-, medium- und short-cycle Assessment angeklungen, kann formatives Assessment als fortwährend zyklischer Prozess beschrieben werden, in dem die Lehrkraft kontinuierlich die Leistungen der Schülerinnen und Schüler erfasst und Lernziele sowie Unterrichtsaktivitäten an den Lernstand der Schülerinnen und Schüler anpasst (Bürgermeister et al., 2014, S. 43). Die Aufgaben der Lehrkraft bestehen darin, zu erkennen, wo die Schülerinnen und Schüler in Relation zu den Lernzielen stehen, zu entscheiden, worin die passenden nächsten Lernschritte bestehen sowie darin, den Schülerinnen und Schülern dabei zu helfen, diese Schritte umzusetzen und die Schülerinnen und

14

2 Formatives Assessment – Begriffsannäherung und theoretische Einordnung

Schüler in all diese Prozesse einzubeziehen (Harlen, 2007b; Stiggins & Cappuis, 2005). Zur Abfolge der verschiedenen Assessment-Phasen liegen verschiedene Modelle vor (Bell & Cowie, 2001; Harlen, 2007b; Smit, 2009a). Der formative Assessment-Prozess beinhaltet laut Harlen (2007b) die Schritte Ziele, Diagnose, Interpretation bzw. Beurteilung und Adaption der Unterrichtsaktivitäten. Smit (2009b) konzeptualisiert den Förderkreislauf im Rahmen einer „formativen Beurteilung“ bestehend aus den Schritten 1) Ziele festlegen, 2) Beobachten, 3) Beurteilen und 4) Fördern. Bürgermeister et al. (2014) führen die Prozessorientierung ebenfalls als zentrales Merkmal formativer Leistungsbeurteilung an. Dabei verweisen sie auf den Prozesscharakter des diagnostischen Vorgehens, aber betonen darüber hinaus den Fokus, den formatives Assessment auf die Lernprozesse der Schülerinnen und Schüler legt: „Somit ist formative Leistungsbeurteilung prozessorientiert in einem doppelten Sinne: Sie ist als Prozess im Sinne des Förderkreislaufs konzipiert, und sie befasst sich nicht zuletzt mit den individuellen Lernprozessen der Schülerinnen und Schüler“ (Bürgermeister et al., 2014, S. 44). Die Berücksichtigung der Lern- und Kompetenzentwicklung ist ebenfalls für Heritage (2007) ein Kernmerkmal formativen Unterrichts und auch die OECD sieht die lernprozessbegleitende Diagnose als eine von sechs Kernelementen formativen Assessments an: „Establishment of learning goals, and tracking of individual student progress towards these goals” (2005, S. 46). Somit kann formatives Assessment durchaus auch als eine Variante von Lernprozessdiagnostik (Aufschnaiter et al., 2015) angesehen werden, allerdings wie bereits beschrieben, primär bezogen auf eine kurze Zeitspanne innerhalb einer oder mehrerer Unterrichtsstunden. 2.2

Lerntheoretische Verortung

In den vorangehenden Ausführungen ist deutlich geworden, dass formatives Assessment kein klar umrissenes theoretisches Konzept darstellt und vielfältige unterrichtliche Handlungen unter sich vereint. Dadurch erweist sich eine theoretische Verortung als herausfordernd, gleichermaßen aber auch als hilfreich, um zu einem tieferen Verständnis des Ansatzes zu gelangen. Als zentrale lerntheoretische Perspektive ist zunächst der Konstruktivismus anzuführen. Innerhalb konstruktivistischer Lerntheorien wird Lernen als Konstruktionsprozess verstanden, wobei der Lernende in Auseinandersetzung mit dem Gegenstand neues Wissen konstruiert (Bendorf, 2016; Vollmers, 1997). Konstruktivistische Lerntheorien betonen dabei zum einen die Aktivität des Lernenden (Vollmers, 1997), der den Lernstoff bei der Aufnahme umgestaltet, und zum anderen die Individualität des Lernenden (Imhof, Langfeldt, Preiser, Souvignier &

2.2 Lerntheoretische Verortung

15

Borsch, 2016), da man der Auffassung ist, dass Informationen vor dem Hintergrund eigener Dispositionen, Vorkenntnisse und Einschätzungen individuell unterschiedlich wahrgenommen und interpretiert werden (Mietzel, 2017). Mit diesem Lernverständnis korrespondieren Lehr- und Unterrichtskonzepte, die einen eher problem- und schülerzentrierten Ansatz verfolgen (Bendorf, 2016; Vollmers, 1997). Insbesondere die Orientierung an den Schülerinnen und Schülern sowie die Betonung unterschiedlicher Perspektiven stellen gemäß Pitsch die beiden wichtigsten Momente des Konstruktivismus dar, die bei der Unterrichtsgestaltung zum Tragen kommen sollten „und auch die Art der Diagnostik von Lernergebnissen und Lernprozessen zu bestimmen haben“ (2015, S. 522). Neben konstruktivistischen Theorien stellen auch kognitivistische Sichtweisen einen wichtigen Bezugspunkt für Strategien formativen Assessments dar. Diese Perspektive fokussiert auf kognitive Strukturen und Prozesse bei der Informationsverarbeitung zum Aufbau und zur Veränderung von Wissensstrukturen (Imhof et al., 2016). Relevanz haben in diesem Zusammenhang besonders die Soziokognitive Theorie nach Bandura (1986), welche Metakognition und Selbstwirksamkeit als zentral für die Entwicklung selbstregulierten Lernens beschreibt sowie Modelle zur Selbstregulation (Boekaerts, 1999; Schmitz, 2001). Herausgearbeitet wurde die Relevanz des selbstregulierten Lernens in Zusammenhang mit formativem Assessment bereits von Clark (2012, S. 215), der postuliert, dass formatives Assessment das Hauptziel selbstregulierten Lernens (SRL), „to equip students with the self-regulatory capabilities that enable them to educate themselves“, sowohl beinhaltet als auch fördert. Einen dritten Bezugspunkt stellen interaktionistische und soziokulturelle Perspektiven dar, wonach Lern- und Entwicklungsprozesse auf dem Austausch mit der Umwelt basieren und Lernen als sozialer Prozess verstanden wird, in dem soziale und kulturelle Kontexte zentral sind (Bendorf, 2016). Lernen kann aus diesem Verständnis heraus als „Prozess der subjektiven mentalen Konstruktion und Bedeutungsgebung [beschrieben werden], der in direkter Abhängigkeit von Erfahrungsmöglichkeiten und der Stimulation durch Erwachsene und andere Kinder steht“ (Krammer, 2017, S. 109). Die Tätigkeitstheorie, welche in der Tradition der kulturhistorischen Schule (u.a. Vygotsky, Lurija, Leontjew) steht, stellt hierfür eine wichtige Bezugstheorie dar. Lernen wird in der Tätigkeitstheorie als aktiver Prozess der Aneignung kollektiver bzw. gesellschaftlicher Erfahrungen verstanden, wobei die Kontextgebundenheit von Lernen und Handeln betont wird (Lompscher, 2004). Die Unterstützung, welche die Schülerinnen und Schüler im Austausch mit ‚signifikant anderen‘ erhalten, kann das Lernen der Schülerinnen und Schüler voranbringen (Vygotsky, 1978; Zimmerman & Pons, 1986). Wenn Lernen als ko-konstruktiver Prozess mit hoher Eigenaktivität verstanden wird, so besteht die Aufgabe der Lehrperson darin, „anregende Materialien und Angebote

16

2 Formatives Assessment – Begriffsannäherung und theoretische Einordnung

bereitzustellen, welche den Kindern wesentliche Erfahrungen ermöglichen, die Nutzung dieser Angebote zu begleiten, die Kinder individuell anzuleiten und sie aktiv zu unterstützen“ (Krammer, 2017, S. 109). Aus interaktionistisch-soziokultureller Perspektive steht also die Bedeutung von Kommunikation, Interaktion, Aushandlungsprozessen und situiertem Lernen im Vordergrund (Ballweg, 2015). Weiterhin stellen entwicklungspsychologische Theorien und Modelle eine wichtige wissenschaftliche Basis für das am Lernen orientierte formative Assessment dar, denn nur aus der Kenntnis verschiedenartiger, aufeinander aufbauender Entwicklungs- und Lernprozesse, wie sie unter anderem von Piaget, Vygotsky, Leontjew und Bruner erforscht und aufgezeigt wurden, lassen sich neue Lernschritte ableiten und finden (Bundschuh, 2007). Insbesondere das Konzept der „Zone der nächsten Entwicklung“ (Vygotsky, 1978), welches auf den Grundgedanken der Tätigkeitstheorie fußt, erscheint in diesem Zusammenhang bedeutsam (Black & Wiliam, 2009). Die „Zone der nächsten Entwicklung“ kann als Bereich zwischen dem aktuellen und potenziellen Entwicklungsstand angesehen werden, in dem die Probleme liegen, welche Kinder ohne Unterstützung noch nicht bewältigen können (Vygotsky, 1978). Das Durchqueren dieser Zone erfolgt in der Interaktion mit einer fähigeren Person (Krammer, 2017). Eine entwicklungsorientierte Diagnostik geht demnach (wie die entwicklungsorientierte Didaktik) davon aus, dass sich die Lernentwicklung aller Schülerinnen und Schüler in einer weitgehend ähnlichen Abfolge (Phasen, Stufen) vollzieht, wobei von einer natürlichen Variabilität der Entwicklung (Entwicklungsheterogenität) auszugehen ist (Heimlich & Wember, 2015). Von Zonen der nächsten Entwicklung kann auch bezüglich der inhaltlichen Gliederung der Aneignung und der Aneignungsschritte gesprochen werden. Dann bezieht sich die Zone der nächsten Entwicklung auf die Art und den Inhalt des Lerngegenstandes, den das Kind sich aneignen soll (Jegodtka, 2016, S. 95). Der Lernende und seine Konstruktionsleistung muss daher unter entwicklungsspezifisch allgemeinen, personspezifisch-differenziellen und gegenstandsspezifisch-konstruktiven prozessualen Aspekten betrachtet werden (Heimlich & Wember, 2015). Für eine am individuellen Lernprozess orientierte Diagnostik ergibt sich daraus die Notwendigkeit, entwicklungspsychologische und fachliche Kenntnisse zum Aufbau des entsprechenden Kompetenzbereichs einzubeziehen (Graf & Moser Opitz, 2007, S. 6). Die Annahmen der beschriebenen Bezugstheorien spiegeln sich in den einzelnen Assessment-Strategien (vgl. Kapitel 2) in unterschiedlichem Maße wieder. So werden konstruktivistische Annahmen insbesondere bei der Aktivierung der Schülerinnen und Schüler zur Verantwortungsübernahme für ihr Lernen sowie bei der Gestaltung lernförderlicher Unterrichtsgespräche deutlich. Eine Möglichkeit der Aktivierung der Schülerinnen und Schüler besteht in der Entwicklung selbstregu-

2.3 Einordnung im Kontext inklusiver Diagnostik

17

lativer Fähigkeiten, welche wiederum auf kognitivistischen Ansätzen zum selbstregulierten Lernen basieren. Die soziokulturelle Perspektive hingegen wird insbesondere bei Assessment-Strategien, die eine Interaktionen zwischen Lehrenden und Lernenden sowie zwischen den Lernenden untereinander verlangen und initiieren sichtbar (Black & Wiliam, 2009). Entwicklungspsychologische Vorstellungen wie die Theorie der Zone der nächsten Entwicklung spielen insbesondere für diagnostische Zugänge, die Lernprozesse und eine Lernentwicklung abbilden sollen und für die Auswahl diagnostischer Verfahren, die die individuelle Lernentwicklung abbilden, eine Rolle. Dabei werden sowohl entwicklungspsychologische und fachliche Aspekte zum Aufbau des entsprechenden Kompetenzbereichs in die Diagnose einbezogen. 2.3

Einordnung im Kontext inklusiver Diagnostik

Das Konzept des formativen Assessments wurde ursprünglich von Black und Wiliam (1998a) als Alternativvorschlag zu vorherrschenden Praktiken, die das Ziel verfolgen, Schülerleistungen zu steigern, in die pädagogische Diskussion eingebracht. Nationale Standards, landesweite Vergleichstests, internationale Survey-Studien sowie Maßnahmen zur Verbesserung von Schulplanung und -management sollen zwar allesamt dazu dienen, die Leistungen der Schülerinnen und Schüler zu steigern, hätten sich jedoch nur als bedingt effektiv erwiesen, da sie den zentralen Aspekt der Unterrichtsgestaltung übersehen (Black & Wiliam, 1998a): „A focus on standards and accountability that ignores the processes of teaching and learning in classrooms will not provide the direction that teachers need in their quest to improve” (Stigler & Hiebert, 1997). Basierend auf ihrem Literatur-Review argumentieren Black und Wiliam (1998b; 1998a), dass formatives Assessment eine äußerst effektive Maßnahme darstellt, die Schülerleistungen zu steigern. In Folgeprojekten entwickelte die ARG (Assessment Reform Group) um Black und Wiliam Fortbildungskonzepte (Black & Wiliam, 2005a) und in Zusammenarbeit mit Primar- und Sekundarstufenlehrkräften allgemeine sowie fachund stufenspezifische Materialien (Harrison & Howard, 2009; Marshall & Wiliam, 1990) und trugen so zu einer breiten Rezeption formativen Assessments im englischsprachigen Raum bei. Formatives Assessment wurde demnach ursprünglich für den Einsatz im Grundund Sekundarschulbereich entwickelt, ohne dass die Anforderungen eines inklusiven Unterrichts besondere Berücksichtigung fanden (Liebers & Seifert, 2012; Prengel et al., 2009; Schmidt & Liebers, 2017). Dennoch lässt sich eine hohe Passfähigkeit zwischen formativem Assessment und einer inklusiven Diagnostik, wie sie aktuell im Bereich der Sonderpädagogik aber auch in der Allgemeinen bzw. Grundschulpädagogik diskutiert wird (Amrhein & Ziemen, 2016; Prengel, 2016;

18

2 Formatives Assessment – Begriffsannäherung und theoretische Einordnung

Schäfer & Rittmeyer, 2015), feststellen (Liebers & Seifert, 2012; Prengel et al., 2009; Prengel, 2016; Schmidt & Liebers, 2017): Bezüglich der Ausgestaltung einer inklusiven Diagnostik liegen divergierende Vorstellungen vor. Grundsätzlich kann aber davon ausgegangen werden, dass inklusives Assessment auf „alle Schülerinnen und Schüler gerichtet [ist], um ihr Lernen, ihre Entwicklung und Teilhabe individuell so zu unterstützen, dass sie die für sie bestmöglichen Zugänge zu zentralen Kompetenzen und damit Befähigungen für ein eigenständiges Handeln in der Gesellschaft erwerben können“ (Schmidt & Liebers, 2017, S. 55). Dabei sollen lern- und entwicklungshemmende Momente im Unterricht, in den Peer-Beziehungen, in Schule, Familie und im weiterem Umfeld soweit wie möglich vermindert werden (Liebers & Seifert, 2012; Simon & Simon, 2013; Watkins, 2007). Im engeren Sinne soll inklusives Assessment auf der Mikro-Ebene des Unterrichts der Planung und Durchführung passfähiger Lernangebote dienen, um allen Schülerinnen und Schülern individuelle Lern- und Entwicklungsfortschritte in den jeweiligen Fach- und Entwicklungsbereichen zu ermöglichen (Liebers & Seifert, 2012; Schmidt & Liebers, 2017; Watkins, 2007). Unterscheiden lässt sich gegenwärtig zwischen eher sozial- und erkenntnistheoretisch fundierten Konzepten inklusiven Assessments, welche standardisierte Diagnostik, individuelle Curricula und Förderpläne als Distinktionsmittel einer ZweiGruppen-Pädagogik ablehnen (Hinz, 2013; Simon & Simon, 2013) sowie stärker lehr-lerntheoretisch begründeten Konzepten (Wember, 2013), bei denen curriculare Ziele in Interdependenz mit individuellen Entwicklungszielen als Richtlinie pädagogischen und diagnostischen Handelns im Unterricht angesehen werden (Schmidt & Liebers, 2017). Innerhalb dieser eher lehr-lerntheoretisch begründeten Konzepte wird formatives Assessment kaum berücksichtigt. Einen vielfach diskutierten Ansatz stellt das RTI-Konzept (Response-To-Intervention) dar, welches auf eine weitgehend nahtlose Verbindung von allgemein- und sonderpädagogischen diagnostischen Zugängen abzielt und dabei insbesondere den Aspekt der lernprozessbegleitenden Diagnostik betont (Huber & Grosche, 2012). Diese stellt auch aus Sicht der KMK die Grundlage für inklusive Bildungsprozesse dar: „Eine inklusive Unterrichtsgestaltung beruht auf einer den Lernprozess begleitenden pädagogischen Diagnostik und einer kontinuierlichen Dokumentation der Lernentwicklung“ (KMK, 2011, S. 10). Dennoch wird der Beitrag des RTI-Modells zur schulischen Diskussion kontrovers diskutiert, wobei die Perspektiven von einem willkommenen Paradigmenwechsel (Huber & Grosche, 2012) bis zur weitgehenden Ablehnung (Hinz, 2013) reichen (vertiefend dazu Limbach-Reich, 2015). Neben weiteren kritisch zu sehenden Aspekten werden aus inklusionspädagogischer Perspektive im RTI-Modell die Lernund Entwicklungsfortschritte aller Schülerinnen und Schüler zu wenig in den Blick genommen, weshalb Liebers und Seifert (2012) vorschlagen, das Modell auf

2.3 Einordnung im Kontext inklusiver Diagnostik

19

der ersten Stufe durch ein ‚Assessment for Learning‘ einschließlich formativen Assessments im Sinne einer lernprozessbegleitenden Analyse im Unterricht zu ergänzen. Dabei richtet sich der Blick auf alle Schülerinnen und Schüler, mit dem Ziel, pädagogisch-didaktisches Handeln und kindliches Lernen im alltäglichen Unterricht angemessen zu gestalten. Dies entspricht auch den Forderungen der European Agency for Development in Special Needs Education (EADSNE), wonach jedes Kind Anspruch auf Assessment hat und dieses von den Lehrkräften der allgemeinen Schule durchgeführt werden sollte (Watkins, 2007). Innerhalb des dreistufigen (erweiterten) RTI-Modells könnten sich summative und formative Assessment-Ansätze sinnvoll ergänzen, wenn sie die unterschiedlichen Perspektiven im Interesse des Kindes austarieren und so zu lern- und entwicklungsförderlichen Settings für alle Schülerinnen und Schüler führen (Liebers & Seifert, 2012). Auch Prengel (2016) sieht in formativem Assessment einen zentralen Bestandteil inklusiven Unterrichts. Dabei führt sie den Begriff der Didaktischen Diagnostik als „eine in die tägliche Lehrerarbeit eingelassene, auf der fachwissenschaftlichen, fachdidaktischen und pädagogischen Expertise der Lehrpersonen beruhende Aufmerksamkeit im Sinne eines ‚formativen Assessments‘“ (Prengel, 2016, S. 49) ein. Die inklusive Didaktische Diagnostik wird von ihr im alltäglichen Unterricht der heterogenen Lerngruppe verortet und zeichnet sich durch folgende Elemente aus: -

-

Ziel ist die differenzierte angemessene Gestaltung pädagogisch-didaktischen Handelns und kindlichen Lernens im alltäglichen Unterricht. In der Mikroperspektive werden individuelle Lernwege einzelner Kinder in den Blick genommen. Der Zeitraum für die didaktisch-diagnostischen Erhebungen ist die gesamte Unterrichtsphase […] Erkenntnis- und Handlungssubjekte sind beide, Lehrende und Lernende. Die Lehrerinnen und Lehrer verfügen über fachwissenschaftliche, fachdidaktische und pädagogisch professionelle Expertise, die sie in die Lage versetzt, die unterrichtlichen Mitteilungen und Produkte der Schüler zu analysieren. Auch Schülerinnen und Schüler sind Akteure der Leistungsanalyse, denn sie werden so weit wie möglich in die Lage versetzt, über ihre konkreten Lernziele Bescheid zu wissen und nach einer Lernphase zu erkennen, in wie weit sie ihre Ziele erreicht haben. Darum ist „Formative Assessment“ zugleich auch „Self-Assessment“ und „PeerAssessment“. Erkenntnisgegenstand sind die mündlichen, schriftlichen, ästhetischen oder enaktiven Mitteilungen und Produkte, die die Kinder in Schulfächern, Lernbereichen und fächerübergreifenden Vorhaben hervorbringen. Medien und Instrumente dieses Erkenntnis- und Handlungszusammenhangs sind Stufenmodelle und Lernmaterialien sowie Lernkontrakte, freie Texte, Ton- und Bilddokumente und Portfolios zu den obligatorischen und fakultativen Teilen des Curriculums […].

20

2 Formatives Assessment – Begriffsannäherung und theoretische Einordnung

-

Der Erkenntnisprozess der Beteiligten ist (immer wieder neu spiralförmig) dreischrittig, er beinhaltet die Beschreibung des aktuellen Lernstandes, des nächsten Lernziels im Horizont eines größeren Ziels sowie der Mittel und Wege, die zum nächsten Ziel führen. (Prengel, 2016, S. 54)

Keines der Elemente steht im Widerspruch zu Ansätzen formativen Assessments, vielmehr lässt sich eine große Übereinstimmung hinsichtlich des Ziels, der Perspektive, des Zeitraums, der Akteure, Gegenstände und Instrumente sowie des Erkenntnisprozesses konstatieren (vgl. Kapitel 1.1). In aktuellen Veröffentlichungen zum Thema inklusive Diagnostik zeigt sich, dass, auch infolge der unzureichenden Forschungslage, inklusive Diagnostik erst in Ansätzen beschrieben werden kann und keineswegs einheitliche Vorstellungen zur Ausgestaltung dieser vorliegen (Amrhein & Ziemen, 2016; Schäfer & Rittmeyer, 2015; Walm, Schultz, Häcker & Moser, 2017). Die European Agency for Development in Special Needs Education beschreibt ein inklusionsorientiertes Assessment folgendermaßen: Ein Assessment-Ansatz im Regelumfeld, bei dem Strategie und Praxis darauf ausgerichtet sind, das Lernen aller Schülerinnen und Schüler soweit wie möglich zu fördern. Dem inklusionsorientierten Assessment liegt das Ziel zugrunde, dass alle Assessmentstrategien und Verfahren die erfolgreiche Inklusion und Teilhabe aller Schülerinnen und Schüler fördern sollten, die der Gefahr einer Ausgrenzung ausgesetzt sind, einschließlich der Schüler mit sonderpädagogischem Förderbedarf. (Watkins, 2007, 51f.)

Gemäß dieser Definition zielt ein inklusionsorientiertes Assessment ebenso wie formatives Assessment auf die möglichst optimale Förderung aller Schülerinnen und Schüler ab. Es wird aber auch ersichtlich, dass der Aspekt der Teilhabe in Ansätzen inklusiven Assessments deutlich stärker betont wird als beim formativen Assessment. Formatives Assessment kann dementsprechend lediglich als eine Komponente eines inklusiven Assessments verstanden werden. Ungeachtet der jeweiligen Organisationsform inklusiver Diagnostik auf der Makro-Ebene kann formatives Assessment als allgemeinpädagogischer Zugang mit dem Ziel der Verbesserung von Lehr- und Lernprozessen auf der Mikro-Ebene eines inklusiven Assessment-Systems angesehen werden. „Der explizite Fokus auf die Mikro-Ebene des Unterrichts entkoppelt den Ansatz entsprechend auch von systemischen Fragestellungen, die die Gestaltung einer inklusiven Diagnostik im Allgemeinen betreffen. Innerhalb der inklusiven Diagnostik stellt formatives Assessment in jedem Falle eine bedeutsame Ergänzung zu summativen Strategien dar und vermag zu einer stärkeren Berücksichtigung der Grundprinzipien eines inklusionsorientierten Assessments beitragen“ (Schmidt & Liebers, 2017, S. 57). Neben dieser aussichtsreichen Verknüpfung formativen und inklusiven Assessments deutet sich aber

2.4 Zusammenfassung und Konsequenzen für die empirische Studie

21

auch an, dass formative Assessment-Strategien und Instrumente an diverse Bedürfnislagen z.B. von Kindern mit sonderpädagogischem Förderbedarf oder Migrationshintergrund angepasst und weiterentwickelt werden müssen, um diese auch tatsächlich für alle Schülerinnen und Schüler innerhalb der inklusiven (Grund)schule nutzbar und zugänglich machen zu können (Schmidt & Liebers, 2017). Bezüglich hierfür geeigneter Instrumente und Vorgehensweisen gibt es einen deutlichen Forschungs- und Entwicklungsbedarf (Elliott, Kettler, Beddow & Kurz, 2010; Prengel, 2016). 2.4

Zusammenfassung und Konsequenzen für die empirische Studie

Im ersten Kapitel wurde der Begriff formatives Assessment eingeführt und vom sogenannten summativen Assessment abgegrenzt. Diese beiden Grundformen pädagogischer Diagnostik unterscheiden sich insbesondere hinsichtlich der Nutzung der diagnostischen Informationen, wobei summatives Assessment primär zur Rechenschaftslegung verwendet wird, während formatives Assessment explizit zur Optimierung der Lehrprozesse und Förderung des Lernens genutzt wird (Black & Wiliam, 2009; Stiggins, 2005). Darüber hinaus findet formatives Assessment in erster Linie während des Lernprozesses statt, während summatives Assessment am Ende einer Lerneinheit erfolgt (Hattie, 2003; Ingenkamp & Lissmann, 2008; Prengel, 2016, 2016, S. 3; Schrader, 2014; Scriven, 1967). Eine Differenzierung zwischen formativem und summativem Assessment hinsichtlich der verwendeten Methoden und Instrumente erweist sich hingegen als problematisch, da jedes diagnostische Verfahren formativ oder summativ genutzt werden kann (Maier, 2015). Obwohl in den letzten Jahren, insbesondere von Black und Wiliam (2009; Wiliam, 2010), verstärkt Bemühungen zu verzeichnen sind, den Begriff formatives Assessment zu definieren und theoretisch zu untermauern, wird er nach wie vor von einigen Autoren als unscharf kritisiert (Bennett, 2011; Dunn & Mulvenon, 2009). Mögliche Differenzierungsdimensionen beziehen sich beispielsweise auf die Dauer der Rückmeldezyklen (long-, medium- und short-cycle) (Wiliam, 2009, 2010) oder den Formalisierungsgrad (formelles vs. informelles formatives Assessment) (Bell & Cowie, 2001). Grundsätzlich gemein haben die meisten Definitionen, dass sie unterrichtsimmanente Praktiken umfassen, die den Fokus auf den Lernprozess legen und dazu beitragen, den Unterricht kontinuierlich an die Bedürfnisse der Schülerinnen und Schüler anzupassen (Filsecker & Kerres, 2012). Formatives Assessment kann weiterhin als fortwährend zyklischer Prozess verstanden werden, bei dem sowohl die Lehrkraft als auch die Schülerinnen und Schüler kontinuierlich Informationen aus stattfindenden Unterrichtsaktivitäten nutzen, um nächste Lernschritte und -aktivitäten daraus abzuleiten (Harlen,

22

2 Formatives Assessment – Begriffsannäherung und theoretische Einordnung

2007b). Der Fokus der diagnostischen Bemühungen der Lehrkraft ist in erster Linie auf die individuellen Lernprozesse und die Lernentwicklung der Schülerinnen und Schüler gerichtet (Bürgermeister et al., 2014, S. 43). Formatives Assessment vereint demzufolge vielfältige unterrichtliche Handlungen und steht in enger Beziehung zur didaktischen Gestaltung von Lernangeboten. In der theoretischen Rahmung formativen Assessments spiegeln sich verschiedene lerntheoretische Bezugspunkte wieder. So spielen konstruktivistische Annahmen eine wichtige Rolle für die Berücksichtigung der aktiven Rolle der Lernenden innerhalb des Assessment-Prozesses, aber auch kognitivistische Ansätze zum selbstregulierten Lernen werden als theoretische Basis formativen Assessments angesehen (Clark, 2012). Die Betonung des sozialen Aspekts des Lernens speist sich aus interaktionistisch-soziokulturellen Ansätzen, die Lernen als ko-konstruktiven Prozess verstehen und damit die theoretische Basis für Strategien bilden, welche die Schülerinnen und Schüler zur Interaktion anregen. Entwicklungspsychologische Vorstellungen stellen die Grundlage für eine an der individuellen Lernentwicklung orientierte Analyse der Lernprozesse dar, wobei insbesondere dem Konzept der „Zone der nächsten Entwicklung“ (Vygotsky, 1978) eine zentrale Bedeutung zukommt. Obwohl formatives Assessment ursprünglich für den Einsatz im Regelschulbereich entwickelt wurde, ohne dass die Anforderungen eines inklusiven Unterrichts besondere Berücksichtigung fanden, lässt sich formatives Assessment in ein übergeordnetes Konzept einer inklusiven Diagnostik in der Grundschule einordnen. Es konnte gezeigt werden, dass der Ansatz des formativen Assessments und lehrlerntheoretisch begründete Konzepte inklusiven Assessments eine hohe Passfähigkeit bezüglich der Zielstellungen, Akteure und Verfahren aufweisen. Formatives Assessment lässt sich auf der Mikro-Ebene inklusiver Diagnostik als allgemeinpädagogischer Zugang mit dem Ziel der Verbesserung von Lehr- und Lernprozessen für alle Schülerinnen und Schüler verorten. Mit einer verstärkten Nutzung von Strategien formativen Assessments kann möglicherweise auch den Empfehlungen der KMK (2011) Rechnung getragen werden, inklusiven Unterricht basierend auf einer lernprozessbegleitenden pädagogischen Diagnostik und einer kontinuierlichen Dokumentation der Lernentwicklung zu gestalten. Konsequenzen für die vorliegende Arbeit Für die vorliegende Studie ergibt sich aus der begrifflichen und theoretischen Annäherung, dass eine empirische Erfassung von Praktiken formativen Assessments über möglichst konkrete unterrichtsbezogene Aktivitäten auf der Mikro-Ebene von Unterricht erfolgen sollte. Dabei gilt es, insbesondere die Nutzung der päda-

2.4 Zusammenfassung und Konsequenzen für die empirische Studie

23

gogischen Informationen für die Adaption des Unterrichts und der prozessorientierte Einsatz der von Black und Wiliam beschriebenen Assessment-Strategien als zentrale Momente formativen Assessments zu berücksichtigen. Da die Assessment-Strategien auf der Handlungsebene vielfältige Tätigkeiten umfassen, sollen diese im zweiten Kapitel konkretisiert werden. Weiterhin ist im Zuge der Begriffsbestimmung deutlich geworden, dass die verschiedenen Assessment-Strategien allesamt die Optimierung der Lernprozesse und der Förderung des Lernens als gemeinsame Zielstellung verfolgen und es sich dabei um unterrichtsimmanente Praktiken handelt, die den Fokus auf den Lernprozess legen und dazu beitragen sollen, den Unterricht kontinuierlich an die Bedürfnisse der Schülerinnen und Schüler anzupassen. Im empirischen Teil der Arbeit soll daher überprüft werden, ob sich diese gemeinsame Zielstellung empirisch in Form eines übergeordneten Faktors abbilden lässt. Dieser übergeordnete Faktor könnte als „formative Orientierung“ angesehen und als handlungsleitend für die Anwendung der Assessment-Strategien verstanden werden.

3

Strategien und Praktiken formativen Assessments

Es besteht weitgehend Konsens darüber, dass es sich bei formativem Assessment um unterrichtsimmanente Praktiken handelt, die den Fokus auf den Lernprozess legen und dazu beitragen sollen, den Unterricht kontinuierlich an die Bedürfnisse der Schülerinnen und Schüler anzupassen (Filsecker & Kerres, 2012). Dennoch existiert bislang noch keine einheitliche Vorstellung davon, welche konkreten Strategien und Praktiken formatives Assessment auf der Handlungsebene kennzeichnen und wie diese miteinander in Verbindung stehen. Eine Analyse vorliegender Arbeiten zu formativem Assessment und der darin berücksichtigten Assessment-Aktivitäten und Assessment-Strategien erscheint daher notwendig, um formatives Assessment differenzierter konzeptualisieren zu können. Im ersten Kapitel konnte bereits herausgearbeitet werden, dass die Prozessorientierung und die pädagogische Nutzung diagnostischer Informationen zentrale Charakteristika formativen Assessments darstellen. Die Analyse und Beschreibung weiterer Assessment-Strategien erfolgt ausgehend von Black und Wiliams (2009) Schlüsselstrategien formativen Assessments (Kapitel 2.1). Dabei wird der Frage nachgegangen, inwiefern diese auch in anderen zentralen Beschreibungen formativen Assessments der OECD (2005), der Assessment Reform Group (2002) sowie von Heritage (2007), Harlen (2007a), Smit (2009a), Bürgermeister et al. (2014), Maier (2015) und Prengel (2016) aufgegriffen werden. Ausgehend von dieser Analyse werden die Strategien um den Aspekt der Verwendung diagnostischer Methoden und Verfahren, die sich zur formativen Verwendung eignen, ergänzt (Kapitel 2.2). Hierbei handelt es sich um eine Strategie, die Black und Wiliam (2009) kaum berücksichtigen, die von anderen Autoren jedoch als relevanter Aspekt formativen Assessments angesehen wird (Heritage, 2007; OECD, 2005; Prengel et al., 2009; Prengel, 2016; Smit, 2009a). 3.1

Schlüsselstrategien formativen Assessments nach Black und Wiliam

Während Black und Wiliam in ihren früheren Arbeiten (Black, Harrison, Lee, Marshall & Wiliam, 2003; Wiliam, 2000) noch zwischen den fünf Hauptaktivitäten formativen Assessments sharing success criteria with learners, classroom questioning, comment only-marking, peer- and self-assessment und formative use of summative tests unterschieden, zeigte sich im Laufe ihrer Arbeit, dass diese Konzeptualisierung einer Revision bedarf, da es vielmehr allgemeine Orientierungen sind, welche die Unterrichtsaktivitäten beeinflussen und weniger einzelne Methoden (Marshall & Drummond, 2006). Im Gegensatz zur Orientierung an festen Stundenabläufen oder Aktivitäten können Lehrkräfte, die über ein Set von Strategien verfügen, diese flexibel im Unterrichtsgeschehen realisieren. Daher unterscheiden Black und Wiliam (2009, S. 8) in ihren späteren Arbeiten zwischen fünf © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0_3

26

3 Strategien und Praktiken formativen Assessments

Assessment-Strategien. Sie schlagen vor, sich dabei an drei Prozessen bzw. Leitfragen zu orientieren (Black & Wiliam, 2009; Hattie & Timperley, 2007; Ramaprasad, 1983; Wiliam, 2009, S. 11): 1)

Wo stehen die Lernenden? (aktueller Lernstand)

2)

Wohin soll es gehen? (Lernziel)

3)

Welche Schritte müssen getan werden, um das Ziel zu erreichen?

Der Definitionsversuch von Black und Wiliam basiert auf der Kreuzung dieser Prozessdimensionen mit den beteiligten Akteuren (Lehrkräfte, Lernende und Mitschülerinnen und Mitschüler). Wiliam (2009, S. 12) hat die daraus resultierenden neun Handlungsfelder zu folgenden fünf „Schlüsselstrategien“ zusammengefasst: Wohin soll es gehen?

Wo steht der Lernende aktuell?

Wie gelangt der Lernende dort hin? 3) Feedback geben, das die Lernenden voranbringt

Lehrende

1) Lernziele und Erfolgskriterien transparent machen

2) Organisation effektiver Unterrichtsgespräche, Aktivitäten und Aufgaben, die Lernen auslösen

Mitschülerinnen und Mitschüler

Verstehen und Kommunizieren der Lernziele und Erfolgskriterien

4) Aktivierung der Schülerinnen und Schüler als instruktionale Ressourcen füreinander

Lernende

Verstehen der Lernziele und Erfolgskriterien

5) Aktivierung der Schülerinnen und Schüler zur Übernahme von Verantwortung für ihren eigenen Lernfortschritt

Abbildung 1: Schlüsselstrategien formativen Assessments Anmerkung. Abbildung in Anlehnung an Black und Wiliam (2009, S. 8), eigene Übersetzung.

3.1 Schlüsselstrategien formativen Assessments nach Black und Wiliam

3.1.1

27

Lernziele und Erfolgskriterien festlegen und kommunizieren

Die erste Strategie formativen Assessments bezieht sich darauf, dass Lernziele und Erfolgskriterien festgelegt und so kommuniziert werden, dass die Schülerinnen und Schüler diese auch verstehen (Wiliam, 2010, S. 32). Ausgangspunkt des Unterrichts und somit auch des formativen Assessments bilden die Lernziele für die Stunde bzw. Unterrichtseinheit, die die Lehrkraft aus dem Lehrplan ableitet. Den Lehrenden, aber auch den Lernenden muss klar sein „Where the learner is going?“, weshalb es die Aufgabe der Lehrkraft ist, Lernziele zu bestimmen und diese den Schülerinnen und Schülern mitzuteilen oder im besten Falle gemeinsam mit ihnen zu erarbeiten (Wiliam, 2010, S. 33). Lernziele wirken dann leistungssteigernd, wenn sie bei den Schülerinnen und Schülern zu klaren Vorstellungen vom Erwarteten und damit zu zielgerichteten Handlungen führen (Hattie, 2014, S. 195). Hattie (2014, S. 196) weist darauf hin, dass für die Wirksamkeit der Lernziele nicht nur die Spezifität, sondern auch das Schwierigkeitsniveau entscheidend ist. Insbesondere für Schülerinnen und Schüler mit Förderbedarf erweisen sich anspruchsvolle Ziele als lernförderlich (Fuchs & Fuchs, 1986), wobei hier zusätzlich das Maß der erzeugten Selbstverpflichtung („commitment“) Einfluss auf die erbrachte Leistung hat. Dies impliziert die Notwendigkeit, individuelle Lernziele für die Schülerinnen und Schüler zu formulieren, da bei einer heterogenen Schülerschaft nicht davon ausgegangen werden kann, dass ein Ziel für alle Schülerinnen und Schüler gleichermaßen angemessen herausfordernd und damit lernförderlich ist. Die Adaption („tuning“) individueller Lernziele bzw. des Erwartungshorizonts stellt allerdings auch eine besondere Herausforderung für die Lehrkräfte dar (Black & Wiliam, 2009). Welche Lernziele formuliert werden und wer die Lernziele festlegt, ist innerhalb der Theorie formativen Assessments nicht festgelegt (Wiliam, 2010, S. 32). Es können sowohl fachliche, soziale als auch Ziele zur Entwicklung von Lernkompetenz aufgestellt und verfolgt werden. Die Lernziele können von der Lehrkraft festgelegt, zunehmend aber auch zwischen Lehrkraft und Schülerinnen und Schülern ausgehandelt werden (Wiliam, 2010, S. 32). Eine Möglichkeit, den Schülerinnen und Schülern eine Vorstellung davon zu vermitteln, worin das Lernziel besteht, ist es, ihnen Beispiele guter Arbeiten zu zeigen und daran Erfolgskriterien zu erörtern (Wiliam, 2007). Erfolgskriterien (bzw. Bewertungskriterien) dienen nach Hattie (2014, S. 202) dazu, den Schülerinnen und Schülern verständlich zu machen, nach welchen Kriterien ihre Arbeiten bewertet werden. Sie bieten den Schülerinnen und Schülern Orientierung bei der Beschäftigung mit einer Aufgabe, stellen den Rahmen dar, in dem formatives Assessment stattfindet und ermöglichen die Beurteilung und Interpretation der Lernergebnisse (Heritage, 2007, S. 144). Damit die Schülerinnen und Schüler die Erfolgskriterien für ihr (selbstreguliertes) Lernen nutzen können, sollten sie so klar und spezifisch wie möglich sein (Hattie, 2014, S. 202). Durch die transparente Kommunikation

28

3 Strategien und Praktiken formativen Assessments

der Lernziele und Erfolgskriterien kann die Lehrkraft Klarheit hinsichtlich der Zielstellung schaffen, die eine zentrale Rolle in der präaktionalen Phase des selbstregulierten Lernens (Schmitz, 2001) spielt. Aber auch in der aktionalen und postaktionalen Phase des selbstregulierten Lernens kommen die Lernziele zum Tragen, wobei es für die Steuerung des Lern- und Leistungsverhaltens für die Lernenden wichtig ist, „die der Beurteilung zugrundeliegenden Ziele zu kennen und zu lernen, diese gelegentlich zu überdenken und wenn nötig, anzupassen“ (Bürgermeister et al., 2014, S. 43). Nicht nur Black und Wiliam, sondern auch weitere Arbeiten zum formativen Assessment stellen die Bedeutung transparenter Lernziele und Beurteilungskriterien heraus. So wird von der OECD (2005, S. 46) „Establishment of learning goals, and tracking of individual student progress towards those goals” als Schlüsselelement formativen Assessments beschrieben. Bei Harlen (2007a, S. 119) stellt der Aspekt „Students understanding the goals of their work and having a grasp of what is good quality work.” eine Schlüsselkomponente formativen Assessments dar und auch in deutschsprachigen Veröffentlichungen wird diese Strategie überwiegend berücksichtigt. So beschreibt Maier (2015, S. 126) die Festlegung und Kommunikation von Lernzielen und Bewertungskriterien als Merkmal formativen Assessments und bei Smit (2009a) stellt die Festlegung von Zielen den Ausgangspunkt der formativen Beurteilung dar. Bürgermeister et al. weisen ebenfalls auf die Bedeutung der Lernziele im Assessment-Prozess hin und fassen prägnant zusammen, wie diese gestaltet werden sollten: „Die Ziele sollten [...] explizit, transparent, klar formuliert und in einem angemessenen Maß herausfordernd sein, sowie im Unterrichtsverlauf konsequent verfolgt werden“ (2014, S. 43). 3.1.2

Kognitiv aktivierende Unterrichtsgespräche etablieren

Die zweite von Black und Wiliam (2009) angeführte formative Assessment-Strategie „Engineering effective classroom discussions and other learning tasks that elicit3 evidence of student understanding“ bezieht sich auf die Gestaltung von Gesprächen und Aufgaben, die Lernprozesse bei den Schülerinnen und Schülern anregen und ihre Vorstellungen und Konzepte sichtbar machen. Black und Wiliam (2009) legen dabei den Fokus auf das Unterrichtsgespräch als Gelegenheit, Lernen hervorzurufen. Auch Harlen sieht dieses als Schlüsselkomponente formativen Assessments an und nennt „Students engaged in expressing and communicating their understandings and skills, initiated by teachers‘ open and person-centered questions” sowie „Dialogue between teacher and students that encourages reflection on their learning” (2007a, S. 119) als Merkmale formative Assessments. In 3

dt. hervorrufen, auslösen

3.1 Schlüsselstrategien formativen Assessments nach Black und Wiliam

29

anderen Konzeptualisierungen wird das Unterrichtsgespräch nicht explizit als formative Assessment-Strategie hervorgehoben (Assessment Reform Group, 2002; Heritage, 2007; Maier, 2015; OECD, 2005; Smit, 2009a). Black und Wiliam (2009, S. 19) führen das Lehrkonzept der „cognitive acceleration“ (CA), welches auf die Arbeiten von Vygotsky und Piaget aufbaut (Finau, Treagust, Won & Chandrasegaran, 2018), als Ansatz eines formativen Unterrichtsgesprächs an. Lernen wird hier besonders durch das Erzeugen kognitiver Konflikte und das sogenannte „bridging“ gefördert, wobei der Lerntransfer angeregt wird, indem die Schülerinnen und Schüler angeleitet werden, darüber nachzudenken, in welchen anderen Kontexten sie die genutzten Denkoperationen (z.B. Seriation, Klassifikation) noch anwenden können (Black & Wiliam, 2009). Ein weiteres Kernmerkmal dieses Konzepts ist das Lernen durch den Dialog mit anderen, was durch die Lehrkraft durch Diskussionsimpulse und Gesprächsstrategien im Rahmen des Unterrichtsgesprächs unterstützt werden kann (Finau et al., 2018). Gemäß Black und Wiliam (2009, S. 10) sollte der Ausgangshinweis bzw. die Ausgangsfrage eines Unterrichtsgesprächs so angelegt sein, dass er bzw. sie die Schülerinnen und Schüler zum Nachdenken anregt, die Schülerinnen und Schüler aktiv einbezieht und wenig vorhersehbar ist. Zentral sind Verständnisfragen, die Einsicht in die Konzepte und Vorstellungen der Schülerinnen und Schüler ermöglichen. Entsprechend häufig sollten demnach auch Fragen auf höheren Ebenen der Taxonomie der Lernziele nach Bloom (1976) gestellt werden und nicht nur Fragen, die eine Wissensreproduktion erfordern (Ruiz-Primo, 2011). Fragen auf der Verstehens-Ebene beinhalten z.B. die Aufforderungen „Begründe, Erkläre, Vergleiche, Übertrage“ und rufen längere Antworten von den Schülerinnen und Schülern hervor (Kobarg, Prenzel & Schwindt, 2009; Ruiz-Primo, 2011). Damit weisen die Beschreibungen eines formativen Unterrichtsgesprächs eine deutliche inhaltliche Nähe zum Ansatz der kognitiven Aktivierung auf, welche als Basisdimension von Unterrichtsqualität gilt (Fauth, Decristan, Rieser, Klieme & Büttner, 2014). Nach Hugener, Pauli und Reusser (2007) ist Unterricht dann kognitiv aktivierend, wenn die Lehrperson mit Aufgaben das Denken der Lernenden auf einem hohen kognitiven Niveau anregt, am Vorwissen anknüpft und dieses aktiviert und wenn sie die Schülerinnen und Schüler eigene Ideen, Konzepte und Lösungen erklären lässt. Das Frageverhalten der Lehrkraft spielt in diesem Zusammenhang eine wichtige Rolle, da davon ausgegangen wird, dass Fragen mit hohem kognitiven Anspruch das Niveau der Informationsverarbeitung und somit auch die Schülerleistung positiv beeinflussen (Lotz, 2016; Lotz & Lipowsky, 2015). Auch Pinger, Rakoczy, Besser und Klieme weisen auf die enge Verbindung von formativem Assessment und kognitiver Aktivierung hin: „Assessment tasks can be challeng-

30

3 Strategien und Praktiken formativen Assessments

ing, activate students’ prior knowledge and engage students in constructive learning processes and therefore make a contribution to cognitively-activating instruction” (2017, S. 117). Dementsprechend kann festgehalten werden, dass die Strategie „Engineering effective classroom discussions and other learning tasks that elicit evidence of student understanding“ primär an das Konzept der kognitiven Aktivierung anschlussfähig ist. Weitere Faktoren, die für lernförderliche Unterrichtsgespräche eine Rolle spielen, sind die Orientierung an Lernzielen (Ruiz-Primo, 2011) und die Erzeugung von Partizipation zwischen den Schülerinnen und Schülern (de Boer, 2015; Ruiz-Primo, 2011). Auch offene bzw. Deep-Reasoning-Fragen, das Zulassen von Pausen und Wartezeiten sowie das Zurückhalten von Bewertungen gelten als hilfreich für die Etablierung lernförderlicher Gespräche (de Boer, 2015). Auf der inhaltlichen Ebene sollten verstärkt Reflexionsgespräche über das eigene Lernen angeregt werden (Black & Wiliam, 2009), um die Lernprozesse der Schülerinnen und Schüler zu unterstützen. 3.1.3

Aktivierung zur Verantwortungsübernahme für das Lernen

Die „Aktivierung der Schülerinnen und Schüler zur Übernahme von Verantwortung für ihren Lernprozess“ wird nicht nur von Black und Wiliam (2009) als zentrale formative Assessment-Strategie angesehen, sondern spielt in nahezu allen Arbeiten zum formativen Assessment eine Rolle. Die Strategie, Schülerinnen und Schüler dabei zu unterstützen, Verantwortung für ihr Lernen zu übernehmen, fußt insbesondere auf den theoretischen Annahmen zum Selbstregulierten Lernen (SRL), aber auch zu Motivation (Ryan & Deci, 2000), Interesse (Hidi & Harackiewicz, 2000) und Attribution (Black & Wiliam, 2009; Dweck, 2000). Insbesondere das Konzept des Selbstregulierten Lernens kann als hoch relevant für formatives Assessment angesehen werden (Wiliam, 2010, S. 34), da angenommen wird, dass Strategien des Selbstregulierten Lernens (Boekaerts, 1999; Zimmerman, 2000) dazu beitragen können, dass die Schülerinnen und Schüler Verantwortung für das eigene Lernen übernehmen (Andrade, 2010; Clark, 2012). Andrade (2010) postuliert, dass effektive selbstregulierte Lernende sich ähnliche Leitfragen (Wohin gehe ich?, Wie komme ich voran?, Wohin geht es danach?) stellen wie sie für formatives Assessment gelten, vielfältige lernförderliche Strategien nutzen und regelmäßig Self-Assessments vornehmen. Die aktive Steuerung des Lernprozesses kann über den Einsatz von Lernstrategien erreicht werden, wobei die Schülerinnen und Schüler gezielt didaktisch-methodisch unterstützt werden müssen. Unterschieden werden kann diesbezüglich zwischen einer direkten Förderung, bei der die Anwendung von Lernstrategien explizit zum Unterrichtsgegenstand gemacht werden, und einer indirekten Förderung,

3.1 Schlüsselstrategien formativen Assessments nach Black und Wiliam

31

bei der die Lernumgebung so gestaltet wird, dass sie die Anwendung bestimmter Lernstrategien anregt (Artelt, 2006; Brunstein & Spörer, 2010). Insbesondere die Selbst- und Peer-Beurteilung (Self- und Peer-Assessment) wird als Möglichkeit der Förderung der Verantwortungsübernahme für den eigenen Lernprozess im Rahmen von formativem Assessment diskutiert (Assessment Reform Group, 2002; Black et al., 2002; Black & Wiliam, 2010; Bürgermeister et al., 2014; Clark, 2012; Harlen, 2007a; Harrison & Howard, 2009; Heritage, 2007; Maier, 2015; Prengel et al., 2009; Smit, 2009a). Self-Assessment ist nach Andrade "a process of formative assessment during which students reflect on the quality of their work, judge the degree to which it reflects explicitly stated goals or criteria, and revise their work accordingly" (2010, S. 92). Die Schülerinnen und Schüler schätzen beim Self-Assessment die Qualität ihrer Arbeiten ein, wobei sie sich an den vorgegebenen Erfolgskriterien orientieren, und überarbeiten die Aufgaben entsprechend bzw. nehmen Strategieanpassungen vor. Beim Self-Assessment werden die Schülerinnen und Schüler selbst diagnostisch tätig und können herausfinden was notwendig ist, um sich zu verbessern: „Students being involved in selfassessment so that they take part in identifying what they need to do to improve or move forward“ (Harlen, 2007a, S. 119). Dabei entwickeln sie ihre selbstregulatorischen Fähigkeiten weiter (Assessment Reform Group, 2002; Clark, 2012; Heritage, 2007): „Independent learners have the ability to seek out and gain new skills, new knowledge and new understandings. They are able to engage in self-reflection and to identify the next steps in their learning. Teachers should equip learners with the desire and the capacity to take charge of their learning through developing the skills of self-assessment“ (Assessment Reform Group, 2002, S. 2). Darüber hinaus kann durch den Einsatz von Self-Assessments auch ein höheres Commitment gegenüber den Lernzielen gefördert werden (Assessment Reform Group, 2002). Peer-Assessments, die gegenseitige Beurteilung der Schülerinnen und Schüler untereinander, können als wichtige Ergänzung zu Self-Assessments angesehen werden, da die Schülerinnen und Schüler möglicherweise Kritik und Hinweise voneinander eher akzeptieren und ernst nehmen als die von der Lehrkraft (Andrade, 2010; Black et al., 2002, S. 10). Weiterhin kann Peer-Assessment dazu beitragen, den Mitschülerinnen und Mitschülern Feedback zu geben, welches sie zur Selbstreflexion anregt und zu Anpassungen im Lernprozess führen kann (Topping, 2010). Da die Schülerinnen und Schüler beim Peer-Assessment auch die Rolle des Lehrenden einnehmen und ihren Mitschülerinnen und Mitschülern Hinweise und Rückmeldungen zum Lernen geben, werden sie dabei auch als instruktionale Ressourcen füreinander aktiviert.

32

3.1.4

3 Strategien und Praktiken formativen Assessments

Aktivierung als instruktionale Ressourcen füreinander

Im Gegensatz zur Aktivierung der Schülerinnen und Schüler zur Verantwortungsübernahme für ihren Lernprozess scheint die Aktivierung der Schülerinnen und Schüler als instruktionale Ressourcen füreinander in der Forschungsliteratur eine eher nachgeordnete Rolle zu spielen. Außer in den Veröffentlichungen von Black und Wiliam (2009; Wiliam, 2010) greifen nur wenige Autoren diese Facette formativen Assessments auf. Maier (2015) führt „Selbstreguliertes Lernen und kooperatives Lernen stärken“ als Kernmerkmal formativen Assessments an und beschreibt dabei das kooperative Lernen als Möglichkeit, Schülerinnen und Schüler als instruktionale Ressourcen füreinander zu aktivieren. In anderen Publikationen wird eher allgemein die Bedeutung des aktiven Einbezugs der Schülerinnen und Schüler in den Lernprozess betont (Heritage, 2007; OECD, 2005). Die Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander kombiniert verschiedene Assessment-Strategien miteinander bzw. wird mittels anderer Strategien erreicht (Wiliam, 2010, S. 36). Um die Arbeiten anderer Schülerinnen und Schüler beurteilen zu können, müssen die Schülerinnen und Schüler die Lernziele und Erfolgskriterien internalisiert haben. Beim Peer-Tutoring und anderen Formen kooperativen Lernens nehmen die Schülerinnen und Schüler die Rolle des Lehrenden ein und erfassen dementsprechend Lernstände und geben Feedback. Entsprechend weist Wiliam darauf hin, dass die Grenzen zwischen den Strategien unscharf sind: „Indeed, the boundaries between the strategies frequently become blurred“ (2010, S. 36). Gemäß Black und Wiliam (2009, S. 9) steht das Prinzip der Aktivierung als instruktionale Ressource füreinander in enger Verbindung zu Theorien zum kooperativen Lernen (Slavin, Hurley & Chamberlain, 2003) sowie zum reziproken Lehren und Lernen (Brown & Campione, 1996), welche wiederum auf sozio-kulturellen Ansätzen (Vygotsky, 1978) und sozialpsychologischen Grundlagen beruhen (Topping, 2005). Ziele des kooperativen Lernens bestehen in der Verbesserung der Effizienz inhaltlichen Lernens, dem Aufbau transferfähiger Lernstrategien, der Verbesserung der Beziehungen innerhalb der Lerngruppe, der Erhöhung der intrinsischen Motivation sowie der Stärkung des Selbstwertgefühls der Schülerinnen und Schüler (Bochmann & Kirchmann, 2006, S. 17). Als handlungsleitende Bedingungen für alle kooperativen Lernmethoden können die positive Abhängigkeit, die individuelle Verantwortlichkeit, die partnerbezogene Kommunikation, soziale Kompetenzen und die Prozessevaluation angesehen werden (Bochmann & Kirchmann, 2006; Büttner, Warwas & Adl-Amini, 2012). Neben diesen Bedingungen ist die methodische Struktur ‚Denken – Austauschen – Vorstellen‘ kennzeichnend für kooperative Lernformen (Ewald & Huber, 2017). In den letzten vier Jahrzehnten

3.1 Schlüsselstrategien formativen Assessments nach Black und Wiliam

33

wurden verschiedene Ansätze zum kooperativen Lernen entwickelt (z.B. der Learning-Together-Ansatz, das Gruppenpuzzle oder die Gruppenrecherche), wobei die Aufgabenstellungen, Lernprinzipien und Vorgehensweisen unterschiedlich akzentuiert werden (Büttner, Decristan & Adl-Amini, 2015, S. 210). Auch der Aspekt der gegenseitigen Vermittlung von Inhalten wird in den Konzepten unterschiedlich stark berücksichtigt. Das Gruppenpuzzle (Johnson & Johnson, 1998) enthält beispielsweise explizit eine Vermittlungsphase, in der die Schülerinnen und Schüler die Rolle von Experten einnehmen, deren Aufgabe es ist, ihr Wissen an die Mitschülerinnen und Mitschüler ihrer Gruppe (Novizen) weiter zu vermitteln. In dieser Phase werden die Schülerinnen und Schüler explizit als instruktionale Ressource füreinander aktiviert. Der Ansatz des reziproken Lehrens und Lernens geht auf das ReciprocalTeaching-Programm von Brown und Palincsar zurück, welches Anfang der 1980er Jahre zur Verbesserung des Textverständnisses entwickelt wurde (Brown & Palincsar, 1982; Palinscar & Brown, 2009). Dabei handelt es sich um ein strukturiertes Unterrichtsgespräch, in dem sich die Schülerinnen und Schüler in der ‚Lehrerrolle‘ abwechseln, um mit den Mitschülerinnen und Mitschülern in Kleingruppen einen Textabschnitt mithilfe von Strategien des Textverstehens zu bearbeiten. Die Strategieanwendung wird zunächst von der Lehrkraft vorgemacht (ModellLernen), zunehmend wird die Verantwortung der Strategieanwendung an die Lernenden abgegeben, wobei sie weiterhin Rückmeldungen zur Strategieanwendung erhalten (Scaffolding) (Aeschbacher, 1989; Brown & Palincsar, 1982; MunserKiefer, 2014). Beim reziproken Lehren und Lernen handelt es sich um eine hochstrukturierte und evaluierte Methode, die sich allerdings nicht ohne weiteres im regulären Unterricht realisieren lässt. Jedoch wurde in den Studien zu diesen Programmen deutlich, dass die Schülerinnen und Schüler in der Rolle des Tutors insbesondere durch die intensive aktive Auseinandersetzung mit dem Lerngegenstand und durch das Erklären von Sachverhalten (Büttner et al., 2012) profitieren. Damit sind sie als instruktionale Ressource füreinander aktiv und können gleichzeitig ihre eigenen Fähigkeiten zur Selbstregulation verbessern (Wiliam, 2010). Durch die Schaffung von Lerngelegenheiten, bei denen die Schülerinnen und Schüler selbst die Rolle des Lehrenden einnehmen können, kann demzufolge das Lernen der Schülerinnen und Schüler formativ unterstützt werden. 3.1.5

Lernförderliches Feedback

Feedback ist der wohl prominenteste Aspekt formativen Assessments und wurde entsprechend in den letzten Jahren auch in deutschen Studien vermehrt untersucht (Ditton, 2014; Harks, Rakoczy, Hattie, Besser & Klieme, 2013; Huber, 2013; Klieme et al., 2010). Black und Wiliam (2009) sehen „feedback, that moves

34

3 Strategien und Praktiken formativen Assessments

learners forward“ als Schlüsselstrategie formativen Assessments an und auch in den Veröffentlichungen der Assessment Reform Group (2002) und der OECD (2005) sowie von Bürgermeister et al. (2014), Harlen (2007a), Heritage (2007), Maier (2015) und Smit (2009a) wird Feedback, das die Schülerinnen und Schüler beim Lernen unterstützt als zentrales Element im formativen Assessment-Prozess angesehen. Es soll der Reduktion der Diskrepanz zwischen der aktuellen Leistung und den intendierten Zielen dienen (Hattie, 2014, S. 209), wobei laut Clark (2012, S. 210) das übergeordnete Ziel formativen Feedbacks darin bestehen sollte, die Schülerinnen und Schüler hinsichtlich ihrer metakognitiven Strategien (z.B. persönliche Zielplanung, Monitoring, Reflexion) zu unterstützen, welche wiederum das selbstregulierte Lernen fördern. Hattie und Timperley definieren Feedback zunächst als „information provided by an agent (e.g. teacher, peer, book, parent, self, experience) regarding aspects of one’s performance or understanding“ (2007, S. 81). Die formative Intention von Feedback wird bei Ramaprasad deutlich, der Feedback als „information about the gap between the actual level and the reference level of a system parameter which is used to alter the gap in some way“ (1983, S. 4) definiert. Es handelt sich beim formativen Feedback also um eine Rückmeldung bezüglich einer erbrachten Leistung, die dazu benutzt wird, die Diskrepanz zwischen dem aktuellen und dem angestrebten Lernstand zu überwinden. Hinsichtlich der Gestaltung lernförderlichen Feedbacks ist insbesondere die Berücksichtigung spezifischer Feedback-Fragen sowie Feedback-Ebenen relevant. Einige Autoren unterscheiden darüber hinaus noch zwischen Zeithorizonten (synchron/asynchron, lang-, mittel- kurzfristig), Feedbackquellen (Lehrkraft, Mitschülerinnen und Mitschüler), Präsentationsform (mündlich, schriftlich, computergestützt) und unterschiedlichen Zielstellungen (Hattie & Wollenschläger, 2014, S. 135). Den Schülerinnen und Schülern Feedback zu den Lernzielen, dem eigenen Lernstand in Bezug zu den Lernzielen sowie zu Strategien zur Erreichung dieser zu geben, gilt als eines der zentralen Ziele formativen Assessments (Andrade, 2010). Orientieren sollte sich effektives Feedback, wie formatives Assessment generell, deshalb an den Leitfragen ‚Wohin gehst du?‘, ‚Wie kommst du voran?‘ und ‚Wohin geht es danach?‘ (Hattie & Timperley, 2007, S. 86). Mit der Frage ‚Wohin gehst du?‘ soll der Fokus auf die Lernziele und Erfolgskriterien gerichtet werden, die es zu erreichen gilt. Diese Orientierung, die z.B. bereits zu Beginn einer Unterrichtsstunde gegeben wurde, kann im Rahmen einer Rückmeldung erneut formuliert werden. Zumindest sollte sich das Feedback aber indirekt auf das vereinbarte Lernziel und nicht auf andere Aspekte beziehen (Hattie & Timperley, 2007, S. 89). Diese Feedback-Frage steht in enger Verknüpfung mit der Assessment-Strategie der transparenten Kommunikation von Lernzielen und Erfolgskriterien (Stiggins, 2010, S. 240).

3.1 Schlüsselstrategien formativen Assessments nach Black und Wiliam

35

Zur Beantwortung der Frage ‚Wie kommst du voran?‘ gibt die Lehrkraft eine Einschätzung bezüglich des Lernstandes der Schülerin bzw. des Schülers in Relation zum Lernziel (kriteriale Bezugsnorm) oder vorangegangenen Leistungen (individuelle Bezugsnorm) (Hattie & Timperley, 2007, S. 89). Dabei werden z.B. auch Teilleistungen auf dem Weg zum Lernziel zurückgemeldet. Das Feedback kann dabei lösungsprozessbezogen, d.h. Stärken und Schwächen sowie Strategien zur Weiterarbeit aufzeigend, oder lernprozessbegleitend sein, d.h. inhaltliche, strategische, affektiv-motivationale oder organisatorische Hinweise gebend, die auf die individuellen Lernbedürfnisse abgestimmt sind (Bürgermeister et al., 2011, S. 46). Daneben wird aktuell auch die kompetenzbezogene Rückmeldung als effektive Rückmeldungsform diskutiert und erforscht, da sie einen kriteriumsbezogenen Referenzrahmen verwendet und elaborierte, prozessbezogene Information über den Lernstand und das Lernziel liefert, indem sie die individuelle Leistung auf den inhaltlich beschriebenen Stufen eines Kompetenzstufenmodells verortet (Harks, Rakoczy, Klieme, Hattie & Besser, 2014, S. 166). Schülerinnen und Schüler können Antworten auf diese Frage bekommen, indem sie kontinuierlich und zeitnah deskriptives Feedback während des Lernens erhalten und von der Lehrkraft beigebracht bekommen, wie sie sich selbst einschätzen und Ziele setzen können (Stiggins, 2010, S. 240), womit der Bezug zur Aktivierung der Schülerinnen und Schüler zur Verantwortungsübernahme für ihr Lernen deutlich wird. Die Frage ‚Wohin geht es danach?‘ zielt schließlich darauf ab, zu klären, welche Aktivitäten unternommen werden müssen, um Fortschritte zu erzielen und richtet sowohl Lehrkraft als auch Schülerinnen und Schüler auf neue Lernziele aus. Dabei geht es nicht nur um ein „mehr“ lernen, sondern vielmehr darum, Informationen bereitzustellen, die zu erweiterten Lernmöglichkeiten führen: „These may include enhanced challenges, more self-regulation over the learning process, greater fluency and automaticity, more strategies and processes to work on the task, deeper understanding, and more information about what is and what is not understood“ (Hattie & Timperley, 2007, S. 90). Diese Feedback-Frage liefert den Schülerinnen und Schülern die Informationen, die notwendig sind, um ihren Lernprozess anpassen zu können, unterstützt sie beim selbstregulierten Lernen und kann dadurch zu einer Optimierung des Lernens im Sinne eines formativen Assessments beitragen. Neben der Orientierung an den handlungsleitenden Feedback-Fragen, gilt die Berücksichtigung spezifischer inhaltlicher Aspekte als relevantes Kriterium effektiven Feedbacks. Hattie und Timperley (2007, S. 87) unterscheiden diesbezüglich zwischen der Feedback-Ebene der Aufgabenleistung, der Ebene des Verstehensprozesses in Bezug auf die Aufgabenerledigung, der Ebene der selbstregulatorischen oder meta-kognitiven Prozesse sowie der Ebene des Selbst bzw. der Person. Feedback auf der Aufgaben-Ebene bezieht sich auf die Korrektheit der Antwort

36

3 Strategien und Praktiken formativen Assessments

und kann den Hinweis beinhalten, sich mehr, andere oder richtige Informationen zu beschaffen. Feedback auf der Prozess-Ebene zielt auf die für die Bearbeitung einer Aufgabe notwendigen Lern- und Verstehensprozesse ab (Hattie, 2014, S. 210). Auf der Ebene der Selbstregulierung werden Hinweise zu selbstregulatorischen Prozessen sowie Aspekten der Selbstbewertung und des Selbstvertrauens gegeben (Hattie, 2014, S. 210). Hierzu zählen auch Hinweise zu metakognitiven Prozessen wie dem Self-Monitoring oder der Steuerung von Lernprozessen (Bürgermeister et al., 2014). Feedback auf der Person-Ebene („Du bist ein guter Schüler!“, „Das hast du gut gemacht!“) fehlt häufig der Bezug zur Aufgabe bzw. zu den drei Feedback-Fragen und ist deshalb am wenigsten lernförderlich (Hattie, 2014, S. 210). Weiterhin kann Feedback auf der Selbst-Ebene dazu führen, dass Lernende dadurch das Risiko vermeiden, welches mit dem Angehen anspruchsvoller Aufgaben einhergeht. Sie minimieren den persönlichen Einsatz und entwickeln Angst vor Fehlschlägen (Hattie, 2014, S. 210). Im Idealfall bewegen sich Lehren und Lernen „von der Aufgabe zu Prozessen und Verstehensweisen, die für das Lernen der Aufgabe erforderlich sind, und gehen dann darüber hinaus zu anspruchsvolleren Aufgaben und Zielen“ (Hattie, 2014, S. 211). Am besten dazu geeignet, die Schülerinnen und Schüler voranzubringen, ist also Feedback auf der Verstehens- und Selbstregulationsebene, da es Informationen darüber enthält, „in welchen Bereichen die Lernenden wie weit vom intendierten Lernziel entfernt sind und wie sie ihren zukünftigen Lernprozess gestalten können, um sich diesen Zielen anzunähern" (Bürgermeister et al., 2014, S. 44). Darüber hinaus sollte Feedback nach Hattie „klar, zweckgerichtet, sinnvoll und mit dem Vorwissen der Lernenden kompatibel sein“ (2014, S. 211). Die Wirkung des Feedbacks wird zudem auch von der Schwierigkeit der Lernziele beeinflusst. Weiterhin ist Feedback am lernförderlichsten, „wenn die Ziele spezifisch und anspruchsvoll sind, die Komplexität der Aufgabe aber gering ist“ (Hattie, 2014, S. 208). Zusammenfassend sollte sich wirkungsvolles Feedback an den Feedback-Fragen „Wohin gehst du?“, „Wie kommst du voran?“ und „Wohin geht es danach?“ orientieren und sich insbesondere auf die Ebenen der Verstehens- und selbstregulatorischen Prozesse fokussieren (Hattie, 2014). Feedback wirkt dann formativ, wenn die Informationen, die die Lernenden erhalten haben, auch von ihnen genutzt werden, um ihre Leistungen zu verbessern (Black & Wiliam, 2009, S. 13).

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

3.2

37

Verwendung geeigneter diagnostischer Methoden und Verfahren4

Die Identifikation der Lücke zwischen dem aktuellen Lernstand und den angestrebten Lernzielen („identifying the gap“) wurde bereits von Sadler (1989) als zentraler Zweck formativen Assessments bezeichnet und auch andere Autoren verweisen auf die Bedeutung der Diagnose im formativen Assessment-Prozess (Harlen, 2007a; Heritage, 2007; Herman, Osmundson & Silver, 2010; Maier, 2015; OECD, 2005; Smit, 2009a). Im Konzept der OECD (2005, S. 46) stellt „Use of varied approaches to assessing student understanding“ eines von sechs Schlüsselmerkmalen formativen Assessments dar. In ähnlicher Weise beschreiben Maier (2015, S. 128) die Nutzung von Aufgaben und Verfahren mit diagnostischem Potenzial und Smit (2009a) die Beobachtung, Diagnose und Selbstdiagnose als Kernmerkmale formativen Assessments. Die Identifikation der „Lernlücke“ (Heritage, 2007, S. 142) bzw. die „Collection of evidence relating to goals“ (Harlen, 2007a, S. 120) verweisen ebenfalls auf die Rolle der diagnostischen Erfassung der Lernstände der Schülerinnen und Schüler im Assessment-Prozess. Für die Durchführung des Assessments kommen vielfältige Methoden und Verfahren in Frage, wobei eine Unterscheidung von summativen und formativen Diagnoseinstrumenten, wie in Kapitel 1.1 bereits angedeutet, zu kurz greift. Beispielsweise lassen sich standardisierte Testverfahren, die vorwiegend am Ende des Lernprozesses eingesetzt werden nicht per sé als summative Verfahren bezeichnen, da sie ebenso gut von der Lehrkraft während des Lernprozesses z.B. zur Identifikation von Fehlkonzepten oder zur Fehleranalyse und somit formativ eingesetzt werden können. Entsprechend zählten Black und Wiliam (Black et al., 2003; Wiliam, 2000) in älteren Veröffentlichungen „formative use of summative tests“ zu den Hauptaktivitäten formativen Assessments. Entscheidend dafür, ob eine Diagnose formativ ist, ist letztendlich, dass die gewonnenen diagnostischen Informationen von der Lehrkraft pädagogisch genutzt werden, z.B. für die Adaption des Unterrichts oder die Förderung der Schülerinnen und Schüler (Wiliam, 2010). Dementsprechend kann sich formatives Assessment nahezu aller gängigen diagnostischen Methoden bedienen, wobei einige geeigneter sind, um z.B. Auskunft über den Lernprozess zu bekommen, als andere. Prengel et al. (2009, S. 254) verweisen darauf, dass Diagnoseverfahren notwendig sind, auf die Lehrkräfte in ihrem alltäglichen pädagogisch-didaktischen Handeln zurückgreifen können, die 4

In Kapitel 1 wurde herausgearbeitet, dass die Unterscheidung in summative und formative Methoden und Verfahren zu kurz greift, da jedes Verfahren sowohl summativ als auch formativ genutzt werden kann. Die Kapitelüberschrift müsste dementsprechend lauten „Diagnostische Methoden und Verfahren, die sich zur formativen Nutzung eignen“. Aus Gründen der besseren Lesbarkeit wird im Folgenden die etwas verkürzte Variante „Verwendung geeigneter diagnostischer Methoden und Verfahren“ benutzt.

38

3 Strategien und Praktiken formativen Assessments

eine möglichst differenzierte Beschreibung des individuellen Lernstandes hervorbringen und ein kontinuierliches Erfassen von Lernfortschritten ermöglichen. Weiterhin bedeutsam für eine gelingende formative Leistungserfassung erscheint die Entkopplung von Lern- und Leistungsbewertungssituationen, so dass auch für die Schülerinnen und Schüler klar wird, dass die Überprüfung der Optimierung des Lernens und nicht der Notengebung dient (Black & Wiliam, 2009; Heritage, 2007; Jürgens & Lissmann, 2015; Schmidt & Liebers, 2017). Insgesamt ist eine diagnostische Methodenvielfalt erstrebenswert, um unterschiedliche Kompetenzbereiche sowie Lernprozesse adäquat erfassen und dokumentieren zu können (OECD, 2005) . Eine Systematisierung geeigneter diagnostischer Methoden und Verfahren erweist sich als schwierig. Maier (2011a) gruppiert die sehr unterschiedlichen in Frage kommenden Verfahren nach der Reichweite des Rückmeldezyklus und nach dem Standardisierungsgrad der Leistungsmessung und unterscheidet entsprechend zwischen standardisierten Diagnoseverfahren, mit denen langfristige Förderentscheidungen getroffen werden können, Parallelarbeiten5, curriculumbasierten Diagnoseverfahren, Formen der alternativen Leistungserfassung, Schülerbeobachtungen, diagnostischen Gesprächen sowie Methoden der Schülerselbstkontrolle. In Anlehnung an diese Klassifikation sollen im Folgenden die im Kontext formativen Assessments diskutierten Methoden und Verfahren hinsichtlich der Erfüllung der oben genannten Kriterien diskutiert werden. Zunächst werden ausgewählte Formen der alternativen Leistungserfassung, welche als besonders geeignet für die formative Nutzung erscheinen, hinsichtlich der Kriterien im alltäglichen pädagogisch-didaktischen Handeln einsetzbar, differenzierte Beschreibung des individuellen Lernstandes, kontinuierliche Erfassung von Lernfortschritten und pädagogische Nutzbarkeit besprochen. Daneben werden curriculumbasierte Diagnoseverfahren, informelle sowie formelle diagnostische Verfahren hinsichtlich der Erfüllung dieser Kriterien diskutiert. Methoden der Schülerselbstkontrolle wurden aufgrund der inhaltlichen Nähe zur Aktivierung der Schülerinnen und Schüler zur Verantwortungsübernahme für ihr Lernen bereits in Kapitel 2.1.3 thematisiert. 3.2.1

Formen der alternativen Leistungserfassung

Formen der alternativen Leistungserfassung wurden im deutschsprachigen Raum verstärkt seit den 1960er Jahren diskutiert und entwickelt (Ingenkamp & Lissmann, 2008, S. 178). Dazu zählen beispielsweise Diagnosebogen, Schülerbeobachtungsbögen, Lern- und Zeugnisberichte sowie Portfolios, mit denen Lerner-

5

Gemeint sind auf Schul- oder Fachkonferenzebene von Lehrkräften gemeinsam entwickelte Arbeiten.

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

39

folge detailliert festgestellt und die Ergebnisse den Lernenden und anderen Personen mitgeteilt werden sollen (Ingenkamp & Lissmann, 2008, S. 195). Insbesondere Portfolios und Lerntagebücher „können zur Optimierung des Lernens, zur Leistungsbeurteilung (trifft vor allem für das Portfolio zu) [und] zur Unterstützung des Lehrens […] eingesetzt werden“ (Hascher, 2010, S. 178). Entsprechend werden auch im Kontext formativen Assessments Portfolios, Lerntagebücher sowie Beurteilungsraster als geeignete Verfahren diskutiert (Maier, 2010; Prengel, 2016; Smit, 2009a). Portfolio Die ersten Portfolios wurden in den 1990er-Jahren im Zuge der Kritik an den negativen Folgen von high stakes tests (flächendeckenden, zentralen Schulleistungstests) entwickelt. Diese sogenannten large-scale portfolio assessments sollten die staatlichen Testprogramme z.B. durch kreative Schreibaufgaben ergänzen und dazu beitragen, „dass Schülerleistungen im Rahmen von Systemen der staatlichen Rechenschaftslegung in ihrer ganzen Bandbreite und Prozesshaftigkeit erfasst werden, Schüler zu einer aktiven Reflexion über ihre Lernprodukte angeregt werden und externe Leistungsmessungen damit valider sind als bisherige MultipleChoice-Verfahren“ (Maier, 2010, S. 296). Mittlerweile wird das Portfolio auch im deutschsprachigen Raum als Form alternativer Leistungsbeurteilung verstärkt eingesetzt und diskutiert (Breuer, 2009; Gläser-Zikuda, 2010; Grittner, 2010; Häcker, 2005; Winter, 2015). In der Literatur lassen sich unterschiedlichste Formen und Definitionen von Portfolios finden, wobei eine der am häufigsten genannten Definitionen folgendermaßen lautet: „Ein Portfolio ist eine zielgerichtete Sammlung von Arbeiten, welche die individuellen Bemühungen, Fortschritte und Leistungen der/des Lernenden auf einem oder mehreren Gebieten zeigt. Die Sammlung muss die Beteiligung der/des Lernenden an der Auswahl der Inhalte, der Kriterien für die Auswahl, der Festlegung der Beurteilungskriterien sowie Hinweise auf die Selbstreflexion der/des Lernenden einschließen“ (Paulson et al. 1991, S. 60; Übersetzung nach Brunner, Häcker & Winter, 2008, S. 36). Anhand dieser Definition wird eine hohe Passung von Portfolios zu den Anforderungen an formativ nutzbare Methoden und Instrumenten deutlich. Zum einen ermöglicht die große Freiheit, die bei der Auswahl der Arbeitsprodukte besteht, eine differenzierte Beschreibung des Lernstandes in vielfältigen Lern- und Entwicklungsgebieten. Es lassen sich bspw. Projektportfolios, Kurs- und Fachportfolios, Lern-Entwicklungs-Portfolios, Talentportfolios, Berufswahl-Bewerbungs-Portfolios und Standardisierte Portfolios unterscheiden, die unterschiedliche Schwerpunkte hinsichtlich der gewählten Inhalte aber auch des Aufbaus des Portfolios setzen (Winter, 2015, S. 170). Aus der Befragung von Grittner (2010, S. 168) geht hervor, dass Grundschullehrkräfte das

40

3 Strategien und Praktiken formativen Assessments

Portfolio für ein aussagekräftiges Instrument halten, mit dem sie viele Erkenntnisse über die Schülerinnen und Schüler gewinnen, insbesondere deren Stärken und Arbeitsverhalten. Die Portfolio-Arbeit ermöglicht es, Arbeitsprodukte von Schülerinnen und Schülern über einen längeren Zeitraum hinweg zu sammeln und somit deren Lernentwicklung kontinuierlich zu dokumentieren. Eine Besonderheit des Portfolios besteht in seiner Multifunktionalität, da es gleichermaßen als LehrLern-Instrument und als (Selbst-)Beurteilungsinstrument geeignet ist. Diese „Brückenfunktion“ wird als besonderes Charakteristikum des Portfolios herausgestellt (Häcker, 2005, S. 4). Die Einsatzmöglichkeit als Lehr-Lern-Instrument unterstreicht, dass das Portfolio im alltäglichen pädagogisch-didaktischen Handeln verwendet werden kann. Allerdings geht der Einsatz des Portfolios auch mit einem hohen Zeitaufwand einher, was von einigen Lehrkräften kritisch gesehen wird (Grittner, 2010, S. 168). Das Portfolio bietet vielfältige Möglichkeiten, die Lernergebnisse pädagogisch nutzbar zu machen. So können die Schülerinnen und Schüler beispielsweise ihre Arbeitsprodukte anhand der festgelegten Beurteilungskriterien solange überarbeiten, bis diese erfüllt sind. Dadurch werden Lernprozesse angestoßen, gleichzeitig werden die Schülerinnen und Schüler zur Verantwortungsübernahme für ihr Lernen aktiviert (Breuer, 2009; Cwik, 2009; Winter, 2015). Aufgrund des klaren Bezugs zu den gemeinsam festgelegten Beurteilungskriterien bietet das Portfolio auch die Möglichkeit, dass die Schülerinnen und Schüler über ihre Arbeit reflektieren und, dass sie Feedback erhalten, welches sie beim weiteren Lernen unterstützt (Winter, 2015). Das Portfolio erfüllt demnach alle vier Kriterien für formative diagnostische Methoden und Instrumenten und kann darüber hinaus auch dazu beitragen, andere formative Strategien im Unterricht zu realisieren. Auch wenn das Portfolio offenbar ein sehr geeignetes Instrument im Kontext formativen Assessments darstellt, sollten kurz einige Herausforderungen bzw. Grenzen angesprochen werden. Hascher (2010) weist beispielsweise darauf hin, dass Portfolios Lernprozesse zwar unterstützen, die Kompetenzen zum selbstregulierten Lernen bei den Schülerinnen und Schülern jedoch mitunter nur unzureichend entwickelt sind bzw. die üblichen Lernumgebungen den Lernenden diesbezüglich zu wenig Hilfestellung bieten. Die Schülerinnen und Schüler müssen ein gewisses Maß an selbstregulatorischen Strategien bereits anwenden können, um vom Verfassen von Portfolios zu profitieren. Eine weitere Herausforderung liegt darin, dass auch beim Einsatz des Portfolios die Gefahr besteht, Lern- und Leistungssituationen zu vermischen. Die Studienlage deutet darauf hin, dass das Portfolio oftmals nicht nur zur Dokumentation des Lern- und Entwicklungsprozesses eingesetzt wird, sondern auch als Instrument zur Leistungsbewertung, wodurch ein großer Anteil echten Lernens verloren gehen kann (Gläser-Zikuda, 2010). Eine zentrale Herausforderung besteht - wie für alle formativen Assessment-Strategien - gemäß Hascher (2010) darin, die diagnostischen

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

41

Informationen für das Lernen und den Unterricht zu nutzen, wobei der Blick auf empirische Ergebnisse (Gläser-Zikuda, 2010) offenbart, dass diese nur suboptimal genutzt werden. Beurteilungsraster und Kompetenzraster Auch Beurteilungs- bzw. Kompetenzraster (englisch: rubric) gelten als sehr geeignet für den Einsatz im Rahmen formativen Assessments (Maier, 2015; Prengel et al., 2009; Prengel, 2016; Smit et al., 2017). In Beurteilungsrastern […] wird versucht, menschliches Wissen und Können fachspezifisch zu beschreiben sowie in verschiedene Fähigkeitsdimensionen oder Niveaustufen aufzugliedern. Meist geben sie auf der einen Dimension an, was jemand in einem Fachgebiet kann, und auf der anderen Dimension, wie gut jemand etwas kann. (Keller, 2011, S. 143).

Werden die Merkmale als Kompetenzen beschrieben, wird der Begriff Kompetenzraster verwendet (Maier, 2015). Die Struktur der Raster wird durch drei konstitutive Elemente bestimmt: das Kompetenzstrukturmodell, das Kompetenzstufenmodell und die Kompetenzdeskriptoren (Krille, 2014). Kompetenzstrukturmodelle systematisieren einen abgegrenzten Anforderungsbereich mit Hilfe von Kompetenzdimensionen, wobei die einzelnen Dimensionen die zentralen Teilanforderungen abbilden (horizontale Dimension) (Krille, 2014). Basierend auf der Annahme, dass Kompetenzen in unterschiedlichen qualitativen Ausprägungen vorhanden sind, zielen die Kompetenzstufenmodelle (vertikale Dimension) darauf, diese Ausprägungen in Niveaustufen zu differenzieren (Heritage, 2008; Krille, 2014). Die Deskriptoren beschreiben schließlich die Kompetenzen der einzelnen Dimensionen des Kompetenzstrukturmodells in den verschiedenen Niveaustufen des Kompetenzstufenmodells (Krille, 2014). Die Verbalisierung dieser Zonen der Lernentwicklung sollte fachlich treffend, sparsam und alltagstauglich formuliert sein (Maier, 2015; Prengel, 2016). Aufgrund der Konkretheit durch die Deskriptoren eignen sich die Kompetenz- bzw. Beurteilungsraster für die Dokumentation und Kontrolle des Lernfortschritts, für die Veranschaulichung der Lernziele und Erfolgskriterien sowie zur Selbst- und Fremdeinschätzung (Keller, 2011; Maier, 2015, S. 128). Anhand des von Hsia, Huang und Hwang (2015, S. 622) entwickelten Modells zur Anwendung im Unterricht soll deutlich werden, wie Kompetenzraster in das alltägliche pädagogisch-didaktische Handeln einbezogen und pädagogisch nutzbar gemacht werden können. Zunächst (Schritt 0) kann die Lehrkraft das Kompetenzraster bei der Unterrichtsplanung nutzen, um Aufgaben auszuwählen, die zu den Lernzielen und Kompetenzdimensionen passen. Im Unterricht kann die Lehrkraft die Lernziele anhand des Kompetenzrasters verdeutlichen (Schritt 1). Im zweiten Schritt erklärt die Lehrkraft das Kompetenzraster im

42

3 Strategien und Praktiken formativen Assessments

Detail und stellt Beispiele zur Verfügung, um die Niveaustufen zu verdeutlichen. Der dritte Schritt umfasst die Anwendung des Kompetenzrasters durch die Schülerinnen und Schüler zur Überprüfung ihrer Arbeit. Gleichzeitig kann die Lehrkraft detaillierte diagnostische Informationen als Basis für tagtägliche Unterrichtsentscheidungen gewinnen. Basierend auf dieser Diagnose gibt die Lehrkraft Feedback entsprechend der Dimensionen und Niveaus des Kompetenzrasters (Schritt 4). Schließlich (Schritt 5) erreicht der Schüler bzw. die Schülerin ein Niveau, auf dem er seine bzw. sie ihre abschließende Leistung zeigt. Je nach gezeigter Leistung fordert die Lehrkraft den Schüler bzw. die Schülerin auf, seine bzw. ihre Arbeit basierend auf dem Kompetenzraster zu überarbeiten oder beurteilt die Leistung und beginnt mit einem neuen Thema (Hsia et al., 2015). Das Modell verdeutlicht, wie Kompetenzraster in das alltägliche pädagogische Handeln von Lehrkräften einbezogen werden können und enthält Ansätze zur pädagogischen Nutzung, wie z.B. für Feedback, zur Förderung des selbstregulierten Lernens durch Selfund Peer-Assessment und zur Ableitung tagtäglicher Unterrichtsentscheidungen (Krille, 2014; Maier, 2015; Wiliam, 2010). Kompetenzraster unterstützen Lehrkräfte bei der Ableitung von Unterrichtsmaßnahmen insofern, als dass sie Klarheit über notwendige Lernvoraussetzungen bzw. Teilziele sowie nächste Lernschritte im Sinne der Zone der nächsten Lernschritte schaffen: With clear connections between what comes before and after a particular point in the progression teachers can calibrate their teaching to any missing precursor understanding or skills revealed by assessment, and determine what the next steps are to move the student forward from that point. (Heritage, 2008, S. 4)

Welche konkreten Unterrichtsmaßnahmen daraus abgeleitet werden können, ergibt sich in der Regel jedoch nicht unmittelbar aus den Kompetenzrastern, sondern erfordert die didaktische Kompetenz der Lehrkraft, die die passenden Maßnahmen und Übungen aus ihrem Repertoire auswählen muss. Entsprechend der formativen Zielstellung der pädagogischen Nutzbarkeit fordert Prengel (2016, S. 14) daher, dass Beurteilungsraster stärker mit pädagogischen Angeboten verknüpft werden müssen, indem sie z.B. unmittelbar mit Hinweisen zu weiterführenden Lernaktivitäten versehen werden. Der Differenzierungsgrad der auf den Beurteilungsrastern abgebildeten Kompetenzen variiert stark. So können Beurteilungsraster eher global sein und eignen sich dann eher dazu, „sich über curriculare Fragen zu verständigen und begründbare Kompetenzmodelle zu erstellen“ (Winter, 2015, S. 147). Raster einer mittleren Ebene können in Schulen dazu verwendet werden, sich über Lernfortschritte und Förderbedarfe von Schülerinnen und Schülern zu verständigen. Aufgabenspezifische Beurteilungsraster können eher bei der „gemeinsamen, qualitätsbezogenen und transparenten Beurteilung von Aufgabenlösungen eine produktive Rolle

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

43

spielen“ (Winter, 2015, S. 147). Entsprechend eignen sich nicht alle Kompetenzen gleichermaßen dazu, die Lernstände der Schülerinnen und Schüler differenziert zu beschreiben. Insbesondere aufgabenspezifische Beurteilungsraster können jedoch aufgrund des hohen Differenzierungsgrades die Lernstände der Schülerinnen und Schüler bezüglich unterschiedlicher Kompetenzbereiche beschreiben. Diese Form von Beurteilungsrastern, die das fachliche Lernen thematisieren und relativ eng auf konkrete Aufgaben oder Aufgabenbereiche bezogen sind, wird für eine lernförderliche Leistungsbeurteilung im Sinne eines formativen Assessments benötigt (Winter, 2015, S. 149). Kompetenzraster bieten aufgrund ihres gestuften Aufbaus auch die Möglichkeit, individuelle Lernentwicklungen zu dokumentieren. Lehrkräfte und Schülerinnen und Schüler können auf individuellen Kompetenzrastern das Erreichen der jeweiligen Kompetenzstufen festhalten, indem sie das Datum der Zielerreichung eintragen oder z.B. mit Klebepunkten die Lernausgangslage und die Lernentwicklung dokumentieren (Landesinstitut für Schule und Medien Berlin-Brandenburg, 2010). Je nach Differenzierungsgrad kann in Kompetenzrastern eine Entwicklungslinie über eine längere Zeitspanne und damit ein Bild sukzessive elaborierter Entwicklungsstände gezeichnet werden. Damit können die Lehrkräfte dann auch Schülerleistungen nicht nur in Bezug auf das Lernziel, sondern auch in Bezug auf vorangegangenes und zukünftiges Lernen einordnen (Heritage, 2008, S. 3). Lerntagebuch Ein weiteres Instrument aus dem Bereich der alternativen Leistungsbewertung, welches sich im Rahmen formativen Assessments einsetzen lässt, ist das Lerntagebuch. In einem Lerntagebuch werden Beobachtungen, Bewertungen, Erläuterungen und Reflexionen zur eigenen Lernarbeit in einer persönlichen Form erfasst (Jürgens & Lissmann, 2015, S. 108). Jürgens und Lissmann (2015) kennzeichnen das Lerntagebuch als überwiegend formatives Beurteilungsmittel, welches die Schülerinnen und Schüler dazu motivieren soll, möglichst zeitnah ihre Auseinandersetzung mit einer Lernproblematik zu dokumentieren. Die Einsatzmöglichkeiten von Lerntagebüchern sind vielfältig. So können Beschreibungen zu längeren, komplexen Lernprojekten, Lösungen einzelner Aufgaben oder Reflexionen beim Lernen an außerschulischen Lernorten im Lerntagebuch dokumentiert werden. Bereits in der Grundschule können erste systematische Versuche der Auseinandersetzung mit dem eigenen Lernprozess stattfinden, sobald die Kinder schreiben gelernt haben (Jürgens & Lissmann, 2015, S. 109). Somit bieten sich vielfältige Möglichkeiten, das Lerntagebuch in das alltägliche pädagogische-didaktische Handeln einzubeziehen.

44

3 Strategien und Praktiken formativen Assessments

Besonders an der Arbeit mit dem Lerntagebuch ist die ganzheitliche Darstellung von Selbstbeobachtung, Selbstkritik und -reflexion, wobei auch Gefühle, Stimmungen und Wünsche thematisiert werden können. Daher sollte grundsätzlich entschieden werden, ob das Lerntagebuch als individuelles privates Dokumentationsbzw. Erinnerungsinstrument oder als formatives Diagnoseinstrument genutzt werden soll, da dies eine gewisse Systematik der Einträge und einen Austausch mit anderen voraussetzt, was allerdings eine Aufhebung der Privatheit erfordert (Jürgens & Lissmann, 2015, S. 110). Wenn das Lerntagebuch gezielten Reflexionsprozessen in Form eines Self-Monitoring dienen soll, um selbstregulative Verhaltensänderungen zu ermöglichen, dann sollte dem Lerntagebuch ein festgelegter Leitfaden mit Orientierungsfragen vorangestellt werden. Dadurch wird zwar die Offenheit des Tagebuchs eingeschränkt, die Kommunikation über das Lernen aber erleichtert und strukturiert (Jürgens & Lissmann, 2015, S. 11). Es eröffnen sich also verschiedene Nutzungsmöglichkeiten des Lerntagebuchs, wobei deutlich wird, dass die diagnostischen Informationen aus dem Lerntagebuch insbesondere für Lernangebote zum selbstregulierten Lernen pädagogisch genutzt werden können. Die Lehrkraft kann erkennen, welche Lernstrategien oder metakognitiven Strategien die Schülerinnen und Schüler bereits anwenden und daraus ableiten, an welchen Strategien weitergearbeitet werden müsste bzw. welche neuen Strategien hilfreich für die Schülerinnen und Schüler wären. Gleichzeitig werden die Schülerinnen und Schüler gezielt zur Selbstreflexion und damit zur Übernahme von Verantwortung für ihr Lernen angeregt. Während sich die meisten diagnostischen Instrumente auf die Abbildung fachlicher Leistungen beziehen, besteht die Besonderheit des Lerntagebuchs darin, dass hier die Denkprozesse der Schülerinnen und Schüler differenziert abgebildet und metakognitive Kompetenzen sichtbar gemacht werden können. Im Sinne der eingangs postulierten Forderung nach einer Methodenvielfalt, die eine ganzheitliche Erfassung kindlicher Entwicklung ermöglicht, leistet das Lerntagebuch einen Beitrag dazu, diesen spezifischen Bereich erfassbar zu machen. Darüber hinaus eröffnet sich durch die regelmäßige und kontinuierliche Arbeit mit dem Lerntagebuch auch die Möglichkeit, die Entwicklung der selbstregulatorischen Fähigkeiten der Schülerinnen und Schüler zu dokumentieren (Gläser-Zikuda, Rohde & Schlomske, 2010). Die Ausführungen sprechen für eine hohe Eignung von Lerntagebüchern innerhalb formativen Assessments. Allerdings ist zu berücksichtigen, dass die von Hascher (2010) aufgezeigten Herausforderungen, die bereits im Zusammenhang mit dem Portfolio diskutiert wurden, gleichermaßen für die Arbeit mit dem Lerntagebuch gelten. Neben dem Portfolio, Kompetenzraster und Lerntagebuch existieren noch zahlreiche andere alternative Instrumente und Verfahren zur Lernbegleitung, wie Lernlandkarten (Schratz, Pant & Wischer, 2012; Wildt, 2009), Pensenbücher (Prengel

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

45

& Thiel, 2005) oder Logbücher (Ewald & Wilmanns, 2014; Xylander & Heusler, 2007). Da davon auszugehen ist, dass diese jedoch noch wenig bekannt bzw. verbreitet sind (Beutel & Beutel, 2014), wird von einer Erfassung im Rahmen der empirischen Studie abgesehen. Entsprechend würden weitere Ausführungen diesbezüglich den Rahmen der Arbeit übersteigen, weshalb diese Instrumente an dieser Stelle nicht eingehender diskutiert werden. 3.2.2

Curriculumbasierte Diagnoseverfahren

Curriculumbasierte Diagnoseverfahren erheben den Anspruch, das zu überprüfen, was im aktuellen Unterricht gerade durchgenommen wird und orientieren sich damit näher am Unterricht der einzelnen Lehrkraft als klassische standardisierte Testverfahren (Klauer, 2014). Dazu zählen im weitesten Sinne selbstentwickelte nicht benotete Kurztests zur Überprüfung von Zwischenergebnissen und zur Anpassung von weiteren Übungen und im engeren Sinne kommerzielle Curriculumbasierte Messungen (CBM’s) zur engmaschigen Überprüfung der Leistungsentwicklung (Maier, 2011a). Lern- bzw. Leistungskontrollen Curriculumbasierte Lern- und Leistungskontrollen können im Sinne von Probearbeiten in Kombination mit anschließendem differenzierten und ‚intelligenten‘ Üben vor Klassenarbeiten durchgeführt oder als kleine Lernkontrollen in den Unterrichtsprozess der Erarbeitung eingebaut werden (Wellenreuther, 2009; Winter, 2015): Nach einer Erarbeitungsphase mit bestimmten Aufgabentypen wird eine Lernkontrolle durchgeführt. Diese wird von der Lehrkraft mit dem Ziel ausgewertet, den Entwicklungsbedarf der Klasse bzw. einzelner Schülerinnen und Schüler zu bestimmen. Benotet wird die Lernkontrolle nicht. Im Anschluss wird die Lernkontrolle besprochen und es werden Übungen angeschlossen, die möglichst genau zum Lernstand der Schülerinnen und Schüler passen sollten. Kurze Zeit später wird die benotete Klassenarbeit geschrieben. So durchgeführte Lernkontrollen können ohne größeren Aufwand in den alltäglichen Unterricht eingebettet werden und ermöglichen es der Lehrkraft, diagnostische Informationen über den Lernstand der Schülerinnen und Schüler während des Lernprozesses zu sammeln. Auch die Schülerinnen und Schüler erhalten durch die Lernkontrollen Transparenz bezüglich der Anforderungen für die summative Diagnostik am Ende eines Unterrichtsabschnittes (Jürgens & Lissmann, 2015, S. 55). Die diagnostischen Informationen werden ausschließlich pädagogisch zur Ableitung von Folgeaufgaben oder differenzierten Angeboten zum Üben genutzt. Etwas weniger geeignet ist diese Form der Leistungsfeststellung zur Abbildung der Lernentwicklung. Zwar ist ein Vergleich zwischen der Leistung im Kurztest und in der abschließenden

46

3 Strategien und Praktiken formativen Assessments

Klassenarbeit möglich, jedoch kann aufgrund der Variation der abgefragten Inhaltsbereiche keine langfristige Lernentwicklung abgebildet werden (Winter, 2015, S. 125). Jürgens und Lissmann (2015, S. 55) weisen in diesem Zusammenhang aber auch darauf hin, dass mit formativen Lernkontrollen fortlaufend curriculare Verbindungen zwischen individueller und kriterialer Bezugsnorm hergestellt werden können, indem danach gefragt wird, was ein Schüler bzw. eine Schülerin dazu gelernt hat und wie weit auf dem Weg zum Lernziel vorangeschritten wurde. Dadurch eröffnet sich ein fließender Übergang zum kompetenzorientierten Unterricht und zum Einsatz von Kompetenzrastern (Jürgens & Lissmann, 2015, S. 55). CBM‘s Während von Lehrkräften selbstentwickelte Lern- und Leistungskontrollen einen geringen Standardisierungsgrad aufweisen, erfüllen kommerziell verfügbare curriculumbasierte Verfahren in der Regel spezifische testpsychologische Gütekriterien und haben damit einen höheren Standardisierungsgrad (Maier, 2011a). Der Ansatz sogenannter „Curriculum-Based Measurements“ (CBM) geht auf Deno zurück und wurde in den 1970er Jahren im Bereich der Sonderpädagogik entwickelt (Klauer, 2014). Ziel des Einsatzes von CBM’s im ursprünglichen Sinne ist es, zu ermitteln, wie gut ein aktuell behandeltes Teilziel des Unterrichts von den einzelnen Schülerinnen und Schülern bewältigt worden ist. Entsprechend kann diese Art der Messung nur von der unterrichtenden Lehrperson durchgeführt werden, da nur sie genau weiß, was zuletzt im Unterricht behandelt wurde. Weiterhin sind CBM’s dadurch gekennzeichnet, dass die Leistungserhebungen in relativ kurzen Abständen wiederholt durchgeführt werden, um die Lernentwicklung über einen längeren Zeitraum abbilden zu können. Dazu müssen spezifische Kriterien erfüllt werden: CBM’s müssen zum einen ein ausreichendes Maß an Änderungssensibilität aufweisen, um auch geringe Kompetenzzuwächse und Kompetenzverluste abbilden zu können (Klauer, 2014) und zum anderen müssen homogene Testschwierigkeiten gegeben sein. Das heißt, die Tests müssen dasselbe erfassen und gleich schwer sein, was eine besondere Herausforderung hinsichtlich der Testkonstruktion darstellt (Klauer, 2014). Sind diese Kriterien erfüllt, eignen sich CBM’s in besonderem Maße dazu, die Lernentwicklung einzelner Schülerinnen und Schüler über einen längeren Zeitraum zu erfassen. Aktuell liegen für das Fach Deutsch die kommerziellen Verfahren „Lernfortschrittsdiagnostik Lesen“ (LDL) (Walter, 2009) und die „Verlaufsdiagnostik Sinnerfassendes Lesen“ (VSL) (Walter, 2013) vor. Kritisch an dieser Art von Tests anzumerken ist „der Umstand, dass von ‚curriculumbasierter‘ Messung im Sinne der CBM eigentlich keine Rede mehr sein kann. Erfasst wird keineswegs das, was gerade im Unterricht behandelt wurde, wie dies hätte sein sollen“ (Klauer, 2014,

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

47

S. 5). Somit erfüllen CBM‘s nicht das Kriterium, sich auf die konkreten Unterrichtsinhalte zu beziehen und können entsprechend auch nur bedingt für die Planung nachfolgender Unterrichtsschritte genutzt werden. Pädagogisch nutzbar sind die Ergebnisse der CBM’s dahingehend, als dass sie eine zeitnahe Anpassung von gezielten Interventionsmaßnahmen (z.B. Lesetraining) ermöglichen, da Leistungseinbrüche und Kompetenzverluste durch die engmaschige Erfassung schnell auffallen und eine Adaption der Fördermaßnahme implizieren (Voß & Hartke, 2014). Der Grad der Differenziertheit der diagnostischen Informationen, die mittels CBM’s generiert werden, ist als gering einzustufen. Der Anspruch, dass die Tests vergleichsweise kurz sein sollten und sich schnell auswerten lassen sollten, um möglichst wenig Zeit zu beanspruchen und die für den eigentlichen Unterricht zur Verfügung stehende Zeit nicht übermäßig einzuschränken (Klauer, 2014), führt dazu, dass nur einige wenige Fähigkeiten geprüft werden, die als repräsentativ für ein breiteres Kompetenzspektrum gelten (Voß & Hartke, 2014). Im LDL (Walter, 2009) wird beispielsweise lediglich die Anzahl der richtig gelesenen Worte pro Minute als Indikator für die Lesekompetenz erfasst. Informationen über spezifische Lesestrategien oder Lesefehler erhält man hingegen nicht. Die geringe Bearbeitungs- und Auswertungsdauer soll dazu beitragen, dass die Verfahren leicht in das alltägliche Unterrichtshandeln integriert werden können. Aufgrund der notwendigen Häufigkeit ist der Arbeitsaufwand dennoch als hoch einzuschätzen. Entsprechend zeigt sich auch in der Evaluation des Rügener Inklusionsmodells, dass der 14-tägige Einsatz von CBM’s nur von 14 Prozent der Grundschullehrkräfte akzeptiert wird, was darauf hindeutet, dass diese Verfahren nur eingeschränkt im alltäglichen pädagogisch-didaktischen Handeln einsetzbar sind. 3.2.3

Informelle diagnostische Verfahren

Neben diesen Instrumenten der alternativen und curriculumbasierten Leistungsbeurteilung eignen sich auch klassische diagnostische Methoden und Verfahren zur formativen Verwendung. Dazu zählen beispielsweise die Beobachtung, das diagnostische Gespräch und die Fehleranalyse (Bundschuh, 2010). Diese Verfahren erfüllen zwar keinen Testgütekriterien im engeren Sinne, sind aber so ausgerichtet und strukturiert, dass sie wertvolle diagnostische Informationen, insbesondere zu den Denk- und Lernprozessen der Schülerinnen und Schüler, geben können. Im Rahmen der Arbeit werden diese unter dem Begriff informelle diagnostische Verfahren (Schöler & Kany, 2009) zusammengefasst.

48

3 Strategien und Praktiken formativen Assessments

Schüler- bzw. Lernbeobachtung Die Schülerbeobachtung kann als eine direkt in den Lehr-Lernprozess eingebettete Variante formativen Assessments angesehen werden (Black & Wiliam, 1998b; Maier, 2011a), ermöglicht die Erfassung vielfältiger Lern- und Entwicklungsbereiche (Beck & Scholz, 1995; Heimlich, Lutz & Wilfert de Icaza, 2015; Viernickel, 2014) und stellt eine grundlegende und verbreitete Informationsquelle zur Leistungsbeurteilung dar (Jürgens & Lissmann, 2015; Meyer & Jansen, 2016). Schülerbeobachtungen im Sinne eines formativen Assessments können von freien Beobachtungen im Unterricht bis hin zu standardisierten Beobachtungen mit Hilfe von Beobachtungsbögen reichen (Prengel et al., 2009), sollten aber über subjektive Alltagsbeobachtungen hinausgehen und im Sinne einer wissenschaftlichen Beobachtung möglichst systematisch und anhand objektiver Kriterien erfolgen (Döring & Bortz, 2016, S. 330). Die Schülerbeobachtung stellt ein Verfahren dar, welches den Unterrichtsablauf nur geringfügig stört und mit wenig Aufwand durchführbar ist (sog. low-cost Eigenschaften, Maier, 2010), weshalb sie sich gut in das alltägliche pädagogisch-didaktische Handeln der Lehrkräfte integrieren lässt. Grundlage der Beobachtung können mündliche Schülerbeiträge, Schülerarbeitsprodukte und geeignete Aufgabenstellungen sein. Die Schülerinnen und Schüler können beispielsweise bei der Bearbeitung komplexer Aufgaben beobachtet werden, wobei die Schülerinnen und Schüler zu elaborierten Äußerungen und Handlungen stimuliert werden, die von den Lehrkräften zur Beurteilung des konzeptuellen Verständnisses herangezogen werden können (Maier, 2011a; Maier, 2015). De Boer und Merklinger (2016) betonen diesbezüglich die Rolle der Aufgabenstellung für das Beobachten, wobei Aufgaben je nach Beobachtungsfokus auszuwählen sind, die weder unter- noch zu stark überfordern. Hinsichtlich der Frage nach der Abbildung von Lernprozessen und -entwicklungen konstatiert Prange (2012), dass nicht das Lerngeschehen an sich beobachtbar sei, sondern nur die Bemühungen und das Resultat. Im Sinne einer pädagogischen Beobachtung den Fokus auf das Lernen zu legen, bedeutet also „den Prozess anzuschauen und die Aufmerksamkeit auf die kleinen Schritte zwischen Nichtkönnen und Können zu legen“ (de Boer, 2012, S. 68). Hier deutet sich an, dass sich die Beobachtung zur differenzierten Beschreibung von Fähigkeiten, die auf der Handlungsebene sichtbar werden, eignet und daraus auch Schlussfolgerungen über zugrundeliegende Denkprozesse gezogen werden können. Bei regelmäßiger Durchführung und systematischer Dokumentation der Beobachtungen kann mit dieser Methode auch die individuelle Entwicklung einzelner Schülerinnen und Schüler abgebildet werden (Krenz, 2009). Für den Bereich des Schriftspracherwerbs zeigt Brügelmann (2012) exemplarisch, wie Lösungsversuche der Kinder beobachtet und interpretiert werden können.

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

49

Notwendig sei zunächst ein Perspektivwechsel von der bloßen Analyse der Ergebnisse hin zur Beobachtung des Entstehungsprozesses und zur dialogischen Verständigung über die subjektiven Gründe für die Lösung. Anhand geeigneter Beobachtungs- und Lernaufgaben (z.B. „Gezinktes Memory“, „Große und Kleine Wörter“) kann sowohl festgestellt werden, was ein Kind kann als auch wie es eine Aufgabe angeht und löst (z.B. Beachtet das Kind die Schreib-/Leserichtung?, Tastet das Kind die Buchstabenfolgen systematisch ab?), wodurch tragfähige Hypothesen für die Gründe einer spezifischen Lösung gebildet und hilfreiche Aufgaben für eventuelle Schwierigkeiten angeboten werden können (Brügelmann, 2012, Merklinger, 2016). Da die Schülerbeobachtung direkt im Unterricht durchgeführt werden kann und somit auch eine große Nähe zu den im Unterricht behandelten Inhalten besteht, können die Beobachtungsergebnisse als Grundlage für die Planung und Durchführung nächster Unterrichtschritte und somit pädagogisch genutzt werden. Insbesondere in Verknüpfung mit der Methode des diagnostischen Gesprächs kann die Beobachtung zu tragfähigen Annahmen über zugrundeliegende Denkprozesse oder Fehlkonzepte führen. Entsprechend weist Brügelmann (2012) auf die dialogische Verständigung mit dem Kind über seine Gründe für eine bestimmte Lösung als eines von vier Prinzipien der Lernbeobachtung hin. Weitere von Brügelmann (2012) formulierte Kriterien der Lernbeobachtung sind die qualitative Deutung von Lese- und Schreibversuchen, die Beachtung des Lösungsprozesses und die Einordnung des Lösungsversuchs in die individuelle Lerngeschichte. In den letzten Jahren finden sich in Fachzeitschriften für die Grundschule verstärkt auch Beiträge zum Beobachten als Basis für die Unterrichtsplanung (de Boer & Eschrich, 2016; de Boer & Merklinger, 2016; Merklinger, 2016), womit deutlich wird, dass die Beobachtung zunehmend auch als Möglichkeit zur Diagnose im Kontext eines adaptiven Unterrichts anerkannt wird. Hier stehen Fragen wie „Welche fachlichen Anforderungen stellt die Aufgabe an das Kind? Welches fachliche Wissen und Können muss das Kind mitbringen? Welche Schlüsse können aus der Situation auf das fachliche Können des Schülers gezogen werden? Was sind mögliche fachliche Anschlussüberlegungen für weiterführende Aufgaben und diagnostische Fragen?“ (de Boer, Braß, Heyl & Merklinger, 2015, S. 50) im Fokus der Beobachtung. Zur Dokumentation systematischer Beobachtungen können Index- und Kategoriensysteme, Schätzskalen sowie Beobachtungsbögen eingesetzt werden, wobei insbesondere Beobachtungsbögen im schulischen Bereich bereits eine lange Tradition haben (Jürgens & Lissmann, 2015, S. 99). Hingegen existieren bislang nur wenige Konzepte, in denen mit offenen, pädagogischen Beobachtungen mit Beobachtungsprotokollen gearbeitet wird (de Boer, 2012, S. 68). Beispielhaft beschreibt de Boer (2012) die im Elementarbereich verbreiteten Bildungs- und Lern-

50

3 Strategien und Praktiken formativen Assessments

geschichten (Leu, Flämig, Frankenstein, Schneider & Schweiger, 2007) als Möglichkeit im Schulkontext, basierend auf offenen Beobachtungen individuelle Lernprozesse in den Blick zu nehmen und dadurch Bildungs- und Lernwege der Schülerinnen und Schüler erkennen und unterstützen zu können. Dabei wird jede Beobachtung anhand der von Carr festgelegten fünf Lerndispositionen (Leu et al., 2007) analysiert und mündet in einem Brief an das beobachtete Kind, in dem mit einer positiv anerkennenden und wertschätzenden Sprache die Lernaktivitäten beschrieben und gewürdigt werden. Die auf Beobachtungen beruhenden Lerngeschichten bieten also auch ein Potenzial als Feedback-Instrument, welches die Schülerinnen und Schüler über ihre Lernentwicklung informiert. Die Beobachtung stellt insofern eine für den formativen Einsatz im Unterricht besonders geeignete diagnostische Methode dar, als dass sie zum einen die Möglichkeit bietet, die Auseinandersetzung der Schülerinnen und Schüler mit unterrichtsnahen fachspezifischen Inhalten aber auch weitere Entwicklungsbereiche differenziert und prozesshaft erfassen zu können und zum anderen durch ihre low-cost Eigenschaften möglicherweise bereitwilliger von Lehrkräften in das alltägliche Unterrichtshandeln integriert wird als ‚neue‘ bzw. aufwändigere Verfahren. Darüber hinaus existieren zunehmend Ansätze zur pädagogischen Nutzung der Informationen aus der Schülerbeobachtung z.B. für die Unterrichtsplanung. Diagnostisches Gespräch Gespräche mit den Schülerinnen und Schülern bieten insbesondere die Möglichkeit, differenzierte Informationen über die Denkprozesse und Vorstellungen der Schülerinnen und Schüler zu gewinnen. Im Kontext informellen formativen Assessments beschreibt Ruiz-Primo (2011, S. 17) Unterrichtsgespräche als „assessment conversations“, bei denen Assessment eingebettet in eine Unterrichtsaktivität stattfindet und die Lehrkräfte Informationen über das Verständnis der Schülerinnen und Schüler von einem Inhalt gewinnen, um die Unterrichtaktivitäten daran anzupassen. Dabei können vielfältige Aspekte erfasst werden: „Assessment conversations make evident what and how students are thinking, enabling teachers to recognize their students‘ conceptions, mental models, strategies, language use, and/or communication skills.” (Ruiz-Primo, 2011, S. 17) Darüber hinaus bieten Einzelgespräche mit Schülerinnen und Schülern eine besondere Chance, vertiefende Erkenntnisse über die Lernprozesse der Schülerinnen und Schüler zu gewinnen und gleichzeitig Denkprozesse anzuregen. Besonders während individualisierter Arbeitsphasen können im Lehrer-Schüler-Gespräch, auch „Lernberatungen“ (Bräu, 2015) genannt, fachliche und fachübergreifende Lerngegenstände, Methoden sowie Arbeitsprozesse verhandelt werden (Bräu, 2015, 133), wobei sie insbesondere ein Potenzial dafür bieten, den Lernprozess der Schülerinnen und Schüler nachzuvollziehen sowie sich dialogisch mit dem

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

51

Kind über seine Gründe für eine bestimmte Lösung zu verständigen (Brügelmann, 2012, S. 257). Welche Informationen dabei gewonnen werden können, hängt in erster Linie davon ab, wie das Gespräch gestaltet wird und welche Fragen gestellt werden. In der Regel erfolgen diese Einzelgespräche „on-the-fly“, also ungeplant und informell, ermöglichen jedoch eine unmittelbare Rückmeldung an die Schülerin bzw. den Schüler (Ruiz-Primo, 2011). Einen spezifischen Ansatz, Denkprozesse der Schülerinnen und Schüler im Gespräch sichtbar zu machen, stellt das sogenannte „klinische Interview“ dar, welches Selter und Spiegel (Selter, o. A.; 1997) in Anlehnung an die aus der Psychotherapie stammende „klinischen Methode“ für den Einsatz im Mathematikunterricht der Grundschule entwickelten. Ziel dieser Art von Gespräch sei es, etwas über die Denkwege und Vorgehensweisen der Schülerinnen und Schüler zu erfahren (Selter, o. A.). Dabei gehe es nicht darum, die Kinder durch geschicktes Fragen möglichst schnell zur richtigen Lösung zu führen. „Die Hauptintention besteht vielmehr darin, mehr darüber zu erfahren, wie Kinder denken“ (Selter & Spiegel, 1997, S. 101). Das Verhalten der Lehrkraft sollte dabei durch ein hohes Maß an Sensibilität und bewusste Zurückhaltung gekennzeichnet sein (Selter, o. A.). Hilfreich ist eine Orientierung an Leitfragen wie zum Beispiel ‚Wie bist du darauf gekommen? Wie bist du vorgegangen? Wie hast du das gemacht?‘. Mit einer solchen Gesprächsführung sei es möglich, die Vorgehensweisen und Konzepte des Kindes in Erfahrung zu bringen. Darauf aufbauend kann das Vorgehen der Schülerinnen und Schüler fachdidaktisch bzw. entwicklungsorientiert eingeordnet (z.B. nach Fehlertypen oder in Entwicklungsstufenmodelle) und begründete Vermutungen über das Entstehen von Fehlern sowie geeignete didaktische Maßnahmen aufgestellt werden. Zu berücksichtigen ist, dass die von Selter und Spiegel (1997) entwickelte Gesprächsform als vorbereitete Eins-zu-Eins-Situation konzipiert wurde. Dennoch lassen sich die allgemeinen Hinweise zum Verhalten während des Gesprächs auch auf Einzelgespräche während des Unterrichts übertragen, die natürlicherweise eher spontan und mit weniger zur Verfügung stehender Zeit stattfinden müssen. Die von Selter und Spiegel (1997) für den Mathematikbereich entwickelten Gesprächstechniken könnten möglicherweise auch geeignet sein, um Phänomene des Schriftspracherwerbs (z.B. orthografisches Regelwissen) zu erfassen. Es ist deutlich geworden, dass sich mit diagnostischen Gesprächen detaillierte Informationen zu vielfältigen Aspekten, insbesondere zu individuellen Denkwegen gewinnen lassen (Bräu, 2015). Diagnostische Gespräche lassen sich gut in das alltägliche pädagogisch-didaktische Handeln von Lehrkräften integrieren. Besonders in Freiarbeitsphasen bietet sich die Möglichkeit, mit einzelnen Schülerinnen und Schülern zu arbeiten und dabei etwas über ihre Denk- und Lösungsprozesse zu erfahren. Seinen pädagogischen Nutzen der Verbesserung der Lernprozesse

52

3 Strategien und Praktiken formativen Assessments

entfaltet das diagnostische Gespräch unmittelbar – durch angemessene Hinweise, Diskussionsanregungen und gezielte Rückfragen können die Schülerinnen und Schüler im Rahmen eines diagnostischen Gesprächs von dem, was sie bereits wissen zu dem geführt werden, wozu sie als nächstes in der Lage sind (Zone der nächsten Entwicklung). Damit wird nicht nur der Lernstand beschreibbar, sondern auch nächste Schritte der Lernentwicklung, welche einen zentralen Ausgangspunkt für die Ableitung nachfolgender Unterrichtsschritte oder didaktischer Maßnahmen darstellen können. Weitgehend offen bleibt die Frage nach der Dokumentation der Ergebnisse der diagnostischen Gespräche – denkbar wären zwar Audiobzw. Videoaufnahmen sowie schriftliche Gesprächsprotokolle, eine kontinuierliche Dokumentation von Lernständen und Lernfortschritten auf Grundlage von Gesprächen ist jedoch diffizil und Bedarf der Entwicklung geeigneter Dokumentationsmethoden. Fehleranalysen Die Fehleranalyse gilt im Bereich der Sonder- (Bundschuh, 2010; Heimlich et al., 2015) aber auch Grundschulpädagogik (Brügelmann, 2012; Prengel et al., 2009) als (förder-)diagnostische Methode, „die über die Feststellung und Interpretation von Fehlern Fehlermuster und deren Ursachen zu erkennen sucht“ (Heimlich et al., 2015, S. 20) und sich somit für eine sehr differenzierte Beschreibung des individuellen Lernstandes bezüglich eines eng gefassten Inhaltsbereichs eignet. Bundschuh (2010, S. 221) sieht in der Fehleranalyse eine Möglichkeit, aus dem Lernverhalten Rückschlüsse bezüglich der aktuellen Entwicklungszone des Kindes zu ziehen und aus den Diskrepanzen zwischen der aktuellen Entwicklungszone und den gestellten Anforderungen Fehlerquellen zu identifizieren. Ziele der Fehleranalyse bestehen in der Ermittlung des individuellen Lernstandes eines Kindes, im frühzeitigen Erkennen von Fehlerursachen und in der Ableitung von geeigneten Fördermaßnahmen durch die Typisierung der Fehler in Verbindung mit strukturellen Komponenten des jeweiligen Unterrichtsfachs (Heimlich et al., 2015). Bei der Fehleranalyse werden unterrichtsnahe Schülerdokumente und Arbeitsprodukte kriteriengeleitet analysiert (Bundschuh, 2010, S. 220), was eine Nähe zum aktuellen Unterrichtsgeschehen impliziert. Durch die Verwendung von Arbeitsproben, die im Unterricht angefertigt werden, kann die Fehleranalyse als in das alltägliche pädagogisch-didaktische Handeln eingebettet angesehen werden und wird von jeder Lehrkraft bereits genutzt. Allerdings erfordert eine systematische Fehleranalyse die intensive Auseinandersetzung mit der Arbeitsprobe und kann daher in der Regel nicht während des Unterrichts, sondern primär im Rahmen der Nachbereitung angewendet werden.

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

53

Durch den konkreten Bezug der Fehleranalyse auf aktuell im Unterricht behandelte Inhalte, eignet sich die Fehleranalyse dazu, die gewonnenen Ergebnisse pädagogisch zu nutzen, z.B. für die Ableitung von Fördermaßnahmen. Mögliche Fragestellungen könnten bei einer solchen Fehleranalyse sein: „Welche Teilschritte/lösungen/-leistungen werden bereits erbracht? Wie lässt sich das individuelle Lernverhalten beschreiben? Bilden die angewandten Handlungen eine sinnvolle und effektive Lösungsstrategie? Sagen sie etwas über die Denk- und Handlungsprozesse des Kindes aus? Fehlen Handlungen bzw. Verhaltensmöglichkeiten für eine komplette bzw. gute Lösungsstrategie?“ (Bundschuh, 2010, S. 220). Erfolgt die Fehleranalyse im Rahmen einer unmittelbaren Interaktion (z.B. während der Freiarbeit), erfährt nicht nur die Lehrkraft etwas über aktuelle und kommende Lernschritte, sondern auch der Schüler bzw. die Schülerin kann in der Auseinandersetzung einen Fortschritt bzw. die Erweiterung seiner Möglichkeiten erfahren (Bundschuh, 2010). Zur Unterstützung der Lehrkräfte bei der Fehleranalyse stehen einige kommerzielle Fehleranalysen zur Verfügung. Dazu zählen u.a. die Oldenburger Fehleranalysen (OLFA 1-2 und 3-9) (Thomé, D. & Thomé, G., 2017; Thomé, G. & Thomé, D., 2017), welche eine genaue Analyse der Fehlerschwerpunkte in der Rechtschreibung aus frei formulierten Schülertexten erlauben. Die Aachener Förderdiagnostische Rechtschreibfehler-Analyse (AFRA) (Herné, Naumann & Löffler, 2015) ermöglicht eine qualitative Analyse von Fehlschreibungen, die in gängigen Rechtschreibtests erzielt wurden. Das sprachwissenschaftlich begründete Auswertungsraster dient der Fehlerklassifikation in den Hauptkategorien Phonologie, Vokalquantität, Morphologie und Syntax. Durch den Ansatz, normierte Testverfahren einer qualitativen Fehleranalyse zu unterziehen, stellt die AFRA möglicherweise eine geeignete Brücke dar, um Ergebnisse quantitativer Testverfahren formativ nutzbar machen zu können. Die Fehleranalyse bietet zwar viel Potenzial zur Identifikation von Lernschwierigkeiten, allerdings muss berücksichtigt werden, dass Fehlertypen oftmals nicht stabil auftreten. So stellt Brügelmann (2012) mit Verweis auf verschiedene Studien heraus, dass die Schreibungen der Schülerinnen und Schüler auch innerhalb weniger Tage erheblich variieren können und daher eine punktuelle und allein gegenstandsbezogene Klassifikation von Fehlern nach fachsystematischen Kriterien (Analyse des Produkts) allein nicht ausreicht, um eine Förderung bzw. Fördermaßnahmen gezielt auszurichten. Notwendig sei eine Verbindung mit Beobachtungsverfahren zur Erfassung der Aneignungswege (Analyse des Prozesses) der Schülerinnen und Schüler. Aufgrund der Problematik der Instabilität des Auftretens bestimmter Fehlertypen, erscheint die Fehleranalyse nur bedingt zur prozessbegleitenden Diagnostik geeignet. Natürlich kann über einen längeren Zeitraum do-

54

3 Strategien und Praktiken formativen Assessments

kumentiert werden, welche Fehlertypen in welcher Qualität und Häufigkeit auftreten, jedoch ist dabei die Variabilität der Fehlertypen zu berücksichtigen und die Lehrkraft steht vor der Herausforderung, Aufgaben- bzw. Wortmaterial mit vergleichbarem Schwierigkeitsgrad zu generieren, um einen Lernverlauf überhaupt sichtbar zu machen (Klauer, 2014). 3.2.4

Formelle diagnostische Verfahren

Testbasierte Instrumente zählen zu den diagnostischen Verfahren mit einem längeren Rückmeldezyklus und hohem Standardisierungsgrad (Maier, 2011a), weshalb diese im folgenden unter der Bezeichnung formelle diagnostische Verfahren zusammengefasst werden. Unterschieden werden können diesbezüglich klassische standardisierte Testverfahren, die in erster Linie zur summativen Beurteilung von individuellen Leistungen im Vergleich zu einer sozialen Bezugsnorm und zur Ableitung langfristiger Förder- bzw. Bildungsgangentscheidungen eingesetzt werden (Horstkemper, 2006) sowie weitere Verfahren, die ebenfalls einen hohen Standardisierungsgrad aufweisen. Dazu zählen die auf Bildungsstandards bezogenen Vergleichsarbeiten, die in erster Linie darauf ausgerichtet sind, Prozesse der Schulund Unterrichtsentwicklung anzustoßen (Lankes, Rieger & Pook, 2015) sowie Lernstandsanalysen, die primär auf die Bestimmung der individuellen Lernausgangslage abzielen (Scheerer-Neumann, Schnitzler, Hübner, Mühlbauer & Ritter, 2010). Klassische standardisierte Testverfahren Nahezu alle aktuell vorliegenden standardisierten Schulleistungstests beanspruchen für sich, nicht nur im Rahmen von Selektions- und Bildungsgangentscheidungen, sondern auch förderdiagnostisch einsetzbar zu sein (Krajewski, Küspert & Schneider, 2002; Lenhard & Schneider, 2006; Müller, 2003). Zum sogenannten „formative use of summative tests“ (Black et al., 2003) eignen sich insbesondere förderdiagnostische Tests, die eine umfangreiche Fehler- bzw. Strategieanalyse enthalten. Für das Fach Deutsch bieten beispielsweise die Hamburger SchreibProbe 1-10 (HSP) (May, 2012), der Salzburger-Lese-und-Rechtschreibtest II (SLRT II) (Moll & Landerl, 2014), der Zürcher Lesetest II (Petermann & Daseking, 2015) sowie der Weingartener Grundwortschatz Rechtschreib-Test (Birkel, 2007) vielfältige Möglichkeiten einer strategiebezogenen Auswertung und Analyse von Fehlertypen (Rechtschreib- bzw. Lesefehler). Allerdings wird von Prengel et al. mit Blick auf die HSP kritisch darauf hingewiesen, dass eine Strategieanalyse allein noch zu allgemein ist bzw. zu viele und zu heterogene orthographische Phänomene bündelt, „als dass sich aus den Ergebnissen konkrete Förderschwerpunkte ableiten ließen“ (2009, S. 255). Es wird also dennoch ein „ggf.

3.2 Verwendung geeigneter diagnostischer Methoden und Verfahren

55

durch eine Fehleranalyse gestützte[r] Blick auf die Schreibungen des Schülers selbst“ (Prengel et al., 2009, S. 255) notwendig. Diese Kritik scheint für die meisten standardisierten Testverfahren ebenfalls zutreffend zu sein, dennoch kann eine qualitative Analyse standardisierter Verfahren, besonders aufgrund der theoretisch fundierten Aufgabenauswahl und Auswertung, einen Platz innerhalb formativen Assessments einnehmen, zumindest, um einen groben Überblick über Stärken und Schwächen der Schülerinnen und Schüler zu erhalten. Die Ergebnisse standardisierter Testverfahren bezüglich des Lernstandes einzelner Schülerinnen und Schüler sind zwar als differenzierter einzuschätzen als bspw. die von CBM’s, sie eignen sich aufgrund der Grobmaschigkeit und des geringen Bezugs zum aktuellen Unterricht dennoch nur bedingt zur pädagogischen Nutzung. Da der Einsatz von Testverfahren in der Regel nicht im regulären Unterricht stattfinden kann und mitunter eine Einzeltestung erfordert, können standardisierte Testverfahren kaum ins alltägliche Unterrichtshandeln integriert werden. Auch zur prozessbegleitenden Dokumentation von Lernentwicklungen eignen sich klassische Testverfahren nicht, da sie meist nur zwei Parallelformen enthalten und eine zu geringe Änderungssensibilität (Klauer, 2014) aufweisen. Vergleichsarbeiten Die sogenannten landesweiten Vergleichsarbeiten (VERA, in Sachsen Kompetenztests) „sind auf die Bildungsstandards bezogene und normierte Testinstrumente, mit denen die Leistungen der Schülerinnen und Schüler auf dem Maßstab der Bildungsstandards abgebildet werden“ (Lankes et al., 2015, S. 5). Sie zielen unter anderem darauf ab, Prozesse der Schul- und insbesondere Unterrichtsentwicklung anzustoßen und zu unterstützen. Dafür liegen in den einzelnen Bundesländern teils umfangreiche Materialien vor, die Anregungen zum Umgang mit den Ergebnissen geben. Diese Materialen sollen die pädagogische Nutzung der Ergebnisse, z.B. für die kompetenzorientierte Unterrichtsgestaltung, unterstützen. Beispielsweise existiert aus Nordrhein-Westfalen eine Broschüre zur OrthographieAnalyse von VERA-3, in der u.a. Vorschläge zur Analyse der Rechtschreibergebnisse gemacht werden. Dabei werden die Schritte Herausfiltern von Fehlerschwerpunkten, Qualitative Analyse der Fehlerschwerpunkte, Einordnung der Rechtschreibkompetenz in die Entwicklungstabelle von Naumann und Konsequenzen für den Unterricht skizziert (Qualitäts- und Unterstützungsagentur – Landesinstitut für Schule, 2014). Werden die Ergebnisse auf diese Weise analysiert, können die Vergleichsarbeiten durchaus zur differenzierten Beschreibung des Lernstandes herangezogen werden. Nicht möglich ist hingegen die Abbildung individueller Lernentwicklungen, da die Vergleichsarbeiten nur punktuell (Fach Deutsch in der

56

3 Strategien und Praktiken formativen Assessments

3., 6. und 8. Klassenstufe) durchgeführt werden. Auch die Einbindung in das alltägliche didaktische Handeln der Lehrkräfte ist nicht möglich, da Zeitpunkt und Rahmen der Testdurchführung extern festgelegt werden. Lernstandsanalysen In Berlin und Brandenburg existiert mit den Individuellen Lernstandsanalysen (ILeA) die Möglichkeit, über die Grundschulzeit hinweg systematisch die Lernvoraussetzungen für den Erwerb grundlegender Basiskompetenzen in den Fächern Deutsch und Mathematik zu ermitteln. Die Lernstandsanalysen verfolgen explizit den Ansatz einer didaktisch motivierten Diagnostik und lassen sich somit ebenfalls im Spektrum formativer diagnostischer Verfahren einordnen (Geiling, Liebers & Prengel, 2015). Durch die Eingrenzung der Aufgaben auf wenige zentrale Aspekte der Rahmenlehrpläne sollen die Lernstandserhebungen auch im Alltag praktisch handhabbar sein (Scheerer-Neumann et al., 2010, S. 8). Die individuellen Lernstandsanalysen können zu Anfang des Schuljahres und darüber hinaus während des laufenden Schuljahres wiederholt eingesetzt werden (Scheerer-Neumann et al., 2010). Dadurch ist sowohl eine Beschreibung der individuell erreichten Lernstufen (kriteriale Bezugsnorm), der individuellen Lernentwicklung (individuelle Bezugsnorm) als auch der Vergleich mit anderen Schülerinnen und Schülern (soziale Bezugsnorm) möglich (Scheerer-Neumann et al., 2010). Im Fokus steht allerdings nicht die bezugsnormorientierte Bewertung der Leistungen, „[s]tattdessen analysieren die Aufgaben differenziert und altersentsprechend den Lernstand der Schülerinnen und Schüler“ (Scheerer-Neumann et al., 2010, S. 32). Die Analyse der Ergebnisse kann als Grundlage für passgenaue Angebote für Schülerinnen und Schüler genutzt werden: In den Lernstandsanalysen werden die differenzierten Ergebnisse hinsichtlich des Grades der Beherrschung des jeweiligen Bereichs vor dem Hintergrund didaktischer Stufenmodelle eingeordnet. Darauf basierend werden Empfehlungen zur Notwendigkeit weiterer Lernbeobachtungen oder Fördermaßnahmen bzw. zu Schwerpunkten des individuellen Lernplans gegeben (Scheerer-Neumann et al., 2010). Dieser explizite und enge Bezug zu konkreten Unterrichts- und Fördermaßnahmen zeichnet die Lernstandsanalysen aus und hebt sie von klassischen Testverfahren hinsichtlich ihrer pädagogisch-didaktischen Nutzbarkeit deutlich ab. 3.3

Zusammenfassung und Konsequenzen für die empirische Studie

In den vorangegangenen Ausführungen ist deutlich geworden, dass die von Black und Wiliam (2009) beschriebenen Schlüsselstrategien formativen Assessments auch in anderen Publikationen (Assessment Reform Group, 2002; Bürgermeister et al., 2014; Harlen, 2007a; Heritage, 2007; Maier, 2015; OECD, 2005; Prengel,

3.3 Zusammenfassung und Konsequenzen für die empirische Studie

57

2016; Smit, 2009a) als zentrale Aspekte formativen Assessments aufgegriffen werden. Die Verwendung diagnostischer Methoden und Verfahren, die sich zur formativen Nutzung eignen, stellt darüber hinaus ein weiteres wichtiges Element formativen Assessments dar (Heritage, 2007; OECD, 2005; Prengel et al., 2009; Prengel, 2016; Smit, 2009a). Im ersten Kapitel wurden bereits die Prozessorientierung und die pädagogische Nutzung der diagnostischen Informationen als bedeutsame Charakteristika formativen Assessments herausgearbeitet. Im Folgenden sollen alle zentralen Assessment-Strategien noch einmal knapp beschrieben werden: Lernziele und Erfolgskriterien festlegen und kommunizieren Ausgangspunkt formativen Assessments bilden die Lernziele, die von den Lehrkräften festgelegt und kommuniziert oder gemeinsam mit den Schülerinnen und Schülern erarbeitet werden (Black & Wiliam, 2009; Bürgermeister et al., 2014; Maier, 2015; Schmidt & Liebers, 2017). Die Lernziele sollten möglichst spezifisch, klar formuliert, individualisiert und in einem angemessenen Maß herausfordernd sein und im Unterricht von Lehrkräften und Schülerinnen und Schülern aktiv verfolgt werden (Bürgermeister et al., 2014; Hattie, 2014). Neben fachlichen Zielen können auch soziale Ziele sowie Ziele zum Erwerb von Lernkompetenz berücksichtigt werden (Wiliam, 2010). Ebenso wie die Lernziele sollten den Schülerinnen und Schülern auch Beurteilungs- bzw. Erfolgskriterien transparent gemacht werden, unter anderem, um sie beim selbstregulierten Lernen zu unterstützen (Black & Wiliam, 2009; Clark, 2012; Wiliam, 2010). Kognitiv aktivierende Unterrichtsgespräche etablieren Unterrichtsgespräche stellen eine Möglichkeit dar, Lernprozesse bei den Schülerinnen und Schülern durch Hinweise, Diskussionsimpulse oder gezielte Rückfragen anzuregen. Lernförderliche Unterrichtsgespräche sollten dabei das Denken auf einem hohen kognitiven Niveau herausfordern, wenig vorhersehbar sein, genügend Zeit zum Antworten zur Verfügung stellen und die Schülerinnen und Schüler aktiv einbeziehen (Black & Wiliam, 2009; Ruiz-Primo, 2011). Schülerinnen und Schüler zur Übernahme von Verantwortung für ihr Lernen aktivieren Die Übernahme von Verantwortung für den eigenen Lernfortschritt kann in erster Linie mittels Strategien des selbstregulierten Lernens unterstützt werden (Clark, 2012). Es besteht eine hohe Übereinstimmung bezüglich der Vorgehensweisen und Ziele von formativem Assessment und selbstreguliertem Lernen (Andrade, 2010), wobei insbesondere die Nutzung von Self- und Peer-Assessments als Mög-

58

3 Strategien und Praktiken formativen Assessments

lichkeit der Förderung der Verantwortungsübernahme für das Lernen gilt (Assessment Reform Group, 2002; Black et al., 2002; Black & Wiliam, 2010; Bürgermeister et al., 2014; Harlen, 2007a; Harrison & Howard, 2009; Maier, 2015). Beim Self- und Peer-Assessment reflektieren die Schülerinnen und Schüler über die Qualität ihrer Arbeit, beurteilen, inwieweit die Beurteilungskriterien erfüllt bzw. Lernziele erreicht wurden und passen ihre Arbeit dementsprechend an (Andrade, 2010). Damit ermöglicht der Einsatz von Self- und Peer-Assessments die Entwicklung metakognitiver Strategien auf Seiten der Schülerinnen und Schüler, die sie beim erfolgreichen selbstregulierten Lernen unterstützen (Clark, 2012). Neben metakognitiven Strategien kann auch die Vermittlung und Einübung kognitiver Lernstrategien die Lernenden zur Übernahme von mehr Verantwortung für ihr Lernen befähigen (Andrade, 2010; Boekaerts, 1999; Clark, 2012). Schülerinnen und Schüler als instruktionale Ressourcen füreinander aktivieren Die Aktivierung der Schülerinnen und Schüler als instruktionale Ressourcen füreinander spielt in der Literatur zum formativen Assessment bislang eine untergeordnete Rolle (Black & Wiliam, 2009; Maier, 2015; Wiliam, 2010). Insbesondere Ansätze zum kooperativen Lernen (Slavin et al., 2003) und zum reziproken Lehren und Lernen (Brown & Campione, 1996) stellen geeignete und lernförderliche Methoden bereit, bei denen die Schülerinnen und Schüler dazu angeregt werden, sich gegenseitig beim Lernen zu unterstützen. Die Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander ist eng mit den anderen formativen Assessment-Strategien verknüpft und kann mitunter durch diese unterstützt werden (Wiliam, 2010). Beispielsweise führt die Anwendung von Peer-Assessments auch zu einer Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander. Feedback geben, welches die Schülerinnen und Schüler voranbringt Ein zentrales Element formativen Assessments stellt die Rückmeldung der diagnostischen Informationen über den Lernstand sowie die Lernentwicklung an die Schülerinnen und Schüler dar. Die Rückmeldungen liefern Informationen über die Differenz zwischen einer erbrachten Leistung und dem angestrebten Lernziel und sollen dazu genutzt werden, diese Differenz zu überwinden (Hattie & Timperley, 2007; Ramaprasad, 1983). Entsprechend sollte Feedback klar, zweckgerichtet, sinnvoll sowie mit dem Vorwissen der Lernenden kompatibel sein und sich an den Leitfragen Wohin gehst du?, Wie kommst du voran? und Wohin geht es danach? orientieren (Hattie, 2014; Hattie & Timperley, 2007). Dabei kann das Feedback auf unterschiedliche Ebenen ausgerichtet sein, wobei insbesondere Feedback auf der Ebene der Verstehensprozesse und auf der Ebene der selbstregulatorischen

3.3 Zusammenfassung und Konsequenzen für die empirische Studie

59

Prozesse als lernwirksam gilt, da es Informationen darüber enthält, wie die Schülerinnen und Schüler ihren Lernprozess gestalten können, um sich diesen Zielen anzunähern (Bürgermeister et al., 2014; Hattie, 2014). Diese von Black und Wiliam (2009) beschriebenen fünf Strategien formativen Assessments sollen in der vorliegenden Arbeit erweitert werden. Insbesondere die Verwendung diagnostischer Methoden und Verfahren, die Auskunft über den Lernstand und die Lernentwicklung der Schülerinnen und Schüler geben, wird in Black und Wiliams Konzeptualisierung formativen Assessments zu wenig berücksichtigt, während dem Akt der eigentlichen Leistungsfeststellung von anderen Autoren eine zentrale Bedeutung im formativen Assessmentprozess zugeschrieben wird (Harlen, 2007b; Maier, 2015; Prengel, 2016; Smit, 2009a). Der Einsatz von diagnostischen Methoden und Verfahren, die Auskunft über den Lernstand und die Lernentwicklung der Schülerinnen und Schüler geben, wird in der englischsprachigen formativen Assessment Literatur bislang nur randständig berücksichtigt, obwohl die Analyse von Lernergebnissen und -prozessen gewissermaßen den Kern von Assessment ausmacht (Sadler, 1989). Für formatives Assessment eignen sich vielfältige Methoden und Verfahren, wobei diagnostisches Handeln dann als formativ zu kennzeichnen ist, wenn die Informationen pädagogisch genutzt werden (Wiliam, 2010). Eine Unterscheidung in summative und formative Verfahren ist demnach nicht zielführend. Insgesamt ist eine diagnostische Methodenvielfalt erstrebenswert, um unterschiedliche Kompetenzbereiche und Lernprozesse adäquat erfassen und dokumentieren zu können (OECD, 2005). Wenn die Diagnose eine Anpassung der pädagogischen Handlungen nach sich ziehen soll, so ist es naheliegend, dass sich insbesondere Methoden und Verfahren, die im alltäglichen pädagogisch-didaktischen Handeln einsetzbar sind und deren Ergebnisse pädagogisch genutzt werden können, zur formativen Verwendung eignen. Die Verfahren sollen eine differenzierte Beschreibung des individuellen Lernstandes sowie eine kontinuierliche Erfassung von Lernfortschritten ermöglichen (Prengel et al., 2009; Wiliam, 2010). Insbesondere Methoden der alternativen Leistungsbeurteilung, wie das Portfolio, Beurteilungsraster und das Lerntagebuch sind für den Einsatz im alltäglichen Unterricht geeignet und ermöglichen eine differenzierte Beschreibung des Lernstandes und der Lernentwicklung. Die Informationen können durch den engen Bezug zu Unterrichtsinhalten und Kompetenzen von den Lehrkräften zur Ableitung von Unterrichts- und Fördermaßnahmen genutzt werden. Auch informelle diagnostische Verfahren (z.B. Beobachtungen, diagnostische Gespräche und Fehleranalysen) sowie individuelle Lernstandsanalysen eignen sich zur formativen Verwendung. Curriculumbasierte Diagnosen legen den Fokus auf die lernprozessbegleitende Erfassung der Lernentwicklung, wobei CBM’s nur bedingt

60

3 Strategien und Praktiken formativen Assessments

im alltäglichen Unterricht einsetzbar sind und aus deren Ergebnissen kaum Ableitungen bezüglich nachfolgender pädagogischer Schritte gezogen werden können. Standardisierte Tests und Vergleichsarbeiten erfüllen nur in geringem Maße die Anforderungen formativer Verfahren. Weiterhin wird unter Bezugnahme auf die Definition formativen Assessments im ersten Kapitel die Prozessorientierung im Unterrichtsverlauf und in Bezug auf die Lernprozesse der Schülerinnen und Schüler als Kernmerkmal formativen Assessments ergänzt (Bürgermeister et al., 2014; Filsecker & Kerres, 2012; Harlen, 2007b; Heritage, 2007; Prengel, 2016; Smit, 2009a). Formatives Assessment kann als zyklischer Prozess verstanden werden, wobei die Lehrkraft kontinuierlich die Leistungen der Schülerinnen und Schüler erfasst und Lernziele sowie Unterrichtsaktivitäten daran anpasst (Bürgermeister, 2014; Harlen, 2007b; Smit, 2009a). Dies erfordert eine engmaschige Überprüfung der Lernziele und eine regelmäßige Nachjustierung der Ziele und Methoden. Eine Prozessorientierung impliziert, dass die Lehrkräfte das Voranschreiten im Unterricht eher davon abhängig machen, wie die Schülerinnen und Schüler vorankommen als vom Lehrplan bzw. Stoffverteilungsplänen (James & Pedder, 2006). Damit umfasst die Prozessorientierung auch die Orientierung an der Lernentwicklung der Schülerinnen und Schüler (Bürgermeister et al., 2014). Auch die im ersten Kapitel diskutierte formative bzw. pädagogische Nutzung der diagnostischen Informationen stellt ein Kerncharakteristikum formativen Assessments in Abgrenzung zum summativen Assessment dar (Black & Wiliam, 2009; Bürgermeister et al., 2014; Heritage, 2007; Maier, 2015; Prengel, 2016) und sollte daher ebenfalls als konkrete handlungsleitende Strategie aufgegriffen werden, um formatives Assessment-Handeln beschreib- und erfassbar zu machen. Diagnostisches Handeln ist dann formativ, wenn die diagnostischen Informationen genutzt werden, um den Unterricht adaptiv an die Bedürfnisse der Schülerinnen und Schüler anzupassen (Black & Wiliam, 2009). Die Verknüpfung von Leistungsbeurteilung und Unterricht stellt die zentrale Zielstellung formativen Assessments dar (Black & Wiliam, 2009; Bürgermeister et al., 2014; Heritage, 2007; Maier, 2015; Prengel, 2016), und schlägt sich in einer adaptiven Unterrichtsgestaltung nieder. Genutzt werden können die diagnostischen Informationen beispielsweise zur Anpassung der Lernziele, Unterrichtsmethoden und -materialien, zur Ableitung von Fördermaßnahmen (Bürgermeister et al., 2014) sowie zur Gestaltung differenzierter Lernangebote (Heritage, 2007). Aber nicht nur die Lehrkraft, sondern auch die Schülerinnen und Schüler sollen durch angemessenes Feedback dazu befähigt werden, die diagnostischen Informationen zu nutzen und Anpassungen im Lernprozess vorzunehmen (Black & Wiliam, 2009).

3.3 Zusammenfassung und Konsequenzen für die empirische Studie

61

Zusammenfassend ergibt sich aus den ersten beiden Kapiteln das nachfolgende theoretische Modell formativen Assessments: Lernziele und Beurteilungskriterien kommunizieren Kognitiv aktivierende Unterrichtsgespräche Aktivierung zur Verantwortungsübernahme Aktivierung als instruktionale Ressource füreinander Formatives Assessment Diagnostische Methoden und Verfahren verwenden Lernförderliches Feedback

Prozessorientierung Pädagogische Nutzung der diagnostischen Informationen

Abbildung 2: Modell der Strategien formativen Assessments 3.3.1

Konsequenzen für die empirische Studie

Wie die Ausführungen zu den einzelnen formativen Assessment-Strategien gezeigt haben, handelt es sich dabei um sehr heterogene Aspekte, die von diagnostischen Tätigkeiten im engeren Sinne (Verwendung diagnostische Methoden und Verfahren, die Auskunft über den Lernstand und die Lernentwicklung der Schülerinnen und Schüler geben) bis hin zu eher didaktischen Aktivitäten (Lernziele und Erfolgskriterien festlegen und kommunizieren, Pädagogische Nutzung der diagnostischen Informationen) reichen. Weiterhin zeigt sich, dass die Grenzen zwi-

62

3 Strategien und Praktiken formativen Assessments

schen den Strategien mitunter unscharf verlaufen und inhaltliche Überschneidungen auftreten (z.B. Peer-Assessment als Möglichkeit zur Förderung der Übernahme von Verantwortung für den eigenen Lernprozess, aber auch zur Aktivierung als instruktionale Ressource füreinander sowie als diagnostische Methode). Daraus ergibt sich die Notwendigkeit, die Strategien formativen Assessments, die im theoretischen Modell angenommen werden, empirisch zu überprüfen. Angesichts der Unschärfe der einzelnen Strategien sollte zum einen analysiert werden, ob sich die theoretisch angenommenen Strategien empirisch abbilden lassen und zum anderen wie diese Strategien untereinander zusammenhängen. Diesbezüglich liegen bislang kaum Ergebnisse vor (Smit, 2009a), wie im dritten Kapitel gezeigt wird. Weiterhin wird von einigen Autoren gefordert, dass im Gegensatz zu früheren Studien verstärkt das Gesamtkonstrukt und weniger die Effekte einzelner Aspekte, wie Feedback oder Peer-Assessment, untersucht werden sollten (Smit & Engeli, 2017). Angesichts der Heterogenität der Strategien ist daher zu prüfen, inwieweit sich diese zum Teil sehr unterschiedlichen Strategien überhaupt unter dem globalen Begriff formatives Assessment bündeln lassen oder ob sie nicht vielmehr als eigenständige Aspekte der lernförderlichen Gestaltung von Lehr-Lernprozessen verstanden werden sollten.

4

Empirische Befunde zum formativen Assessment

Zum formativen Assessment liegen international zahlreiche Studien mit unterschiedlichen Forschungsschwerpunkten vor. Wie bereits im ersten Kapitel herausgearbeitet, besteht eines der Hauptziele formativen Assessments in der Förderung des Lernens, weshalb Studien weitaus am häufigsten die Effekte formativen Assessments auf die Schülerleistungen sowie auf andere Schülermerkmale wie die Motivation oder Selbstregulation untersuchen (Kapitel 3.1). Daneben existiert eine Reihe an Studien, die sich mit der Praxis formativen Assessments (Kapitel 3.2) sowie den Überzeugungen und Wahrnehmungen der Lehrkräfte diesbezüglich beschäftigen (Kapitel 3.3). Ferner liegen einige Beiträge zur Entwicklung von Erhebungsinstrumenten sowie zur empirischen Modellierung formativen Assessments vor (Kapitel 3.4). Im Folgenden sollen relevante Studien zu den genannten Aspekten dargestellt werden, wobei vor allem Untersuchungen im Grundschulbereich berücksichtigt werden. Aufgrund der Studienlage werden an einigen Stellen aber auch Studien einbezogen, die im Sekundarbereich angesiedelt sind, da hier bereits deutlich mehr qualitativ hochwertige Studien existieren als für die Primarstufe. 4.1 4.1.1

Effekte formativen Assessments Effekte auf die Leistungsentwicklung der Schülerinnen und Schüler

Der erste umfangreiche und vielzitierte Literatur-Review zu Aspekten formativen Assessments wurde von Black und Wiliam (1998b) vorgelegt. Dieser, oftmals fälschlicherweise als Meta-Analyse eingeordnete, Beitrag wird häufig als Beleg für den positiven Effekt formativen Assessments auf die Schülerleistungen angeführt (Baas, Castelijns, Vermeulen, Martens & Segers, 2015; Herman, Osmundson, Ayala, Schneider & Timms, 2006; Popham, 2008; Stiggins, 2002). Black und Wiliam (1998a) resümieren, dass die Effektstärken formativen Assessments zwischen d = 0.4 bis d = 0.7 liegen und diese weitaus größer sind als die der meisten pädagogischen Interventionen. Dunn und Mulvenon (2009) sowie Bennett (2011) kritisieren allerdings methodische Schwächen der von Black und Wiliam zitierten Studien (u.a. Fuchs & Fuchs, 1986) und, dass mit Martinez und Martinez (1992) eine Studie angeführt wurde, die ein Merkmal (Häufigkeit der Testnutzung) untersucht, welches nur bedingt dem formativen Assessment zugeordnet werden kann. Die von Black und Wiliam (1998) gezogene Schlussfolgerung sei aufgrund der verwendeten Studien im Grunde unzulässig (Dunn & Mulvenon, 2009). Dunn und Mulvenon (2009) erstellten daher einen kritischen Review der Literatur zu formativem Assessment. Auch in Hatties (2014) umfangreicher Synthese von Meta-Analysen zu Einflussfaktoren auf den Lernerfolg der Schülerinnen und

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0_4

64

4 Empirische Befunde zum formativen Assessment

Schüler werden einige für formatives Assessment relevante Aspekte berücksichtigt. Allerdings erfüllen all diese Studien nicht die Anforderungen an eine MetaAnalyse bzw. fokussieren nicht explizit auf formatives Assessment, weshalb Kingston und Nash eine Meta-Analyse zum formativen Assessment veröffentlichten, mit dem Ziel „to investigate whether the magnitude of the effects reported in the literature is in keeping with the claims commonly made for the efficacy of formative assessment“ (Kingston & Nash, 2011, S. 29). Einbezogen wurden Studien, die explizit die Begriffe formative assessment oder assessment for learning verwenden, deren Teilnehmer in einem K-12 Setting (Kindergarten bis Klasse 12) lernen, die ein Kontroll- oder Vergleichsgruppendesign haben, die angemessene Auswertungsverfahren verwenden, um Effektstärken zu berechnen und die 1988 oder später veröffentlicht wurden (Kingston & Nash, 2011, S. 29). Das endgültige Sample der Studie umfasst 13 Studien mit 42 unabhängigen Effektstärken. Kingston und Nash (2011, S. 33) kommen zu dem Ergebnis, dass die gewichtete mittlere Effektstärke formativen Assessments bei d = .20 liegt. Der Median der Effektstärke liegt bei d = .25, womit beide Werte signifikant niedriger ausfallen als frühere Werte und in einem Bereich liegen, der im Allgemeinen als „gering“ (Cohen 1988) interpretiert wird. Dennoch könne formatives Assessment eine Möglichkeit darstellen, Schülerleistungen signifikant zu verbessern. Darüber hinaus zeigt sich, dass es eine große Variation bezüglich des Typs und Einfluss formativen Assessments gibt. So zeigen Moderatoranalysen, dass die Effektstärken vom Fach beeinflusst werden, wobei in English language arts (Lesen) größere Effektstärken erzielt wurden als in Mathematik oder Naturwissenschaften, was insbesondere auf die größere Vertrautheit mit den Aufgabenformaten und die geringere Komplexität der Anforderungen im Fach English language arts zurückgeführt wird (Kingston & Nash, 2011, S. 33). Die Klassenstufe hat sich hingegen nicht als signifikante Moderatorvariable erwiesen. Die Effektstärke von Feedback fällt überraschenderweise sehr gering aus (d = .03), was mitunter damit zusammenhängen könnte, dass die untersuchten Studien meist nicht genau Auskunft über die Ebene des Feedbacks geben und somit möglicherweise auch Formen weniger effektiven Feedbacks einbezogen wurden. Die größten Effekte werden bei der Verwendung computerbasierten formativen Assessments (d = .28) und im Rahmen von Fortbildungsstudien (Professional Development d = .30) erzielt. Die mittlere Effektstärke von anderen Assessmentformen, wie Unterrichtsgespräche, Unterrichtsaktivitäten oder Schülerreflexion liegt bei d = .10, allerdings konnten hier auch nur drei Studien einbezogen werden. Abschließend weisen Kingston und Nash (2011) noch einmal darauf hin, dass die Ergebnisse, wenn auch nicht so positiv wie erwartet, dennoch praktisch bedeutsam sind. Geht man davon aus, dass in einer Klasse 50 Prozent der Schülerinnen und Schüler kompetent sind, so wären

4.1 Effekte formativen Assessments

65

es bei einer Effektstärke von d = .30 zwölf Prozent, bei einer Effektstärke von d = 20 immerhin acht Prozent mehr, die ebenfalls dieses Leistungsniveau erreichen. Aber auch die Studie von Kingston und Nash (2011) wurde bereits von McMillan, Venable und Varier (2013) hinterfragt. McMillan et al. (2013) kritisieren neben methodischen Schwächen der eingeschlossenen Studien unter anderem die Auswahlkriterien von Kingston und Nash (2011), die dazu geführt haben, dass Studien eingeschlossen wurden, die nur entfernt etwas mit den allgemein anerkannten Merkmalen formativen Assessments zu tun haben, andererseits aber auch Studien ausgeschlossen wurden, die Aspekte formativen Assessments untersuchen, diese aber nicht als formatives Assessment gekennzeichnet haben. Beispielsweise zeigt die Analyse von McMillan et al. (2013), dass kaum Studien einbezogen wurden, die ihre Aufmerksamkeit auf die Adaption des Unterrichts richten, obwohl dies ein Kernmerkmal formativen Assessments darstellt (Wiliam & Leahy, 2006) und möglicherweise bedeutsam für die Verbesserung der Schülerleistungen ist. Auch untersuchen einige Studien die Auswirkungen von Feedback nach und nicht während der Instruktion, obwohl beim formativen Assessment der Fokus auf der Rückmeldung während des Lernprozesses liegt. „Given that many of the studies in the KN [Kingston & Nash] meta-analysis did not contain this feature, it is not unreasonable to argue that the conclusions are dubious“ (McMillan et al., 2013, S. 6). Auch weitere Aspekte wie Self-Assessments wurden in den Studien kaum berücksichtigt. McMillan et al. (2013) geben in ihrer Arbeit einen Überblick über die methodischen und inhaltlichen Details der Studien und vertiefen dadurch den von Kingston und Nash (2011) vorgelegten Blick auf das Forschungsfeld. Gleichzeitig weisen sie darauf hin, dass klare konzeptionelle Definitionen, qualitativ hochwertige Studien und die Berücksichtigung aller Aspekte formativen Assessments notwendig sind, um eine fundierte Grundlage für die Effekte formativen Assessments auf die Schülerleistung aufbauen zu können. Im deutschsprachigen Raum liefern insbesondere die Projekte IGEL (Individuelle Förderung und adaptive Lerngelegenheiten in der Grundschule) und CO²CA (Conditions and Consequences of Classroom Assessment) wichtige Befunde zur Wirksamkeit formativen Assessments. So wurden im Projekt IGEL (Decristan et al., 2015) im Rahmen einer Interventionsstudie die Effekte formativen Assessments auf die Schülerleistung von Drittklässlern im naturwissenschaftlichen Sachunterricht der Grundschule untersucht. Die Lehrkräfte wurden in der Nutzung von offenen Fragen und Feedbackstrategien sowie der Adaption nachfolgender Unterrichtssequenzen geschult und erhielten halbstrukturierte Feedbackbögen, mit denen sie ihren Schülerinnen und Schülern Hinweise zum Lernstand und zu weiteren Lernschritten geben konnten. Dabei zeigt sich, dass die Schülerinnen und Schüler

66

4 Empirische Befunde zum formativen Assessment

in der Interventionsgruppe signifikant bessere Testwerte erzielten als die Schülerinnen und Schüler der Kontrollgruppe. Weniger positiv fallen die Ergebnisse im Projekt CO²CA für den Mathematikunterricht in der Sekundarstufe aus. Es zeigt, dass sowohl durch informationales mündliches Feedback mit Hinweisen zum weiteren Lernen (Rakoczy et al., 2008) als auch Formen der partizipativen (u.a. Selfund Peer-Assessment) und verbalen Beurteilung (u.a. Ergebnisse von Klassenarbeiten im Unterricht besprechen) kein Effekt auf die Schülerleistung erzielt werden konnte (Bürgermeister, 2014). 4.1.2

Effekte auf die Motivation und Selbstregulation

Einige Studien beschäftigen sich mit den Auswirkungen formativen Assessments auf weitere Schülermerkmale wie die Selbstregulation und Motivation. Hinsichtlich der Effekte auf die Selbstregulation zeigen sich überwiegend positive Befunde. So kommt Smit (2009a) in seiner längsschnittlichen Untersuchung anhand von Lehrer- und Schülerselbsteinschätzungen zu dem Ergebnis, dass ein tendenziell stabiler positiver Zusammenhang zwischen förderorientierter Beurteilung und der Einschätzung der Selbst- und Methodenkompetenz von 8. bzw. 9.-Klässlern besteht. Klassen, in denen im neunten Schuljahr eine stärkere förderorientierte Beurteilung wahrgenommen wird, haben höhere Werte in der Selbsteinschätzung der Lernkompetenzen. Auch für den Mathematikunterricht in der Grundschule konnten Smit, Bachmann et al. (2017) zeigen, dass der Einsatz von Beurteilungsrastern (rubrics) moderiert über Self- und Peer-Assessments einen positive Effekt auf die selbstwahrgenommene Selbstregulation und Selbstwirksamkeit der Schülerinnen und Schüler hat. Baas et al. (2015) kommen zu differenziellen Befunden. So beeinflusst Feedback über den Lernstand zwar die Aufgabenorientierung und Planungsaktivitäten der Schülerinnen und Schüler positiv, jedoch nicht deren Strategieeinsatz oder Reflexion. Dies führen die Autoren unter anderem darauf zurück, dass das Feedback nicht hilfreich genug war, um die Schülerinnen und Schüler bei der Aufgabenbearbeitung zu unterstützen. Offenbar wird weitere Unterstützung durch die Lehrkraft benötigt, dass die Schülerinnen und Schüler die Hinweise auch umsetzen können. Auch deuten einige Studien darauf hin, dass formatives Assessment positive Effekte auf die Motivation der Schülerinnen und Schüler haben kann. In der IGELStudie zeigt sich, dass informationales mündliches Feedback mit Hinweisen zum weiteren Lernen einen Effekt auf die Motivation der Grundschülerinnen und schüler hat (Rakoczy et al., 2008) und dass lösungsprozess- und kompetenzbezogene schriftliche Rückmeldungen von den Schülerinnen und Schülern als nützlicher wahrgenommen werden als Rückmeldungen in Form von Noten (Harks et al., 2014). Diese wahrgenommene Nützlichkeit hat je nach Interessens- und Selbstwirksamkeitsniveau einen Effekt auf die Motivation der Lernenden. Insbesondere

4.1 Effekte formativen Assessments

67

interessierte Schülerinnen und Schüler scheinen von lösungsprozess- und kompetenzbezogener Rückmeldung in motivationaler Hinsicht zu profitieren. Die kompetenzbezogene Rückmeldung hat also dementsprechend, vermittelt über die wahrgenommene Nützlichkeit, einen positiven Effekt auf die Motivation. Die Ergebnisse von van Evera (2003) spiegeln hingegen differenzielle Effekte informativen schriftlichen Feedbacks auf die Motivation von Mittelschülerinnen und Mittelschülern im Naturwissenschaftsunterricht wider, wobei schwache Schülerinnen und Schüler hinsichtlich der Leistung und Selbstwirksamkeit mehr profitieren als Schülerinnen und Schüler auf mittlerem und hohem Leistungsniveau. Die Befunde von Bürgermeister (2014) sprechen dafür, dass auch partizipative Formen der Beurteilung, bei der die Schülerinnen und Schüler in den Prozess der Leistungsbeurteilung einbezogen werden, mit einer hohen Anstrengungsbereitschaft und Motivation einhergehen. Darüber hinaus existieren aber auch Studien, bei denen keine signifikanten Effekte formativen Assessments auf die Motivation gefunden werden konnten, was die Autoren unter anderem darauf zurückführen, dass die Assessment-Strategien nicht wie intendiert umgesetzt wurden (Yin et al., 2008). 4.1.3

Zur Praxis formativen Assessments

Verbunden mit der Suche nach der theoretischen Rahmung ist die Gefahr der Entstehung einer zunehmend abstrakten Vision von formativem Assessment, die nur wenig mit der Realität im Klassenraum gemein hat. Allal und Mottier Lopez weisen daher auf die Bedeutung der Erforschung aktueller Praktiken hin: „This is why it is essential to articulate theoretical work with the study of how assessment is actually practiced in the classroom“ (2005, S. 251). Informationen diesbezüglich können aus Aktions- bzw. Praxisforschungsprojekten, Studien, basierend auf Fragebögen und Interviews sowie detaillierten Praxisbeschreibungen von Lehrkräften gewonnen werden (Allal & Mottier Lopez, 2005). Im Folgenden wird in erster Linie auf Ergebnisse aus Lehrkräftebefragungen Bezug genommen, wobei sowohl internationale Studien als auch deutschsprachige Untersuchungen im Grund- und Sekundarschulbereich berücksichtigt werden sollen. Im Hinblick auf die Assessment-Praxis ist zunächst festzustellen, dass diese stark länder- und kulturspezifisch variiert (OECD, 2005), weshalb sich kaum allgemeingültige, sondern lediglich kontextspezifische Aussagen zur Praxis formativen Assessments treffen lassen. So gibt beispielsweise die Studie von Hao und Johnson (2013) Aufschluss über länderspezifische Unterschiede, wobei kanadische, neuseeländische und amerikanische Lehrkräfte häufiger angeben, mehr schriftliche als mündliche Assessment-Aktivitäten durchzuführen, während sich bei englischen Lehrkräften ein eher ausgeglichenes Verhältnis von mündlichen und schriftlichen Assessment-Aufgaben zeigt und amerikanische Lehrkräfte häufiger Mul-

68

4 Empirische Befunde zum formativen Assessment

tiple-Choice-Tests nutzen. Einen umfangreichen Überblick über den Entwicklungsstand hinsichtlich formativen Assessments in Australien, Kanada, Dänemark, England, Finnland, Italien, Neuseeland und der Schweiz liefert die OECD (2005). Dabei wird deutlich, dass in allen teilnehmenden Ländern die Praxis formativen Assessments gefordert und unterstützt wird, aber auch große Barrieren existieren, welche die flächendeckende Umsetzung formativen Assessments erschweren. Dazu zählen insbesondere Spannungen zwischen unterrichtsimmanentem formativen Assessment und summativen Tests zur Rechenschaftslegung sowie die mangelhafte Verknüpfung zwischen den Assessments auf der System-, Schul- und Unterrichtsebene. Einsatz diagnostischer Methoden und Verfahren Zum Einsatz diagnostischer Methoden und Verfahren zeigt sich in internationalen Studien, dass Grundschullehrkräfte überwiegend schriftliche Aufgaben wie selbstentwickelte Tests, Quizzes, Multiple-Choice-Tests und Arbeitsproben zur Leistungsbeurteilung nutzen, während standardisierte (zentrale) Tests, Gruppenprojekte oder mündliche Präsentationen deutlich seltener eingesetzt werden (Cizek & Fitzgerald, 1996; McMillan, Myran & Workman, 2002). In der Befragung von Bol und Kolleginnen (1998) von 893 Lehrkräften verschiedener Schulformen und Fächer wird deutlich, dass die Lehrkräfte am häufigsten Unterrichtsbeobachtungen, Performance-Tasks (z.B. Vorträge) und Klassenarbeiten zur Leistungsbeurteilung nutzen. Am wenigsten kommen Portfolios oder Self-Assessments zum Einsatz, was auch mit den Angaben der Lehrkräfte korrespondiert, dass sie sich bezüglich dieser Methoden am wenigsten vorbereitet bzw. kompetent fühlen. Grundschullehrkräfte nutzen dabei noch etwas häufiger alternative Assessments, wie Portfolio und Self-Assessments, als Lehrkräfte der Sekundarstufe und fühlen sich diesbezüglich auch kompetenter. Zum Einsatz diagnostischer Methoden und Verfahren in der Grundschule gibt Eckerth (2013), die 59 bzw. 65 pädagogische Fachkräfte im schriftsprachlichen Anfangsunterricht zu Beginn des ersten Schuljahres und Mitte des zweiten Schuljahres bezüglich ihrer Diagnose- und Förderpraxis befragte, einen detaillierten Einblick. Dabei zeigt sich, dass die Lehrkräfte in der Schuleingangsphase nach eigener Auskunft regelmäßig Beobachtungen zu den schriftlichen Fähigkeiten der Kinder vornehmen, häufiger in geöffneten Unterrichtsphasen als in lehrergelenkten Phasen. Hauptsächlich wird dabei spontan im alltäglichen Unterricht diagnostiziert, seltener in gezielt arrangierten Situationen (Eckerth, 2013, 142ff.). In den Blick genommen werden sowohl Arbeitsprodukte als auch individuelle Lösungswege der Schülerinnen und Schüler. Bezüglich der verwendeten Materialien geben über 90 Prozent der Befragten an, regelmäßig alltägliche Unterrichtsmaterialien

4.1 Effekte formativen Assessments

69

bzw. -aufgaben zu nutzen, um die schriftsprachlichen Fähigkeiten der Schülerinnen und Schüler zu erfassen. Für fast die Hälfte der Fachkräfte gehört im ersten Schuljahr auch die regelmäßige Verwendung von Checklisten und Beobachtungsbögen zum methodischen Repertoire, für etliche Fachkräfte aber auch selten oder nie, was auf große Unterschiede in der Diagnosepraxis verweist. In der zweiten Klasse werden Checklisten und Beobachtungsbögen nur noch von 23 Prozent regelmäßig genutzt. Spezielle Diagnoseverfahren werden von der Mehrheit der Fachkräfte selten oder nie eingesetzt (Eckerth, 2013, S. 150). Klassenarbeiten und Tests kommen im zweiten Schuljahr manchmal bis selten zum Einsatz. Eckerth (2013, S. 150) schlussfolgert aus der Abnahme des Einsatzes gezielter diagnostischer Verfahren, dass die Lehrkräfte möglicherweise nach der Einschulung verstärkt spezielle Beobachtungs- bzw. Diagnoseverfahren eingesetzt haben, um näheres über die Lernausgangslagen der Schulanfänger zu erfahren, die Schülerinnen und Schüler ihnen später aber so bekannt waren, dass die Diagnose sich verstärkt auf die Beobachtung in alltäglichen Unterrichtssituationen beschränkt. Auch in der Untersuchung von Racherbäumer (2009) wird deutlich, dass nur ein Teil der Lehrkräfte (n = 120) die Lernausgangslagen der Schülerinnen und Schüler im Anfangsunterricht differenziert erfasst. So geben lediglich 59 Prozent der befragten Lehrkräfte an, die Lernausgangslage ihrer Schülerinnen und Schüler im Lesen zu diagnostizieren. Im Bereich Schreiben führten 67 Prozent eine Lernstandserhebung durch. Insgesamt 20 Prozent der Lehrkräfte erfassen die Lernausgangslage ihrer Schülerinnen und Schüler jedoch weder im Bereich Lesen, Schreiben noch Mathematik. In der Befragung von Solzbacher (2012), die sich auf die gesamte Grundschulzeit bezieht, zeigt sich, dass die Grundschullehrkräfte (n = 699) die Lernentwicklung der Schülerinnen und Schüler in erster Linie mit Klassenarbeiten, Tests und eigenen Verfahren erfassen. Mehr als ein Drittel der Lehrkräfte setzt auch standardisierte Tests ein. Etwas mehr als die Hälfte der Befragten wendet die systematische Beobachtung häufig und 22 Prozent sogar sehr häufig an. Methoden wie Kompetenzraster, Portfolios oder Lerntagebücher werden nur selten oder nie im Unterricht eingesetzt. Knapp 40 Prozent der Befragten sehen entsprechend auch einen Fortbildungsbedarf bezüglich einer Lernprozessbeobachtung. In ähnlicher Weise zeigt sich bei Inckemann (2008) im Rahmen einer qualitativen Untersuchung, dass erfahrene Grundschullehrkräfte (n = 20) grundsätzlich zwar einem förderdiagnostischen Ansatz aufgeschlossen waren, aber die Voraussetzungen für ein konkretes förderdiagnostisches Arbeiten nur teilweise erfüllen. Die Lehrkräfte geben an, im Deutschunterricht überwiegend in lehrergelenkten Unterrichtssituationen sowie bei der Kontrolle von Arbeitsprodukten diagnostisch tätig zu sein, während Testverfahren oder Beobachtungen in offenen Lernsituationen kaum durchgeführt werden.

70

4 Empirische Befunde zum formativen Assessment

Auch die diagnostische Praxis von Lehrkräften der Sekundarstufe ist durch eine geringe Nutzung schülerorientierter und gezielter diagnostischer Verfahren gekennzeichnet. Maier (2011a) konnte in seiner Befragung von 307 Gymnasiallehrkräften in Thüringen, Bayern und Baden-Württemberg zeigen, dass diese überwiegend einfach zu realisierende Verfahren der formativen Leistungsdiagnostik wie gezielte Schülerbeobachtungen oder Peer-Assessments einsetzen, wobei Peer-Assessments in Deutsch und fremdsprachlichen Fächern signifikant häufiger genutzt werden als im Fach Mathematik. Nicht benotete Kurztests oder mit Kolleginnen entwickelte Tests werden eher nicht verwendet. Am seltensten erfolgt der Einsatz standardisierter Tests, welche von knapp 70 Prozent der befragten Deutschlehrkräfte noch nie genutzt wurden. Eine systematische Dokumentation der Kompetenzentwicklung einzelner Schülerinnen und Schüler wird entsprechend ebenfalls von der Mehrheit der Lehrkräfte nie oder selten erstellt. In der Lehrkräftebefragung (n = 273) von Smit (2009) im Kanton Zug zeigt sich ebenfalls, dass von den formativen Methoden noch am häufigsten die systematische Beobachtung im Unterricht angewendet wird, wobei eher selten Beobachtungsbögen eingesetzt werden. Möglichkeiten zur Selbstbeurteilung werden etwas häufiger genutzt als Instrumente wie das Portfolio oder das Lerntagebuch, welche kaum verwendet werden. Ebenso geben die von Bürgermeister (2014, S. 136) befragten Mathematiklehrkräfte (n = 46) an, Portfolios und Lerntagebücher kaum zu verwenden. In integrativen bzw. inklusiven Settings dominieren in ähnlicher Weise traditionelle bzw. einfach zu realisierende diagnostische Verfahren. So erfassen die von Moser, Schäfer und Kropp (2014) befragten Regelschullehrkräfte (n = 327) die Lernstände der Schülerinnen und Schüler überwiegend mittels Klassenarbeiten, deutlich seltener mittels anderer informeller Verfahren oder standardisierten Instrumenten in Deutsch und Mathematik. Andere Bereiche wie die Wahrnehmung, Motorik und Konzentration werden von den Regelschullehrkräften kaum überprüft, dies fällt eher in den Zuständigkeitsbereich der Förderschullehrkräfte. Die Lehrkräfte verschiedener Schulformen (n = 42) im Schulversuch ERINA (Schmidt & Liebers, 2017) nutzen als formative Verfahren in erster Linie die Schülerbeobachtung zur Feststellung des Lernstandes. Aber auch Gespräche mit den Schülerinnen und Schülern und Fehleranalysen werden eingesetzt. Sehr selten oder nie werden arrangierte diagnostische Situationen und Verfahren, wie OnlineLernstandsanalysen oder diagnostische Aufgabensammlungen verwendet. Jedoch geben 90 Prozent der Befragten an, auch alternative Formen der Leistungsermittlung wie Lerntagebücher oder Portfolios zu nutzen.

4.1 Effekte formativen Assessments

71

Realisierung weiterer Assessment-Strategien Umgang mit Lernzielen und Beurteilungskriterien Die Studienlage deutet darauf hin, dass Grundschullehrkräfte überwiegend transparent mit Lernzielen und Beurteilungskriterien umgehen. So geben die von Herman et al. (2010) in einer randomisierten Feldstudie befragten Grundschullehrkräfte (n = 39) an, im Naturwissenschaftsunterricht täglich Lernziele zu kommunizieren. In der Studie wird auch deutlich, dass Lehrkräfte, die auf die Transparenz der Lernziele achten, häufiger Schülerarbeiten und Gruppenarbeiten analysieren und eher verschiedene Assessment-Strategien nutzen als andere Lehrkräfte. Auch die von James und Pedder (2006) befragten Elementar-, Primar- und Sekundarstufenlehrkräfte (n = 558) sowie die von Altman, Fleming und Heyburn (2010) befragten Grundschullehrkräfte (n = 87) sind der Ansicht, oft Lernziele mit den Schülerinnen und Schülern zu besprechen. Ebenso zeigt sich in deutschsprachigen Untersuchungen im Sekundarbereich, dass die Lehrkräfte der Ansicht sind, Lernziele überwiegend transparent zu kommuniziert (Schmidt & Liebers, 2017; Smit, 2009a). Feedback-Verhalten Das Feedback-Verhalten wird in internationalen Lehrkräftebefragungen ebenfalls überwiegend positiv eingeschätzt. Brown, Harris und Harnett (2012) konnten zeigen, dass neuseeländische Grundschullehrkräfte (n = 267) Feedback am ehesten dazu einsetzen, dass die Schülerinnen und Schüler sich verbessern und die Informationen für ihr Lernen nutzen können. Aufgaben- und prozessorientiertes Feedback wird von den Lehrkräften ebenfalls häufig bereitgestellt, etwas seltener geben die Lehrkräfte Feedback auf der Ebene der Selbstregulation. Auch die von Altman et al. (2010) sowie James und Pedder (2006) befragten Lehrkräfte sind der Einschätzung, regelmäßig konstruktives Feedback zu geben. Ein ähnliches Bild zeigt sich für den Sekundarbereich in deutschsprachigen Untersuchungen. So sind die von Smit (2009a) befragten Lehrkräfte der Ansicht, den Schülerinnen und Schülern während Arbeitsphasen viele individuelle Rückmeldungen geben, die ihnen beim Lernen helfen. Weiterhin werden die Schülerinnen und Schüler regelmäßig über ihren Lernstand bzw. ihre Lernentwicklung informiert (Schmidt & Liebers, 2017; Smit, 2009a; Walm, 2018). Bei Bürgermeister (2014) wird deutlich, dass die Lehrkräfte insbesondere bei der Tafelarbeit, aber auch bei der Besprechung von Ergebnissen einer Klassenarbeit verbale Rückmeldung geben. Für die Grundschule zeigt sich hingeben bei Solzbacher (2012), dass Rückmeldungen an die Schülerinnen und Schüler von der Mehrheit der Lehrkräfte noch über Klassenarbeiten und Zeugnisse gegeben werden. Feedback im Unterricht, Schülerbriefe oder schriftliche Anmerkungen in Heften und Arbeitsmaterialien

72

4 Empirische Befunde zum formativen Assessment

werden von der Mehrheit der Lehrkräfte selten oder nie dazu eingesetzt, den Schülerinnen und Schülern eine Rückmeldung zu geben (Solzbacher, 2012, S. 76). Damit weisen die Ergebnisse eher darauf hin, dass die Grundschulen noch weit entfernt sind von einer differenzierten Feedbackkultur (Solzbacher, 2012, S. 76). Auch Martschinke (2015) arbeitet mittels Videoanalyse im naturwissenschaftlichen Sachunterricht der dritten Klasse heraus, dass die individuelle Unterstützung und individuelle Rückmeldung in inklusiven sowie jahrgangsgemischten Klassen eher gering ausgeprägt ist, allerdings in Wochenplanarbeitsphasen sehr viel individuelle Unterstützung und Rückmeldung beobachtet werden konnte. Schüleraktivierung Maßnahmen der Schüleraktivierung werden deutlich weniger im Unterricht berücksichtigt als die bereits besprochenen Assessment-Strategien. Die Schülerinnen und Schüler werden seltener in den Assessment-Prozess einbezogen (z.B. durch Self-Assessment) und tauschen sich mit der Lehrkraft über ihren Lernstand aus (Altman et al., 2010). Bei James und Pedder (2006) erhalten nur rund 50 Prozent der Schülerinnen und Schüler häufig die Möglichkeit zum Self- und PeerAssessment oder werden bei der Planung nächster Lernschritte unterstützt, noch seltener können die Schülerinnen und Schüler eigene Lernziele aufstellen. Wie die Schülerinnen und Schüler ihr Lernen verbessern können, wird nur von der Hälfte der Befragten regelmäßig mit ihnen diskutiert. Auch in deutschsprachigen Studien im Sekundarbereich werden partizipative Formen der Beurteilung wie Self-Assessments von den Lehrkräften nur selten bis gelegentlich eingesetzt (Bürgermeister et al., 2014; Schmidt & Liebers, 2017; Walm, 2018). Nutzung der diagnostischen Informationen Bezüglich der Nutzung der diagnostischen Informationen kommen Altman et al. (2010) zu dem Ergebnis, dass Grundschullehrkräfte ‚classroom assessment‘ häufiger dazu nutzen, den Unterricht anzupassen als Lehrkräfte der Sekundarstufe (n = 208). Bei James und Pedder (2006) waren mehr als 90 Prozent der Lehrkräfte der Ansicht, diagnostische Informationen für die Planung nachfolgender Stunden zu nutzen. Aus der Befragung von Eckerth (2013) geht hervor, dass die Grundschullehrkräfte die Dokumentation der Lernentwicklung in erster Linie für die Anfertigung von Entwicklungsberichten sowie Beratungsgesprächen mit den Eltern nutzen. Zur Planung gezielter Fördereinheiten oder Differenzierung werden die Entwicklungsdokumentation seltener genutzt als zur Planung des Unterrichts mit der gesamten Lerngruppe (Eckerth, 2013, S. 181). Ähnliches zeigt sich für den Sekundarbereich. Bei Moser et al. (2014) wird deutlich, dass die diagnostischen Erhebungen primär für Rückmeldungen an Eltern und Schülerinnen und Schüler sowie Schullaufbahnberatungen genutzt werden und nur zu einem geringen Teil

4.2 Vorstellungen und Einstellungen bezüglich Assessment

73

Einfluss auf die Unterrichtsgestaltung haben. Dieser Befund bestätigt sich auch im Rahmen des im Sekundarbereich angesiedelte Projekts KOLEF (Kooperative Lernförderung). Hier zeigt sich, dass die befragten Regelschullehrkräfte (n = 609) die Ergebnisse von Lernerfolgskontrollen nur gelegentlich als Grundlage für die Ableitung individuell passender Hilfen für das weitere Lernen verwenden. Weiterhin empfinden die Lehrkräfte insbesondere die Erstellung von Aufgaben auf unterschiedlichen Leistungsniveaus, die Ermittlung von Lernausgangslagen und die Weiterarbeit mit Ergebnissen von Lernkontrollen im Unterricht als herausfordernd und fühlen sich diesbezüglich eher weniger kompetent. Zum Ausmaß der Realisierung weiterer Assessment-Strategien lassen sich in Studien zum formativen Assessment nur vereinzelte Aussagen finden. Eine globale Einschätzung der Assessment-Praxis nehmen James und Pedder (2006) vor. Sie schließen anhand von Clusteranalysen aufgrund der stark ausgeprägten Leistungsorientierung (performance orientation) der Lehrkräfte darauf, dass bei einem Großteil der Lehrkräfte formative Strategien zwar berücksichtigt und wertgeschätzt werden, dennoch eher summativ orientierte Praktiken vorherrschen. 4.2

Vorstellungen und Einstellungen bezüglich Assessment

Neben Studien zu Effekten und zur Praxis formativen Assessments finden sich auch einige Untersuchungen, die sich mit Vorstellungen von Assessment bzw. Einstellungen zu Assessment beschäftigen. Bezüglich der Vorstellungen (conceptions) von Lehrkräften bezüglich Assessment hat Brown (2002; 2010, 2017; 2016; 2011) einen entscheidenden Beitrag geleistet. Basierend auf der Unterscheidung zwischen vier Sichtweisen hinsichtlich der Funktionen von Assessment (School Accountability, Student Accountability, Improvement und Irrelevance) hat er ein Befragungsinstrument (Conceptions of Assessment Inventory, Brown, G. T. L., 2006) entwickelt, um Wahrnehmungen von Lehrkräften erfassen zu können und damit Befragungen in Queensland, Neuseeland und Hong Kong und Zypern durchgeführt. Dabei konnte unter anderem gezeigt werden, dass insbesondere die Sichtweise vorherrscht, Assessment diene der Verbesserung des Lehrens und Lernens, wobei Grundschullehrkräfte signifikant häufiger dieser Ansicht waren als Sekundarstufenlehrkräfte (Brown et al., 2011; Brown, 2011). Insgesamt ähneln sich die Wahrnehmungen von Grundschul- und Sekundarstufenlehrkräften aber mehr als dass sie sich unterscheiden, beispielsweise lehnen alle Lehrkräfte die Ansicht, Assessment wäre unwichtig (Irrelevance) tendenziell ab. Weiterhin deutet sich an, dass die Lehrkräfte gemischte Auffassungen bezüglich Assessment haben, das heißt, einerseits der Ansicht sind, Assessment diene der Verbesserung der Schülerleistungen, andererseits aber auch die Funktionen der Rechenschaftsle-

74

4 Empirische Befunde zum formativen Assessment

gung befürworten, wobei sich auch landesspezifisch unterschiedliche Muster zeigen (Brown, 2002; Brown et al., 2011). Personenbezogene (Geschlecht, Erfahrung, Fortbildung) und schulbezogene Merkmale (Größe) haben offenbar keinen signifikanten Effekt auf die Wahrnehmungen von Assessment (Brown, 2002, S. 185). In der qualitativen Studie von Remesal (2011) können diese Wahrnehmungen von Assessment noch ausdifferenziert werden. Die vier Dimensionen Assessment diene 1) der Verbesserung des Lernens, 2) der Verbesserung des Unterrichts, 3) der Zertifizierung und 4) der Rechenschaftslegung können auf einem bipolaren Feld zwischen den Polen der pädagogischen Regulierung (Pädagogische Funktion) und der gesellschaftlichen Akkreditierung (Sozialisationsfunktion) verortet werden. Dabei zeigen sich ebenfalls unterschiedliche und zum Teil widersprüchliche Vorstellungen von Assessment. Die Sozialisations- und Akkreditierungsfunktion wird von Sekundarstufenlehrkräften stärker betont als von Grundschullehrkräften, was darauf hindeutet, dass die Vorstellungen von Assessment eng mit strukturellen Aspekten des Bildungssystems verknüpft sind. Die Unterscheidung verschiedener Funktionen von Assessment wird offenbar von den Lehrkräften wahrgenommen und kann unter Umständen auch Spannungen erzeugen. Brown und Harlen weisen diesbezüglich darauf hin, dass es bedeutsam ist, zwischen den Assessment-Funktionen zu differenzieren. Es können aber auch Synergien aus formativem und summativem Assessment generiert werden, wenn ein und das selbe diagnostische Ergebnis für beide Zwecke genutzt wird (Brown et al., 2011, S. 219; Gardner, Harlen, Hayward & Stobart, 2008; Harlen, 2005, S. 221). Auch in deutschsprachigen Untersuchungen deutet sich dieses Spannungsverhältnis an. So verweist Solzbacher (2012) auf das Dilemma zwischen Förder- und Ausleseauftrag welches bei der individuellen Förderung zutage tritt. Die befragten Grundschullehrkräfte verbinden individuelle Förderung am stärksten mit dem Ziel, dass diese der Unterstützung schwacher Schülerinnen und Schüler diene, etwas weniger der Zielstellung alle Schülerinnen und Schüler entsprechend ihrer Lernausgangslage zu unterstützen. Der Ausgleich zu großer Leistungsunterschiede ist nur für einen geringeren Teil der Lehrkräfte das Ziel individueller Förderung. In der Lehrkräftebefragung sächsischer Grundschul-, Förderschul- und Sekundarstufenlehrkräfte (n = 42) im Rahmen des Schulversuchs ERINA (Schmidt & Liebers, 2017) zeigt sich in den Orientierungen der Lehrkräfte eine Haltung, die formativem Assessment positiv gegenübersteht (Diagnostik dient am ehesten der Ableitung von Fördermaßnahmen und der Feststellung von Stärken und Schwächen der Schülerinnen und Schüler), sich aber auch der Bedeutung summativer Zielstellungen bewusst ist (Legitimation von Schullaufbahnentscheidungen, Ressourcenbeschaffung). Ebenso konnte Smit (2009a, S. 312) in einer Interviewstudie mit sechs Lehrkräften der Oberstufe zeigen, dass unterschiedliche

4.2 Vorstellungen und Einstellungen bezüglich Assessment

75

Einstellungen gegenüber der formativen Beurteilung existieren. Während einige Lehrkräfte aktiv Lösungen suchen, sind andere teilweise skeptisch eingestellt und haben Schwierigkeiten bei der Umsetzung. Das größte Problem für eine nachhaltige Wirkung der formativen Beurteilung liege in der Notenorientierung der Lernenden und Lehrenden. Auch die Zeit fehle häufig, um vermehrt formative Beurteilungselemente einzusetzen oder im Team zu entwickeln. Trotzdem gestalten einige Lehrkräfte ihre Beurteilung formativer, wobei Team-Teaching und selbstgesteuertes Lernen unterstützend wirken. Einige Studien beschäftigen sich auch mit dem Abgleich von Bewertungen und Praxis hinsichtlich Assessment, wobei deutlich wird, dass die Praxis formativen Assessments zumeist hinter der positiven Einstellung zu formativem Assessment zurückbleibt (Büyükkarci, 2014; James & Pedder, 2006). So untersuchten James und Pedder (2006) in ihrer bereits zitierten Studie das Verhältnis von Praxis und Bewertung (values) verschiedener Assessment-Strategien bei Lehrkräften verschiedener Schulformen in England (n = 558). Dabei zeigt sich, dass offenbar ein Spannungsverhältnis zwischen der Bewertung und Umsetzung von Assessment herrscht. Diskrepanzen treten insbesondere bezüglich der Ziel- und Schülerorientierung auf. So halten die Lehrkräfte die Orientierung am Lehrplan für weniger bedeutsam, richten sich in der Praxis aber in erster Linie daran aus. Mit den Schülerinnen und Schülern zu besprechen, wie sie ihr Lernen verbessern können, halten die Lehrkräfte hingegen für überaus wichtig, setzen diese Strategie im Unterricht aber deutlich seltener um. Zu Sichtweisen von Schülerinnen und Schülern bezüglich formativen Assessments liegen nur wenige Studien vor. Cowie (2005) konnte in einer qualitativen Studie zeigen, dass Siebt- bis Zehntklässler Assessment for learning als komplexe Aktivität wahrnehmen, bei der sie eine aktive Rolle einnehmen, wobei diese Sichtweise bei lernzielorientierten Schülerinnen und Schülern ausgeprägter ist als bei leistungszielorientierten Schülerinnen und Schülern. Weiterhin bevorzugen lernzielorientierte Schülerinnen und Schüler Feedback in Form von Vorschlägen, während leistungszielorientierte Schülerinnen und Schüler eher Feedback wünschen, das ihnen Auskunft darüber gibt, wie sie eine Aufgabe fertigstellen können. Bei Smit (2009a) sehen die befragten Schülerinnen und Schüler die Selbstbeurteilung ebenso wie die Lehrkräfte als wichtigen Aspekt der Leistungsbeurteilung an, insgesamt zeigten sich aber mitunter inkongruente Vorstellungen von Schülerinnen und Schülern und Lehrkräften bezüglich formativer Beurteilung, was darauf zurückgeführt wird, dass Schülerinnen und Schüler das Beurteilungssystem akzeptieren oder vorziehen, welches sie kennen, unabhängig davon, ob es vorteilhaft ist oder nicht.

76

4.3

4 Empirische Befunde zum formativen Assessment

Befragungsinstrumente und empirische Modellbildung

Studien zum formativen Assessment fokussieren in erster Linie darauf, welche Effekte formatives Assessment auf die Schülerleistungen hat. Wie am Forschungsstand zur formativen Assessment-Praxis deutlich geworden ist, liegen hierzu nur vereinzelte Informationen für den Grundschulbereich vor. Möglicherweise ist dies auch auf einen Mangel an geeigneten Instrumenten zur Erfassung der AssessmentPraxis zurückzuführen. Denkbar wäre die Erfassung mittels Befragungen von Lehrkräften und Schülerinnen und Schülern oder Videoanalysen. Da in der vorliegenden Arbeit ein Selbsteinschätzungsinstrument für Lehrkräfte entwickelt wird, soll im Folgenden der Fokus auf Selbsteinschätzungsverfahren für Lehrkräfte liegen. Dabei wird deutlich, dass kaum Instrumente vorliegen und wenn, dann sind diese nur unzureichend hinsichtlich ihrer psychometrischen Eigenschaften geprüft (Pat-El, Tillema, Segers & Vedder, 2013, S. 99). Weiterhin werden in einigen Studien anhand der Befragungsdaten empirische Modellprüfungen zur Struktur des Konstrukts formatives Assessment vorgenommen, dabei werden jedoch nur einige formative Assessment-Strategien berücksichtigen. Hinreichend dokumentiert sind Befragungsinstrumente zum Assessment for Learning aus Lehrer- und Schülersicht von Pat-El et al. (2013), zur förderorientierten Beurteilung von Smit (2009a), zu Praxis und Auffassungen bezüglich formativen Assessments von James und Pedder (2006), zur Nutzung verschiedener formativer Diagnosemethoden von Maier (2011a) sowie zu Auffassungen über Assessment (Brown, G. T. L., 2006) und Feedback von Brown et al. (2012). Pat-El et al. (2013) haben Instrumente zum Assessment for Learning für Lehrkräfte (TAFL-Q) und Schülerinnen und Schüler (SAFL-Q) entwickelt und empirisch geprüft. Dabei erzielen ein zweifaktorielles Modell bestehend aus den korrelierenden Faktoren Scaffolding und Monitoring sowie ein Modell bestehend aus den Faktoren Scaffolding, Monitoring und einem übergeordneten Faktor (SecondOrder-Modell) einen ähnlich guten Modellfit. Die empirisch gewonnenen Faktoren bestätigen die theoretisch angenommenen Konstrukte. Der Faktor Scaffolding beinhaltet Items, die eher instruktionsbezogene Prozesse darstellen (transparente Lernziele, Unterrichtsgespräche). Der Faktor Monitoring beinhaltet Items, die auf die Optimierung des Lernens abzielen (Feedback, Selbstüberwachung) (Pat-El et al., 2013, S. 109). Die als Parallelformen angelegten Fragebögen erlauben es, Lehrer- und Schülersicht miteinander abzugleichen. Eine erste empirische Annäherung an das komplexe Konstrukt formativen Assessments im deutschsprachigen Raum wurde von Smit (2009a) unternommen, der die förderorientierte Beurteilung mittels konfirmatorischer Faktorenanalyse als einfaktorielles Modell zweiter Ordnung, bestehend aus den Subskalen Systema-

4.3 Befragungsinstrumente und empirische Modellbildung

77

tisch Beobachten, Rückmeldekultur, Diagnostische Kompetenz, Individuelle Förderung, Lernzielorientierung und Selbstbeurteilung modelliert hat. Um Zusammenhänge zwischen förderorientierter Beurteilung und den Aspekten Lernkompetenz fördern und Unterricht für förderorientierte Beurteilung untersuchen zu können, reduziert Smit (2009a, S. 173) aufgrund ungenügender Fitwerte und theoretischer Überlegungen den Faktor formative Beurteilung auf die drei Subskalen Rückmeldekultur, Diagnostische Kompetenz und Systematisch Beobachten. Das modifizierte Modell habe einen guten Fit und weist starke Zusammenhänge zwischen der förderorientierten Beurteilung, dem Faktor Lernkompetenz fördern und dem Unterricht für förderorientierte Beurteilung auf. Smit (2009a, S. 175) resümiert, dass die ursprünglich vorgesehene Aufteilung der Skalen revidiert werden muss. Der Faktor förderorientierte Beurteilung entspricht eher der eigentlichen Lernprozessdiagnostik mit den Skalen Beobachten, Diagnostizieren und Rückmelden und gleicht damit tendenziell der informellen formativen Beurteilung, während der Faktor Unterricht für förderorientierte Beurteilung eher der formell formativen Beurteilung, ergänzt um geeignete Unterrichtsmethoden, entspricht. In Bezug zum Förderkreislauf besteht der Faktor förderorientierte Beurteilung aus den Phasen Beobachten und Beurteilen, während Ziele festlegen und Fördern Teil des Faktors Unterricht für förderorientierte Beurteilung geworden sind. Smit kommt basierend auf dem Modell zu folgender Schlussfolgerung: Lehrpersonen, welche nach eigener Einschätzung förderorientiert beurteilen, geben an, vermehrt Unterrichtsformen einzusetzen, welche individualisieren und reflexive Kompetenzen fördern, wie z.B. Lernjournal oder Portfolio. Die Unterrichtsformen beinhalten Schülerselbstbeurteilung und eine transparente Ausrichtung an Lernzielen. Zusätzlich planen diese Lehrpersonen öfters im Unterricht explizit Ziele zur Förderung der überfachlichen Lernkompetenzen ein. Auch fokussieren sie beim Beobachten der Lernenden vermehrt gezielt überfachliche Lernkompetenzen. (Smit, 2009a, S. 176)

Der Fragebogen von Maier (2011a) erfasst die Häufigkeit der Nutzung verschiedener Typen formativer Leistungsdiagnostik mit sechs Items (gezielte Beobachtung einzelner Schüler beim Lernen, Schüler kontrollieren und bewerten sich gegenseitig, nicht benotete Kurztests zur Kontrolle für Schüler, mit Kolleginnen entwickelte Tests und standardisierte Lernstandsdiagnosen) sowie ausgewählte schul-, lehrer- und klassenbezogene Kontextvariablen. Das Instrument erfasst somit lediglich Informationen zu formativen Diagnoseinstrumenten auf Ordinalskalenniveau sowie Kontextfaktoren in sehr knapper Form und ist damit für eine differenzierte Beschreibung formativen Assessment-Handelns eher weniger geeignet.

78

4 Empirische Befunde zum formativen Assessment

James und Pedder (2006) haben ein umfangreiches Befragungsinstrument zur Erfassung der Realisierung und Bewertung formativer Praktiken vorgelegt und konnten mittels explorativer Faktorenanalyse die drei Faktoren making learning explicit, promoting learning autonomy sowie performance orientation identifizieren, wobei der Faktor performance orientation eher einer summativen Zielsetzung zugeordnet werden kann. Der Fragebogen berücksichtigt damit insbesondere die Strategien des transparenten Umgangs mit Lernzielen und Beurteilungskriterien sowie die Aktivierung der Schülerinnen und Schüler zur Verantwortungsübernahme für ihr Lernen. Weitere Assessment-Strategien können mit diesem Instrument nicht erfasst werden. Neben der Modellierung von Vorstellungen von Assessment hat Brown (2002, 140ff.) mittels explorativer und konfirmatorischer Faktorenanalysen ein Modell zur Assessment-Praxis empirisch überprüft. Assessment-Praxis wird dabei als Modell zweiter Ordnung modelliert, wobei sich die Faktoren Informal, Formal und Deep unterscheiden lassen. Auf den Faktor Informal laden Items, die Quizzes, mündliche Präsentationen, Gruppen- und Einzelarbeiten und performance-basierte Assessments thematisieren. Auf den Faktor formelles Assessment laden Items bezüglich großer Examen oder Tests, publizierte Tests, Essays und objektive Assessments und auf den Faktor Deep laden Items, die auf die individuelle Entwicklung oder abstraktes Denken abzielen. Weiterhin zeigen sich Zusammenhänge zwischen den Assessment-Praktiken und den Auffassungen über Assessment. Dabei hängt die Nutzung informellen Assessments insbesondere mit dem Verständnis, Assessment diene der Verbesserung der Schülerleistungen, zusammen, während Assessment von Tiefenstrukturen (Deep) primär mit der Ansicht, Assessment diene der Verbesserung des Unterrichts, einhergeht. Weiterhin treten Zusammenhänge zwischen formellem Assessment und der schülerbezogenen Rechenschaftslegung, aber auch mit der Verbesserung der Schülerleistung zusammen. Insgesamt wurden in den beschriebenen Studien bereits einige Instrumente vorgelegt, die sich zur Erfassung der formativen Assessment-Praxis aus Lehrersicht eignen. Allerdings zeigt sich bei näherer Betrachtung, dass keiner der Fragebögen alle theoretisch herausgearbeiteten Dimensionen formativen Assessments angemessen berücksichtigt. So wird im TAFL-Q (Pat-El et al., 2013) z.B. nicht erfasst, mit welchen Methoden die Lehrkräfte die Lernstände der Schülerinnen und Schüler erheben und wie sie die diagnostischen Ergebnisse nutzen. Weiterhin erscheinen die Faktoren inhaltlich sehr heterogen, was sich auch in den zum Teil geringen Faktorladungen widerspiegelt. Auch bei Maier (2011a) werden ausschließlich formative Diagnosemethoden erfasst und dies nicht auf Skalenniveau, welches für vertiefende Analysen notwendig wäre. Das Modell von Smit (2009b) kommt dem theoretischen Modell formativen Assessments bereits sehr nahe und bildet eine

4.4 Zusammenfassung und Konsequenzen für die empirische Studie

79

wichtige Ausgangsbasis für die vorliegende empirische Studie. Allerdings erscheint es auch hier sinnvoll zu sein, die Skalen weiterzuentwickeln, da einige nur eine eher geringe Reliabilität aufweisen (Cronbachs Alpha reflexive Methoden .67, Rückmeldekultur .69), was auch eine mögliche Ursache für den ungenügenden Modellfit der komplexeren Modelle darstellen könnte. Weiterhin wurden Aspekte, wie Unterrichtsgespräche oder die Nutzung der diagnostischen Informationen kaum thematisiert, womit die Inhaltsvalidität des Konstrukts in Frage gestellt werden kann. Die später vorgenommene weitere Reduktion des Modells (Smit & Engeli, 2017) ist ebenfalls mit Blick auf die inhaltliche Validität kritisch zu sehen, da hier zwar mit der Beobachtung und Dokumentation zentrale Strategien formativen Assessments erfasst werden, die inhaltliche Breite des Konstrukts durch lediglich sieben Items jedoch nicht mehr ausreichend abgedeckt wird. 4.4

Zusammenfassung und Konsequenzen für die empirische Studie

Zusammenfassend lässt sich festhalten, dass in der Literatur zum formativen Assessment überwiegend Studien vorliegen, die sich mit den Effekten auf die Leistungsentwicklung, aber auch auf die Motivation und Selbstregulation der Schülerinnen und Schüler beschäftigen. Während Black und Wiliam (1998b), basierend auf einem umfangreichen Review, die Effekte formativen Assessments noch als hoch (zwischen d = .4 und .7) einschätzten, kommen aktuelle Meta-Analysen (Kingston & Nash, 2011) und Reviews (Bennett, 2011; Dunn & Mulvenon, 2009; Filsecker & Kerres, 2012; McMillan, 2013) zu dem vorläufigen Ergebnis, dass die Effekte deutlich geringer ausfallen als zunächst angenommen, aber dennoch praktisch bedeutsam sind. Übereinstimmend wird die Notwendigkeit weiterer qualitativ hochwertiger Studien artikuliert, um die noch unzureichende empirische Basis hinsichtlich der Effekte formativen Assessments auf die Schülerleistung ausbauen zu können. Hinsichtlich der Zusammenhänge mit der Motivation (Andrade, Du & Wang, 2008; Bürgermeister, 2014; Rakoczy et al., 2008; van Evera, 2003) und der Selbstregulation (Baas et al., 2015; Smit et al., 2017) der Schülerinnen und Schüler konnten bereits positive Effekte nachgewiesen werden, wobei auch hier Studien vorliegen, in denen keine oder differenzielle Zusammenhänge auftreten (van Evera, 2003; Yin et al., 2008). Somit besteht auch hier noch Bedarf an Studien, die z.B. Zusammenhänge weiterer Assessment-Komponenten als Feedback, Rubrics oder Unterrichtsgespräche in den Blick nehmen und die Qualität der Intervention angemessen kontrollieren. Für den deutschsprachigen Raum resümierte Köller (2005), dass kaum Forschung zu den Effekten formativen Assessments existiert, anhand aktuellerer Arbeiten von Decristan et al. (2015), Rakoczy et al. (2008), Harks et al. (2014), Bürgermeister (2014) und Smit et al. (2017) deutet

80

4 Empirische Befunde zum formativen Assessment

sich aber eine zunehmende empirische Auseinandersetzung mit den Effekten formativen Assessments an. Weiterhin geht aus der Analyse aktueller Studien hervor, dass über die Assessment-Praxis von Lehrkräften in Deutschland bislang nur wenig bekannt ist. Die diagnostische Praxis an Grundschulen scheint insgesamt relativ heterogen auszufallen (Inckemann, 2008; Racherbäumer, 2009; Solzbacher, 2012). Offenbar sind Methoden wie Kompetenzraster, Portfolios oder Lerntagebücher in der Grundschule wenig verbreitet (Bol et al., 1998; Smit & Engeli, 2017; Solzbacher, 2012). Die Überprüfung der Leistungsentwicklung erfolgt hauptsächlich in Form von Klassenarbeiten, Tests und eigenen Verfahren (Solzbacher, 2012). Teilweise führen die Lehrkräfte auch systematische Beobachtungen durch (Eckerth, 2013; Smit & Engeli, 2017; Solzbacher, 2012), während standardisierte Tests eher selten angewendet werden (Eckerth, 2013; Solzbacher, 2012). Rückmeldungen im Unterricht, schriftliche Anmerkungen in Heften und Arbeitsmaterialien werden kaum gegeben, überwiegend erhalten die Schülerinnen und Schüler eine Rückmeldung zu ihrem Lernstand aus den Ergebnissen der Klassenarbeiten (Solzbacher, 2012). Wenn die Lehrkräfte Feedback geben, dann am ehesten mit dem (formativen) Ziel, dass sich die Schülerinnen und Schüler verbessern und die Rückmeldung für ihr Lernen nutzen können (Brown et al., 2012). Weiterhin deutet sich bei Walm (2018) an, dass Lehrkräfte insbesondere die Nutzung diagnostischer Informationen zur Ableitung individualisierender und differenzierender Aufgaben als herausfordernd erleben. Zu anderen Strategien formativen Assessments liegen in der Literatur zu formativem Assessment und lernprozessbegleitender Diagnostik kaum Befunde vor. Bei den Grundschullehrkräften überwiegen offenbar Praktiken, die sich einer tendenziell situativen, wenig gezielten (Eckerth, 2013) und eher traditionell ausgerichteten (James & Pedder, 2006; Moser et al., 2014; Solzbacher, 2012) Diagnostik zuordnen lassen. Wobei mit Smit und Engeli (2017) auch eine Studie vorliegt, in der die Gruppe der Lehrkräfte, die Aspekte formativer Beurteilung häufiger berücksichtigen, größer ist als die Gruppe mit eher traditionellem Nutzungsverhalten. Entsprechend dieser Forschungslage markiert Terhart in seinem Überblicksartikel zur Schülerbeurteilung ein wesentliches Desiderat in der „Forschung zur Praxis des fördernden Beurteilens“ (2014, S. 900). 4.4.1

Konsequenzen für die empirische Studie

Aus dem Mangel an Informationen über die aktuelle formative Assessment-Praxis, insbesondere in Deutschland, ergibt sich die Notwendigkeit, weitere Bemühungen anzustellen, um Kenntnisse über die konkrete Unterrichtspraxis gewinnen zu können. Mit Hilfe dieser Informationen könnten z.B. adäquate Qualifizierungsangebote entwickelt werden, welche Lehrkräfte bei der Entwicklung ihrer diag-

4.4 Zusammenfassung und Konsequenzen für die empirische Studie

81

nostischen Kompetenz unterstützen und dabei an die bereits entwickelten Praktiken anknüpfen. Bereits Black und Wiliam weisen darauf hin, dass zwar eine große Zahl an Forschungsarbeiten zu erfolgreichen Formen des formativen Assessments existieren, diese es aber versäumen, wichtige Details, wie die aktuellen Praktiken, zu berücksichtigen - „they fail to give clear accounts on one or other of the important details. For example they are often silent about the actual classroom methods used, the motivation and experience of the teachers“ (1998a, S. 89). Auch Maier konstatiert, dass “Studien zur Deskription der Praxis formativer Leistungsdiagnostik an Schulen” (2011a, S. 30) fehlen und eine Bestandsaufnahme der bisher genutzten Verfahren im Bereich der formativen Leistungsdiagnostik notwendig ist, will man die Kompetenzen von Lehrkräften in diesem Bereich nachhaltig durch Reformvorhaben verändern. Aus der Notwendigkeit der Erfassung von Assessment-Praktiken lässt sich ein weiteres Forschungsdesiderat ableiten. Da die Beobachtung im Unterricht aufwändig und nur anhand kleinerer Stichproben realisierbar ist (Döring & Bortz, 2016, S. 325), erscheint es notwendig, andere Verfahren zu entwickeln, die auch einen Einblick in die Praktiken der Lehrkräfte geben (Ruiz-Primo, 2011). Häufig werden dazu schriftliche Befragungen von Lehrkräften gewählt, da diese eine ökonomische Erfassung erlauben, auch wenn es sich hierbei um Selbsteinschätzungen und somit um die subjektive Wahrnehmung der Lehrkräfte und nicht um konkret beobachtbare Praxis handelt (Döring & Bortz, 2016, S. 398). Zur Erfassung formativer Assessment-Praxis gibt es bislang kaum Befragungsinstrumente, welche auch hinreichend hinsichtlich ihrer psychometrischen Eigenschaften geprüft wurden (Pat-El et al., 2013, S. 99). Gut dokumentiert sind Befragungsinstrumente zum Assessment for Learning aus Lehrer- und Schülersicht von Pat-El et al. (2013), zur förderorientierten Beurteilung von Smit (2009a), zu Praxis und Auffassungen bezüglich formativen Assessments von James und Pedder (2006) sowie zu Auffassungen über Assessment (Brown, G. T. L., 2006) und Feedback von Brown et al. (2012). Allerdings zeigt sich bei näherer Betrachtung, dass keiner der Fragebögen alle theoretisch herausgearbeiteten Dimensionen formativen Assessments angemessen berücksichtigt. Das Modell von Smit (2009b) kommt dem im zweiten Kapitel entwickelten theoretischen Modell formativen Assessments bereits sehr nahe und bildet eine wichtige Ausgangsbasis für die vorliegende Untersuchung. Aus methodischer und inhaltlicher Sicht erscheint es allerdings zielführend, die Skalen weiterzuentwickeln und einige Aspekte, wie Unterrichtsgespräche oder die Nutzung der diagnostischen Informationen stärker herauszuarbeiten, um eine ganzheitliche Erfassung des komplexen Konstrukts formativen Assessments zu ermöglichen.

5

Formatives Assessment im Kontext professioneller Handlungskompetenz

Formatives Assessment, welches der Adaption des Unterrichts an die individuellen Lernvoraussetzungen der Schülerinnen und Schüler dienen soll, erfordert vielfältige diagnostische und didaktische Kompetenzen auf Seiten der Lehrkräfte. Im folgenden Kapitel soll formatives Assessment daher in ein Kompetenzmodell adaptiver Lehrkompetenz (Beck et al., 2008) eingeordnet werden (Kapitel 4.1). Da die diagnostischen Fähigkeiten der Lehrkräfte für die Anwendung formativen Assessment eine besondere Rolle spielen, wird die diagnostische Kompetenz, die eine der wesentlichen Komponenten professionellen Wissens und Könnens von Lehrkräften darstellt, näher beleuchtet. Dabei zeigt sich, dass aktuelle Modelle diagnostischer Kompetenz den Bereich formativer Diagnostik bislang nur unzureichend berücksichtigen. Es ist davon auszugehen, dass diagnostische und pädagogische Handlungen im adaptiven Unterricht eng miteinander verwoben sind, weshalb die aktuelle Befundlage zum Zusammenspiel zwischen diagnostischen und didaktischen Kompetenzen von Lehrkräften dargestellt wird. Da bislang Studien zu Zusammenhängen formativen Assessments mit Bedingungsfaktoren auf der Lehrer- und Schulebene weitgehend fehlen (Maier, 2011a), werden auf Basis des Modells der Determinanten und Konsequenzen der professionellen Kompetenz von Lehrkräften (Kunter et al., 2011, S. 59) relevante Einflussfaktoren formativen Assessments herausgearbeitet (Kapitel 4.2). Dabei erweisen sich insbesondere die Überzeugungen zum Lehren und Lernen, die Bezugsnormorientierung sowie das Professionswissen als relevante Aspekte auf der Ebene der Lehrkräfte. 5.1

Formatives Assessment als Facette adaptiver Lehrkompetenz

Formatives Assessment lässt sich im Kompetenzmodell der adaptiven Lehrkompetenz (Beck et al., 2008) verorten, welches ein Kompetenzmodell zum produktiven Umgang mit heterogenen und inklusiven Lerngruppen darstellt (Kopmann & Zeinz, 2018). Aktuell wird Adaptivität als geeignete Antwort auf eine umfassende Heterogenität im Unterricht der Grundschule intensiv diskutiert (Martschinke, 2015) und durch folgende Kriterien charakterisiert: 1. jedes Kind soll so gefördert werden, dass sein Potenzial optimal genutzt wird, 2. die curricularen (Mindest-)Standards sollen erreicht werden, 3. alle Kinder sollen in der Unterrichtseinheit dazulernen, 4. keine (Risiko-)Schülergruppe soll zurückfallen, 5. individuelle Unterschiede in den Lernvoraussetzungen sollen weniger sichtbar werden und © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0_5

84

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

6. die Streuung innerhalb der Klasse bzw. Lerngruppe soll gleich bleiben oder verringert werden, in keinem Fall jedoch zunehmen. (Hertel, 2014, 21f.)

In diesem Sinne impliziert Adaptivität eine individuelle Förderung, „d.h. eine Passung von Lernangebot bzw. Lernumgebung und Lernvoraussetzungen der Schülerinnen und Schüler sowie eine Nutzung und Verwirklichung individueller Potenziale“ (Hertel, 2014, S. 22). Verorten lässt sich die Anpassung des Unterrichts an die individuellen Lernvoraussetzungen innerhalb eines erweiterten AngebotsNutzungs-Modells (Hardy et al., 2011, S. 820), welches auf dem klassischen Angebots-Nutzungs-Modell des Unterrichts von Helmke (2009) basiert:

Kompetenzen der Lehrkraft

Gestaltung der Lerngelegenheiten

Nutzung der Lerngelegenheiten

formatives Assessment

Lernzuwachs

Lernvoraussetzungen der Schüler

Abbildung 3: Erweitertes Angebots-Nutzungs-Modell Anmerkung. In Anlehnung an Hardy et al. (2011, S. 820) ergänzt um formatives Assessment. Diesem Modell folgend, beeinflussen die Lernvoraussetzungen der Schülerinnen und Schüler nicht nur deren Nutzung der Lerngelegenheiten und deren Lernzuwachs, sondern auch die Gestaltung der Lerngelegenheiten. Die Gestaltung der Lerngelegenheiten, z.B. die Zuteilung von Lernaufgaben entsprechend der

5.1 Formatives Assessment als Facette adaptiver Lehrkompetenz

85

individuellen Lernvoraussetzungen, „beispielsweise im Rahmen von binnendifferenziertem Unterricht setzt eine Diagnostik von Lernvoraussetzungen heraus und erfordert Wissen darüber, welche Lernangebote zur Unterstützung von Lernprozessen angemessen sind“ (Hertel, 2014, S. 23). Weiterhin geht es bei der Gestaltung der Lerngelegenheiten auch um die Interaktionen und Prozesse, wie die kognitive Strukturierung der Inhalte, die Vorgehensweise bei der Bearbeitung von Aufgaben und die Unterstützung bzw. Hilfestellung beim Auftreten von Schwierigkeiten (Hertel, 2014, S. 23). Anhand der vorangegangenen Beschreibung wird deutlich, dass sich formatives Assessment im Kontext adaptiven Unterrichts verorten lässt, wobei die Diagnose der Lernleistung quasi als Scharnier zwischen den Lernvoraussetzungen der Schülerinnen und Schüler und der Gestaltung der Lerngelegenheiten fungiert, während andere Strategien formativen Assessments, wie der Umgang mit Lernzielen und das Feedbackverhalten, sich der konkreten Gestaltung der Lerngelegenheiten zuordnen lassen. In ähnlicher Weise beschreibt Terhart (2014) die fördernde Schülerbeurteilung als zentrales pädagogisches Handlungs- und Forschungsfeld und charakterisiert diese durch die Erfassung der Lernausgangslage jedes Schülers bzw. jeder Schülerin, die Beherrschung eines vielfältigen unterrichtlichen Handlungsrepertoires und der passgenauen Adaption didaktisch-methodischer Elemente an die Lernausgangslage der Schülerinnen und Schüler. Unterscheiden lässt sich zwischen Makro- und Mikroadaptionen des Unterrichts (Klieme & Warwas, 2011; Martschinke, 2015; Schrader, 2008). Makroadaptionen sind lang- und mittelfristige Anpassungsleistungen wie die Zuweisung der Schülerinnen und Schüler zu vorgegebenen Unterrichtsmaßnahmen oder -formen aufgrund ihrer stabilen Merkmale und basieren auf Entscheidungen, die in der Regel in der Phase der Unterrichtsplanung getroffen werden (Schrader, 2008, S. 169). Mikroadaptionen sind „kurzfristige Anpassungen wie die Beendigung einer Unterrichtsphase, das Einschieben einer Erklärung oder zusätzlichen Übungsgelegenheit, die Vergabe einer Aufgabenstellung und die Reaktion auf Schülerfehler. Die zu Grunde liegenden Entscheidungen werden während des Unterrichtsablaufs (interaktiv) getroffen“ (Schrader, 2008, S. 169). Sie basieren demnach in erster Linie auf diagnostischen Informationen aus Beobachtungen und subjektiven Einschätzungen (Schrader, 2013). Im Zusammenhang mit „Binnendifferenzierung durch adaptiven Unterricht“ unterscheiden Klieme und Warwas (2011, S. 810) ebenfalls zwischen Makro- und Mikroadaptionen, wobei Anpassungen des Curriculums (im umfassenden Sinne: Ziele, Inhalte, Methoden, Medien und Materialen, Sozialform und Lernzeit) an die Voraussetzungen der Schülerinnen und Schüler als Makroadaptionen angesehen werden und Abstimmungen auf der Prozessebene im Verlauf der Lehrer-Schüler-Interaktion (beispielsweise durch individuell abgestimmte Rückmeldungen und Fragen) als Mikroadaptionen gelten. Die Passung

86

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

zwischen Methode und Lernvoraussetzungen auf der Makroebene ist dabei eine Voraussetzung für eine Passung auf der direkten Lehrer-Schüler-Interaktion auf der Mikroebene (Martschinke, 2015). Entsprechend dieser Differenzierung lässt sich formatives Assessment primär auf der Ebene mikroadaptiver Tätigkeiten verorten. In Zusammenhang mit dem Begriff Adaptivität werden in der pädagogisch-didaktischen Literatur häufig auch die Begriffe Differenzierung und Individualisierung gebraucht, wobei eine klare Abgrenzung schwer zu treffen ist. Der Begriff Adaptivität hat seine Wurzeln eher in der Pädagogischen Psychologie bzw. der LehrLernforschung, betont die Steigerung fachlicher Leistungen, orientiert sich am Instruktionsparadigma und setzt auf empirisch erprobte Unterrichtskonzepte (Inckemann, 2014, S. 376). Adaptivität meint die Anpassung des Lernangebots an die individuellen Voraussetzungen der Lernenden und kann als Sammelbegriff für den unterrichtlichen Umgang mit interindividuellen Differenzen bezeichnet werden (Bohl, Batzel & Richey, 2012, S. 48). Demgegenüber stellen Differenzierung und Individualisierung eher schulpädagogische Begriffe zum Umgang mit Heterogenität dar, wobei die Binnendifferenzierung die Bereitstellung unterschiedlicher Angebote für verschiedene Gruppen innerhalb der Klasse meint und als Gegenkonzept zur äußeren Differenzierung sowie zum vorwiegend gleichschrittigen Unterricht verstanden werden kann (Inckemann, 2014, S. 375). Durch Binnendifferenzierung kann sich die Wahrscheinlichkeit erhöhen, den individuellen Lernvoraussetzungen einzelner Schülerinnen und Schüler gerecht zu werden, jedoch werden die Voraussetzungen „nicht individuell erfasst und es erfolgt nicht zwangsläufig ein darauf abgestimmtes individuelles Lernangebot“ (Bohl et al., 2012, S. 47). Martschinke (2015) beschreibt diese methodisch-didaktischen Variationen dennoch als proaktive Reaktionsform auf Heterogenität und als adaptiv. Individualisierung hingegen „nimmt die zuvor erfassten Lernvoraussetzungen und/oder Interessen einzelner Schülerinnen und Schüler als Ausgangspunkt und stellt daraufhin passende individuelle Lernangebote zur Verfügung“ (Bohl et al., 2012, S. 44). Alle drei Begrifflichkeiten zielen demnach auf die Anpassung der Lernangebote an die individuellen Voraussetzungen der Lernenden ab, entstammen jedoch unterschiedlicher fachlicher Traditionen, womit zum Teil auch unterschiedliche Maßnahmen verbunden sind. Leistungsbezogene Differenzierung (z.B. die Differenzierung der Aufgabenschwierigkeit oder der zur Verfügung gestellten Lernzeit) und Individualisierung werden im Rahmen dieser Arbeit als Möglichkeiten der adaptiven Unterrichtsgestaltung verstanden. Gemäß Beck et al. (2008) stellen die Sachkompetenz, die didaktische Kompetenz, die diagnostische Kompetenz und die Klassenführung wichtige Aspekte einer adaptiven Lehrkompetenz darstellen. Brühwiler (2017) beschreibt das Zusammen-

5.1 Formatives Assessment als Facette adaptiver Lehrkompetenz

87

spiel der an der adaptiven Lehrkompetenz beteiligten kognitiven Prozesse und unterscheidet dabei zwischen einer präaktionalen und einer interaktionalen Unterrichtsphase. Wenn die geplanten Unterrichtsmaßnahmen adaptiv an die individuellen Lernbedürfnisse angepasst sein sollen, sind die Lernvoraussetzungen mit Blick auf die zu erreichenden Lernziele zu prüfen (diagnostische Kompetenz). Auf das diagnostische Urteil aufbauend werden mögliche Unterrichtsverläufe antizipiert und auf die Lernziele abgestimmte Unterrichtsmaßnahmen abgeleitet (didaktische Kompetenz). Während des Unterrichts müssen die didaktischen Maßnahmen laufend vor dem Hintergrund neuer diagnostischer Erkenntnisse überprüft und gegebenenfalls modifiziert werden (didaktische Kompetenz). Dabei findet eine unmittelbare Rückkopplung der diagnostischen Informationen auf die Unterrichtsmaßnahmen statt. Der diagnostizierte Lernstand am Ende des Unterrichts beschreibt schließlich die Lernvoraussetzungen für die nachfolgenden Unterrichtseinheiten und unterstützt somit die Reflexion und Planung weiterer Unterrichtsschritte (diagnostische Kompetenz) (Brühwiler, 2017, S. 125). Die Dimensionen Sachkompetenz und Klassenführungskompetenz dienen dazu, günstige Rahmenbedingungen für adaptiven Unterricht zu schaffen, wobei die Sachkompetenz sowohl bei der Vorbereitung als auch bei der Durchführung des Unterrichts bedeutsam ist und die Klassenführungskompetenz besonders während der interaktionalen Phase des Unterrichts zum Tragen kommt (Brühwiler, 2017). Das Modell veranschaulicht die Bedeutung didaktischer und diagnostischer Kompetenzen und deren enge Verwobenheit bei der Planung und Gestaltung adaptiven Unterrichts. Im Folgenden soll daher näher auf die Dimension der diagnostischen Kompetenz und deren Zusammenspiel mit der didaktischen Kompetenz eingegangen werden. 5.1.1

Diagnostische Kompetenz

Die diagnostische Kompetenz erweist sich im Zusammenhang mit formativem Assessment als besonders relevante Facette adaptiver Lehrkompetenz. Unabhängig von den Details der Modellierung des Professionswissens besteht Konsens darüber, dass der Entwicklung diagnostischer Kompetenz eine zentrale Rolle für erfolgreiches Lehrerhandeln zukommt (Aufschnaiter et al., 2015; Südkamp & Praetorius, 2017). Dies spiegelt sich auch in den Standards für die Lehrerbildung wider (KMK, 2004), in der das diagnostizieren von Lernvoraussetzungen und Lernprozessen der Schülerinnen und Schüler als zentraler Kompetenzbereich benannt wird. Im Rahmen der Kompetenzforschung wird der Betonung dieses Kompetenzbereichs Rechnung getragen, indem aktuell sowohl Modelle diagnostischer Kompetenz entworfen werden (Karst, 2017; Ohle, McElvany, Horz & Ullrich, 2017; Schrader, 1989; Südkamp, Kaiser & Möller, 2017) als auch die diagnostische Kompetenz explizit in Modelle zur Beschreibung professioneller Kompetenz integriert wird (Brunner, Anders, Hachfeld & Krauss, 2011; Krauss et al., 2004).

88

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

Dabei existiert eine Vielzahl an divergierenden Kompetenzbeschreibungen und Modellen diagnostischer Kompetenz, bei denen die Facette formativen Assessments bislang jedoch kaum Berücksichtigung findet (Glogger-Frey & Herppich, 2017). Die vorliegenden Modelle unterscheiden sich deutlich dahingehend, was unter diagnostischer Kompetenz verstanden wird. In mehreren Modellen findet sich die Auffassung, diagnostische Kompetenz ließe sich an der Akkuratheit des Urteils erkennen, wobei zum Teil verschiedene Differenzierungsgrade unterschieden werden (Akkuratheit bezüglich der Rangfolge, des Niveaus oder der Streuung sowie die Frage, ob sich die Einschätzung auf Personen, Gruppen oder Aufgaben beziehen) (Förster & Karst, 2017, S. 64). Darüber hinaus berücksichtigen die Modelle in unterschiedlichem Ausmaß weitere Determinanten, die die Akkuratheit des Urteils beeinflussen und unterscheiden sich hinsichtlich der Spezifität sowie hinsichtlich des Stellenwertes der konkreten Situation, in der pädagogische Diagnostik stattfindet (Förster & Karst, 2017, S. 64). Förster und Karst (2017) weisen darauf hin, dass in neueren Modellen neben relevanten Determinanten, Prozessmerkmalen und unterschiedlichen diagnostischen Situationen „vor dem Hintergrund der Bedeutung formativen Assessments für das alltägliche unterrichtliche Handeln auch derartige Diagnoseleistungen explizit in einem zukünftigen Rahmenmodell diagnostischer Kompetenzen zu adressieren“ sind (Förster & Karst, 2017, S. 65). Im Folgenden wird zunächst das Modell pädagogischer Diagnostik nach Ingenkamp und Lissmann (2008) beschrieben, welches weitere Merkmale einbezieht, die über die Akkuratheit des Urteils hinausgehen und daher hilfreich zur Verortung der in der vorliegenden Studie untersuchten Variablen erscheint. Anschließend soll das „Modell“ von Glogger-Frey und Herppich (2017), welches formative Diagnostik als Teilaspekt diagnostischer Kompetenz beschreibt, diskutiert werden. Ingenkamp und Lissmann (2008) beschreiben sowohl ein allgemein gehaltenes Rahmenmodell pädagogischer Diagnostik, in dem verschiedene Einflussfaktoren auf die Urteilsbildung dargestellt sind, sowie ein Prozessmodell, in dem die Schritte der Urteilsbildung erläutert werden. In ihrem Rahmenmodell wird die pädagogische Beurteilung als Interaktion zwischen beurteilender und beurteilter Person verstanden. Es wird zwischen folgenden Determinanten auf Seiten der Lehrkraft und auf Seiten der Schülerinnen und Schüler unterschieden: Kompetenzen, Orientierungen, sozial-emotionale Aspekte und Erfahrungen sowie Merkmalen der Beurteilungssituation6 und institutionellen Rahmenbedingungen. Das Zusammenspiel dieser Merkmale beeinflusst den gesamten Prozess der Urteilsfindung, wobei nicht expliziert wird, inwiefern sich die Wirkmechanismen der Merkmale 6

z.B. Ziel des Beurteilungsvorganges, verwendetes Beurteilungsverfahren, Qualität des vorangegangenen Unterrichts, Art der zu beurteilenden Qualifikation

5.1 Formatives Assessment als Facette adaptiver Lehrkompetenz

89

zwischen beurteilender und zu beurteilenden Person unterscheiden können und sollen (Behrmann & Kaiser, 2017, S. 61). Behrmann und Kaiser (2017) arbeiten heraus, dass es sich bei diesem Modell um ein allgemeingültiges Rahmenmodell handelt, welches für eine Vielzahl an diagnostischen Tätigkeiten anwendbar ist, kritisieren aber, dass empirische Überprüfungen des Modells bzw. von Teilaspekten noch nicht vorhanden sind und eine Einordnung hinsichtlich ihrer tatsächlichen Gültigkeit somit bislang nicht erfolgen kann. Dennoch bietet sich das Modell an, um Hypothesen und Forschungsfragen abzuleiten und empirisch zu überprüfen (Behrmann & Kaiser, 2017, S. 62). Baumert und Kunter (2006, S. 489) sehen die „Bereitschaft und Fähigkeit, das Verständnis von Schülerinnen und Schülern gezielt im Lernprozess selbst und nicht erst in Klassenarbeiten oder Tests zu überprüfen“ als wesentlichen Bestandteil der Diagnosekompetenz an und weisen darauf hin, dass dieser Aspekt des Diagnoseverhaltens in der Diskussion um diagnostische Kompetenz häufig übersehen wird. Auch Glogger-Frey und Herppich (2017) konstatieren, dass die formative, lernprozessbegleitende Perspektive in der bisherigen Forschung zu diagnostischer Kompetenz von Lehrkräften trotz seiner Relevanz weitgehend unberücksichtigt blieb und weisen darauf hin, dass künftige Modelle, trotz methodischer Herausforderungen bei der Erfassung, Überlegungen zur formativen Diagnostik enthalten sollten. Folgende Teilkompetenzen und Aspekte sollten gemäß GloggerFrey und Herppich dabei Berücksichtigung finden: •

die Formulierung von formativen und summativen Diagnosezielen



Schülerdenken sichtbar machen



Qualitative Beurteilungskategorien nutzen können



Feedback oder Aufgabenauswahl auf Basis der gesammelten und ausgewerteten Informationen als auf die Diagnose folgenden, lernprozessfördernden Schritt stärker ‚mitdenken‘ (2017, S. 46)

Diese Auflistung stellt eine erste, wenngleich unsystematische und unvollständige Annäherung dar, bei der im Gegensatz zu anderen Modellen zumindest die Relevanz formativen Assessments im Kontext diagnostischer Kompetenzmodelle hervorgehoben wird. Eine ähnliche Zusammenfassung des „Assessment knowledge“, welches für den erfolgreichen Einsatz formativen Asssessments als essenziell angesehen werden kann, hat Heritage erstellt: Teachers must know about the range of formative assessment strategies so that they can maximize the opportunities for gathering evidence. In addition, even though formative assessment strategies will not always meet accepted standards

90

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

of validity and reliability, teachers need to understand that the quality of the assessment is an important concern. […] Teachers also need to know how to align formative assessments with instructional goals, and they need to ensure that the evidence from the formative assessment and the inferences they draw from it are of sufficient quality to enable them to understand where the learner is along a learning progression. Finally, teachers need to know that their own assessments of learning are not the only available sources of evidence; students' self- and peer assessments provide important opportunities for establishing their current learning status. (Heritage, 2007, S. 145)

Neben Beiträgen, die eine Modellierung der diagnostischen Kompetenz anstreben, liegt auch eine Reihe weiterer Veröffentlichungen vor, in denen diagnostische Aufgaben- und Zielstellungen von Lehrkräften dargestellt werden (Hesse & Latzko, 2011; Ingenkamp & Lissmann, 2008; Maier, 2014). Exemplarisch soll auf die Systematisierung von Schrader (2014, S. 867) verwiesen werden, der zwischen folgenden diagnostischen Aufgabenstellungen, die auf unterschiedlichen Ebenen angesiedelt sind, unterscheidet: •

Diagnostik zur Ermittlung der Lernvoraussetzungen



Diagnostik zur Abklärung von Lernschwierigkeiten



Diagnostik zur Bewertung von Lernprozessen



Diagnostik zur Entwicklung des Unterrichts und zur Professionalisierung



Diagnostik zur Überwachung des Lernfortschritts

In Zusammenhang mit der Überwachung des Lernfortschritts nennt Schrader (2014, S. 867) formatives Assessment als systematischen Ansatz der Prozessdiagnostik. Es deutet sich also an, dass formatives Assessment auch in der deutschsprachigen pädagogisch-psychologischen Literatur zunehmend als relevante Facette diagnostischer Kompetenz anerkannt wird, eine konkrete Ausdifferenzierung der notwendigen Teilkompetenzen jedoch noch aussteht. 5.1.2

Zum Zusammenspiel zwischen diagnostischer und didaktischer Kompetenz

Diagnostische und pädagogische Handlungen sind im Unterrichtsgeschehen eng miteinander verwoben, wobei diese Verschränkung für die adaptive Unterrichtsgestaltung als zielführend gilt (Kaiser, Praetorius, Südkamp & Ufer, 2017; Praetorius, Hetmanek, Herppich & Ufer, 2017; Schrader, 1989). So können pädagogische Handlungen vor oder nach dem diagnostischen Prozess durchgeführt werden

5.1 Formatives Assessment als Facette adaptiver Lehrkompetenz

91

und einzelne Handlungen von Lehrkräften gleichzeitig diagnostische (Erkenntnisgewinnung) und pädagogische Ziele (Förderung des Lernprozesses) verfolgen (Kaiser et al., 2017). Wie sehr diagnostische und pädagogische Handlungen miteinander verknüpft sind, ist situationsabhängig, wobei die Verwobenheit in diagnostischen Situationen während des Unterrichts, „beispielsweise Diagnosen ‚onthe-fly‘ im Zuge formativer Diagnostik“ (Kaiser et al., 2017, S. 15) deutlich enger ausfällt als beispielsweise bei langfristig präaktiven Entscheidungen (z.B. schuljahresbezogene Vorbereitung). Bereits Schrader (1997) berichtet von Wechselwirkungen zwischen diagnostischer Kompetenz (hier Diagnosegenauigkeit) und der individuellen fachlichen Unterstützung einzelner Schülerinnen und Schüler und sieht dies als indirekten Beleg für die Rolle informeller Diagnoseleistungen im Rahmen des adaptiven Unterrichtens an, weist aber auf die Notwendigkeit weiterer Untersuchungen zur Klärung der Rolle von Lehrerurteilen und Diagnosen für das adaptive Unterrichten hin. Beck et al. berichten in ihrer Studie von hohen Korrelationen zwischen der diagnostischen und didaktischen Kompetenz und verweisen auf das enge Zusammenspiel der beiden Dimensionen: „Diagnose löst ein bestimmtes didaktisches Handeln aus. Das didaktische Handeln wird in seiner Auswirkung diagnostiziert und führt wiederum zu didaktischem Handeln. Dies ist vergleichbar mit einem Rückkopplungskreislauf [...]“ (2008, S. 167). Sie folgern, dass die didaktische Kompetenz eine notwendige, aber keine hinreichende Bedingung für erfolgreichen Unterricht darstellt und die diagnostische Kompetenz die Wirkung der didaktischen Kompetenz verstärkt (Beck et al., 2008, S. 167; Schrader, 1997). Bei Brühwiler (2017) zeigt sich im Rahmen von Videotests ein signifikanter Zusammenhang zwischen der diagnostischen7 und der didaktischen Handlungskompetenz8 von Lehrkräften. Ebenso kommen Anders et al. (2010) zu dem Ergebnis, dass Lehrkräfte mit ausgeprägteren diagnostischen Kompetenzen stärker im Unterricht differenzieren als Lehrkräfte mit weniger diagnostischen Kompetenzen (Anders et al., 2010). Über Zusammenhänge formativen Assessments als Facette diagnostischer Kompetenz und Aspekten adaptiven Unterrichts ist aktuell noch wenig bekannt. Lediglich Smit und Engeli (2017) gingen dieser Frage im Kontext des jahrgangsübergreifenden Unterrichts nach und kamen zu dem Ergebnis, dass „Lehrpersonen, welche häufiger eine formative Beurteilung nutzen, diese auch häufiger für die Unterrichtsplanung und Differenzierung verwenden. Zudem weisen die Lernenden nach Angaben der Lehrpersonen mit häufigerer Nutzung von formativer Be-

7

Kategorien: a) Vorwissen überprüfen, b) neues Wissen überprüfen Kategorien: a) neues Wissen erarbeiten, b) Vorwissen mit einbeziehen, c) Vertiefung und Fixierung, d) auf Verständnisschwierigkeiten reagieren, e) Klarheit und Struktur schaffen 8

92

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

urteilung auch höhere Selbstkompetenzen auf“ (Smit & Engeli, 2017, S. 11). Allerdings kann dieses Ergebnis aufgrund der inhaltlich stark reduzierten Operationalisierung nur als erstes Indiz für einen bestehenden Zusammenhang gewertet werden, weshalb dieser Frage vertiefend nachgegangen werden sollte. Ergebnisse diesbezüglich könnten weiterhin Aufschluss darüber geben, inwieweit formatives Assessment tatsächlich die Adaptivität der Lehrkräfte positiv beeinflusst und inwiefern andere Variablen einen förderlichen oder hinderlichen Einfluss auf die adaptive Nutzung der Assessmentinformation haben. Zusammenhänge zwischen formativem Assessment und weiteren Qualitätsmerkmalen guten Unterrichts wurden von Decristan et al. (2015) untersucht. Dabei zeigt sich, dass insbesondere formatives Assessment in Kombination mit einem unterstützenden Lernklima, aber auch mit kognitiv aktivierendem Unterricht positive Effekte auf die Schülerleistungen haben. Interaktionseffekte zwischen formativem Assessment und Classroom Management waren nicht zu verzeichnen. Ebenso kommt Bürgermeister (2014, S. 140) zu dem Ergebnis, dass formatives Assessment (verbale und partizipative Beurteilungspraxis) mit einem kognitiv aktivierenden Unterricht einhergeht. 5.2

Relevante Einflussfaktoren formativen Assessment-Handelns

Zur Analyse möglicher Einflussfaktoren formativen Assessment-Handelns kann das Modell der Determinanten und Konsequenzen der professionellen Kompetenz von Lehrkräften (Kunter et al., 2011, S. 59) herangezogen werden. Diesem theoretischen Modell zufolge beeinflussen die Lerngelegenheiten der Lehrkräfte und die Nutzung dieser Lerngelegenheiten die professionelle Kompetenz der Lehrkräfte. Professionelle Handlungskompetenz von Lehrkräften entsteht nach Baumert und Kunter (2006) aus dem Zusammenwirken folgender für den Lehrerberuf spezifizierter Komponenten: •

Professionswissen: deklaratives und prozedurales Wissen



Professionelle Überzeugungen und Werthaltungen



Motivationale Orientierungen



Fähigkeiten professioneller Selbstregulation

Die professionelle Kompetenz bestimmt wiederum das professionelle Verhalten der Lehrkräfte (und somit auch das Assessment-Handeln), welches auch von Kontextfaktoren und persönlichen Voraussetzungen der Lehrkräfte beeinflusst werden kann. Effektives professionelles Handeln wiederum äußert sich unter anderem in den Lernerfolgen der Schülerinnen und Schüler (Kunter et al., 2011, S. 58–59).

5.2 Relevante Einflussfaktoren formativen Assessment-Handelns

93

Nachfolgend sollen insbesondere die zentralen professionellen Kompetenzfacetten Professionswissen und Überzeugungen sowie deren Zusammenhänge mit dem Assessment-Handeln herausgearbeitet werden. Da im empirischen Teil der Arbeit insbesondere die Überzeugungen in Zusammenhang mit dem Assessment-Handeln in den Blick genommen werden, wird zunächst auf diese Kompetenzfacette und im Anschluss daran auf das Professionswissen und weitere Einflussfaktoren eingegangen. Zurückgegriffen wird dabei überwiegend auf Studien im Kontext von Untersuchungen zur diagnostischen Kompetenz von Lehrkräften. 5.2.1

Überzeugungen und Werthaltungen

In der Unterrichtsforschung werden die Überzeugungen der Lehrkräfte als bedeutsame Aspekte der Lehrerkompetenz angesehen (Baumert & Kunter, 2006; Oser & Blömeke, 2012). Im erziehungswissenschaftlichen Diskurs wird häufig betont, dass insbesondere für das Unterrichten heterogener Lerngruppen die Einstellungen, Haltungen und Überzeugungen der Lehrkräfte entscheidend sind (Vock & Gronostaj, 2017). Eine begriffliche Abgrenzung von Haltungen, subjektiven Theorien und Einstellungen gestaltet sich schwierig (Kleickmann, 2008). Von Überzeugungen (beliefs) spricht man in der Regel, wenn (meist) nicht-wissenschaftliche Vorstellungen darüber, wie etwas beschaffen ist oder wie etwas funktioniert, mit dem Anspruch der Geltung für das Handeln auftreten (Oser & Blömeke, 2012, S. 415). Überzeugungen zeichnen sich entsprechend durch einen intentionalen Gegenstandsbezug, eine innere Ordnung, affektive Aufladungen und Wertbindungen aus und spiegeln einen individuell verinnerlichten Habitus wider. Weiterhin gelten sie als vergleichsweise stabil und eher resistent gegenüber Umstrukturierungen (Reusser, Pauli & Elmer, 2014). Differenziert werden kann gemäß Post, Kastens und Lipowsky (2013) unter anderem zwischen verschiedenen Formen des fachspezifischen Lehr- und Lernverständnisses, der Bezugsnormorientierung, der Weltbilder über das Fach (epistemologische Überzeugungen) (Baumert & Kunter, 2006; Calderhead, 1996), des Begabungskonzepts sowie der Kausalattribution (Post et al., 2013; Schlangen & Stiensmeyer-Pelster, 1997; Stiensmeier-Pelster & Heckhausen, 2010). Im Folgenden soll auf die Überzeugungen zum Lehren und Lernen sowie auf die Bezugsnormorientierung eingegangen werden, da diese im empirischen Teil der Arbeit untersucht werden. Überzeugungen über das Lehren und Lernen Überzeugungen über das Lehren und Lernen beinhalten Annahmen über den Zweck, die Natur und die Bedeutung von Lernprozessen. Es wird angenommen, dass sich die Überzeugungen der Lehrenden auf die Art und Weise, wie die Lernumgebung gestaltet wird, auswirken (Hertel, 2014; Pauli et al., 2007). Über das

94

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

Unterrichtshandeln können diese Überzeugungen der Lehrenden wiederum die Lernprozesse der Schülerinnen und Schüler beeinflussen (Seidel et al., 2008; Staub & Stern, 2002). In der Lehr- und Lernforschung besteht die Annahme, dass sich insbesondere die konstruktivistischen Überzeugungen von Lehrkräften (constructivist view) positiv auf die Unterrichtsgestaltung auswirken (Hartinger et al., 2006; Warwas et al., 2011). Konstruktivistisch orientierte Lehrkräfte verstehen den Erwerb und Aufbau von Wissen eher als aktive, weitgehend selbstgesteuerte Konstruktionsleistung des Lernenden, bei der es durch Verknüpfungen neu erworbener mit bestehenden Wissenselementen zu einer vertieften Verarbeitung, Organisation und Interpretation der neuen Wissensbestände kommt (Post et al., 2013, S. 157) Unterstützt werden können die Schülerinnen und Schüler bei der aktiven Wissenskonstruktion, wenn sie die Möglichkeit haben, Lerninhalte eigenständig zu erarbeiten, eigene Ideen zu entwickeln und individuelle Lernwege zu nehmen (Warwas et al., 2011). Die Lehrkraft sieht sich eher in der Rolle des Lernbegleiters und Impulsgebers, weniger als Wissensvermittler. Da Lernen als sozialer Prozess verstanden wird, spielen offene Aufgaben und kooperative Lernformen, bei denen die Rückmeldungen, Ideen und Fragen der Schülerinnen und Schüler berücksichtigt werden, eine wichtige Rolle (Post et al., 2013). Diesem Verständnis steht ein eher traditionelles Lehr- und Lernverständnis (transmission view) gegenüber, bei dem der Prozess des Wissenserwerbs als streng regelhaft verlaufender Prozess der Informationsvermittlung und -verarbeitung verstanden wird (Post et al., 2013). Lernen wird in diesem Verständnis als vorrangig rezeptiver Prozess der „Transmission“ des Wissens von der Lehrperson zu den Lernenden betrachtet, der durch systematisch und organisiert dargebotene Lerninhalte (Instruktionen) in einer gegenstandszentrierten Lernumgebung angeleitet wird (Dubberke, Kunter, McElvany, Brunner & Baumert, 2008; Post et al., 2013). Weitestgehend übereinstimmend deuten bisherige Befunde darauf hin, dass bei Lehrkräften eher transmissive als konstruktivistische Überzeugungen vorherrschen (Handal, 2003). Dies wird mit der in der Unterrichtspraxis vorherrschenden Dominanz enggeführter lehrerzentrierter Unterrichtsformen in Zusammenhang gebracht (Dubberke et al., 2008) und stellt daher ein relevantes Forschungsfeld der Unterrichts- bzw. Lehr- Lernforschung dar. Insbesondere Zusammenhänge mit dem Lernerfolg der Schülerinnen und Schüler sowie mit dem unterrichtlichen Handeln der Lehrkräfte wurden bereits erforscht, wobei der letztgenannte Zusammenhang insofern besonders bedeutsam ist, als dass über eine Veränderung von Überzeugungen das Handeln verändert werden kann und diesem Aspekt insbesondere für die Lehreraus- und -weiterbildung eine zentrale Rolle zukommt (Calderhead, 1996).

5.2 Relevante Einflussfaktoren formativen Assessment-Handelns

95

Zusammenhänge zwischen Überzeugungen und der Leistungsentwicklung In einer Längsschnittstudie im Fach Mathematik in der Klassenstufe 2 und 3 konnten Staub und Stern (2002) zeigen, dass bedeutsame Anteile der Variation der Leistungszuwächse im mathematischen Problemlösen durch Unterschiede in den Überzeugungen der Lehrkräfte erklärt werden können. Dabei setzen Lehrkräfte mit eher konstruktivistischer Orientierung häufiger Aufgaben, die konzeptuelles Verständnis verlangen, ein als Lehrkräfte mit transmissiven Überzeugungen. Ebenso weisen die Befunde von Pauli et al. (2007) auf positive Zusammenhänge zwischen den konstruktivistischen Orientierungen von Mathematiklehrkräften und dem Leistungsstand von Neuntklässlern hin. In eine ähnliche Richtung deuten die Ergebnisse von Dubberke et al. (2008), bei denen Lehrkräfte mit ausgeprägten transmissiven Überzeugungen einen eher wenig kognitiv aktivierenden Unterricht halten und sich die transmissiven Überzeugungen negativ auf die mathematischen Schülerleistungen auswirkten. Auch Kleickmann (2008) konnte zeigen, dass Schülerinnen und Schüler, deren Lehrkräfte überwiegend konstruktivistische Überzeugungen (conceptual chance) haben, größere Fortschritte im naturwissenschaftlichen Lernen erzielen als bei Lehrkräften mit transmissiven Überzeugungen. Zu anderen Ergebnissen kommen Seidel et al. (2008), die weder Korrespondenzen zwischen den konstruktivistischen Orientierungen von Physiklehrkräften und der Umsetzung konstruktivistischer Elemente im Unterricht, noch signifikante Zusammenhänge zwischen den konstruktivistischen und rezeptiven Überzeugungen der Lehrpersonen mit dem Lernerfolg der Schülerinnen und Schüler feststellen konnten. Zusammenhänge zwischen Überzeugungen und dem Unterrichtshandeln Einige Studien deuten bereits auf Zusammenhänge zwischen konstruktivistischen Überzeugungen und formativem Assessment sowie weiteren Aspekten einer adaptiven Unterrichtsgestaltung hin. So zeigt sich in einer Befragung von Gymnasiallehrkräften von Maier (2011a) ein signifikanter Zusammenhang zwischen einem konstruktivistischen Lehr-Lernverständnis und dem Einsatz formativer diagnostischer Verfahren (Peer-Assessments, unbenotete Kurztests). Warwas et al. (2011) fanden Belege für einen Zusammenhang zwischen konstruktivistischen Überzeugungen der Lehrkräfte und dem Einsatz adaptiver Unterrichtsformen. Konkret gehen dabei konstruktivistische Überzeugungen mit einer verstärkten Variation des Aufgabenmaterials, nicht aber mit dem Einsatz von Gruppenpuzzles und Expertengruppen einher.9 Darüber hinaus geht aus der Studie hervor, dass eine heterogene Klassenzusammensetzung allein noch nicht zu einem verstärkten Einsatz von

9

Aufgabenmaterial, das eine unterschiedliche Bearbeitung je nach individuellen Lernbedürfnissen ermöglicht sowie Expertengruppen/Expertentreffen/Gruppenpuzzle werden von den Autorinnen als makro-adaptive Unterrichtshandlungen verstanden.

96

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

adaptiven Unterrichtsformen führt, sondern erst das Zusammenwirken von Heterogenität und konstruktivistischen Überzeugungen zum vermehrten Einsatz von adaptiven Unterrichtsformen führt. Ähnlich deutet sich bei Drexl (2014, S. 247) an, dass Grundschullehrkräfte mit einem konstruktivistischen Lehr-Lernverständnis tendenziell häufiger differenzierte Lerngelegenheiten schaffen. Bei Peterson, Fennema, Carpenter und Loef (1986) zeigten sich ebenfalls Unterschiede im Unterrichtshandeln zwischen Grundschullehrkräften mit konstruktivistischen versus rezeptiven Überzeugungen über das Lernen. Lehrkräfte mit einer konstruktivistischen Überzeugung gaben an, mehr Zeit für Textaufgaben und Rechenstrategien zu verwenden und weniger Zeit für die Vermittlung von Faktenwissen aufzuwenden. Stipek, Givvin, Salmon und MacGyvers (2001) fanden einen negativen Zusammenhang zwischen rezeptiven Überzeugungen zum Lernen und der Bereitstellung einer Lernumgebung, in der die Autonomie der Schülerinnen und Schüler gefördert wird und in der ein Klima des Verständnisses und der Unterstützung herrscht. Hartinger et al. (2006) kommen zu dem Ergebnis, dass der Unterricht von Lehrkräften, die eine konstruktivistische Vorstellung vom Lehren und Lernen haben, mehr Freiräume für die Schülerinnen und Schüler aufweist ohne dabei weniger strukturiert zu sein. Die Schülerinnen und Schüler fühlen sich bei diesen Lehrkräften selbstbestimmter und empfinden den Unterricht als interessanter. Daneben existieren aber auch Studien, in denen sich diese Zusammenhänge nicht zeigen. So fand sich bei Galton, Simon und Croll (1980) kein positiver Zusammenhang zwischen konstruktivistischen Überzeugungen und einem Unterrichtshandeln, das selbstgesteuertes Lernen unterstützt. Auch bei Seidel et al. (2008), die das Unterrichtshandeln mittels Videoanalysen und Selbstberichten erfassten, zeigten sich keine systematischen Zusammenhänge zwischen konstruktivistischen Überzeugungen über das Lernen und konstruktivistischen Elementen im Unterricht (unterstützende Lehrerfragen, Feedback und unterstützende Rückmeldung oder prozessorientierte Lernbegleitung) sowohl in Bezug auf die Selbstberichte als auch auf die Videoanalysen. Auch zwischen den rezeptiven Überzeugungen zum Lernen und dem unterrichtlichen Handeln zeigten sich keine Unterschiede. Leuchter, Pauli, Reusser und Lipowsky (2006) kommen mittels Videoanalysen, schriftlichen Befragungen und Interviews ebenfalls zu dem Ergebnis, dass keine signifikanten Zusammenhänge zwischen konstruktivistischen Überzeugungen und konstruktivistisch orientierten Unterrichtsqualitätsaspekten (u.a. problembasierter Unterricht, adaptive Lernbegleitung und Unterstützung des Lernens) bestehen, finden aber einen negativen Zusammenhang zwischen einer rezeptiven Orientierung und der Förderung selbstgesteuerten Lernens. Insgesamt ist die Befundlage zum Zusammenhang zwischen Überzeugungen zum Lehren und Lernen und dem Unterrichtshandeln aufgrund der wenigen Studien

5.2 Relevante Einflussfaktoren formativen Assessment-Handelns

97

noch schwach und widersprüchlich (Seidel et al., 2008), darüber hinaus beschränken sich die Untersuchungen bislang vorwiegend auf naturwissenschaftliche Fachgebiete. Eine Ausnahme bildet die PERLE-Studie (Lipowsky, Faust & Kastens, 2013), in der unter anderem auch konstruktivistische und transmissive Überzeugungen zum Fach Deutsch und Mathematik in der Grundschule erhoben wurden und gezeigt werden konnte, dass die Lehrkräfte eher einer konstruktivistischen Sichtweise auf das Lernen zustimmen als einer transmissiven Sichtweise. Bereits 1998 konstatierten Black und Wiliam (1998b, S. 58), dass unter anderem die “perceptions and beliefs of teachers about learning, about the ‚abilities‘ and prospects of their students, and about their roles as assessors“ im Zusammenhang mit formativem Assessment genauer untersucht werden sollten. Auch Allal und Mottier Lopez (2005, S. 151) gehen davon aus, dass „implicit ‚theories‘ of teaching and learning have a profound impact on how formative assessment is put into practice”, weshalb weitere Untersuchungen angestellt werden sollten, um die Beziehungen zwischen Überzeugungen und formativem Assessment zu erhellen. Marshall und Drummond (2006) formulieren die Annahme, dass die Überzeugungen der Lehrkräfte Einfluss darauf haben, wie die Lehrkräfte Assessment for Learning im Unterricht implementieren und dies zu erklären vermag, warum Veränderungen der Unterrichtspraxis generell so schwer erreicht werden können. Diesen bedeutsamen Stellenwert der Überzeugung für die Weiterentwicklung der Assessment-Praxis betont auch Remesal (2011, S. 480): „In other words, attempts to change teacher assessment practices towards assessment for learning will be unproductive, as long as we ignore the teachers’ particular beliefs”. Bislang liegen bezüglich der Zusammenhänge zwischen Überzeugungen und formativem Assessment allerdings lediglich die Befunde von Maier (2011a), Leuchter et al. (2006) sowie Seidel et al. (2008) für die Sekundarstufe vor, womit sich ein Forschungsdesiderat für den Grundschulbereich markieren lässt. Bezugsnormorientierungen Die Bezugsnormorientierung (BNO) lässt sich als die Konkretisierung von Lehrerüberzeugungen über die an Schülerinnen und Schüler zu stellenden Erwartungen begreifen und spielt eine wichtige Rolle im Rahmen der Leistungsbeurteilung (Rheinberg, 2006). Gemäß Rheinberg sind Bezugsnormen „Standards, mit denen man ein vorliegendes Resultat vergleichen muss, wenn man dieses Resultat als Leistung beurteilen will“ (2008, S. 178). Klassischerweise wird zwischen drei Bezugsnormen unterschieden: Die soziale Bezugsnorm, bei der ein Vergleich mit einer sozialen Bezugsgruppe, wie z.B. der Schulklasse, vorgenommen wird; die individuelle Bezugsnorm, bei der jedes Individuum sein eigenes Bezugssystem bildet und die aktuellen Leistungen mit vorangegangenen eigenen Leistungen verglichen werden (intraindividueller Längsschnittvergleich) und die sachliche (auch

98

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

kriteriale oder lehrzielorientierte) Bezugsnorm, bei der die Leistungen mit einem Lernkriterium (z.B. Lehrplanziel) in Bezug gesetzt werden (Dickhäuser & Rheinberg, 2003; Rheinberg, 1980, 2006). Die individuelle Bezugsnorm kann dabei so verstanden werden, dass sie „die individuelle Differenzierung der sachlichen Bezugsnorm, d. h. die konsekutive Stufung eines Lernziels“ (Jürgens & Lissmann, 2015, S. 55) darstellt. Bezugsnormen können formell vorgegeben sein, darüber hinaus hat sich aber auch gezeigt, dass zwischen Personen Unterschiede in der Bevorzugung bestimmter Bezugsnormen bestehen. Diese Bevorzugung wird als Bezugsnormorientierung bezeichnet (Dickhäuser & Rheinberg, 2003; Rheinberg, 1980). Die Überzeugung, dass eine Schülerin bzw. ein Schüler immer nur an dem gemessen werden kann, was sie bzw. er leisten kann, dürfte zu einer ausgeprägten individuellen Bezugsnormorientierung beitragen. Die Überzeugung, dass sie oder er sich an dem orientieren muss, was die Mitschülerinnen und Mitschüler leisten, müsste mit einer hohen sozialen Bezugsnormorientierung einhergehen, und die Überzeugung, dass sie oder er sich an dem zu messen haben, was gesetzte Kriterien beinhalten, sollte zu einer höheren kriterialen Bezugsnorm führen (Post et al., 2013; Rheinberg, 2006). Die Bezugsnormorientierung wurde insbesondere in Lehr-Lernsituationen erforscht, wobei davon ausgegangen wird, dass die individuelle Bezugsnormorientierung günstigere Auswirkungen auf die Motivation der Lernenden hat als die soziale Bezugsnormorientierung. Gestützt wird diese Annahme durch eine Vielzahl von Studien, darunter auch eine großangelegte Längsschnittstudie (Köller, 2000; Lüdtke & Köller, 2002), bei der sich die individuelle Bezugsnormorientierung als ein signifikant positiver Prädiktor für die Entwicklung des leistungsbezogenen Selbstkonzeptes im Fach Mathematik herausstellt. Die Anwendung einer individuellen Bezugsnorm hat mehrere Vorteile. So wird unter dieser Bezugsnorm der Lernzuwachs jedes Lerners besonders deutlich, was wiederum das Vertrauen in das eigene Lernpotenzial und die Zuversicht, sich weiter entwickeln zu können, fördert (Rheinberg, 2008, S. 182). Weiterhin zeigt der Vergleich mit vorangegangenen Leistungen sehr sensibel die aktuellen Veränderungen, die mit den vorangegangenen Lernaktivitäten in Zusammenhang gebracht werden können. Dies legt für die Kausalattribution kontrollierbare Ursachen (z.B. Anstrengung, Lernstrategie) nahe, welche sich motivational günstig auswirken (Rheinberg, 2008, S. 182). Darüber hinaus geht aus der Überblicksarbeit von Mischo und Rheinberg (1995) hervor, dass die Nutzung der individuellen Bezugsnorm auch die realistische Zielsetzung der Schülerinnen und Schüler fördert. Weiterhin weisen eine Reihe von Studien darauf hin, dass die Bezugsnormorientierung der Lehrkräfte auch Auswirkungen auf weitere Lehrervariablen hat (Dickhäuser & Rheinberg, 2003). Dabei zeigten sich Zusammenhänge mit der Kausa-

5.2 Relevante Einflussfaktoren formativen Assessment-Handelns

99

lattribuierung sowie den Sanktionierungsstrategien der Lehrkräfte. Besonders relevant erscheint allerdings für die vorliegende Arbeit der Zusammenhang mit der Unterrichtspraxis. So legen soziale Bezugsnormorientierungen nahe „den Unterricht für alle Schüler gleich zu gestalten, weil dann die Leistungsvergleiche zwischen den Schülern leichter durchführbar sind. Bei individueller Bn [Bezugsnorm] legt die genaue Beachtung individueller Leistungsentwicklungen dagegen nahe, Lernanforderungen zumindest zeitweise auf die individuellen Kompetenzstände der einzelnen Schüler abzustimmen“ (Dickhäuser & Rheinberg, 2003, S. 4). Laut Rheinberg (2008, S. 182) sind Lehrkräfte mit individueller Bezugsnorm-orientierung häufiger um eine individuelle Schwierigkeitsdosierung von Aufgaben oder um Wahlmöglichkeiten bei der Aufgabenstellung bemüht, liefern kaum zeitstabile Kausalattributionen und zeigen offene langfristige Leistungserwartungen. „Stattdessen haben sie eher kurzfristige und konkrete Erwartungen, wer wohl in der jetzt anstehenden Lehreinheit spezielle Unterstützung bzw. herausfordernde Zusatzaufgaben braucht“ (Rheinberg, 2008, S. 182). Dies legt den Schluss nahe, dass die individuelle Bezugsnormorientierung der Lehrkräfte auch einen Effekt auf die formative Assessment-Praxis der Lehrkräfte haben könnte. Befunde diesbezüglich liegen allerdings kaum vor. Gestützt werden kann die Annahme durch die Studie von Bürgermeister (2014, S. 141), in der die partizipative Beurteilung (die als Aspekt formativen Assessments angesehen werden kann) mit einer individuellen Bezugsnormorientierung einhergeht (Bürgermeister et al., 2014). Weitere Befunde sprechen für Zusammenhänge zwischen der Bezugsnormorientierung und der Zielorientierung. So fanden Dickhäuser und Stiensmeier-Pelster (2000) eine signifikante Korrelation zwischen der sozialen Bezugsnormorientierung und der Leistungszielorientierung10 bei Studierenden, was Dickhäuser und Rheinberg (2003) zu der Annahme führt, dass eine soziale Bezugsnormorientierung der Fremdbewertung (seitens der Lehrkraft) die Entwicklung der Zielorientierung in Richtung performance goals bzw. ego involvement bedingen kann. Ebensogut kann aber auch die Zielorientierung der Schülerinnen und Schüler deren Bezugsnormorientierung bei der Selbstbewertung bestimmen (Dickhäuser & Rheinberg, 2003). Auch Maier (2014) bringt die Bezugsnormorientierung in Verbindung mit formativem Assessment. So formuliert er die Hoffnung, dass sich mittels formativer Leistungsdiagnosen die in Schule überwiegende soziale Bezugsnormorientierung überwinden ließe. Prengel (2013, S. 51, 2016) weist ebenfalls darauf hin, dass formatives Assessment primär die individuelle und die kriteriale Bezugsnorm berücksichtigt und die soziale Bezugsnorm bei diesem Ansatz sekundär ist. Über die

10

Bemühungen, Stärken zu demonstrieren bzw. mangelnde Kompetenzen zu verbergen

100

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

transparente Definition von Beurteilungskriterien sollen kriterial orientierte Leistungsmessungen und kriteriengeleitete Diskussion der Ergebnisse ermöglicht werden (Maier, 2014). Darüber hinaus bieten Verfahren der Lernverlaufsdiagnostik Chancen für die Ausgestaltung einer individuellen Bezugsnormorientierung, da individuelle Lernentwicklungen festgehalten und einer Beurteilung zugänglich gemacht werden. Unter Bezugnahme auf die instruktionspsychologisch orientierte Feedbackforschung weist Maier (2014) darauf hin, dass sich mit der Gestaltung von Rückmeldeformaten eine kriteriale und individuelle Bezugsnormorientierung auf Seiten der Schülerinnen und Schüler stützen lässt. Allerdings ist die Anwendung kriterialer und individueller Beurteilungsmaßstäbe nicht unproblematisch, da Schülerinnen und Schüler bei gleichzeitiger Verwendung von Noten und Kommentaren dazu neigen, nur die Note wahrzunehmen (Black & Wiliam, 1998b; Grundschulverband, 2014) und somit die parallele Nutzung von Noten und Kommentaren eher ungeeignet ist, um eine kriteriale bzw. individuelle Bezugsnormorientierung zu etablieren. Aus diesem Grund bedarf es auch der verstärkten (Weiter-)Entwicklung von geeigneten Instrumenten, die eine Orientierung an der individuellen bzw. kriterialen Bezugsnorm ermöglichen, wie bereits in Kapitel 3.1.3 gezeigt wurde. An der Bezugsnormorientierung lässt sich auch das Spannungsfeld aufzeigen, in dem sich Lehrkräfte bei der Leistungsbeurteilung bewegen: Aus pädagogischer Perspektive sind Leistungsbeurteilungen auf Basis einer individuellen Bezugsnormorientierung sinnvoll, widersprechen jedoch dem meritokratischen Prinzip, nach dem diejenigen begehrte Positionen erhalten, die bessere Leistungen erbringen, was eine soziale Bezugsnormorientierung impliziert (Vock & Gronostaj, 2017, S. 84). Lehrkräfte müssen, auch wenn sie Überzeugungen und Werthaltungen aufweisen, die auf die individuelle Lernentwicklung der einzelnen Schülerinnen und Schüler fokussieren, schlussendlich doch vergleichend bewerten, um ihren gesellschaftlichen Auftrag (Allokations- bzw. Selektionsfunktion) zu erfüllen und stehen damit vor der schwer vereinbaren Aufgabe, „jedem Einzelnen gerecht zu werden und gleichzeitig als Agent eines Selektionsverfahrens auch gerecht mit allen sein zu müssen“ (Reh, 2005). Das Spannungsverhältnis von Integration und Selektion als Aufgabe der Schule (stellt sich für die Grundschule durch deren Auftrag „erste Schule für alle Kinder zu sein“ (Schorch, 2007, S. 80) in besonderer Form dar. Sie ist die Schulart mit der größten Heterogenität, soll aber die widersprüchlichen Aufträge der individuellen Förderung aller Kinder einerseits und die Gewährleistung einer einheitlichen Grundbildung andererseits erfüllen (Drexl, 2014; Schorch, 2007, S. 81). Aus der Notwendigkeit, einerseits das gesellschaftliche Prinzip leistungsbegründeter Hierarchien, andererseits aber auch demokratische Freiheit und Gleichheit anzuerkennen, ergibt sich laut Prengel die Notwendigkeit eines „mehrperspektivischen Leistungsbegriffs“, der „auf der Anerkennung der

5.2 Relevante Einflussfaktoren formativen Assessment-Handelns

101

Menschenwürde und der individuellen Lernentwicklung jedes Kindes beruht und erst auf dieser Basis die Stärken und Schwächen, die beim Leistungsvergleich mit anderen sichtbar werden, in den Blick nimmt“ (2013, S. 52). Übertragen auf die Anwendung unterschiedlicher Bezugsnormen bedeutet dies, in erster Linie die kriteriale Bezugsnorm zu verwenden, was zum einen den Vergleich der erreichten Kompetenzstufe im Vergleich zu fachlichen Kriterien und zum anderen, sofern kontinuierlich im Unterricht eingesetzt, die Analyse der individuellen Lernentwicklung (individuelle Bezugsnorm) ermöglicht. Für die Gestaltung pädagogischer Angebote sind Vergleiche im Sinne der sozialen Bezugsnorm im Grunde sekundär. Insbesondere am Ende der Grundschulzeit, wenn Lehrkräfte benoten müssen und Kinder in separierende weiterführende Schulen überleiten müssen, sind sie aber gefordert, die individuelle Leistungsentwicklung im Vergleich zu anderen Schülerinnen und Schülern sensibel zu thematisieren, was wiederum auch die Orientierung an der sozialen Bezugsgruppe impliziert (Prengel, 2013, S. 53). 5.2.2

Professionswissen

Im Rahmen der COACTIV-Studie werden „diagnostische Fähigkeiten“ als mehrdimensionale Kompetenzfacette verstanden, die eine Integration mehrerer Teilkompetenzen pädagogisch-psychologischen und fachdidaktischen Wissens umfasst (Brunner et al., 2011, S. 217). Im Zusammenhang mit formativem Assessment erscheint insbesondere die von Baumert und Kunter (2006, S. 485) aufgeführte Facette allgemeinen pädagogischen Wissens bzw. pädagogisch-psychologischen Wissens „Fachübergreifende Prinzipien des Diagnostizierens, Prüfens und Bewertens“ relevant. Auch die Kenntnis über die Lernprozesse und das Wissen über die Schülerinnen und Schüler ist für formatives Assessment notwendig. Wenn die Lehrkräfte auf das vorangegangene Lernen der Schülerinnen und Schüler aufbauen sollen, müssen sie auch Kenntnisse über die Lernentwicklung der Schülerinnen und Schüler haben. Diese umfassen: 1) den Kenntnisstand der Schülerinnen und Schüler zu einem spezifischen Inhaltsbereich, 2) ihr Verständnis von Konzepten in diesem Inhaltsbereich (z.B. der Grad der Generalisierung bei der Abstraktion von bestimmten Beispielen), 3) das Fähigkeitsniveau in diesem Inhaltsbereich (z.B. den Wert, den Schülerinnen und Schüler dem Fach beimessen, das Interesse, das sie zeigen und ihr Maß an Selbständigkeit. Lehrkräfte müssen außerdem Wissen über metakognitive Prozesse sowie motivationale Überzeugungen von Schülerinnen und Schülern und deren Einfluss auf Selbstwirksamkeitsüberzeugungen und Kompetenzentwicklung haben (Heritage, 2007). Neben dem pädagogisch-psychologischen Wissen spielt auch das fachliche und fachdidaktische Wissen eine wichtige Rolle für die Qualität formativen Assess-

102

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

ment-Handels (Black & Wiliam, 2009; Heritage, 2007). Hinsichtlich des fachdidaktischen Wissens kann zwischen den folgenden Dimensionen unterschieden werden: 1.

Wissen über das didaktische und diagnostische Potenzial von Aufgaben, Wissen über die kognitiven Anforderungen und impliziten Wissensvoraussetzungen von Aufgaben, ihre didaktische Sequenzierung und die langfristige curriculare Anordnung von Stoffen,

2.

Wissen über Schülervorstellungen (Fehlkonzeptionen, typische Fehler, Strategien) und Diagnostik von Schülerwissen und Verständnisprozessen,

3.

Wissen über multiple Repräsentations- und Erklärungsmöglichkeiten. (Baumert & Kunter, 2006, S. 495)

Insbesondere dem Wissen über Schülervorstellungen und der Diagnostik von Verständnisprozessen kommt im Rahmen formativen Assessments Bedeutung zu, geht es dabei doch explizit darum, „[to] elicit evidence of student understanding“ (Black & Wiliam, 2009, S. 8). Heritage (2007) sieht bezüglich des fachdidaktischen Wissens aber auch die Vertrautheit mit multiplen Repräsentations- und Erklärungsmöglichkeiten als zentral für formatives Assessment an, um den Unterricht effektiv an die Lernstände der Schülerinnen und Schüler anpassen zu können. Aufgrund der unterschiedlichen Lernstände der Schülerinnen und Schüler ist es notwendig, über differenzielle Unterrichtsmethoden zu verfügen und diese angemessen im Unterricht einzusetzen. Außerdem müssen die Lehrkräfte mit Modellen selbstregulierten Lernens vertraut sein, um Schülerinnen und Schüler beim Self-Assessment unterstützen zu können (Heritage, 2007). Mit Bezug auf eine ‚didaktische Diagnostik‘, die sehr nah am alltäglichen Lernen die Lernfortschritte der Schülerinnen und Schüler erfasst, weist Prengel darauf hin, dass diese „eine unmittelbar mit der Didaktik verbundene Form der Diagnostik [ist] und […] auf der ureigensten fachdidaktischen Kompetenz der Lehrkräfte [beruht]“ (2013, S. 51). Ein solides Fachwissen gilt als Voraussetzung für fachdidaktisches Wissen und Können, wobei der Fokus zumeist auf dem fachbezogenen Wissen liegt, „das für Verständnis vermittelnden Unterricht notwendig ist und sich im Unterricht als fachdidaktisches Handeln manifestiert“ (Baumert & Kunter, 2006, 494f.). Der enge Bezug formativen Assessments auf konkret im Unterricht behandelte Inhalte und Themen impliziert die Notwendigkeit eines profunden fachlichen Verständnisses des unterrichteten Schulstoffs auf Seiten der Lehrkräfte. Heritage (2007) weist in diesem Zusammenhang darauf hin, dass Lehrkräfte fachspezifische

5.2 Relevante Einflussfaktoren formativen Assessment-Handelns

103

Konzepte und zu erwerbende Kompetenzen kennen und wissen sollten, wie eine erfolgreiche bzw. „normale“ Entwicklung in einem Kompetenzbereich verläuft. Es ist deutlich geworden, dass das Professionswissen der Lehrkräfte als relevanter Einflussfaktor auf das Assessment-Handeln von Lehrkräften angesehen werden kann. Allerdings stellt die direkte reliable und valide Erfassung von Lehrerkompetenzen ein zentrales Forschungsdesiderat dar (Baumert & Kunter, 2006, S. 486; Terhart, 2006). Insbesondere die kombinierte Erfassung von Wissen und praktischem Können, wie bei der Unterrichtsführung und Orchestrierung von Lerngelegenheiten, gilt als äußerst herausfordernd (Baumert & Kunter, 2006, S. 486). Möglichkeiten zur Erfassung und Bewertung professioneller Kompetenzen sind Wissens- und Kenntnistests, Selbsteinschätzungen, Fremdbeurteilungen sowie die direkte Beobachtung des beruflichen Handelns (Terhart, 2006). Unterschieden wird diesbezüglich zwischen objektiven und subjektiven Zugängen zur Kompetenzerfassung (Kunter & Klusmann, 2010). Subjektive Ansätze werden beispielsweise von Frey (2008), Speck, Schubarth und Seidel (2007) sowie Rauin und Maier (2007) gewählt, wobei Selbsteinschätzungen zu verschiedenen Kompetenzaspekten vorgenommen wurden. Bei den objektiven Ansätzen überwiegen Arbeiten, in denen distale Indikatoren (Noten, Ausbildungsdauer) untersucht wurden, die proximale Erfassung (direkte Erfassung z.B. durch Wissenstests) steht demgegenüber noch am Anfang (Kunter & Klusmann, 2010). Beispielsweise wurden im Rahmen von COACTIV bereits Wissenstests für das Fach Mathematik sowie Instrumente zur Erfassung des pädagogisch-psychologischen Wissens entwickelt (Kunter et al., 2011). Für das Fach Deutsch stehen im Bereich der Grundschule vergleichbare Instrumente allerdings noch aus, weshalb dieser Einflussfaktor gegenwärtig auch nur bedingt in Studien zum professionellen Lehrerhandeln berücksichtigt werden kann. 5.2.3

Weitere Einflussfaktoren

Neben den beschriebenen Überzeugungen und professionellen Wissenskomponenten lassen sich weitere Faktoren beschreiben, die möglicherweise mit der diagnostischen Kompetenz und entsprechend auch mit dem formativen AssessmentHandeln in Zusammenhang stehen. Dabei kann zwischen demografischen, berufsbezogenen und persönlichen Merkmalen der Lehrkräfte sowie Kontextfaktoren (Klassenmerkmale, Schulmerkmale) unterschieden werden. Bezüglich der Zusammenhänge zwischen weiteren Lehrermerkmalen und der diagnostischen Kompetenz liegen nur wenige Studien vor. In der längsschnittlichen Analyse der Bedingungen der diagnostischen Kompetenz von Grundschullehrkräften von Lorenz (2011) finden sich keine eindeutigen Zusammenhänge zwischen der Berufserfahrung, dem Geschlecht, der Lehrdauer in der derzeitigen

104

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

Klasse, der Fähigkeit zur Perspektivübernahme, der Anzahl besuchter relevanter Weiterbildungen, dem Perfektionsstreben sowie den Einstellungen gegenüber der Bedeutung diagnostischer Kompetenz mit der Urteilsgüte der Lehrkräfte. Die Vermutung, dass einzelne Lehrermerkmale einen Zusammenhang zur diagnostischen Kompetenz aufweisen, konnte also in dieser Studie nicht bestätigt werden, dennoch sollten personenbezogene Aspekte in weiteren Studien erfasst werden, um deren Effekte kontrollieren zu können. Weiterhin beschränkt sich die Analyse von Lorenz (2011) lediglich auf die Urteilsgenauigkeit, weshalb nicht auszuschließen ist, dass sich Zusammenhänge mit anderen Aspekten der diagnostischen Kompetenz zeigen. Auch bei Maier (2011a) und Bürgermeister (2014, S. 138) haben Alter und Geschlecht keinen Einfluss auf die Nutzung formativer Leistungsdiagnostik bzw. auf die Nutzung unterschiedlicher Leistungsbeurteilungsformen. Auch die Lehrerselbstwirksamkeitserwartungen sowie Persönlichkeitsmerkmale spielen, bis auf das Merkmal Offenheit11, in der Untersuchung von Maier (2011a) eine eher geringe Rolle für die Erklärung der Realisierung verschiedener Typen formativer Leistungsdiagnostik. Bei Eckerth (2013, S. 158) und Bürgermeister (2014, S. 138) zeigen sich keine Zusammenhänge zwischen der Anzahl der Berufsjahre bzw. der Unterrichtserfahrung und dem Einsatz von Checklisten und Beobachtungsbögen bzw. der Form der Leistungsbeurteilung. Im Modell der förderorientierten Beurteilung von Smit und Engeli (2017) erwiesen sich die Selbsteinschätzung der Kompetenz zur Lerndiagnose und die Anzahl der Jahrgänge als relevante Kontextvariablen, während Geschlecht und Dienstalter nicht signifikant waren. Neben diesen eher demografischen Merkmalen sieht McMillan (2010) unter Rückgriff auf einige empirische Studien (Butler, 1998; Farrell & Dweck, 1985; Turner et al., 2002) die Zielorientierung der Lehrkräfte als relevanten Einflussfaktor der Effektivität formativen Assessments an, da sich Schülerinnen und Schüler in einer lernorientierten Umgebung (mastery orientation) eher Hilfe suchen, anstrengungsbereiter sind sowie mehr Bereitschaft zeigen Feedback zu akzeptieren und zu nutzen als beim Vorherrschen einer Leistungsorientierung (performance orientation). Bezüglich der Zusammenhänge mit Kontextfaktoren liegen ebenfalls nur wenige und eher heterogene empirische Befunde vor (McMillan, 2010). Die Annahme, dass die Güte der Lehrerurteile von Merkmalen der Klasse beeinflusst wird, kann in der Untersuchung von Lorenz (2011) nicht bestätigt werden. Sowohl für die Klassengröße, den Migrantenanteil, das Leistungsniveau als auch das Klassenklima zeigen sich keine konsistenten (über mehrere Messzeitpunkte in mehreren Fächern) signifikanten Zusammenhänge. Lediglich die Leistungsstreuung erwies sich als signifikanter Zusammenhangsfaktor zur Güte der diagnostischen Urteile. 11

Lehrer mit hohen Werten auf dieser Dimension nutzen eher gezielte Unterrichtsbeobachtungen und unbenotete Tests.

5.3 Zusammenfassung und Konsequenzen für die empirische Studie

105

Vermutet wird, dass dieser Effekt aber weniger auf eine tatsächlich höhere diagnostische Kompetenz von Lehrkräften in heterogenen Klassen zurückzuführen ist, sondern vielmehr darauf, dass in leistungsgemischten Klassen Urteile mit höherer Wahrscheinlichkeit zutreffender ausfallen als in homogeneren Klassen (Lorenz, 2011, S. 265). Die Ergebnisse von Warwas et al. (2011) deuten darauf hin, dass eine heterogene Klassenzusammensetzung in Verbindung mit konstruktivistischen Überzeugungen zum vermehrten Einsatz von adaptiven Unterrichtsformen führt. Auch bei Maier (2011a) haben Kontextbedingungen wie Schulgröße, Klassengröße sowie Schülerinnen und Schüler mit Migrationshintergrund in der Klasse keinen signifikanten Effekt auf die Nutzung formativer Leistungsdiagnostik. Hingegen zeigen sich Zusammenhänge zwischen dem schulischen Innovationsklima und der Dokumentation individueller Lernentwicklung sowie zwischen der kollegialen Kooperation und dem Einsatz von im Team entwickelten Tests. Darüber hinaus weisen fach- und länderspezifische Differenzen bei Maier (2011a) darauf hin, dass das Nutzungsverhalten der Lehrkräfte stark mit bundesländerspezifischen Vorgaben und Traditionen im Umgang mit schulischer Leistungsmessung zusammenhängen könnten. Auf fachspezifische Unterschiede deuten auch die Ergebnisse anderer Studien hin, wobei Lehrkräfte in Mathematik eher auf „objektive“ Verfahren zurückgreifen als in geisteswissenschaftlichen Fächern (Duncan & Noonan, 2007). McMillan (2010) beschreibt in seinem Überblicksartikel soziokulturelle Unterschiede, das Leistungsniveau der Schülerinnen und Schüler sowie die Klassenstufe als relevante Kontextfaktoren, die möglicherweise die Realisierung und Effektivität formativen Assessments beeinflussen. Jedoch ist die empirische Basis bezüglich dieser Faktoren noch relativ wenig ausgeprägt. 5.3

Zusammenfassung und Konsequenzen für die empirische Studie

Formatives Assessment kann als Facette der adaptiven Lehrkompetenz (Beck et al., 2008) verstanden werden, wobei die verschiedenen Assessment-Strategien sowohl diagnostische als auch didaktische Kompetenzen erfordern. Im Kontext adaptiven Unterrichts dient die formative Diagnose der individuellen Lernvoraussetzungen der Schülerinnen und Schüler als Grundlage für die adaptive Gestaltung der Lerngelegenheiten, die unter anderem durch den transparenten Umgang mit Lernzielen, eine schülerorientierte Unterrichtsgestaltung sowie lernförderliches Feedback gekennzeichnet ist. Die Anforderung, Unterricht adaptiv zu gestalten, stellt sich in besonderem Maße an Grundschullehrkräfte. Da sich die Grundschule im Gegensatz zur gegliederten Sekundarstufe von vorn herein als Schule für alle Schülerinnen und Schüler versteht, müssen Grundschullehrkräfte mit einer deutlich heterogeneren Schülerschaft adäquat umgehen.

106

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

Formatives Assessment lässt sich primär auf der Ebene der Mikroadaptionen (Klieme & Warwas, 2011; Martschinke, 2015; Schrader, 2008) verorten, welche kurzfristige unterrichtsimmanente Anpassungen des Unterrichts umfassen. Es wird davon ausgegangen, dass die „Verzahnung von diagnostischen und darauf aufbauenden didaktischen Eingriffen“ (Ingenkamp & Lissmann, 2008, S. 22) bei diesen Mikroadaptionen besonders eng ausgeprägt ist (Kaiser et al., 2017; Praetorius et al., 2017; Prengel, 2016; Schrader, 2014). Einige empirische Belege stützen diese Annahme bereits (Beck et al., 2008; Brühwiler, 2017; Schrader, 1997; Smit & Engeli, 2017), dennoch wird die Notwendigkeit weiterer Untersuchungen zur Klärung der Rolle von diagnostischen Aktivitäten für das adaptive Unterrichten betont (Schrader, 1997; Smit & Engeli, 2017). Insbesondere bezüglich der Zusammenhänge zwischen formativem Assessment und didaktischen Maßnahmen der Unterrichtsadaption (wie z.B. der Differenzierung) liegt noch keine ausreichende empirische Basis vor (Smit & Engeli, 2017). Formatives Assessment kann als Teilbereich der diagnostischen Kompetenz verstanden werden, allerdings berücksichtigen die vorliegenden theoretischen Modelle zur diagnostischen Kompetenz formatives Assessment noch unzureichend (Glogger-Frey & Herppich, 2017). Entsprechend wird in aktuellen Veröffentlichungen auch die Forderung formuliert, formatives Assessment in einem zukünftigen Rahmenmodell diagnostischer Kompetenz explizit zu adressieren (Förster & Karst, 2017). Immerhin beschreibt Schrader (2014) die Überwachung des Lernfortschritts als zentrale diagnostische Aufgabenstellung und erwähnt in diesem Zusammenhang formatives Assessment als geeignete prozessorientierte Möglichkeit zur Überwachung des Lernfortschritts der Schülerinnen und Schüler. Eine umfangreiche Modellierung dieser Teilkompetenz steht jedoch noch aus. Während die Effekte formativen Assessments bereits umfangreich erforscht werden (vgl. Kapitel 3), ist über die Faktoren, welche die Unterrichtspraktiken der Lehrkräfte beeinflussen, noch wenig bekannt. Bislang mangelt es an Studien, die den Einsatz adaptiver Unterrichtsfaktoren und deren Einflussfaktoren, insbesondere an Grundschulen betrachten (Warwas et al., 2011). Entsprechend verweist Maier (2011a) auf die Notwendigkeit von Studien, die einen Beitrag dazu leisten, zu klären, unter welchen Bedingungen Verfahren formativer Leistungsdiagnostik eher genutzt werden. Die vorliegende Arbeit beschäftigt sich daher mit dem formativen Assessment-Handeln von Lehrkräften sowie mit relevanten Bedingungsfaktoren dieses professionellen Handelns. Auf Grundlage des Modells der Determinanten und Konsequenzen der professionellen Kompetenz von Lehrkräften (Kunter et al., 2011) wird angenommen, dass die professionelle Kompetenz (Professionswissen, Überzeugungen, motivationale Orientierungen und Selbstregulation) das Assessment-Handeln der Lehrkräfte beeinflusst. Im Fokus der empirischen Untersuchung stehen insbesondere die Überzeugungen der Lehrkräfte.

5.3 Zusammenfassung und Konsequenzen für die empirische Studie

107

Die Überzeugungen der Lehrkräfte gelten als bedeutsamer Aspekt der Lehrerkompetenz (Baumert & Kunter, 2006) und es wird angenommen, dass sich die Überzeugungen der Lehrenden darauf auswirken, wie diese die Lernumgebung gestalten (Hartinger et al., 2006; Hertel, 2014; Pauli et al., 2007) und dies wiederum die Lernprozesse der Schülerinnen und Schüler beeinflusst (Seidel et al., 2008; Staub & Stern, 2002). Unterschieden werden kann zwischen fachspezifischen Lehr- und Lernverständnissen, epistemologischen Überzeugungen, der Bezugsnormorientierung sowie weiteren Überzeugungen (Post et al., 2013), wobei in Zusammenhang mit formativem Assessment insbesondere die Überzeugungen über das Lehren und Lernen sowie die Bezugsnormorientierung der Lehrkräfte relevant erscheinen. Einige Studien deuten darauf hin, dass Zusammenhänge zwischen konstruktivistischen Überzeugungen der Lehrkräfte und dem Einsatz adaptiver, differenzierter und schülerorientierter Unterrichtsformen bestehen (Drexl, 2014; Hartinger et al., 2006; Maier, 2011a; Warwas et al., 2011), allerdings existieren auch Studien, bei denen sich kein positiver Zusammenhang finden lässt (Galton et al., 1980; Leuchter et al., 2006; Seidel et al., 2008). Insgesamt ist die Befundlage zum Zusammenhang zwischen Überzeugungen zum Lehren und Lernen und dem Unterrichtshandeln aufgrund der wenigen Studien noch schwach und widersprüchlich (Seidel et al., 2008). Darüber hinaus sind die Untersuchungen bislang vorwiegend im naturwissenschaftlichen Bereich angesiedelt. Sowohl Black und Wiliam (1998b), Allal und Mottier Lopez (2005) als auch Marshall und Drummond (2006) formulieren die Annahme, dass die Überzeugungen zum Lehren und Lernen Einfluss darauf haben, wie formatives Assessment im Unterricht implementiert wird, weshalb die vorliegende Arbeit einen Beitrag dazu liefern soll, diese Annahme empirisch zu überprüfen. Auch die Bezugsnormorientierung der Lehrkräfte (Rheinberg, 2006) spielt eine wichtige Rolle im Kontext der Leistungsbeurteilung und wird ebenfalls mit formativem Assessment in Zusammenhang gebracht (Köller, 2005; Maier, 2014; Prengel, 2013). Gemäß Dickhäuser und Rheinberg (2003) legt eine individuelle Bezugsnormorientierung die genaue Beachtung individueller Leistungsentwicklungen und die Abstimmung der Lernanforderungen an die individuellen Kompetenzstände der Schülerinnen und Schüler nahe. Entsprechend kann angenommen werden, dass die individuelle Bezugsnormorientierung auch einen Effekt auf das formative Assessment-Handeln haben könnte. Empirische Befunde liegen diesbezüglich allerdings noch nicht vor. Lediglich in der Studie von Bürgermeister (2014) zeigen sich Zusammenhänge zwischen der individuellen Bezugsnormorientierung und der partizipativen Beurteilung der Lehrkräfte. Im Rahmen der empirischen Analysen soll daher überprüft werden, inwieweit sich die theoretische Annahme zum Zusammenhang zwischen individueller Bezugsnormorientierung und formativem Assessment bestätigen lassen.

108

5 Formatives Assessment im Kontext professioneller Handlungskompetenz

Eine weitere zentrale Facette der professionellen Kompetenz stellt das Professionswissen der Lehrkräfte dar. In Kapitel 4.2.2 konnte gezeigt werden, dass sowohl das pädagogisch-psychologische Wissen, das fachdidaktische Wissen als auch das Fachwissen der Lehrkräfte Wissensaspekte umfasst, die für gelingende formative Assessment-Prozesse relevant erscheinen. Insbesondere dem fachdidaktischen Wissen über das Potenzial von Aufgaben, Schülervorstellungen und Repräsentationsmöglichkeiten (Baumert & Kunter, 2006) kommt bei der Realisierung formativen Assessments vermutlich eine besondere Bedeutung zu (Black & Wiliam, 2009; Heritage, 2007; Prengel, 2013). Über die konkreten Beziehungen zwischen Wissensaspekten und Assessment-Handeln ist bislang noch wenig bekannt, was insbesondere auf die großen methodischen Herausforderungen bei der Erfassung des Professionswissens zurückzuführen ist (Baumert & Kunter, 2006). Aufgrund des Mangels an spezifischen Wissenstests für das Fach Deutsch in der Grundschule und der Problematiken, die mit subjektiven Ansätzen einhergehen (Kunter & Klusmann, 2010), wird in der vorliegenden Arbeit davon abgesehen, Zusammenhänge zwischen professionellem Wissen und formativem Assessment-Handeln näher zu untersuchen. Die Weiterentwicklung der theoretischen Basis sowie die Entwicklung geeigneter Instrumente zur Erfassung des Professionswissen stellen allerdings zentrale Forschungsdesiderata im Kontext der Forschung zur professionellen Kompetenz von Lehrkräften dar, die ebenfalls einer weiteren Bearbeitung bedürfen.

6

Untersuchungsschwerpunkte, Fragestellungen und Hypothesen

Aus dem skizzierten theoretischen Hintergrund und dem aktuellen Forschungsstand ergeben sich zahlreiche Desiderata im Kontext der Forschung zum formativen Assessment. Während es international bereits intensive Forschungsbemühungen hinsichtlich der Effekte formativen Assessments auf die Leistungsentwicklung der Schülerinnen und Schüler gibt und diese auf die lernförderliche Wirkung des Einsatzes formativen Assessments im Unterricht hindeuten, ist gegenwärtig ein Mangel an Studien zur Deskription der Praxis formativer Leistungsdiagnostik an Schulen, insbesondere an Grundschulen, zu konstatieren (Maier, 2011). So ist im Forschungsstand deutlich geworden, dass mit den Studien von Smit (2009b), Maier (2011a) und Bürgermeister (2014) vorwiegend deutschsprachige Untersuchungen zur Praxis formativen Assessments im Sekundarschulbereich vorliegen. Für den Grundschulbereich existieren zwar auch einige Untersuchungen, die sich mit der diagnostischen Praxis von Grundschullehrkräften beschäftigen (Eckerth, 2013; Inckemann, 2008; Racherbäumer, 2009; Smit & Engeli, 2017; Solzbacher, 2012), jedoch werden hier nur einzelne Aspekte formativen Assessments beleuchtet. Eine breite Beschreibung der gegenwärtig an Grundschulen realisierten formativen Assessment-Strategien steht demnach noch aus. Aus diesem Desiderat leitet sich der erste Untersuchungsschwerpunkt ab: Untersuchungsschwerpunkt 1: Formative Assessment-Praxis an Grundschulen In der vorliegenden Arbeit soll die formative Assessment-Praxis an Grundschulen aus Sicht von Grundschullehrkräften untersucht und dargestellt werden. Da bislang kaum Erkenntnisse zum Ausmaß der formativen Assessment-Praxis vorliegen, wird dieser Untersuchungsschwerpunkt explorativ angelegt. Unter Bezugnahme auf das theoretische Modell formativen Assessments (Kapitel 2.3) soll folgender Fragestellung nachgegangen werden: F1: In welchem Ausmaß verwirklichen Grundschullehrkräfte formative Assessment-Strategien? Es soll untersucht werden, in welchem Ausmaß Grundschullehrkräfte Lernziele und Erfolgskriterien transparent kommunizieren, kognitiv aktivierende Unterrichtsgespräche etablieren und die Schülerinnen und Schüler zur Verantwortungsübernahme für das eigene Lernen und als instruktionale Ressource füreinander aktivieren. Auch sollen Informationen dazu gewonnen werden, in welchem Ausmaß Grundschullehrkräfte formative diagnostische Methoden und lernförderliches Feedback einsetzen. Darüber hinaus soll geklärt werden, inwiefern bei den Lehrkräften eine Prozessorientierung vorliegt und diagnostische Informationen pädagogisch genutzt werden.

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0_6

110

6 Untersuchungsschwerpunkte, Fragestellungen und Hypothesen

Aus dem Bedarf der Erfassung von Assessment-Praktiken lässt sich ein weiteres Forschungsdesiderat ableiten. Bislang liegen kaum geeignete deutschsprachige Instrumente vor, in denen die formativen Assessment-Strategien adäquat operationalisiert werden, was die Entwicklung eines Erhebungsinstrumentes erforderlich macht. Da eine Beobachtung im Unterricht aufwändig und nur anhand kleiner Stichproben realisierbar ist (Döring & Bortz, 2016, S. 325), erscheint es notwendig, andere Verfahren zu entwickeln, die ebenfalls einen Einblick in die Praktiken der Lehrkräfte geben (Ruiz-Primo, 2011). Hierzu eignen sich besonders schriftliche Befragungen von Lehrkräften, da diese eine ökonomische Erfassung erlauben, auch wenn es sich hierbei um Selbsteinschätzungen und somit um die subjektive Wahrnehmung der Lehrkräfte und nicht um konkret beobachtbare Praxis handelt (Döring & Bortz, 2016, S. 398). Im Forschungsstand der Arbeit ist deutlich geworden, dass aktuell vorliegende Befragungsinstrumente (James & Pedder, 2006; Pat-El et al., 2013; Smit, 2009a) nicht alle formativen Assessment-Strategien abbilden und zum Teil nicht hinreichend hinsichtlich ihrer psychometrischen Eigenschaften geprüft wurden. Für die vorliegende Arbeit ergibt sich daraus der zweite Untersuchungsschwerpunkt: Untersuchungsschwerpunkt 2: Fragebogenentwicklung Es soll ein Fragebogen zur Erhebung der formativen Assessment-Praxis für Grundschullehrkräfte entwickelt werden. Die Skalen des Fragebogens werden hinsichtlich der Erfüllung relevanter Gütekriterien geprüft. Da bislang kein Instrument vorliegt, welches die formative Assessment-Praxis an Grundschulen umfänglich erfasst, soll ein Fragebogen für Grundschullehrkräfte entwickelt werden. Die Operationalisierung der Konstrukte erfolgt theoriebasiert, in Orientierung an den im zweiten Kapitel beschriebenen acht Assessment-Strategien. Der Fragebogen wird pilotiert und die Messmodelle werden im Rahmen der Hauptuntersuchung einer Güteprüfung mittels Gütekriterien der ersten und zweiten Generation (Weiber & Mühlhaus, 2014) unterzogen.

Im ersten und zweiten Kapitel konnte herausgearbeitet werden, dass es sich bei formativem Assessment um ein unscharfes Konstrukt handelt, welches sehr heterogene Aspekte, die von diagnostischen Tätigkeiten im engeren Sinne bis hin zu didaktischen Maßnahmen reichen, unter sich vereint. Die einzelnen AssessmentStrategien lassen sich nur bedingt sauber voneinander abgrenzen, da mitunter inhaltliche Überschneidungen auftreten (z.B. kann Peer-Assessment als Möglichkeit zur Förderung der Übernahme von Verantwortung für den eigenen Lernprozess aber auch als formative diagnostische Methode angesehen werden). Auch bereits vorliegende Arbeiten geben nur unzureichend Auskunft darüber, wie die einzelnen Assessment-Strategien zueinander in Beziehung stehen und erfassen nur

6 Untersuchungsschwerpunkte, Fragestellungen und Hypothesen

111

Teilaspekte formativen Assessments (Smit, 2009a; Smit & Engeli, 2017). Aus diesem Grund sollte das in Kapitel 2.3 aufgestellte theoretische Modell formativen Assessments einer empirischen Prüfung unterzogen und gegebenenfalls revidiert werden, bevor weiterführende Analysen angestellt werden. Smit und Engeli (2017) sprechen sich dafür aus, im Gegensatz zu früheren Studien verstärkt das Gesamtkonstrukt formatives Assessment und weniger einzelne Aspekte, wie Feedback oder Peer-Assessment, zu untersuchen. Im Zuge der Begriffsbestimmung ist deutlich geworden, dass die verschiedenen Assessment-Strategien allesamt die Optimierung der Lernprozesse und die Förderung des Lernens als gemeinsame Zielstellung verfolgen. Es soll daher überprüft werden, ob sich diese gemeinsame Zielstellung empirisch in Form eines übergeordneten Faktors abbilden lässt. Dieser übergeordnete Faktor könnte als „formative Orientierung“ angesehen und als handlungsleitend für die Anwendung der Assessment-Strategien verstanden werden. Aufgrund der Heterogenität des Konstrukts stellt sich allerdings die Frage, inwieweit formatives Assessment überhaupt als Gesamtkonstrukt mit einem übergeordneten Faktor operationalisiert werden kann oder ob die Strategien formativen Assessments so heterogen sind, dass sie als eigenständige Aspekte der lernförderlichen Gestaltung von Lehr-Lernprozessen verstanden und untersucht werden sollten. Aus dieser Fragestellung leitet sich der dritte Untersuchungsschwerpunkt, welcher sich auf die Modellprüfung und Analyse der Zusammenhänge der Assessment-Strategien bezieht, ab: Untersuchungsschwerpunkt 3: Modellprüfung Mit Hilfe einer konfirmatorischen Faktorenanalyse (Strukturmodell mit korrelierten Faktoren) sollen die Zusammenhänge zwischen den einzelnen Strategien formativen Assessments erforscht werden. Weiterhin wird die Modellgüte des Faktorenmodells überprüft. Da aufgrund der theoretischen Überlegungen und Studienlage (Smit, 2009a) ein übergeordneter Faktor Formative Orientierung angenommen wird, soll ein Modellvergleich zwischen einem Modell erster Ordnung und einem Modell zweiter Ordnung vorgenommen werden. Folgende Hypothesen können aus den theoretischen und empirischen Vorarbeiten abgeleitet werden: H1: Es bestehen signifikante Zusammenhänge zwischen den einzelnen Strategien formativen Assessments. H2: Ein Modell mit einem übergeordneten Faktor formative Orientierung bildet die empirischen Daten besser ab als ein Modell ohne übergeordneten Faktor.

Im vierten Kapitel wurde formatives Assessment im Kontext professioneller Handlungskompetenz von Grundschullehrkräften eingeordnet und als Facette adaptiver Lehrkompetenz beschrieben. Adaptiver Unterricht erfordert eine enge

112

6 Untersuchungsschwerpunkte, Fragestellungen und Hypothesen

Verzahnung von diagnostischen und darauf aufbauenden didaktischen Maßnahmen (Ingenkamp & Lissmann, 2008), wobei einige Studien diese Annahme bereits bestätigen (Beck et al., 2008; Brühwiler, 2017; Schrader, 1997; Smit & Engeli, 2017). An spezifischen Befunden zum Zusammenspiel zwischen formativem Assessment und didaktischen Maßnahmen eines adaptiven Unterrichts (z.B. Differenzierungs- und Individualisierungsmaßnahmen) mangelt es derzeit noch (Smit & Engeli, 2017). Auch über die Bedingungsfaktoren, welche die AssessmentPraktiken beeinflussen, ist noch wenig bekannt (Maier, 2011a; McMillan, 2010). Entsprechend verweist Maier (2011a) auf die Notwendigkeit von Studien, die einen Beitrag dazu leisten, zu klären, unter welchen Bedingungen Verfahren formativer Leistungsdiagnostik eher genutzt werden. Basierend auf dem Modell der Determinanten und Konsequenzen der professionellen Kompetenz von Lehrkräften (Kunter et al., 2011) wird angenommen, dass insbesondere die professionelle Kompetenz (Professionswissen, Überzeugungen, motivationale Orientierungen und Selbstregulation) das Assessment-Handeln der Lehrkräfte beeinflusst. Im Fokus der empirischen Untersuchung stehen insbesondere die Überzeugungen der Lehrkräfte zum Lehren und Lernen, da sowohl Black und Wiliam (1998b), Allal und Mottier Lopez (2005) als auch Marshall und Drummond (2006) annehmen, dass die Überzeugungen zum Lehren und Lernen Einfluss darauf haben, wie formatives Assessment im Unterricht implementiert wird. Die Befundlage zum Zusammenhang zwischen Überzeugungen zum Lehren und Lernen und dem Unterrichtshandeln ist aufgrund der wenigen Studien allerdings noch uneindeutig (Seidel et al., 2008). So deuten einige Studien darauf hin, dass Zusammenhänge zwischen konstruktivistischen Überzeugungen der Lehrkräfte und dem Einsatz adaptiver, differenzierter und schülerorientierter Unterrichtsformen bestehen (Drexl, 2014; Hartinger et al., 2006; Maier, 2011a; Warwas et al., 2011), allerdings existieren auch Studien, bei denen sich kein positiver Zusammenhang finden lässt (Galton et al., 1980; Leuchter et al., 2006; Seidel et al., 2008). Auch die Bezugsnormorientierung der Lehrkräfte (Rheinberg, 2006) spielt eine wichtige Rolle im Kontext der Leistungsbeurteilung und wird ebenfalls mit formativem Assessment in Zusammenhang gebracht (Köller, 2005; Maier, 2014; Prengel, 2013). Gemäß Dickhäuser und Rheinberg (2003) legt eine individuelle Bezugsnormorientierung die genaue Beachtung individueller Leistungsentwicklungen und die Abstimmung der Lernanforderungen an die individuellen Kompetenzstände der Schülerinnen und Schüler nahe. Entsprechend kann vermutet werden, dass die individuelle Bezugsnormorientierung auch einen Effekt auf das formative Assessment-Handeln haben könnte. Empirische Befunde liegen diesbezüglich allerdings noch nicht vor. Lediglich in der Studie von Bürgermeister (2014) zeigen sich Zusammenhänge zwischen der individuellen Bezugsnormorientierung und der partizipativen Beurteilung der Lehrkräfte. Im Rahmen der empirischen

6 Untersuchungsschwerpunkte, Fragestellungen und Hypothesen

113

Analysen soll daher überprüft werden, inwieweit sich die theoretische Annahme zum Zusammenhang zwischen individueller Bezugsnormorientierung und formativem Assessment bestätigen lässt. Aus diesen Überlegungen ergibt sich der vierte Untersuchungsschwerpunkt: Untersuchungsschwerpunkt 4: Zusammenhänge Mittels Strukturgleichungsanalysen sollen die Zusammenhänge zwischen den Assessment-Strategien und weiteren unabhängigen Variablen untersucht werden. Für die Modellierung werden die Variablen konstruktivistische Überzeugungen zum Lehren und Lernen, die Bezugsnormorientierung sowie die Differenzierung in den Blick genommen werden. Darüber hinaus werden die personen- und schulbezogenen Variablen Alter, Geschlecht, Berufserfahrung, Fortbildung, studierte Schulform, studiertes Fach, Schülerinnen und Schüler mit Migrationshintergrund in der Klasse sowie Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf in der Klasse als Kontrollvariablen in die Berechnungen einbezogen. H3: Die konstruktivistischen Überzeugungen zum Lehren und Lernen haben einen positiven Effekt auf die Nutzung formativer Assessment-Strategien. H4: Eine individuelle Bezugsnormorientierung hat einen positiven Effekt auf die Nutzung formativer Assessment-Strategien. H5: Die Nutzung formativer Assessment-Strategien hat einen positiven Effekt auf die Differenzierung. H6: Die konstruktivistischen Überzeugungen zum Lehren und Lernen haben einen positiven Effekt auf die Differenzierung.

Zur Vertiefung des ersten Untersuchungsschwerpunktes, welcher auf eine Deskription der formativen Assessment-Praktiken im Unterricht der Grundschule abzielt, soll das Assessment-Handeln im Rahmen dieser Arbeit differenzierter beschrieben werden. Hierzu bietet sich eine Typisierung bzw. Gruppenbildung an, um Aussagen über globale Unterschiede in der Befragungspopulation sowie spezifische Ausprägungsformen treffen zu können. So unterscheidet Eckerth (2013, S. 171) im Rahmen ihrer Studie zwischen verschiedenen Typen hinsichtlich der Beobachtungspraxis pädagogischer Fachkräfte im zweiten Schuljahr, wobei der Diagnose-Typ, welcher durch tendenziell situative, weniger gezielt arrangierte Diagnostik gekennzeichnet ist, überwiegt. Smit und Engeli (2017) konnten zwei Gruppen formativer Beurteilung bei Grundschullehrkräften identifizieren. Hier ist die Gruppe der Lehrkräfte mit erweiterten diagnostischen Nutzungsformen jedoch deutlich größer als die der Gruppe mit eher traditionellen Nutzungsformen. Allerdings beruht die Analyse nur auf einen sehr begrenzten Itempool, welcher das Konstrukt formatives Assessment nur fragmentarisch abbildet, sowie eine sehr

114

6 Untersuchungsschwerpunkte, Fragestellungen und Hypothesen

spezifische Stichprobe (ländliche Grundschulen in der Schweiz mit jahrgangsübergreifendem Unterricht), weshalb die Ergebnisse nicht ohne weiteres auf Grundschullehrkräfte an regulären Grundschulen in Deutschland übertragbar sind. Daraus leitet sich der letzte Untersuchungsschwerpunkt ab: Untersuchungsschwerpunkt 5: Assessment-Gruppen Eine weitere Analyse der komplexen Zusammenhangsstrukturen soll aus personenbezogener Perspektive erfolgen. Ziel ist es, latente Subgruppen der befragten Population zu identifizieren. Unter Verwendung latenter Profilanalysen soll die Anzahl der latenten Klassen bestimmt werden, die nötig ist, um Unterschiede in den beobachteten Antwortmustern zufriedenstellend und inhaltlich bedeutsam erklären zu können. Weiterhin sollen Charakteristika der gefundenen Klassen bestimmt und Zusammenhänge der Klassenzugehörigkeit mit externen Variablen analysiert werden. F2: Lassen sich latente Assessment-Gruppen in der Befragungspopulation identifizieren und wie lassen sich diese beschreiben?

7

Methode

Ausgehend von den im vorangegangenen Kapitel benannten Untersuchungsschwerpunkten und den damit verbundenen Forschungshypothesen und -fragen (Kapitel 5) werden im Folgenden das Forschungsdesign und die Auswertungsmethoden der empirischen Studie skizziert. Zunächst wird das Design der Untersuchung in Kapitel 7.1 vorgestellt. In Kapitel 7.2 erfolgt eine Beschreibung der Entwicklung und Pilotierung des Befragungsinstruments sowie eine Darstellung der einzelnen Teilbereiche des Fragebogens. Das Vorgehen bei der Durchführung der Befragung und die Beschreibung der Stichprobe erfolgt in Kapitel 7.3. Im anschließenden Kapitel 6.4 werden die eingesetzten Auswertungsmethoden in ihren Grundzügen beschrieben. Dies umfasst das Vorgehen bei der Datenaufbereitung, die Güteprüfung der reflektiven Messmodelle, die deskriptivstatistischen Analysen und die Strukturgleichungsanalysen. 7.1

Forschungsdesign

Einordnen lässt sich die vorliegende Untersuchung im Kontext der Forschung zum Lehrerhandeln im Unterricht, deren Fokus auf der Beschreibung von Lehrerhandeln im Unterricht und auf Prozesses des Lehren und Lernen liegt (Seidel, 2014). Die Studie weist ein quantitatives Querschnittdesign mit einem deskriptiven Untersuchungsplan auf (Rost, 2013, S. 131; Döring & Bortz, 2016, S. 183). Im Rahmen der schriftlichen Fragebogenerhebung im Paper-Pencil-Format wurden Grundschullehrkräfte in Sachsen befragt, wobei es sich um eine Stichprobenstudie (sample study) handelt. In der Studie werden sowohl deskriptivstatistische als auch inferenzstatistische Verfahren im Kontext einer Primäranalyse angewendet, um die aufgeworfenen Fragestellungen adäquat beantworten zu können. Da in der vorliegenden Untersuchung eine Annäherung an das bislang kaum empirisch untersuchte Konstrukt formatives Assessment stattfindet, kann die Studie als explorative Studie gekennzeichnet werden, deren Ziel es ist „den Forschungsgegenstand besser beschreiben zu können und die Hypothesen- bzw. Theoriebildung voranzutreiben“ (Döring & Bortz, 2016, S. 612). Die Studie verfolgt darüber hinausgehend aber auch das Ziel, aus der Theorie abgeleitete Hypothesen zu überprüfen, womit auch ein explanatives (hypothesenprüfendes) Erkenntnisinteresse besteht (Döring & Bortz, 2016, S. 192). Die Überprüfung der Hypothesen erfolgt in einem korrelativen Untersuchungsdesign (Nerdinger, Blickle & Schaper, 2014, S. 31). Der gewählte quantitative Forschungsansatz lässt sich in erster Linie der Grundlagenforschung zuordnen, da Theorien entwickelt und überprüft werden und Forschungslücken geschlossen werden sollen (Döring & Bortz, 2016, 17f.).

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0_7

116

7 Methode

7.2

Fragebogenentwicklung und Erhebungsinstrument

7.2.1

Operationalisierung der Konstrukte

Basierend auf den theoretischen Vorarbeiten wurden Indikatoren für folgende hypothetische Konstrukte zum formativen Assessment gesammelt und operationalisiert: • Lernziele und Erfolgskriterien kommunizieren und festlegen •

Kognitiv aktivierende Unterrichtsgespräche



Aktivierung der Schülerinnen und Schüler zur Verantwortungsübernahme für ihr Lernen



Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander



Diagnostische Methoden und Verfahren, die sich zur formativen Nutzung eignen



Lernförderliches Feedback



Pädagogische Nutzung diagnostischer Informationen



Prozessorientierung

Darüber hinaus wurden Skalen zu folgenden weiteren Untersuchungsvariablen recherchiert: • Überzeugungen zum Lehren und Lernen •

Bezugsnormorientierung



aufgabenbezogene Differenzierung

Da zum Teil eine eigenständige Operationalisierung der Konstrukte notwendig war, orientierte sich die Operationalisierung der latenten Variablen an folgendem Ablaufschema (Weiber & Mühlhaus, 2014, S. 106): 1. Generierung und Grobklassifikation potenzieller Messindikatoren 2.

Festlegung der Messkonzeption

3.

Konstruktion der Messvorschrift

7.2 Fragebogenentwicklung und Erhebungsinstrument

117

Zur Generierung potenzieller Messindikatoren (1.) wurden bestehende Studien aus dem Bereich der Lehr- Lernforschung herangezogen und hinsichtlich möglicher Skalen untersucht (Baumert et al., 2009; Greb, Poloczek, Lipowsky & Faust, 2011). Weiterhin wurden Indikatoren aus der vorliegenden Literatur zu formativem Assessment (Black & Wiliam, 2009; Harlen, 2007a; Hattie, 2014; James & Pedder, 2006; Pat-El et al., 2013; Smit, 2009a) abgeleitet und daraus neue Items konstruiert (Inhalts- und Dokumentenanalyse). Für alle Konstrukte werden als Messkonzeption (2.) „reflektive Messmodelle“ festgelegt, wobei die hypothetischen Konstrukte die Ursache der auf der Beobachtungsebene zu erhebenden Messindikatoren darstellen (Weiber & Mühlhaus, 2014, S. 109). Bei reflektiven Messmodellen müssen alle Indikatoren hoch korrelieren und repräsentieren beliebig austauschbare Messungen eines Konstrukts, da „jeder Indikator nur eine beispielhafte Manifestierung des theoretischen Begriffs auf der Beobachtungsebene darstellt“ (Weiber & Mühlhaus, 2014, S. 110). Daraus ergibt sich, dass die Konstrukte immer über mehrere Indikatoren erfasst werden sollten. Entsprechend werden die Konstrukte als Multiple-Item-Messungen (in Form von Likert-Skalen) operationalisiert (Döring & Bortz, 2016, S. 269). Gegenüber der Erfassung mit Einzelindikatoren (Single-Item-Measure) hat dies den Vorteil, dass komplexe Konstrukte in verschiedenen inhaltlichen Facetten erfassbar sind, die Reliabilität steigt und die psychometrischen Merkmale einer Skala statistisch geprüft werden können (Döring & Bortz, 2016, S. 268). Die Konstruktion der Messvorschrift (3.) (Skalierung) erfolgt mit Hilfe einer verbalen Ratingskala (Moosbrugger & Kelava, 2012, S. 52). Für die Befragung wurde ein standardisiertes Format mit geschlossenem Antwortformat gewählt. Bezüglich der Zahl der Abstufungen liegen verschiedene Empfehlungen vor, die in der Regel zwischen einem vier- und neunstufigen Format liegen. Da sich in der sozialwissenschaftlichen Forschung sechs-stufige Ratingskalen besonders bewährt haben, was auch durch einschlägige Untersuchungen belegt werden konnte (Green & Rao, 1970; Trommsdorff, 1975), wird ein sechs-stufiges Antwortformat als Zustimmungsskala gewählt. Das Antwortspektrum umfasst die Möglichkeiten „trifft überhaupt nicht zu“, „trifft wenig zu“, „trifft eher nicht zu“, „trifft eher zu“, „trifft überwiegend zu“ und „trifft voll zu“. Von einer Mittelkategorie wird bewusst abgesehen, da hiermit immer ein Informationsverlust einhergeht und nicht feststellbar ist, ob beim Befragten Indifferenz oder Ambivalenz vorliegt. Weiterhin wird keine Ausweichkategorie angeboten, da dadurch der Anteil fehlender Werte unter Umständen stark ansteigen kann (Moosbrugger & Kelava, 2012; Weiber & Mühlhaus, 2014, S. 117).12 12

Bei der Skala Überzeugungen zum Lehren und Lernen werden die Antwortkategorien „stimmt überhaupt nicht“, „stimmt wenig“, „stimmt eher nicht“, „stimmt eher“, „stimmt überwiegend“ und „stimmt

118

7 Methode

Hinsichtlich des Skalenniveaus äußern Weiber und Mühlhaus, dass bei der Analyse von Strukturgleichungsmodellen weitgehend Konsens darüber besteht, „dass Messungen mit Hilfe von Ratingskalen bei sorgfältiger Konstruktion das von der SGA [Strukturgleichungsanalyse] i. d. R. geforderte metrische Skalenniveau (mindestens Intervallskalenniveau) liefern. Dennoch ist hier darauf hinzuweisen, dass bei Abfragen über Ratingskalen grundsätzlich die große Gefahr besteht, dass die erhobenen Daten nur Ordinalskalenniveau aufweisen“ (2014, S. 119). Das geforderte metrische Skalenniveau wird in den Sozialwissenschaften für Ratingskalen meist angenommen, sofern diese gleiche Abstände und mindestens fünf Skalenwerte aufweisen (Bagozzi, 1981; Döring & Bortz, 2016, S. 241). Entsprechend wird die für die Durchführung von Strukturgleichungsanalysen notwendige Voraussetzung hinsichtlich des Skalenniveaus für die vorliegende Arbeit als erfüllt betrachtet. 7.2.2

Pilotierung des Befragungsinstruments

Vor der Durchführung der Hauptuntersuchung wurde das Befragungsinstrument in mehreren Schritten hinsichtlich seiner inhaltlichen Validität (Expertenbefragung), Bearbeitungsdauer und Verständlichkeit (Vorpilotierung) und der grundsätzlichen statistischen Eignung der einzelnen Items (Pilotierung) überprüft und schrittweise weiterentwickelt. Expertenbefragung Der vorläufige Fragebogen sowie eine knappe Definition der Konstrukte wurde vier ausgewiesenen Experten auf dem Gebiet der lernprozessbegleitenden Diagnostik im Grundschulbereich per Mail zugestellt. Die Experten sollten den Fragebogen insbesondere hinsichtlich der Inhaltsvalidität der Konstrukte einschätzen, hatten aber auch die Möglichkeit, andere Hinweise zu geben. Die Expertenbefragung birgt gemäß DeVellis (2012, S. 99–101) die Möglichkeit der Schärfung von Definitionen, der Einschätzung der Relevanz von Items, der Einschätzung der Klarheit von Itemformulierungen und der Identifizierung fehlender relevanter Aspekte. Die schriftlichen Rückmeldungen wurden inhaltlich analysiert. Folgende inhaltsbezogene Anregungen wurden berücksichtigt: • Anreicherung der Skala konstruktivistische Überzeugungen mit weniger gegenstandsbezogenen Items und Items, die nicht auf den Schriftspracherwerb fokussieren genau“ entsprechend der Originalquelle verwendet und an das sechs-stufige Antwortformat der anderen Skalen angepasst.

7.2 Fragebogenentwicklung und Erhebungsinstrument



119

Ergänzung der diagnostischen Methoden um diagnostische Gespräche mit einzelnen Schülerinnen und Schülern und den Einbezug der Eltern

Darüber hinaus wurde versucht, Hinweise zu Struktur und Itemschwierigkeit sowie Formulierungsvorschläge angemessen zu berücksichtigen. Vorpilotierung Anschließend wurde eine Vorpilotierung des Fragebogens durchgeführt, um Informationen über die Bearbeitungsdauer und Verständlichkeit der Items zu generieren. Dazu wurde der Fragebogen an 20 Grundschullehrkräfte ausgehändigt. Diese waren gebeten, eine mündliche oder schriftliche Rückmeldung zur Verständlichkeit der Items sowie zur Fragebogenlänge zu geben (Moosbrugger & Kelava, 2012, S. 71). Alle kontaktierten Lehrkräfte gaben eine Rückmeldung (n = 20). Der Fragebogen wurde als lang, aber zumutbar bewertet, die Ausfülldauer betrug im Schnitt 20 Minuten. Weiterhin wurde der Hinweis gegeben, inhaltlich ähnliche Items mehr zu mischen. Die Items wurden als verständlich eingeschätzt, weshalb es kaum Hinweise zur Umformulierung von Items gab. Anmerkungen bezogen sich in erster Linie auf Form- und Tippfehler. Bei der Durchsicht der Fragebögen zeigte sich, dass die Antwortkategorie „trifft überhaupt nicht zu“ eher selten genutzt wurde, alle anderen Antwortkategorien wurden mit leicht positiver Antworttendenz ausgeschöpft, was auf eine angemessene Itemschwierigkeit hindeutet. Pilotierung Die Pilotierung diente der Durchführung erster statistischer Prüfungen der entwickelten Skalen. Aufgrund der Vielzahl der generierten Items und der daraus resultierenden Fragebogenlänge, sollten im Zuge der Pilotierung ungeeignete Items (geringe Faktorladung, geringe Trennschärfe, Itemschwierigkeit, geringe inhaltliche Passung zum Konstrukt) eliminiert werden, um den Umfang der Skalen zu reduzieren. Stichprobe und Rücklauf der Pilotierungsstudie Die Pilotierung des Fragebogens erfolgte im Juni 2015. Befragt werden sollten N = 100 Lehrkräfte. Die Stichprobenziehung erfolgte in Form eines zweistufigen Stichprobenverfahrens. Hierbei wird auf der ersten Stufe eine Zufallsstichprobe von Klumpen aus der Gesamtpopulation gezogen. In der zweiten Stufe wird aus jedem Klumpen eine einfache Zufallsstichprobe gezogen, da der Umfang der einzelnen Klumpen zu groß ist, als dass sämtliche Elemente erhoben werden könnten und da keine Liste aller Elemente der Grundgesamtheit zugänglich ist (Schwarz,

120

7 Methode

2011). Bei der Gesamtpopulation handelt es sich um Grundschulen in Sachsen (Gesamtpopulation im Schuljahr 2014/15: 746 Grundschulen (in öffentlicher Trägerschaft). Von diesen 746 Schulen wurden 200 Schulen per Zufallsverfahren ausgewählt (Klumpenstichprobe), da mit einem Rücklauf von ca. 50 Prozent gerechnet wurde. An diesen Schulen sollte der Schulleiter die Lehrkraft auswählen, welche aktuell in der Klasse 3a das Fach Deutsch unterrichtet (einfache Zufallsstichprobe). Von den 200 versendeten Fragebögen wurden 84 Fragebögen zurückgesandt, was einem Rücklauf von 42 Prozent entspricht. Laut Döring und Bortz (2016, S. 412) liegt die Rücklaufquote oft zwischen 5 und 40 Prozent, ist abhängig vom Distributionsweg, von der Zielpopulation, der Länge des Fragebogens und anderen Faktoren und fällt bei postalischen Befragungen meist geringer aus als anderen Befragungsformaten. Ein Rücklauf von 42 Prozent ist unter den gegebenen Bedingungen als zufriedenstellend einzuschätzen. Auswertung der Pilotierungsstudie Da die Stichprobe die von Mendoza, Stafford und Stauffer (2000) empfohlene Größe für Reliabilitätsanalysen (n ≥ 100) leicht unterschreitet, sind die Ergebnisse der Analysen vorsichtig und stets unter Berücksichtigung inhaltlicher Gesichtspunkte zu interpretieren. Zunächst wurden die Items deskriptiv ausgewertet und Schwierigkeitsanalysen anhand von Histogrammen durchgeführt (Bühner, 2011, S. 231). Weiterhin wurden explorative Faktorenanalysen zur Überprüfung der Eindimensionalität der Skalen vorgenommen. Anschließend erfolgte die deskriptivstatistische Evaluation der Items (Moosbrugger & Kelava, 2012, S. 75) und die Überprüfung der Internen Konsistenz (Reliabilitätsprüfung) der Skalen. Items wurden ausgeschlossen, sofern sowohl statistische Kriterien (Faktorladung, Trennschärfe, Interne Konsistenz) als auch inhaltliche Gründe (ungünstige Formulierung, geringe inhaltliche Passung des Items zum Konstrukt) dies rechtfertigen (Bühner, 2011, S. 255). Alle Berechnungen wurden mit der Software IBM SPSS Statistics 22 durchgeführt. Exemplarisch soll das Vorgehen für die Skala Lernzielorientierung dargestellt werden. Detaillierte Informationen zum Vorgehen bei der Reliabilitätsprüfung sind in Kapitel 7.4.2 nachzulesen. Analysiert wurden KMO- und Bartlett-Test, Kommunalitäten, Faktorladungen im Rahmen explorativer Faktorenanalysen (Schätzmethode: Maximum Likelihood, Rotationsmethode: Promax mit KaiserNormalisierung)13, Trennschärfen und die Reliabilität der Skalen. Für die Skala Lernzielorientierung zeigt sich, dass der KMO-Wert über .60 liegt, der Bartlett-Test signifikant wird und die Items somit für eine Faktorenanalyse 13

Die Maximum-Likelihood-Methode wird von Bühner (2011, S. 318) empfohlen, falls im Nachgang eine KFA durchgeführt werden soll, damit keine unterschiedlichen Ergebnisse aufgrund der Methode zustande kommen.

7.2 Fragebogenentwicklung und Erhebungsinstrument

121

geeignet sind. Die Kommunalitäten liegen alle über dem empfohlenen Wert von .20. Tabelle 1: KMO- und Bartlett-Test für Skala Lernzielorientierung Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

.788

Ungefähres Chi-Quadrat

244.200

df Signifikanz nach Bartlett

66 .000

Tabelle 2: Kommunalitäten der Items Lernzielorientierung Kommunalitäten Anfänglich

Extraktion

LZ1_zu

.445

.551

LZ2_bespr

.380

.349

LZ3_zeige

.403

.384

LZ4_teile

.405

.372

LZ5_lege

.359

.585

LZ6_gute

.468

.478

LZ7_ind

.384

.331

LZ8_hohe

.374

.365

LZ9_Benot

.466

.392

LZ10_Ende

.330

.224

LZ11_LL

.448

.388

LZ12_soz

.295

.265

Anmerkung. Extraktionsmethode: Maximum Likelihood.

122

7 Methode

Die Überprüfung der Items auf Eindimensionalität ergibt eine zweifaktorielle Struktur, wobei die Items LZ5, LZ3 und LZ8 auf einen zweiten Faktor laden und das Item LZ6 eine Nebenladung aufweist (Tabelle 3). Die inhaltliche Analyse der betreffenden Items lässt den Schluss zu, dass die Items LZ5 „Ich lege die nächsten Lernziele so fest, dass die SuS sie nur erreichen, wenn sie sich richtig anstrengen.“ und LZ8 „Ich stelle hohe Leistungsanforderungen an meine SuS“ tatsächlich einen spezifischen Aspekt abbilden, nämlich anspruchsvolle Ziele an die Schülerinnen und Schüler zu stellen. Diese Facette des Konstrukts Transparente Lernziele und Beurteilungskriterien wurde in der theoretischen Konzeption auch explizit berücksichtigt. Die Items wurden jedoch ausgeschlossen, um Eindimensionalität des Faktors zu gewährleisten, unter Abwägung, dass sich dadurch die inhaltliche Breite des Konstrukts reduziert. Das Items LZ3 „Ich zeige den SuS zur Orientierung Beispiele guter Arbeiten.“ wurde aufgrund der hohen inhaltlichen Relevanz für das Konstrukt im Fragebogen belassen, wobei weitere Analysen zeigten, dass das Items unter Ausschluss der Items LZ5 und LZ8 ebenfalls auf den ersten Faktor lädt und daher Einfaktorialität angenommen werden kann. Tabelle 3: Faktorladungen der Skala Lernzielorientierung. Mustermatrix Faktor 1

2

LZ1_zu

.841

LZ9_Benot LZ2_bespr

.603 .594

LZ10_Ende

.519

LZ4_teile

.509

LZ12_soz

.503

LZ11_LL

.471

LZ6_gute

.461

LZ7_ind

.404

.329

LZ5_lege

.853

LZ3_zeige

.631

LZ8_hohe

.514

Anmerkung. Extraktionsmethode: Maximum Likelihood. Rotationsmethode: Promax mit KaiserNormalisierung. Die Rotation ist in 3 Iterationen konvergiert.

7.2 Fragebogenentwicklung und Erhebungsinstrument

123

Die Item-Skala-Statistiken (Tabelle 4) der verbleibenden Items deuten zwar auf etwas geringe Trennschärfen einzelner Items hin (LZ3, LZ10) und Cronbachs Alpha würde sich durch Entfernung des Items LZ3 auch leicht verbessern. Aus inhaltlichen Gründen werden die Items aber dennoch in der Skala belassen. Das Item LZ7 „Ich stelle individuelle Lernziele für einzelne SuS auf.“ wird aufgrund geringer Ladungen (.40), geringer Trennschärfe (KITK = .50) und inhaltlich geringer Passung zu den übrigen Items ausgeschlossen. Die Interne Konsistenz der Skala liegt mit Cronbachs Alpha  = .80 im guten Bereich (Tabelle 5). Tabelle 4: Item-Skala-Statistiken der Skala Lernzielorientierung

LZ1_zu LZ2_bespr LZ3_zeige LZ4_teile LZ6_gute LZ9_Benot LZ10_Ende LZ11_LL LZ12_soz

Skalenmittelwert, wenn Item weggelassen

Skalenvarianz, wenn Item weggelassen

39.08 39.81 40.45 39.04 39.29 38.97 39.97 39.78 39.91

19.708 17.846 18.017 19.804 18.912 19.766 19.298 18.588 18.161

Korrigierte ItemSkalaKorrelation

Quadrierte multiple Korrelation

.547 .541 .360 .529 .601 .584 .447 .559 .504

.421 .410 .275 .373 .424 .483 .295 .351 .273

Cronbachs Alpha, wenn Item weggelassen .779 .776 .815 .781 .771 .777 .788 .774 .782

Tabelle 5: Reliabilitätsstatistik der Skala Lernzielorientierung Cronbachs Alpha .802

Cronbachs Alpha für standardisierte Items .825

Anzahl der Items 9

Bei allen anderen Skalen wurde in vergleichbarer Weise vorgegangen. Dieses Vorgehen führte zum Ausschluss von insgesamt 31 Items (Anhang A) 14. Bei der Skala Bezugsnormorientierung wird eine zweifaktorielle Struktur mit jeweils drei Items erzielt, wobei die Items nicht erwartungsgemäß (individuell, klassenbezo14

Der Anhang der Arbeit kann über Mailanfrage an [email protected] bezogen werden.

124

7 Methode

gen, kriterienbezogen) laden. Da für die Untersuchung insbesondere die individuelle Bezugsnormorientierung im Fokus steht, wurde entschieden, die Skala komplett neu zu ersetzen durch eine Skala, die ausschließlich die individuelle Bezugsnormorientierung erfasst (Baumert et al., 2009). Auch bei den Items zu den Überzeugungen zum Lehren und Lernen erweist sich die Berücksichtigung sowohl konstruktivistischer als auch transmissiver Überzeugungen als ungünstig, da die Items jeweils nicht auf einem Faktor laden und dadurch nicht genügend Items für eine reliable Skala zur Verfügung stehen. Aus diesem Grund wurden die Items zu transmissiven Überzeugungen entfernt und zwei weitere Items zu konstruktivistischen Überzeugungen ergänzt. Die interne Konsistenz aller weiteren Skalen liegt überwiegend im akzeptablen bis guten Bereich (Anhang B). Weiterhin zeigt die Analyse der deskriptiven Daten, dass alle Skalen, insbesondere die Items zu transparente Lernzielen und Beurteilungskriterien und Unterrichtsgespräch etwas rechtsschief (geringe Itemschwierigkeit) ausfallen, was bei sozialwissenschaftlichen Untersuchungen ein häufig auftretendes Phänomen darstellt und toleriert werden kann, sofern die Abweichung von der Normalverteilung nicht zu stark ausfällt (Weiber & Mühlhaus, 2014, S. 181). 7.2.3

Beschreibung des Fragebogens

Der Fragebogen für die Haupterhebung15 wird eingeleitet durch eine Beschreibung des Aufbaus des Fragebogens und Ausfüllhinweise einschließlich Beispiel-Item. Daran schließt sich Teil A des Instruments an. Im Fragebogenteil A werden folgende sieben Dimensionen (mit sechs Unterkategorien) formativen Assessments anhand von insgesamt 87 Items erfasst:

15

Eine Übersicht über die enthaltenen Items und deren Quellen sowie der Fragebogen der Hauptuntersuchung sind dem Anhang zu entnehmen (Anhang C und D).

7.2 Fragebogenentwicklung und Erhebungsinstrument

125

Tabelle 6: Übersicht über Konstrukte und Anzahl der Items in Fragebogenteil A Dimension Transparente Lernziele und Beurteilungskriterien Kognitiv aktivierendes Unterrichtsgespräch Diagnostische Methoden

Anzahl Items 9 6 12

Feedback ▪

Feedback-Ebenen

9



Feedback-Fragen

7

Schüleraktivierung zur Verantwortungsübernahme für ihr Lernen ▪

Strategievermittlung

7



Maßnahmen zur Selbstregulation

5



Self- und Peer-Assessment

7 5 12 8

Schüleraktivierung als instruktionale Ressource füreinander Pädagogische Nutzung der diagnostischen Information Prozessorientierung

Bei zwei Items (DM5, DM11) haben die Befragten die Möglichkeit, zusätzliche Angaben innerhalb eines Freitextfeldes zu machen. Fragebogenteil B umfasst die drei nicht zum Assessment-Konstrukt gehörenden Skalen konstruktivistische Überzeugungen zum Lehren und Lernen bestehend aus sieben Items (Greb et al., 2011), die individuelle Bezugsnormorientierung mit sechs Items (Baumert et al., 2009) und die acht Items umfassende Skala Tendenz zur aufgabenbezogenen Differenzierung (Greb et al., 2011). Im Fragebogenteil C werden neben den in der Sozialforschung gängigen Hintergrundvariablen Alter und Geschlecht folgende personen-, klassen- und schulbezogene Informationen als Kontrollvariablen erfasst: • Berufserfahrung • Studierte Schulform des Lehramtsstudiums • Deutsch als studiertes Fach • Teilnahme an themenbezogenen Fort- und Weiterbildungen • Anmeldung der Klasse zur Teilnahme am Kompetenztest Deutsch • Werden in der Klasse Kinder mit sonderpädagogischem Förderbedarf integrativ/inklusiv beschult?

126

7 Methode

• •

7.3 7.3.1

Werden in der Klasse Kinder mit nichtdeutscher Muttersprache beschult? Anzahl der aktuell in der dritten Klassenstufe Deutsch unterrichtenden Lehrkräfte Durchführung und Stichprobe der Haupterhebung Durchführung

Die Hauptuntersuchung wurde im November 2015 an staatlichen Grundschulen im Freistaat Sachsen durchgeführt. Befragt werden Lehrkräfte, die in der dritten Klassenstufe das Fach Deutsch unterrichten. Die dritte Klassenstufe wurde gewählt, da davon ausgegangen werden kann, dass die Schülerinnen und Schüler dieser Klassenstufe selbständig genug sind und die entsprechenden Basis- und Methodenkompetenzen erworben haben, um in schülerorientierten Lernsettings zu arbeiten oder über ihr Lernen zu reflektieren. So zeigte sich bspw. bei Andrade et al. (2008), dass Dritt- und Viertklässler in der Lage dazu sind, Bewertungskriterien zu entwickeln und Self-Assessments anzuwenden. Weiterhin finden in dieser Klassenstufe die landesweiten Vergleichsarbeiten (‚Kompetenztests‘), statt, die ein zentrales Instrument der Leistungsfeststellung darstellen und auch eine formative Zielstellung verfolgen (vgl. Kapitel 2.2.4). Das Fach Deutsch wird gewählt, da sich Befunde zum formativen Assessment bislang vorwiegend auf das Fach Mathematik beschränken (Bürgermeister, 2014, Rakoczy et al., 2008) und der Deutschunterricht vermutlich in stärkerem Maße Möglichkeiten zum Einsatz formativen Assessments bietet (z.B. Einsatz von Portfolios oder Lerntagebüchern) als der Mathematikunterricht (Duncan & Noonan, 2007). Weiterhin wird empfohlen, auch wenn es sich bei formativem Assessment um allgemeinpädagogische Prinzipien handelt, diese in einen domänenspezifischen Kontext einzubetten (Bennett, 2011, S. 20). Die Befragung wurde im Paper-Pencil-Format als postalische Befragung durchgeführt, wobei den Schulen die Fragebögen, Anschreiben an die Schulleitung, Anschreiben an die Lehrkräfte und frankierte Rückumschläge postalisch zugestellt wurden (Anhang D, E). Von einer Online-Befragung wurde bewusst abgesehen, da die Rückläufe in einer vergleichbaren Untersuchung mit Lehrkräften in Sachsen sehr gering ausgefallen sind (Liebers, Seifert & Kolke, 2014). Die Lehrkräfte hatten vier Wochen Zeit, den Fragebogen auszufüllen und zurückzusenden. Nach Ablauf dieser Frist wurden die Schulleiterinnen und Schulleiter per Mail kontaktiert und gebeten, die entsprechenden Lehrkräfte nochmals an die Befragung zu erinnern.

7.3 Durchführung und Stichprobe der Haupterhebung

7.3.2

127

Stichprobe

Stichprobenziehung Die Stichprobenziehung erfolgte in Form einer Klumpenstichprobe (Döring & Bortz, 2016, S. 314). Hierbei wird eine Zufallsstichprobe von Grundschulen (Klumpen) aus der Gesamtpopulation gezogen. Alle Lehrkräfte dieser Schulen, die in der dritten Klasse das Fach Deutsch unterrichten, wurden befragt. Es wurde ein Klumpenstichprobenverfahren gewählt, da die Voraussetzungen für eine einfache Zufallsstichprobe nicht erfüllt werden, weil keine vollständige und eindeutige Liste aller Elemente (Lehrkräfte Deutsch Klassenstufe 3) vorliegt (Döring & Bortz, 2016, S. 314). Ein zu berücksichtigender Nachteil von Klumpenstichproben ist allerdings der Präzisionsverlust (größere Standardfehler) gegenüber einfacher Zufallsstichproben (Döring & Bortz, 2016, S. 314; Schwarz, 2011). Die notwendige Stichprobengröße wurde auf Grundlage der Angaben des Statistischen Landesamtes des Freistaates Sachsen (2015) für das Schuljahr 2014/15 zur Anzahl der Grundschulen in öffentlicher Trägerschaft (N = 746) sowie zur Anzahl der Lehrpersonen an Grundschulen in öffentlicher Trägerschaft (N = 7610) berechnet. Da für die Untersuchung ausschließlich Lehrkräfte, die aktuell das Fach Deutsch in der dritten Klassenstufe unterrichten, ausgewählt werden sollten, aber keine statistischen Angaben zur Anzahl von Lehrkräften in einzelnen Fächern oder Klassenstufen vorliegt, musste ein entsprechender Wert geschätzt werden. Hierzu wurde zunächst berechnet, dass an den Grundschulen durchschnittlich zehn Lehrkräfte unterrichten. Weiterhin wurde geschätzt, dass Grundschulen durchschnittlich zweizügig sind, weshalb davon ausgegangen wurde, dass pro Schule durchschnittlich zwei Lehrkräfte in dritten Klassen das Fach Deutsch unterrichten. 16 Die Grundgesamtheit würde entsprechend dieses Schätzwertes N = 1492 (2*746 Schulen) betragen. Für die Berechnung der notwendigen Stichprobengröße wurde die Formel n = N/1+d²(N-1)17 nach Mayer (2013)(Mayer, 2013) verwendet. Daraus ergibt sich für die vorliegende Untersuchung eine Zielstichprobe von n = 306 (n = 1492/ (1+0,5² (1492-1)). Da mit einem für sozialwissenschaftliche Studien üblichen Rücklauf von ca. 30 Prozent gerechnet wurde (Schnell, Hill & Esser, 2013), ergibt sich daraus für die Erhebung, dass mindestens 510 Schulen angeschrieben werden müssen, um die nötige Zielstichprobengröße zu erzielen. Nach der Pilotierung standen noch 519 Schulen zur Verfügung, die noch nicht an der Pilotierungsstudie teilgenommen hatten, weshalb alle diese 519 Schulen angeschrieben wurden. Da von durchschnittlich zwei Lehrkräften pro Schule ausgegangen wurden, 16

Diese Schätzung hat sich als zutreffend erwiesen, da 49 Prozent der Lehrkräfte im Fragebogen angeben, dass derzeit zwei Lehrkräfte in der dritten Klasse Deutsch unterrichten (Anhang L). 17 d = Stichprobenfehler

128

7 Methode

erhielt jede Schule drei Fragebögen. Die angestrebte Stichprobengröße entsprich auch dem von Bagozzi (1981, S. 380) empfohlenen Richtwert N - t18 > 50 (t = Zahl der zu schätzenden Parameter) für den notwendigen Stichprobenumfang für Strukturgleichungsanalysen, da in den geplanten Modellen nicht mehr als 250 Parameter geschätzt werden müssen. Weiterhin ist davon auszugehen, dass die Stichprobe ausreichend groß ist, die - und β-Fehlerwahrscheinlichkeit möglichst gering zu halten (Rost, 2013). Rückläufe der Erhebung Von den 519 kontaktierten Schulen haben 213 Schulen einen oder mehrere Fragebögen zurückgesendet, dies entspricht einem schulbezogenen Rücklauf von 41 Prozent. Insgesamt wurden 339 Fragebögen zurückgesendet. Da keine Angaben zur tatsächlichen Größe der Grundgesamtheit der Lehrkräfte, die in einer dritten Klasse das Fach Deutsch unterrichten, vorliegen, kann eine genaue Rücklaufquote nicht ermittelt werden. Geht man von durchschnittlich zwei Lehrkräften pro Schule aus, was sich im Rahmen der Erhebung bestätigt (Anhang F), so würde der Rücklauf bei 33 Prozent und somit im zufriedenstellenden Bereich (Döring & Bortz, 2016, S. 412)) liegen. Weiterhin wird die zuvor berechnete Zielstichprobengröße von n = 306 erreicht. Stichprobenbeschreibung Hinsichtlich der Altersstruktur zeigt sich, dass 50 Prozent der teilnehmenden Lehrkräfte (n = 338) zum Zeitpunkt der Befragung älter als 50 Jahre waren. 30 Prozent waren zwischen 41 und 50 Jahren alt und rund 18 Prozent waren jünger als 41 Jahre. Laut Angaben des Statistischen Landesamtes des Freistaates Sachsen waren im Schuljahr 2015/16 49 Prozent der Grundschullehrkräfte über 50 Jahre alt, 24 Prozent waren jünger als 41 Jahre und 29 Prozent zwischen 41 und 50 Jahren alt (Statistisches Landesamt des Freistaates Sachsen, 2016a). Die Altersstruktur der Gesamtpopulation sächsischer Grundschullehrkräfte wird mit der Stichprobe somit annähernd abgebildet. Die Geschlechter sind unter den Befragten sehr ungleichverteilt – 94 Prozent der teilnehmenden Lehrkräfte sind weiblich und nur vier Prozent sind männlich, dennoch entspricht die Geschlechtsverteilung der Stichprobe der der Gesamtpopulation. Im Schuljahr 2015/16 lag der Frauenanteil an Grundschulen in Sachsen bei 93 Prozent (Statistisches Landesamt des Freistaates Sachsen, 2016b, S. 14). Die Befragten verfügen mehrheitlich (63 %) über mehr als 26 Jahre Berufserfahrung, 15 Prozent der Teilnehmer haben aber auch erst weniger als sechs Jahre Berufserfahrung. Bezüglich ihrer Ausbildung geben 94 Prozent der Lehrkräfte an, 18

t = Zahl der zu schätzenden Parameter

7.4 Auswertungsmethoden

129

Lehramt Grundschule/Unterstufe studiert zu haben, 89 Prozent der Lehrkräfte haben das Fach Deutsch studiert. Somit ist nur ein sehr geringer Teil unter den Befragten, die fach- bzw. schulartfremd unterrichten. Weitere personenbezogene Angaben werden in Kapitel 7.2.2 berichtet. 7.4 7.4.1

Auswertungsmethoden Datenaufbereitung und Umgang mit fehlenden Werten

Datenaufbereitung Dateneingabe und -auswertung der geschlossenen Fragen Die Dateneingabe in das Programm IBM SPSS Statistics 23 erfolgte durch geschulte studentische Hilfskräfte. Mit dem Programm werden die deskriptiven Analysen, explorativen Faktorenanalysen, Reliabilitätsanalysen und einfaktoriellen Varianzanalysen durchgeführt. Die Reliabilitätsanalysen der zweiten Generation, die strukturgleichungsanalytischen Untersuchungen sowie die latenten Profilanalysen werden mit der Software Mplus 7.4 (Muthén & Muthén) durchgeführt. Dateneingabe und -auswertung der offenen Fragen Die Daten der offenen Fragen wurden in Microsoft Exel eingegeben. In diesem Programm erfolgte auch die Auswertung und Aufbereitung der Angaben für die deskriptive Ergebnisbeschreibung in Form von Diagrammen. Datenbereinigung und Umgang mit Ausreißern Vor der Durchführung der eigentlichen Analysen erfolgt eine Datenbereinigung, wobei entsprechend des bei Döring und Bortz (2016) beschriebenen Vorgehens zunächst Wertebereiche, Häufigkeitsverteilung und Wertelabel überprüft werden. Weiterhin wird eine allgemeine Sichtung des Datenfensters vorgenommen (Akremi, 2011), um stereotype Antwortmuster zu identifizieren, welche bei der Eingabe möglicherweise nicht erkannt wurden (Döring & Bortz, 2016). Im Datensatz war lediglich ein Fall enthalten, bei dem mehr als 50 Prozent des Fragebogens nicht ausgefüllt wurden, weshalb dieser von der weiteren Analyse ausgeschlossen wurde (Döring & Bortz, 2016). Dadurch verringerte sich die Anzahl der Fälle von 339 auf 338. Vor der Durchführung der eigentlichen Analysen sollte ebenfalls eine Analyse des Datensatzes hinsichtlich Ausreißerwerten stattfinden, da diese unter anderem bei Regressionsanalysen Regressionskoeffizienten, ihre Standardfehler, das R² und letztlich die Gültigkeit der getroffenen Schlussfolgerungen beeinträchtigen können (Schendera, 2007, S. 163). Zum Umgang mit Ausreißern existieren verschiedene Möglichkeiten. Die Werte können korrigiert, ausgeschlossen, als

130

7 Methode

Teil der natürlichen Variabilität der Population eingeschlossen oder transformiert werden (Hatzinger, Hornik & Nagel, 2011). Der Datensatz wurde mittels Boxplots auf Ausreißer hin analysiert. Identifiziert wurden 34 Fälle mit Ausreißerwerten, die allerdings im Datensatz belassen wurden, da die Werte innerhalb des erwarteten Bereichs 1 - 6 liegen, nicht auf verfahrenstechnische Fehler zurückzuführen sind und aus sachlogischer Sicht erklärbar sind, weshalb es sich nicht um „echte“ Ausreißer (Weiber & Mühlhaus, 2014, S. 178) handelt. Die Ausreißer werden entsprechend als Teil der natürlichen Variabilität der Population beibehalten. Umgang mit fehlenden Werten In der quantitativen Forschung gewonnene Datensätze sind häufig unvollständig, was auf eine Vielzahl von Gründen zurückzuführen ist (Allison, 2001). Das Vorliegen fehlender Werte führt aufgrund der eingeschränkten Stichprobengröße zu einem Verlust an Effizienz bei der Parameterschätzung, es besteht die Gefahr verzerrter Parameterschätzungen und der Umgang mit den Daten ist erschwert, da statistische Standardverfahren vollständige Datenmatrizen erfordern (Lüdtke, Robitzsch, Trautwein & Köller, 2007, S. 103). Um mit diesen fehlenden Werten (sog. Missings) im Datensatz umgehen zu können, existieren verschiedene Möglichkeiten. Klassische Methoden, wie der Fallweise Ausschluss, Paarweise Ausschluss oder Ersetzen durch den Mittelwert der entsprechenden Variablen werden inzwischen kritisch diskutiert. So führt der Fallweise Ausschluss mitunter zu stark reduzierten Stichprobengrößen und kann zu stark verzerrten Parameterschätzungen führen, wenn sich die Personen mit vollständigen Daten systematisch von den Personen mit unvollständigen Daten unterscheiden (Lüdtke et al., 2007, S. 107). Auch beim Paarweisen Ausschluss kann es zu verzerrten Schätzungen kommen. Das einfache Ersetzen durch den Mittelwert kann zu einer erheblichen Verringerung der Varianz der Daten führen, weshalb von diesem Verfahren ebenfalls abgeraten wird (Lüdtke et al., 2007, S. 108). Entsprechend wurden Verfahren entwickelt, die einen adäquateren Umgang mit fehlenden Werten ermöglichen sollen. Grundsätzlich lassen sich hier die Multiple Imputation und Modellbasierte Verfahren unterscheiden. Während bei der Multiplen Imputation die Ersetzung der fehlenden Werte getrennt von den Analysen durchgeführt wird, führen modellbasierte Verfahren die Behandlung der fehlenden Werte und die Schätzung des Modells in einem gemeinsamen Schritt aus (Lüdtke et al., 2007, S. 111). Am häufigsten wird in den Sozialwissenschaften die in Programmen zur Analyse von Strukturgleichungsmodellen implementierte Option verwendet, Modelle mit dem MaximumLikelihood (ML)-Verfahren zu schätzen. Dieses Vorgehen wird auch als Full Information Maximum Likelihood (FIML)-Methode bezeichnet (Arbuckle, 1996). Die Grundidee der FIML-Methode besteht in der Spezifizierung des Analysemo-

7.4 Auswertungsmethoden

131

dells für alle Fälle, wobei die individuellen Werte zu Grunde gelegt werden müssen. Bei der Schätzung der Modellparameter wird dann für jeden Fall die Likelihood nur unter Berücksichtigung der jeweils beobachteten Werte berechnet. Die Likelihood des gesamten Modells ergibt sich, indem das Produkt über die Ausprägungen der Likelihood der einzelnen Fälle gebildet wird. Die fehlenden Werte fließen somit bei der Schätzung der Modellparameter gar nicht in die Berechnung der Likelihood mit ein, sondern werden ignoriert (Lüdtke et al., 2007, S. 112). „Bei dem direkten ML-Ansatz mit der FIML-Methode werden also keine fehlenden Werte imputiert oder geschätzt, vielmehr wird eine Schätzung der Populationsparameter und ihrer Standardfehler auf der Basis der beobachteten Daten unter der Annahme MAR vorgenommen“ (Lüdtke et al., 2007, S. 112). Demzufolge müssen zwei Voraussetzungen für die Anwendung der FIML-Methode erfüllt sein. Für die fehlenden Werte muss die Annahme MAR (missing at random) getroffen werden und die Variablen im Modell sollten einer multivariaten Normalverteilung folgen (Lüdtke et al., 2007, S. 112), wobei die FIML-Methode auch bei Verletzung dieser Voraussetzungen erheblich bessere Ergebnisse erzielt als klassische Verfahren zur Behandlung fehlender Werte und als sehr robust gilt (Muthén, 2008).19 Im Gegensatz zur Multiplen Imputation können beim modellbasierten Vorgehen keine Hilfsvariablen berücksichtigt werden. Grundsätzlich gelten sowohl die Multiple Imputation als auch die FIML-Methode als empfehlenswerte und überlegene Verfahren zur Behandlung fehlender Beobachtungen (Lüdtke et al., 2007, S. 116). Das konkrete Vorgehen zum Umgang mit fehlenden Werten umfasst folgende Schritte (Baltes-Götz, 2013): • Überprüfung der Voraussetzungen: o Bestimmung der globalen MCAR-Bedingung mittels MCARTest nach Little20 o Analyse der Muster fehlender Werte o Prüfung auf Normalverteilung der Daten • Ersetzung oder Ausschluss der Variablen mit systembedingt fehlenden Werten (Böwing-Schmalenbrock & Jurczok, 2011, S. 8) • Auswahl des Verfahrens zum Umgang mit fehlenden Werten

19

Die Prüfung auf multivariate Normalverteilung ist gemäß Muthén (2008) bei Datensätzen mit fehlenden Werten nicht möglich, erweist sich aufgrund der Robustheit der neueren Schätzalgorithmen (ML, MLR, MLM) aber auch als nicht mehr zwingend notwendig. 20 Der MCAR-Test nach Little dient der Testung, ob Werte in völlig zufälliger Weise fehlen (missing completely at random; MCAR). Fällt der Chi-Quadrat-Test signifikant aus, kann angenommen werden, dass die Werte nicht völlig zufällig fehlen (Baltes-Götz, 2013, S. 7).

132

7 Methode

Überprüfung der Voraussetzungen für die FIML-Methode Zur Bestimmung der globalen MCAR-Bedingung, wurde der MCAR-Test nach Little durchgeführt. Das Gesamtergebnis für alle Variablen ist signifikant (ChiQuadrat: p = .00), das heißt, die Werte fehlen nicht völlig zufällig. Die Daten fehlen möglicherweise zufällig (missing at random; MAR) oder nicht zufällig (missing not at random; MNAR), weshalb der Datensatz auf Muster fehlender Werte hin untersucht wird. Bei der Analyse der Muster fehlender Werte zeigt sich, dass insgesamt 45 Fälle vorliegen, die keinerlei Missings aufweisen. Bis auf einzelne Items fehlen pro Variable jeweils weniger als fünf Prozent der Werte. Bei der Variable DM5 fehlen 5 Prozent, während bei den Variablen DI7 und DI8 auffällig viele Werte fehlen (58 bzw. 57 Prozent). Im nächsten Schritt werden die einzelnen Variablen auf univariate Normalverteilung getestet (Komogorov-Smirnov-Test und Shapiro-Wilk-Test) sowie Schiefe und Wölbung betrachtet, wobei gemäß West et al. (1995, S. 74) erst ab Werten von > 2 für den Schiefe- und > 7 für den Wölbungskoeffizieten von einer substanziellen Abweichung von der Normalverteilung ausgegangen wird. Es zeigt sich, dass die strengen Test-Kriterien des Kolmogorov-Smirnov- und Shapiro-WilkTests nicht erfüllt werden. Die Schiefe- und Wölbungsmaße zeigen allerdings an, dass diese bei den Variablen LZ1, LZ4, LZ6, LZ8, DM3, DM10, DM11, FBE3, FBF2, FBF7, SO1, SO2, SO3, SO4, SO5, SO14, SO15, NU4, NU6, NU7, NU8, PO1, PO5, CO1, CO3, CO5, DI8, BN5, BN6 und Erfahrung zwar größer 1 sind (Temme & Hildebrandt, 2009, S. 166), aber die Grenzwerte nach West et al. (1995, S. 74) nicht überschreiten (Anhang G). Die Prüfung auf Indikatorenebene spricht damit insgesamt für eine nur moderate Verletzung der Normalverteilungsannahme. Ersetzung oder Ausschluss der Variablen mit systembedingt fehlenden Werten Aufgrund der auffälligen Anzahl fehlender Werte bei den Items DI7 und DI8 werden diese Variablen eingehender untersucht. Bei der Überprüfung der Kreuztabellen der Items „DI7“ und „SPF“ sowie „DI8“ und „nichtdeutsch“ zeigten sich Unstimmigkeiten, weshalb sogenannte Fehler-Indikatoren (Akremi, 2011) gebildet wurden, um fehlerhafte Fälle diagnostizieren und korrigieren zu können. Es wird vermutet, dass das Zustandekommen dieser Fälle auf einen Fehler im Fragebogeninstrument zurückzuführen ist (Akremi, 2011): Bei den Items „Schülerinnen mit (sonder-)pädagogischem Förderbedarf bekommen bei mir andere bzw. zusätzliche Aufgaben“ (DI7) und „Schülerinnen mit nichtdeutscher Muttersprache bekommen bei mir andere bzw. zusätzliche Aufgaben.“ (DI8) stand keine zusätzliche Kategorie zur Auswahl, in der die Lehrkräfte ankreuzen konnten, dass sie diese Schülergruppe nicht in ihrer Klasse haben, weshalb mitunter keine oder willkürlich eine

7.4 Auswertungsmethoden

133

der vorgegebenen Kategorien angekreuzt wurde. Dieser Widerspruch wurde offenkundig, da es Lehrkräfte gab, die z. B. angaben, dass die Aussage „Schülerinnen mit (sonder-)pädagogischem Förderbedarf bekommen bei mir andere bzw. zusätzliche Aufgaben“ eher zutrifft, beim Item „Werden in Ihrer Klasse (3. Kl. Deutsch) Kinder mit nichtdeutscher Muttersprache beschult?“ mit „nein“ antworteten. Aufgrund dessen wurden bei Item DI7 und DI8 die Fälle als ungültig codiert, die bei den Items „nichtdeutsch“ bzw. „SPF“ mit „nein“ antworteten und gleichzeitig bei D7 bzw. D8 mit „trifft eher zu“, „trifft überwiegend zu“ oder „trifft voll zu“ geantwortet haben. Aufgrund der weiterhin großen Anzahl fehlender Werte werden die Variablen lediglich in der deskriptiven Auswertung berücksichtigt und von den weiteren Analysen ausgeschlossen. Weiterhin traten bei der Skala „Berücksichtigung der Feedback-Fragen im schriftlichen Feedback“ gehäuft fehlende Werte auf. Diese sind durch die Filterführung zustande gekommen, wonach der Frageblock nicht weiterbearbeitet werden sollte, sofern die Aussage FBF1 „Bei schriftlichen Arbeiten ergänze ich die Note um einen Kommentar.“ die Antwortkategorie „trifft überhaupt nicht zu“ angekreuzt wurde. Die fehlenden Werte lassen sich als filter missings (Enders, 2010; Graham, 2012) bezeichnen und der Fehlerkategorie missing-by-design (Rässler, 2006; Schafer, 2000) zuordnen. An dieser Stelle bestätigt sich auch die erhöhte Fehleranfälligkeit von Filterfragen (Böwing-Schmalenbrock & Jurczok, 2011, S. 1), da vermutlich aufgrund der optischen Gestaltung der Filterfrage die Filterfrage FBF1 von neun Lehrkräften nicht beantwortet wurde, dafür aber die Folgefragen. Um für die weiteren Analysen in der Skala Feedback-Fragen nicht deutlich weniger Fälle zur Verfügung zu haben als bei den anderen Skalen, wurden die fehlenden Antworten derjenigen, die sich bei FBF1 für „trifft überhaupt nicht zu“ entschieden haben (die also Noten nicht um einen schriftlichen Kommentar ergänzen) bei den Items FBF2 bis FBF7 in die Antwortkategorie „trifft überhaupt nicht zu“ umcodiert. Diese Umcodierung entspricht inhaltlich der Verneinung von FBF1. Solche „logischen Imputationen“ seien nach Böwing-Schmalenbrock und Jurczok (2011, S. 8) „vorallem dann sinnvoll, wenn Angaben systembedingt fehlen, etwa aufgrund der Filterführung“, also wie im vorliegenden Fall. Auswahl des Verfahrens zur Behandlung fehlender Werte Auch bei der erneuten globalen Überprüfung der Items unter Ausschluss der Items DI7 und DI8 sowie mit den umcodierten Items FBF2 bis FBF7 verwirft der MCAR-Test nach Little seine Nullhypothese. Aus der Analyse der Muster fehlender Werte mit den verbleibenden bzw. umcodierten Items geht hervor, dass bei 238 Fällen alle Variablen vorhanden sind und keine weiteren Muster mit mehr als einem Prozent der Fälle auftreten. Es kann daher angenommen werden, dass die

134

7 Methode

nicht prüfbare MAR-Bedingung annähernd erfüllt ist, so dass eine FIML-Schätzung zulässig ist (Baltes-Götz, 2013, S. 9; Böwing-Schmalenbrock & Jurczok, 2011, S. 17). In der vorliegenden Arbeit wird daher die FIML-Methode verwendet, da diese gemäß Baltes-Götz (2013, S. 76) beim Vorliegen latenter Variablen der Multiplen Imputation vorzuziehen ist und sich vor allem bei der Verwendung von Strukturgleichungsmodellen anbietet (Lüdtke et al., 2007, S. 106). Hierbei wird das ML-Schätzverfahren (Maximum-Likelihood) genutzt (Weiber & Mühlhaus, 2014, S. 63). Für die Latenten Profilanalysen kann der MLR-Schätzer21, welcher noch robuster ist, genutzt werden. Bei allen mit SPSS durchgeführten (Vor-)Analysen wird der listenweise Fallausschluss verwendet. Diese Methode gilt als akzeptabel, sofern weniger als fünf Prozent der Fälle ausgeschlossen werden und führt in vielen Fällen nur zu einem geringen Bias der Parameterschätzungen (Bühner, 2011, S. 354; Lüdtke et al., 2007, S. 106). 7.4.2

Güteprüfung der reflektiven Messmodelle

Ein Ziel der Arbeit ist die empirische Prüfung der durch ein Strukturmodell abgebildeten theoretisch vermuteten Zusammenhänge (Untersuchungsschwerpunkt 3 und 4). Da die Güte der Parameterschätzungen des Strukturmodells wesentlich durch die Güte der Messmodelle bestimmt wird, können fehlerhaft gemessene Konstrukte zu Fehlern in den Schätzungen der Konstruktbeziehungen führen. Daher kommt der Güteprüfung der Messmodelle im Rahmen von Strukturgleichungsanalysen eine herausragende Bedeutung zu (Weiber & Mühlhaus, 2014, S. 128). Güteprüfung mit Hilfe der Gütekriterien der ersten Generation Zunächst werden in Anlehnung an Weiber und Mühlhaus (2014) die reflektiven Messmodelle mit Hilfe der Gütekriterien der ersten Generation22 überprüft. Dabei wird zuerst eine explorative Faktorenanalyse mit allen Indikatorensets der betrachteten Assessment-Konstrukte gleichzeitig durchgeführt, um die theoretisch angenommenen Beziehungen der Indikatoren zu ihren zugenommenen Konstrukten

21

= maximum likelihood parameter estimates with robust standard errors and a chi-square test statistic (Muthén 22 Gütekriterien der ersten Generation basieren im Wesentlichen auf Korrelationsbetrachtungen zur Reliabilitätsprüfung. Voraussetzung der Anwendung dieser Kriterien ist die Eindimensionalität der Konstrukte. Eine Schwäche dieser Gütekriterien besteht darin, dass sie keine Schätzung der Messfehler erlauben und Modellparameter nicht inferenzstatistisch überprüft werden können (Weiber & Mühlhaus, 2014, S. 129). Daher werden im zweiten Schritt Gütekriterien der zweiten Generation herangezogen.

7.4 Auswertungsmethoden

135

prüfen zu können. Anschließend wird ebenfalls mittels explorativer Faktorenanalyse (EFA) die Eindimensionalität der Itemstruktur überprüft. Darauf folgt die eigentliche Reliabilitätsprüfung der Messindikatoren (Weiber & Mühlhaus, 2014) Für die Durchführung der explorativen Faktorenanalyse mit allen Indikatorensets gleichzeitig im Rahmen der Hauptuntersuchung werden folgende Festlegungen getroffen: • Da die Beziehungen der Assessment-Indikatoren zu den ihnen zugewiesenen Konstrukten überprüft werden sollen, wird die Anzahl der zu abstrahierenden Faktoren per Voreinstellung auf 14 festgelegt, da von höchstens 14 Faktoren ausgegangen wird. Die Vorgehensweise ist somit nur „quasi“ explorativ, da die Ergebnisse der explorativen Faktorenanalyse dazu verwendet werden, zu kontrollieren, ob die einzelnen Messindikatoren zu den unterstellten Konstrukten „gruppiert“ werden (Weiber & Mühlhaus, 2014, S. 144).23 • Das KMO-Kriterium sollte nicht kleiner sein als 0.6 und der Bartlett-Test sollte abgelehnt werden (Bühner, 2011, S. 348). • Als Extraktionsmethode wird entsprechend der Empfehlung von Weiber und Mühlhaus (2014, S. 132)(Weiber & Mühlhaus, 2014, S. 132) die Hauptachsenanalyse verwendet, da angenommen wird, dass die Messung der Indikatoren messfehlerbehaftet ist und entsprechend nicht die ganze Varianz der Ausgangsvariablen erklärt werden kann. Weiterhin nimmt diese eine explizite Differenzierung der Indikatorvarianzen nach einem von den extrahierten Faktoren erklärten Varianzanteil (Kommunalität) und der variablenspezifischen Einzelrestvarianz vor (Weiber & Mühlhaus, 2014, S. 133). • Zur Rotation wird die schiefwinkelige „Promax“ Rotation gewählt, da eine gewisse Korrelation zwischen den Faktoren vermutet wird (Weiber & Mühlhaus, 2014, 132,). • Variablen, welche Nebenladungen aufweisen, werden in der Regel ausgeschlossen. Sollten inhaltliche Gründe dagegensprechen, können die Items beibehalten werden (Bühner, 2011, S. 350).

23

Die Anzahl der zu extrahierenden Faktoren wird also per Voreinstellung festgelegt und nicht über das Kaiser-Kriterium oder den MAP-Test (Bühner, 2011, S. 321).

136

7 Methode

Prüfung der Eindimensionalität der Itemstruktur mit Hilfe der explorativen Faktorenanalyse Für die Prüfung der Eindimensionalität der Itemstruktur werden folgende Festlegungen getroffen: • Die Anzahl der zu extrahierenden Faktoren wird nicht festgelegt. Zur Bestimmung der Anzahl der zu extrahierenden Faktoren wird auf das Kaiser-Kriterium zurückgegriffen (Weiber & Mühlhaus, 2014, S. 133). • Variablen mit MSA-Werten kleiner 0.5 werden gemäß Weiber und Mühlhaus (2014, S. 132) ausgeschlossen, da sie nur wenig Gemeinsamkeit mit den übrigen Variablen aufweisen. • Bezüglich der Kommunalitäten wird das Kriterium von Bühner (2011, S. 345) verwendet, welcher für eine Stichprobengröße von n = 200 Kommunalitäten > 0.2 als mittelmäßig ansieht. Deshalb werden nur Items mit Kommunalitäten < 0.2 ausgeschlossen. • Das KMO-Kriterium sollte nicht kleiner sein als 0.6 und der Bartlett-Test sollte abgelehnt werden (Bühner, 2011, S. 348). • Variablen mit geringen Faktorladungen (< .4) verbleiben zunächst in der Analyse, da diese bei der anschließenden Prüfung der Indikator- und Konstruktreliabilität auffallen und ggf. an dieser Stelle eliminiert werden. • Als Extraktionsmethode wird die Hauptachsenanalyse (HAA) verwendet. • Sofern sich eine zwei- oder mehrfaktorielle Lösung zeigt, wird zur Rotation die „Promax“ Rotation gewählt. • Faktoren, auf die weniger als drei Items laden, werden nicht für weitere Analysen verwendet, da reflektive Multi-Item-Konstrukte gemäß Weiber und Mühlhaus (2014, S. 113) in Mehr-Konstrukt-Modellen mindestens mit jeweils zwei Indikatoren gemessen werden sollten. Im Anschluss an die Prüfung der Eindimensionalität ist die eigentliche Reliabilitätsprüfung der Messindikatoren vorzunehmen (Weiber & Mühlhaus, 2014). Zur Prüfung der Messäquivalenz wird die Interne-Konsistenz-Reliabilität überprüft. Maßzahl hierfür ist Cronbachs Alpha, welche das Ausmaß, in dem die Aussagen einer Skala miteinander in Beziehung stehen, bezeichnet. Die Reliabilität ist umso höher, je mehr sich Cronbachs Alpha dem Wert eins nähert, wobei der Schwellenwert für eine gute Reliabilität bei  ≥ 0.7 liegt (Weiber & Mühlhaus, 2014). Ein

7.4 Auswertungsmethoden

137

weiteres Gütemaß, welches zur Beurteilung der Reliabilität auf Ebene der Gesamtkonstruktmessung gewählt wurde, ist die Inter-Item-Korrelation (IIK), die die durchschnittliche Korrelation aller Items eines Konstrukts darstellt und Werte ≥ 0.3 erreichen sollte (Weiber & Mühlhaus, 2014). Fallen die Werte von Cronbachs Alpha und IIK akzeptabel aus, so ist eine Reduktion oder Erweiterung des Indikatorensets nicht zwingend erforderlich. Zusätzlich wird zur Verbesserung der internen Konsistenz empfohlen, Indikatoren, die nur wenig zur Konstruktmessung beitragen, zu eliminieren. Darüber hinaus wird die Item-to-Total-Korrelation (ITK) analysiert, welche die Korrelation eines Indikators mit der Summe der Indikatoren eines Konstrukts darstellt. Der empfohlene Schwellenwert für die ITK variiert in der Literatur zwischen ≥ 0.5 (Weiber und Mühlhaus (2014) und ≥ 0.3 (Fisseni, 1997)), wobei im Folgenden der niedrigere Wert von Fisseni (1997) verwendet werden soll. Da zur Berechnung der ITK die einzelnen Variablen auch partiell mit sich selbst korrelieren, wird zusätzlich auf die Korrigierte Item-to-Total-Korrelation (KITK) zurückgegriffen, wobei die betrachtete Variable nicht in die Summenbildung einbezogen wird. Dies führt zu eindeutigeren Ergebnissen. Beide Koeffzienten werden auch als Trennschärfekoeffizienten bezeichnet. Bei kleineren Variablenzahlen sollte immer die KITK verwendet werden, da hier die Verzerrung durch den Einbezug der integrierten Variable größer ist. Als Schwellenwert für eine gute Reliabilität empfiehlt Weiber für die KITK ≥ 0.5 (Weiber & Mühlhaus, 2014). Bühner hingegen weist ausdrücklich darauf hin, dass statistische Grenzwerte, ab wann ein Item aus einer Skala entfernt werden sollte, wenig sinnvoll seien. Primär sollten inhaltliche Gründe die Auswahl bestimmen (Bühner, 2011, S. 255). Entsprechend werden in der Analyse (Kapitel 7.1) die oben beschriebenen Werte als Orientierungswerte herangezogen, aber Items nur eliminiert, sofern dies inhaltlich plausibel und vertretbar erscheint. Güteprüfung mit Hilfe der Gütekriterien der zweiten Generation Da durch die Anwendung der Gütekriterien der ersten Generation keine explizite Schätzung von Messfehlern und somit auch keine statistische Validitätsprüfung möglich ist, wird im Anschluss an die Prüfung der Indikator- und Konstruktreliabilität mit den verbliebenen Items die Reliabilitätsanalyse der zweiten Generation (Fornell, 1982) mit Hilfe der konfirmatorischen Faktorenanalyse (KFA) durchgeführt. Alle Prüfkriterien der zweiten Generation werden aus den Ergebnissen der konfirmatorischen Faktorenanalyse abgeleitet. Auch bei der Verwendung der Prüfkriterien der zweiten Generation sollte im Rahmen der Hauptuntersuchung eine explorative Faktorenanalyse bei simultaner Betrachtung aller Konstrukte durchgeführt (Weiber & Mühlhaus, 2014, S. 144) und geprüft werden, ob einzelne Messindikatoren von mehreren Konstrukten beeinflusst werden. Anschließend erfolgt die Reliabilitätsprüfung auf Konstruktebene. Nach Weiber und Mühlhaus

138

7 Methode

(2014, S. 146) nehmen die Reliabilitäts-Prüfkriterien der zweiten Generation einen Vergleich zwischen der Varianz eines Indikators und der Varianz der Messfehler vor. Das jeweilige Reliabilitätskriterium ist umso besser, je größer die erklärte Varianz ist. Zu den Prüfkriterien der zweiten Generation zählt zum einen die Indikatorreliabilität, welche den Anteil der Varianz eines Indikators, der durch das Konstrukt erklärt wird, angibt. Der Schwellenwert für eine gute Reliabilität liegt hier bei ≥ 0.4 (Weiber & Mühlhaus, 2014, S. 150). Weiterhin wird die Faktorreliabilität überprüft, welche analog zu Cronbachs Alpha ein Maß der Reliabilität über die Gesamtsumme aller Indikatoren, die ein Konstrukt bilden, darstellt. Diese sollte nach Bagozzi und Yi (1988) Werte größer 0.6 annehmen. Zusätzlich zur Faktorreliabilität wird auch die durchschnittliche je Faktor extrahierte Varianz (DEV) berichtet, die angibt, wie viel Prozent der Streuung des latenten Konstrukts über die Indikatoren durchschnittlich erklärt werden. Weiber und Mühlhaus (2014, S. 151) empfehlen hierfür einen Schwellenwert von ≥ 0.5. Zur Berechnung dieser Reliabilitätskriterien sind die reflektiven Messmodelle der Konstrukte gemeinsam in einer konfirmatorischen Faktorenanalyse zu untersuchen. Zur Berechnung der Reliabilitätskriterien, die von Mplus nicht direkt ausgewiesen werden, wird eine Tabellenkalkulation in Exel von Weiber und Mühlhaus (o. J.) verwendet, in der die Berechnungen entsprechend der Formeln durchgeführt werden. Die Varianzen der latenten Variablen werden dabei im Rahmen der Modellspezifikation auf eins fixiert. Validitätsprüfung Die vorangegangenen Reliabilitätsprüfungen sind die notwendige Voraussetzung für die Prüfung der Validität eines Messinstruments, welche bei der Operationalisierung hypothetischer Konstrukte eine besondere Bedeutung hat, da sie ein zusammenfassendes Maß für die Güte der Messung darstellt (Weiber & Mühlhaus, 2014, S. 156). Die Validität ist in letzter Konsequenz nicht prüfbar, da der „wahre Wert“ einer Variablen unbekannt ist. Es lassen sich aber zur Abschätzung der Validität folgende zentrale Hilfskriterien heranziehen: Die Inhaltsvalidität, die Kriteriumsvalidität und die Konstruktvalidität (Döring & Bortz, 2016). In der vorliegenden Studie wird das Untersuchungsinstrument hinsichtlich der Erfüllung dieser Hilfskriterien analysiert. Die Inhaltsvalidität wird anhand der Konzeptualisierung der Konstrukte, der Ergebnisse der Expertenvalidierung im Rahmen der Pilotierung und der Interkorrelationen der Indikatoren beurteilt. Konstruktvalidität ist gegeben, wenn konvergente, diskriminante und nomologische Validität bestätigt werden können (Weiber & Mühlhaus, 2014, S. 159). Die diskriminante Validität wird anhand der Faktorladungen der Items (Straub, 1989), des Fornell/LarckerKriteriums (Fornell & Larcker, 1981) und des ²-Differenztests (Homburg, 1998,

7.4 Auswertungsmethoden

139

S. 101) beurteilt. Die nomologische Validität24 wird anhand der Parameterschätzungen des Strukturgleichungsmodells und der Ergebnisse der konfirmatorischen Faktorenanalyse (Faktorladungen und Kovarianzen) geprüft. 7.4.3

Deskriptivstatistische Analysen

Zur Beantwortung des ersten Untersuchungsschwerpunkts sollen die Ergebnisse zur selbstwahrgenommenen Assessment-Praxis deskriptiv auf Ebene der Einzelitems berichtet werden (Döring & Bortz, 2016, S. 261). Dabei wird auf den vorliegenden Datensatz (mit missings, nicht imputiert) zurückgegriffen, um genaue Aussagen zum Antwortverhalten der Befragten treffen zu können. Angegeben werden Mittelwerte, Standardabweichung und Missinganzahl. 7.4.4

Strukturgleichungsanalysen

Um Zusammenhänge zwischen den Dimensionen formativen Assessments untereinander (Untersuchungsschwerpunkt 3) und mit anderen Konstrukten (Untersuchungsschwerpunkt 4) analysieren können, werden in der vorliegenden Arbeit Strukturgleichungsanalysen durchgeführt. Strukturgleichungsmodelle (SGM) „bilden a-priori formulierte und theoretisch und/oder sachlogisch begründete komplexe Zusammenhänge zwischen Variablen in einem linearen Gleichungssystem ab und dienen der Schätzung der Wirkungskoeffizienten zwischen den betrachteten Variablen sowie der Abschätzung von Messfehlern“ (Weiber & Mühlhaus, 2014). Das Ziel der Anwendung einer Strukturgleichungsanalyse (SGA) besteht in der Prüfung eines theoretisch oder sachlogisch erstellten Hypothesensystems (Weiber & Mühlhaus, 2014), im vorliegenden Fall der Hypothesen H1 bis H6. Strukturgleichungsmodelle stellen eine Kombination aus Messmodellen und Strukturmodellen dar (Christ & Schlüter, 2012). Im Messmodell wird spezifiziert, wie die latenten Variablen („Faktoren“) durch beobachtete bzw. manifeste Variablen gemessen werden. Im Strukturmodell werden die Zusammenhänge zwischen den latenten Variablen in Form von Kovarianzen oder Regressionen bzw. Pfadanalysen spezifiziert. Von einer konfirmatorischen Faktorenanalyse spricht man, wenn zwischen den latenten Variablen keine oder ausschließlich ungerichtete Zusammenhänge angenommen werden. Wenn hingegen gerichtete Zusammenhänge (Regressionen) spezifiziert werden, so bezeichnet man die Modelle

24

Nomologische Validität liegt vor, wenn die Zusammenhänge zwischen zwei oder mehreren Konstrukten aus theoretischer Sicht im Rahmen eines sog. nomologischen Netzwerkes theoretisch fundiert werden können (Weiber & Mühlhaus, 2014, S. 161).

140

7 Methode

häufig als latente Regressionsanalysen bzw. als latenten Pfadanalysen, sofern mehrere latente endogene Variablen betrachtet werden (Geiser, 2011). Die Nutzung von Strukturgleichungsmodellen zur Analyse komplexer Zusammenhänge bringt gegenüber herkömmlicher Rechenverfahren einige Vorteile mit sich. Ein zentraler Vorteil besteht in der Verwendung latenter Variablen. Dies ermöglicht bei der Datenanalyse die statistisch angemessene Berücksichtigung von Messfehlern in den beobachteten Variablen. Messfehler werden gleichzeitig mit der Schätzung des Strukturmodells herausgerechnet (Weiber & Mühlhaus, 2014, S. 7; Backhaus, Erichson & Weiber, 2015). Dadurch lassen sich die Zusammenhänge im Strukturmodell korrekter schätzen als beispielsweise in Korrelations-, Regressions- oder Pfadanalysen, die ausschließlich auf der Betrachtung beobachteter (fehlerbehafteter) Variablen beruhen (Geiser, 2011). Darüber hinaus bieten Strukturgleichungsmodelle die Möglichkeit, komplexe Theorien über Zusammenhangsstrukturen zwischen Variablen einer empirischen Prüfung (Modelltestung) zu unterziehen. Dabei ist es auch möglich, verschiedene konkurrierende Modelle statistisch miteinander zu vergleichen. Durch die hohe Flexibilität sind Strukturgleichungsmodelle zur Auswertung einer Vielzahl komplexer Fragestellungen geeignet (Geiser, 2011). Allgemeines Vorgehen Die Durchführung der Strukturgleichungsanalysen (SGA) orientiert sich an dem von Weiber und Mühlhaus (2014, S. 86) empfohlenen Vorgehen: 1. Hypothesen- und Modellbildung (vgl. Kapitel 5) 2.

Konstrukt-Konzeptualisierung (vgl. Kapitel 2.3)

3.

Konstrukt-Operationalisierung (vgl. Kapitel 7.2.1)

4.

Güteprüfung reflektiver Messmodelle (vgl. Kapitel 7.1)

5.

Modellschätzung (vgl. Kapitel 7.3)

6.

Evaluation des Gesamtmodells (vgl. Kapitel 7.3)

7.

Ergebnisinterpretation (vgl. Kapitel 7.3)

Die Schritte 1 bis 4 sind als ‚Vorarbeiten‘ zur Formulierung eines empirisch testbaren Hypothesensystems anzusehen und wurden im Theorie- und Methodenteil der Arbeit abgebildet. Die Schritte 5 bis 7 bilden die eigentliche empirische Analyse mit Hilfe der SGA und werden im Ergebnisteil (Kapitel 7.3) berichtet. Die Evaluation eines Strukturgleichungsmodells (6.) kann sich grundsätzlich auf die

7.4 Auswertungsmethoden

141

Beurteilung von Teilstrukturen und auf die Beurteilung des Gesamtmodells beziehen und erfolgt in der vorliegenden Arbeit anhand von Gütekriterien und der vergleichenden Evaluation alternativer Modelle. Zur Beurteilung der Güte eines Strukturgleichungsmodells können verschiedene Kennwerte herangezogen werden. Insgesamt ist eine hohe Güte des Strukturgleichungsmodells (sog. Modell-Fit) dann gegeben, wenn die mit Hilfe der Parameterschätzer berechneten Varianzen und Kovarianzen möglichst gut mit den empirisch gewonnenen Varianzen und Kovarianzen übereinstimmen. Unterscheiden lassen sich Inferenzstatistische Gütekriterien, die statistische Tests des ModellFits darstellen und deskriptive Gütekriterien, die auf Erfahrung bzw. Simulationsstudien beruhen und die Annahme eines Modells an sog. Cutoff-Kriterien (Faustregeln) festmachen (Weiber & Mühlhaus, 2014). Ein zentrales inferenzstatistisches Gütekriterium bildet der Chi-Quadrat-Test. Dieser ist allerdings vorsichtig zu interpretieren und an eine Reihe von Voraussetzungen geknüpft, welche bei praktischen Anwendungen jedoch häufig nicht erfüllt werden, weshalb die χ²-Statistik nur bedingt zur Modellevaluation verwendet werden sollte (Kline, 2010). Es wird empfohlen, den Chi-Quadrat-Wert nur als deskriptives Gütekriterium zu interpretieren und mit den Freiheitsgraden ins Verhältnis zu setzen (χ²/d.f.), sofern die Voraussetzungen der Chi-Quadrat-Teststatistik nicht erfüllt sind (Weiber & Mühlhaus, 2014). Gemäß Homburg und Giering (1996, 13) sollte der χ²/df-Wert kleiner gleich 3 sein (Weiber & Mühlhaus, 2014, S. 222). Der RMSEA (Root-Mean-Square-Error of Approximation) ist ebenfalls ein inferenzstatistisches Maß und prüft, ob ein Modell die Realität gut approximieren (annähern) kann und ist damit weniger streng formuliert als der χ²-Test, der die „Richtigkeit“ eines Modells prüft. Der RMSEA sollte laut Weiber und Mühlhaus (2014) unter Rückgriff auf Browne und Cudeck (1993) einen Wert kleiner gleich 0.05 bzw. 0.08 annehmen. Ein absolutes (deskriptives) Fit-Maß ist der Standardized Root Mean Square Residual (SRMR), welches in jedem Fall zur Modellevaluation herangezogen werden sollte. Der SRMR zeigt den Mittelwert für die Abweichung der beobachteten und geschätzten Korrelationen an, wobei ein Wert von Null einen perfekten ModellFit anzeigt, während größere Werte einen zunehmend schlechteren Fit bedeuten (Christ & Schlüter, 2012). In der Literatur gelten Modelle mit einem SRMR kleiner gleich 0.10 als akzeptabel (Weiber & Mühlhaus, 2014, S. 210). Der CFI (Comparative Fit Index) und der TLI (Tucker Lewis Index) stellen inkrementelle Fit-Indizes dar, die anzeigen, in welchem Ausmaß das postulierte Modell eine bessere Datenanpassung aufweist als ein Unabhängigkeitsmodell, in dem definitionsgemäß keine Zusammenhänge zwischen den manifesten Variablen bestehen (Christ & Schlüter, 2012). Als Schwellenwert für einen guten Modellfit gilt

142

7 Methode

ein Wert größer gleich 0.9 (Weiber & Mühlhaus, 2014). Der CFI von Bentler (1990) berücksichtigt Verteilungsverzerrungen und ist im Gegensatz zum TLI auf das Intervall [0;1] normiert (Weiber & Mühlhaus, 2014, 215f.). In der Vergangenheit wurden häufig der GFI (Goodness-of-Fit-Index) und der AGFI (Adjusted-Goodness-of-Fit-Index) als Goodness-of-Fit-Maße zur Beurteilung des Modell-Fits herangezogen. Aufgrund von aktuellen Simulationsstudien wird die Leistungsfähigkeit des GFI und aller aufbauenden Maße allerdings in Frage gestellt, sodass von deren Verwendung mittlerweile abgeraten wird (Weiber & Mühlhaus, 2014). Aufgrund der Vielzahl an Gütemaßen untersuchten Hu und Bentler (1999) in einer Simulationsstudie, welche Kombinationen an Gütemaßen unter verschiedenen Bedingungen besonders gute Eigenschaften bei der Identifikation ungeeigneter Modelle aufweisen. Dabei erweist sich die gemeinsame Anwendung von TLI, IFI, RNI oder CFI in Verbindung mit dem SRMR über die gesamte Studie hinweg als die beste Kombination. Auch bei großen Stichproben (n > 250) wird die Verwendung von TLI oder CFI und SRMR empfohlen. Im Rahmen der vorliegenden Arbeit wird daher immer der SRMR und der CFI berichtet und primär für die Güteprüfung herangezogen. Ergänzend werden der χ²-Test und der RMSEA als inferenzstatistische Gütekriterien sowie der χ²/d.f.-Wert angeführt. Nachfolgend werden in Tabelle 7 die verwendeten Schwellenwerte zur Beurteilung des Gesamtfits eines Modells unter Rückgriff auf Weiber und Mühlhaus (2014) dargestellt. Tabelle 7: Gütemaße zur Beurteilung des Gesamtfits eines Modells Kriterium Schwellenwert Quellen Inferenzstatistische Gütekriterien RMSEA ≤ 0,05-0,08 Browne und Cudeck (1993) (deskriptive) absolute Fit-Indizes χ²/d.f. ≤3 Homburg und Giering (1996, S. 16) SRMR ≤ 0,10 Homburg, Klarmann und Pflesser (2008, S. 288) Inkrementelle Fitmaße zum Modellvergleich (Default – Independence Model) CFI ≥ 0,90 Homburg und Baumgartner (1995, S. 172)

Will man alternative Modelle, die durch eine unterschiedliche Zahl an latenten Variablen und Modellparametern gekennzeichnet sind, vergleichend evaluieren (Kapitel 7.3.1), dann sollten sogenannte Informationskriterien herangezogen werden. Diese berücksichtigen neben der Anpassung des Modells auch die Modellparameter sowie die Stichprobengröße (Weiber & Mühlhaus, 2014, S. 219). Häufig Anwendung findet das AIC (Akaike Information Criterion) und das BIC (Bayes Information Criterion). Beim AIC wird der ² Wert so mit den zu schätzenden

7.4 Auswertungsmethoden

143

Parametern in Beziehung gesetzt, dass die Modellkomplexität „bestrafend“ wirkt (Weiber & Mühlhaus, 2014, S. 219). Beim BIC wird zusätzlich die Stichprobengröße berücksichtigt, womit hier die Modellkomplexität stärker berücksichtigt wird als beim AIC (Weiber & Mühlhaus, 2014, S. 219). Da die Informationskriterien in erster Linie dem Vergleich von Modellalternativen dienen, existieren hier keine Schwellenwerte. Es sollte immer das Modell mit den geringsten Werten bevorzugt werden. Im Rahmen der Ergebnisinterpretation (7.) eines Strukturgleichungsmodells sind die Parameterschätzungen auf Bedeutsamkeit sowie Hypothesenkonformität zu prüfen und die „kausalen Effekte“ zu analysieren (Weiber & Mühlhaus, 2014, S. 219). Vorbereitend sollte eine Plausibilitätsprüfung durchgeführt werden. Parameterschätzungen gelten als „unplausibel“, wenn negative Varianzen, Kommunalitäten > 1 oder Korrelationen > 1 auftreten (Weiber & Mühlhaus, 2014, S. 219). Solche sogenannten Heywood Cases (Chen, Bollen, Paxton, Curran & Kirby, 2001) „sind häufig das Ergebnis der Nichterfüllung von Voraussetzungen der gewählten Schätzmethodik, kleiner Stichproben oder „schlechter“ Startwerte bei der Schätzung“ (Weiber & Mühlhaus, 2014, S. 219). Im Falle des Auftretens von Heywood Cases sollten mögliche Ursachen gründlich untersucht werden (Chen et al., 2001; Geiser, 2011). Für die Prüfung der Hypothesen werden zunächst die Vorzeichen der Pfadkoeffizienten mit den theoretisch aufgestellten Hypothesen verglichen, um zu prüfen, ob diese der unterstellten Wirkrichtung entsprechen. Hinsichtlich der Höhe der Effekte wird Chin (1998a, S. 8) gefolgt, dem gemäß nur standardisierte Regressionsgewichte größer 0.2 als „bedeutungsvoll“ anzusehen sind. Da für die Interpretation der R²-Werte (quadrierte multiple Korrelation) bei Strukturgleichungsmodellen keine Empfehlungen vorliegen, wird gemäß Weiber und Mühlhaus (2014, S. 230) auf die Richtwerte für PLS-Modelle (Chin, 1998b) zurückgegriffen, wonach diese ab 0.33 als moderat und ab 0.66 als substanziell eingestuft werden. Konfirmatorische Faktorenanalyse Konfirmatorische Faktorenanalyse erster Ordnung Die Untersuchung der Zusammenhänge zwischen den Assessment-Faktoren (Hypothese 1) soll mittels konfirmatorischer Faktorenanalyse erster Ordnung realisiert werden. Die konfirmatorische Faktorenanalyse (KFA) kann als Spezialfall des allgemeinen Strukturgleichungsmodells angesehen werden, wobei zwischen den latenten Variablen keine oder ungerichtete Zusammenhänge angenommen werden (Geiser, 2011) (Abbildung 4). Die Entwicklung des konfirmatorischen Faktoren-

144

7 Methode

modells ist maßgeblich durch Jöreskog (1969, 1973) auf Basis der Maximum-Likelihood-Methode (ML) entwickelt worden. Das Kernanliegen der konfirmatorischen Faktorenanalyse besteht in der Operationalisierung hypothetischer Konstrukte (latenter Variablen) (wie z.B. Motivation, Intelligenz, Zufriedenheit). Um hypothetische Konstrukte auf empirischer Ebene erfassen zu können, müssen diese über geeignete Messmodelle operationalisiert werden. Die konfirmatorische Faktorenanalyse basiert i.d.R. auf einem reflektiven Messmodell, wobei die Indikatorvariablen so definiert werden, dass ihre Messwerte beispielhafte Manifestierungen des betrachteten hypothetischen Konstruktes darstellen. Das Konstrukt muss sich durch die Indikatoren jeweils in seiner Gesamtheit möglichst gut abbilden lassen, weshalb mehrere Indikatorvariablen für ein hypothetisches Konstrukt definiert werden (Backhaus, Erichson, Weiber & Plinke, 2016).

Abbildung 4: Konfirmatorische Faktorenanalyse erster Ordnung Die konfirmatorische Faktorenanalyse basiert ebenso wie die explorative Faktorenanalyse (EFA) auf dem Fundamentaltheorem der Faktorenanalyse (Backhaus et al., 2016). Der zentrale Unterschied zwischen der explorativen und der konfirmatorischen Faktorenanalyse besteht darin, dass bei der explorativen Faktorenanalyse die Zuordnung von Ausgangsvariablen zu Faktoren sowie die Anzahl der zu extrahierenden Faktoren das Ergebnis der Faktorenanalyse ist, womit die explorative Faktorenanalyse klassischerweise als struktur-entdeckendes Verfahren gilt. Bei der konfirmatorischen Faktorenanalyse werden sowohl die Zuordnung der Indikatorvariablen zu Faktoren als auch die Anzahl der Faktoren vorab durch den Anwender aufgrund von sachlogischen und theoretischen Überlegungen festgelegt. Entsprechend ist die konfirmatorische Faktorenanalyse den struktur-prü-

7.4 Auswertungsmethoden

145

fenden Verfahren zuzuordnen und bildet die Basis für die Formulierung von Messmodellen im Rahmen von Strukturgleichungsmodellen (Backhaus et al., 2016). Bezüglich der Frage, mit wievielen Modellierungsschritten ein Strukturmodell entwickelt und erfolgreich überprüft werden kann, gibt Reinecke (2014) einen Überblick und unterscheidet zwischen drei Strategien. Dabei empfiehlt er insbesondere für Modelle, bei denen sich die Messinstrumente nicht immer eindeutig auf eine angenommene Anzahl latenter Variablen reduzieren lassen die „four-step Strategie“ (Mulaik & Millsap, 2000). Hier wird vor der Überprüfung der Messmodelle ein exploratorischer Untersuchungsschritt vorangestellt, mit dem die Anzahl der latenten Variablen eingegrenzt wird. Die EFA kann hier der Prüfung der Eindimensionalität der Itemstruktur (Weiber & Mühlhaus, 2014) und der Identifikation von manifesten Variablen, die nicht wie beabsichtigt auf den latenten Variablen laden oder substanzielle Nebenladungen aufweisen, dienen (Christ & Schlüter, 2012). Anschließend werden alle Messmodelle durch konfirmatorische Faktorenanalysen geprüft und erst, wenn hier zufriedenstellende Ergebnisse erreicht werden, kann im dritten Schritt das Strukturmodell spezifiziert und getestet werden. Der vierte Schritt zielt schließlich auf eine sparsamere, mit den theoretischen Überlegungen übereinstimmende Modellierung ab (Reinecke, 2014). In der vorliegenden Arbeit wird das four-step-Vorgehen gewählt, weshalb die explorative Faktorenanalyse als vorbereitender Schritt im Rahmen der Strukturgleichungsanalyse durchgeführt wird (vgl. Kapitel 7.4.2). Die konfirmatorische Faktorenanalyse wird durchgeführt, um die Beziehungen der Assessment-Konstrukte untereinander zu analysieren. Weiterhin werden die Gütekriterien der zweiten Generation aus der konfirmatorischen Faktorenanalyse abgeleitet. Um zu prüfen, ob ein übergeordneter Faktor zweiter Ordnung vorliegt (Hypothese 2), wird eine konfirmatorische Faktorenanalyse zweiter Ordnung durchgeführt. Konfirmatorische Faktorenanalyse zweiter Ordnung Die konfirmatorische Faktorenanalyse zweiter Ordnung (auch Second-Order-Faktorenanalyse, SFA) stellt einen Spezialfall der konfirmatorischen Faktorenanalyse dar. Die Grundlagen der konfirmatorischen Faktorenanalyse zweiter Ordnung als Möglichkeit zur empirischen Analyse mehrdimensionaler reflektiver Konstrukte gehen ebenfalls auf Jöreskog (1970) zurück, dessen theoretische Basis von Gerbing und Anderson (1984) sowie Rindskopf und Rose (1988) weiterentwickelt wurden. Ein bekanntes Konstrukt aus der Sozialpsychologie stellt das Einstellungskonstrukt von Rosenberg und Hovland (1960) dar, welches sich aus kognitiven, affektiven und Verhaltens-Komponenten zusammensetzt und sich als Faktorenmodell höherer Ordnung spezifizieren und überprüfen lässt (Reinecke, 2014, S. 156). Gegenüber einem unidimensionalen Konstrukt erlaubt ein mehrdimensionales Konstrukt eine konzeptionelle Differenzierung, wobei die Entscheidung,

146

7 Methode

ein theoretisches Konstrukt unidimensional oder mehrdimensional darzustellen letztlich davon abhängt, wie differenziert ein Sachverhalt im Rahmen eines Forschungsvorhabens erfasst werden soll (Giere, Wirtz & Schilke, 2006, S. 679). Hinsichtlich der Frage nach dem Nutzen mehrdimensionaler Konstrukte existieren kontroverse Positionen. Befürworter argumentieren u.a., dass mehrdimensionale Konstrukte theoretisch besonders nützlich seien, da sie eine holistische Abbildung komplexer Phänomene und somit Fortschritte in der Theorieentwicklung ermöglichen (Roznowski & Hanisch, 1990; Ones & Viswesvaran, 1996, Edwards, 2001). Weiterhin erlauben mehrdimensionale Konstrukte, Kovarianzen unter den Konstrukten erster Ordnung zu erklären und damit die erklärte Varianz in den Dimensionen zu erhöhen (Giere et al., 2006, S. 678). Kritikern zufolge „seien mehrdimensionale Modelle konzeptionell mehrdeutig und täuschten über Beziehungen zu anderen Variablen hinweg, die eigentlich nur für einzelne Dimensionen gelten. Darüber hinaus könnten sie insgesamt nur weniger Varianz erklären als ihre Dimensionen zusammengenommen“ (Giere et al., 2006, S. 678). Laut Giere et al. sollte es daher Zielsetzung des Forschers sein, „die Breite und Reichhaltigkeit mehrdimensionaler Konstrukte mit der Klarheit und Präzision einzelner Dimensionen in einem integrativen Konzept zu vereinen“ (2006, S. 679). Die konfirmatorische Faktorenanalyse zweiter Ordnung dient der Analyse reflektiver mehrdimensionaler Modelle, wobei davon ausgegangen wird, „dass die Beziehungen zwischen den Konstrukten 1. Ordnung durch die Existenz eines oder mehrerer übergeordneter Konstrukte erklärbar sind, die selbst keine direkte Verbindung zu den Indikatorvariablen aufweisen“ (Giere et al., 2006, S. 686). Während bei der konfirmatorischen Faktorenanalyse erster Ordnung Beziehungen lediglich als Korrelationen spezifiziert werden, wird bei der Faktorenanalyse zweiter Ordnung angenommen, dass die Interkorrelationen zwischen den Konstrukten erster Ordnung auf einen oder mehrere übergeordnete Faktoren zurückzuführen sind (Giere et al., 2006, S. 686) (Abbildung 5). Damit ermöglicht die konfirmatorische Faktorenanalyse höherer Ordnung die empirische Überprüfung einer hierarchischen Beziehungsstruktur zwischen beobachteten Variablen, Konstrukten erster Ordnung und Konstrukten zweiter Ordnung (Giere et al., 2006, S. 686).

7.4 Auswertungsmethoden

147

Abbildung 5: Konfirmatorische Faktorenanalyse zweiter Ordnung Die Ablaufschritte einer SFA entsprechen ebenso wie die der KFA dem allgemeinen Prozess der Strukturgleichungsmodellierung (Kapitel 7.4.4). Bei der SFA kommen allerdings zusätzliche Arbeitsschritte zur Prüfung der Zweckmäßigkeit einer SFA hinzu, wobei insbesondere ein Vergleich zu einer KFA mit den Konstrukten erster Ordnung gezogen wird (Weiber & Mühlhaus, 2014, S. 278). Weiterhin ist eine Examination der Kovarianzen und Korrelationen zwischen den Konstrukten erster Ordnung vorzunehmen, die nach Brown, T. A. (2006, S. 323) signifikant von Null verschieden sein und ähnlich hoch ausfallen sollten. Laut Chin (1998a, S. 10) sollten die Faktorladungen im SFA-Modell über .70 liegen. Bei der Modellschätzung ist weiterhin darauf zu achten, dass mindestens drei Konstrukte erster Ordnung verfügbar sind, da ansonsten keine sinnvolle Schätzung möglich ist (Weiber & Mühlhaus, 2014, S. 279; Geiser, 2011, S. 55). Bei der Evaluation des Gesamtmodells wird zunächst eine absolute Beurteilung anhand der allgemeinen Cut-Off-Werte vorgenommen (vgl. Kapitel 7.4.4). Zusätzlich wird das Modell mit dem KFA-Modell mit den Konstrukten erster Ordnung verglichen. In der Regel liefert eine KFA mit den Einzelkonstrukten aufgrund der größeren Zahl an freien Parametern die bessere Lösung (Weiber & Mühlhaus, 2014, S. 279). Um zu prüfen, ob das SFA-Modell im Vergleich zum KFA-Modells geeigneter ist, sind die Informationskriterien BIC und AIC heranzuziehen (vgl. Kapitel 7.4.4). Anschließend sollte eine Evaluation der Effekte im nomologischen Netz mit anderen Konstrukten erfolgen, wobei das Konstrukt

148

7 Methode

zweiter Ordnung mit anderen Konstrukten theoretisch plausible Beziehungen eingehen sollte und eine höhere Prognoserelevanz als die einzelnen Konstrukte erster Ordnung zeigen sollte (Weiber & Mühlhaus, 2014, S. 279). Multiple latente Regressionsanalysen Zur Bearbeitung des vierten Untersuchungsschwerpunktes, in welchem Zusammenhänge mit weiteren unabhängigen Variablen analysiert werden sollen, werden multiple latente Regressionsanalysen durchgeführt. Strukturgleichungsmodelle mit latenten Variablen ermöglichen die Spezifikation von Regressionen auf latenter Ebene, d.h. zwischen messfehlerbereinigten, latenten Variablen. Dies hat gemäß Geiser (2011) den Vorteil, dass Messfehler explizit berücksichtigt werden und auch Schätzungen der Reliabilitäten der beobachteten Variablen erhältlich sind. Die Berücksichtigung von Messfehlern führt dazu, dass die Parameter der Regression präziser geschätzt werden als in manifesten Regressionsanalysen. Entsprechend ist die Nutzung von latenten Regressionsanalysen bei der Untersuchung von Zusammenhängen zwischen latenten Konstrukten gegenüber einer Behandlung dieser Konstrukte als manifeste Variablen, vorzuziehen. Von einer multiplen Regressionsanalyse ist generell dann zu sprechen, wenn gleichzeitig der Einfluss mehrerer unabhängiger Variablen ermittelt wird (Urban & Mayerl, 2011) (Abbildung 6). Dies ist insofern sinnvoll, als dass die meisten theoretischen Modelle in der Regel mehr als nur eine unabhängige Variable umfassen. Nach Urban und Mayerl (2011) können die in der multivariaten Regressionsanalyse aufgestellten Modelle theoriegerechter aufgestellt und empirisch überprüft werden. Weiterhin kann die Einflussstärke jeder x-Variable (relativ) unabhängig vom gleichzeitigen Einfluss aller weiteren Variablen geschätzt werden, indem Effekte kontrolliert werden. Für die multiple latente Regressionsanalyse gelten die gleichen Voraussetzungen wie für manifeste multiple lineare Regressionsanalysen (Fromm, 2012).

7.4 Auswertungsmethoden

149

Abbildung 6: Strukturgleichungsmodell einer multiplen latenten Regressionsanalyse Latente Profilanalysen Zur Bearbeitung des fünften Untersuchungsschwerpunktes, welcher die Identifikation von Subgruppen in der Befragungspopulation umfasst, werden Latente Profilanalysen (LPA) durchgeführt. Im Gegensatz zum variablen-zentrierten Zugang der konfirmatorischen Faktorenanalyse und Regressionsanalyse fokussiert die LPA darauf, Fälle basierend auf den Antwortmustern zu gruppieren, und stellt damit einen personen-zentrierten Zugang dar (Wang & Wang, 2012). Die Latente-Profil-Analyse und die Latente-Klassen-Analyse (LCA) stellen Techniken dar, die zur Identifikation unbekannter Gruppen aus den beobachteten Daten dienen (Oberski, 2015). Dabei werden Zusammenhänge zwischen den Items durch das Vorhandensein von vorher unbekannten Subpopulationen erklärt (Geiser, 2011, S. 236). Während bei der LCA mit kategorialen Variablen gearbeitet wird, werden für die LPA kontinuierliche Variablen herangezogen (Oberski, 2015). Mögliche Ziele der LCA/LPA bestehen in der Bestimmung der Anzahl an latenten Klassen, die nötig ist, um Unterschiede in den Antwortmustern zufriedenstellend und inhaltlich bedeutsam erklären zu können (wobei das Modell möglichst sparsam sein sollte), in der Bestimmung der Zuverlässigkeit der Klassifikation auf Basis der gewählten Klassenlösung sowie in der Analyse von Zusammenhängen zwischen Klassenzugehörigkeit und externen Variablen (Geiser, 2011). Latente Profilanalysen sind eine Form der probabilistischen Cluster-Verfahren, die gegenüber klassischen deterministischen Cluster-Verfahren einige Vorteile mitbringen. So sind latente Profilanalysen flexibler, da sie auf einem Datenmodell basieren (Oberski, 2015, S. 1). Im Unterschied zur Clusteranalyse werden bei der LCA/LPA Verteilungsannahmen bezüglich der Klassifikationsmerkmale innerhalb jeder Klasse getroffen. Diese Verteilungsannahmen haben den Vorteil, „dass

150

7 Methode

zur Bestimmung der Zahl der latenten Klassen formal besser abgesicherte Maßzahlen verfügbar sind als bei der Clusteranalyse, wo die Bestimmung der Clusterzahl ein nach wie vor weitgehend ungelöstes Problem ist“ (Bacher & Vermunt, 2010, S. 554). Die Anzahl der extrahierten Klassen ist also kein im Modell zu schätzender Parameter, sondern wird über Modellvergleiche bestimmt. Dabei werden Modelle mit unterschiedlichen Klassenzahlen auf denselben Datensatz angepasst. Mittels statistischer Indices wird die Datenanpassung der Modelle miteinander verglichen und das Modell mit der besten Datenanpassung ausgewählt (Geiser, 2011). Ein weiterer Vorteil besteht darin, dass Clustermittelwerte unverzerrter geschätzt werden als bei deterministischen Verfahren (Bacher, Pöge & Wenzig, 2011, S. 465). Modellspezifikation Die Spezifikation von LCA/LPA-Modellen erfolgt in Mplus über das Modul zu Analyse von Mischverteilungsmodellen. Nach der Analyse der Loglikelihoodwerte zur Vermeidung von lokalen Likelihood-Maxima (Geiser 2011) wird die Größe der Klassen analysiert und das Entropy-Maß betrachtet, welches ein Globalmaß für die Zuverlässigkeit der Klassifikation eines LCA-Modells darstellt. Gemäß Geiser (2011, S. 270) sprechen Werte nahe Eins für eine insgesamt hohe Sicherheit der Klassifikation, während Werte nahe Null eine hohe Unsicherheit anzeigen. Ein weiteres Maß für die Zuverlässigkeit der Klassifikation ist die mittlere Klassenzuordnungswahrscheinlichkeit, welche für jede Klasse möglichst > 0.80 (Rost, 2006) ausfallen sollte. Modellgütebeurteilung und Modellvergleich Da häufig keine Theorie über die Anzahl der notwendigen Klassen vorliegt und die Anzahl der benötigten Klassen kein Modellparameter des latenten Profil-Modells ist, muss indirekt über Modellvergleiche auf die adäquate Anzahl von Klassen geschlossen werden. Zur Auswahl gibt es verschiedene Kriterien, wobei zwischen Indikatoren für den absoluten Modellfit und Indikatoren für den relativen Modellfit unterschieden wird (Geiser, 2011). Der absolute Modellfit gibt Auskunft darüber, inwieweit eine Klassenlösung die beobachteten Daten adäquat reproduzieren kann. Dies wird in Mplus über den Likelihood-Ratio-Test sowie über den Pearson-²-Test überprüft. Ein signifikanter Wert des Likelihood-Ratio- oder des Pearson-²-Tests signalisiert eine statistisch bedeutsame Abweichung zwischen beobachteten und modellimpliziten Patternhäufigkeiten. Da diese Werte jedoch nur bei großen Stichproben und geringer Itemzahl tatsächlich der ²-Verteilung folgen, diese asymptotischen Bedingungen

7.4 Auswertungsmethoden

151

in der Praxis aber oft nicht erfüllt werden („sparse data“), fallen die p-Werte entsprechend nicht korrekt aus, weshalb von diesen Tests in der vorliegenden Arbeit Abstand genommen wird. Aufgrund der Schwierigkeiten mit der Verwendung der Likelihood-Ratio- und Pearson-²-Statistik empfiehlt Geiser (2011) eine Betrachtung des relativen Fits einer Klassenlösung im Vergleich zu anderen Modellen mit mehr oder weniger Klassen. Hierfür stehen der Bootstrap-Likelihood-Ratio-Differenztest (BLRT) und der Vuon-Lo-Mendell-Rubin-Test (VLMR) zur Verfügung, sowie informationstheoretische Maße wie der AIC, BIC und sample size adjusted BIC. Mittels Bootstrap-Likelihood-Ratio-Differenztest kann ein Modell gegen ein Modell mit einer Klasse weniger getestet werden (Geiser, 2011, S. 265). Hierbei zeigt ein signifikanter Wert an, dass das Modell signifikant besser auf die Daten passt als das sparsamere Modell mit einer Klasse weniger und daher bevorzugt werden sollte. Der Vuong-Lo-Mendell-Rubin-Test basiert auf einem ähnlichen Prinzip wie der Likelihood-Ratio-²-Differenztest, wobei ein signifikanter Wert anzeigt, dass das geschätzte Modell signifikant besser passt als ein Modell mit einer Klasse weniger. Sollten die beiden Tests zu unterschiedlichen Ergebnissen kommen, so kann unter Rückgriff auf die Simulationsstudie von Nylund, Asparouhov und Muthén (2007) davon ausgegangen werden, dass der Bootstrap-Likelihood-Ratio-Test ein besserer Indikator für die adäquate Anzahl der latenten Klassen ist als der VLMR-Test, weshalb für die Praxis der Bootstrap-Likelihood-Ratio-Test empfohlen wird (Geiser, 2011). Die deskriptiven informationstheoretischen Maße berücksichtigen sowohl die Güte der Anpassung des Modells an die Daten als auch die Modellsparsamkeit. Beim Modellvergleich wird das Modell bevorzugt, welches den kleinsten AIC-, BIC- oder sample size adjusted BIC (aBIC)-Wert aufweist. Neben der Verwendung des Bootstrap-Likelihood-Ratio-Differenztests wird von Nylund et al. (2007) insbesondere die Verwendung des BIC-Index zur Bestimmung der Anzahl latenter Klassen empfohlen (Geiser, 2011). Insgesamt sollte abgesehen von diesen statistischen Kriterien bei der Beurteilung der Modellgüte immer auch die Interpretierbarkeit der Lösung eine Rolle spielen (Geiser, 2011)

8 8.1

Ergebnisse Güteprüfung der Messmodelle

Da bislang kein Instrument vorliegt, welches die formative Assessment-Praxis an Grundschulen umfänglich erfasst, wurde ein Fragebogen für Grundschullehrkräfte entwickelt und pilotiert (vgl. Kapitel 6.2). Zur Analyse des zweiten Untersuchungsschwerpunktes werden die Skalen des Fragebogeninstrumentes aus der Hauptuntersuchung einer Reliabilitätsprüfung mittels der Gütekriterien der ersten Generation unterzogen (Kapitel 8.1.1). Anschließend erfolgt eine Beurteilung der Gütekriterien der zweiten Generation (Kapitel 8.1.2) und die Validitätsprüfung (Kapitel 8.1.3). In Kapitel 7.1.4 werden die internen Konsistenzen der endgültigen Skalen berichtet. 8.1.1

Reliabilitätsprüfung mit Hilfe der Gütekriterien der ersten Generation

Zunächst werden in Anlehnung an Weiber und Mühlhaus (2014) die reflektiven Messmodelle mit Hilfe der Gütekriterien der ersten Generation im Rahmen der Hauptuntersuchung überprüft. Dabei erfolgt zuerst eine explorative Faktorenanalyse mit allen Indikatorensets der betrachteten Assessment-Konstrukte gleichzeitig, um die theoretisch angenommenen Beziehungen der Indikatoren zu ihren zugeordneten Konstrukten prüfen zu können. Anschließend wird ebenfalls mittels explorativer Faktorenanalyse die Eindimensionalität der Itemstruktur überprüft. Das KMO-Kriterium wird mit .826 erfüllt und der Bartlett-Test wird abgelehnt (Anhang H). Die variablenspezifischen MSA-Werte weisen auf hinreichende Korrelationen der reflektiven Messindikatoren hin. Die Kommunalitäten einzelner Items liegen teilweise unter 0.5, was bei der Prüfung der Eindimensionalität der einzelnen Konstrukte berücksichtigt wird. Die Mustermatrix (Anhang H) zeigt, dass zunächst 13 Faktoren abgebildet werden können. Auf den Faktor 14 laden nur zwei Items mit Nebenladung. Eine erste inhaltliche Analyse der Ladungsmuster zeigt, dass die Items zu den Strategien pädagogische Nutzung, Self- und Peer-Assessment, Feedback-Fragen, Unterrichtsgespräch, Schüleraktivierung, Lernzielorientierung, Beurteilungskriterien, Strategievermittlung und Feedback-Ebenen weitestgehend erwartungsgemäß jeweils auf einen Faktor laden. Auf zwei Faktoren mit überwiegend Items zu diagnostischen Methoden laden auch Items der Schüleraktivierung, Prozessorientierung und pädagogischen Nutzung. Weiterhin liegt ein Mischfaktor aus Items verschiedener Strategien (SO, DM, NU) vor, allerdings mit eher geringen Faktorladungen. Die Items zur Prozessorientierung fallen der pädagogischen Nutzung sowie den

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0_8

154

8 Ergebnisse

diagnostischen Methoden zu und bilden somit keinen eigenständigen Faktor. Einzelne Items weisen Nebenladungen auf andere Faktoren auf. Die genaue Zuordnung der Items zu den Faktoren wird zur besseren Übersicht zusammen mit der Prüfung auf Eindimensionalität im nächsten Schritt berichtet. Prüfung der Eindimensionalität mittels der explorativen Faktorenanalyse Nach der Prüfung der Beziehungen der Indikatoren zu den zugewiesenen Konstrukten erfolgt die Prüfung der Eindimensionalität der einzelnen Faktoren. Items, die aufgrund der Analysekriterien entfernt werden, sind in den nachfolgenden Tabellen grau hinterlegt. Faktor 1 – Pädagogische Nutzung diagnostischer Information (NU) In der gemeinsamen Faktorenanalyse aller Konstrukte laden die Items NU9, NU7, NU8, NU10, NU11, NU6, NU1, NU5, PO7 und PO4 auf den ersten Faktor. Bei der Prüfung auf Eindimensionalität zeigt sich eine einfaktorielle Lösung. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Das Item PO4 wird aufgrund der geringen Kommunalität ausgeschlossen. Die MSA-Werte liegen über 0,5. Da mit einer Ausnahme Items des theoretischen Konstrukts „Pädagogische Nutzung diagnostischer Informationen“ auf den Faktor 1 laden, wird diese Bezeichnung für den Faktor gewählt. Tabelle 8: KMO- und Bartlett-Test des ersten Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df Signifikanz nach Bartlett

.891 997.787 45 .000

8.1 Güteprüfung der Messmodelle

155

Tabelle 9: MSA-Werte, Kommunalitäten und Faktorladungen des ersten Faktors NU9 NU7 NU8 NU10 NU11 NU6 NU1 NU5 PO7 PO4 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .884a .889a .886a .899a .873a .873a .923a .915a .889a .915a

Kommunalität .577 .553 .577 .592 .487 .354 .384 .292 .289 .163

Faktor 1 .760 .744 .759 .770 .698 .595 .620 .540 .537 .404 4.269 43 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 2 – Formelle diagnostische Methoden (DM) In der gemeinsamen Faktorenanalyse aller Konstrukte laden die Items PO1, DM1, DM5, DM9, SO19, DM2, SO15, PO6, PO2 und NU4 auf den zweiten Faktor. Die Items SO19, DM2, PO6, PO2 und SO23 werden aufgrund der hohen Nebenladungen entfernt. Mit den verbleibenden Items PO1, DM1, DM5, DM9, SO15, NU4 wird eine einfaktorielle Lösung erzielt. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Das Item NU4 wird aufgrund der geringen Kommunalität ausgeschlossen. Die MSA-Werte liegen über 0.5. Da überwiegend Items, welche eher formelle diagnostische Methoden (Portfolio, Tests) abbilden, auf den zweiten Faktor laden und auch die anderen Items (PO1: Kompetenzraster, SO15: Lerntagebuch) inhaltlich passend zugeordnet werden können, wird der Faktor im Folgenden als „Formelle diagnostische Methoden“ bezeichnet.

156

8 Ergebnisse

Tabelle 10: KMO- und Bartlett-Test des zweiten Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

.802 997.787 45 .000

Tabelle 11: MSA-Werte, Kommunalitäten und Faktorladungen des zweiten Faktors Items PO1 DM1 DM5 DM9 SO15 NU4 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .808a 803a .818a .783a .803a .814a

Kommunalität .462 .484 .418 .579 .454 .163

Faktor 1 .680 .696 .647 .761 .674 .403 2.560 43 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 3 – Self- und Peer-Assessment (SA) Auf den Faktor 3 laden in der gemeinsamen Faktorenanalyse aller Konstrukte die Items SO14, SO16, SO12, SO17, SO10, SO9 und SO13. Die Items SO9 und SO14 werden trotz geringer Nebenladung mit in die Analyse der Eindimensionalität aufgenommen, da sie aus inhaltlichen Gründen für unverzichtbar angesehen werden. Bei der Prüfung auf Eindimensionalität kommt eine einfaktorielle Lösung zustande. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Die Kommunalitäten liegen bei allen Items über 0.2. Die MSA-Werte liegen über 0.5. Der Faktor wird als „Self- und Peer-Assessment“ bezeichnet, da sich alle Items diesem Konstrukt inhaltlich zuordnen lassen.

8.1 Güteprüfung der Messmodelle

157

Tabelle 12: KMO- und Bartlett-Test des dritten Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.836 560.656 21

Signifikanz nach Bartlett

.000

Tabelle 13: MSA-Werte, Kommunalitäten und Faktorladung des dritten Faktors Items SO14 SO16 SO12 SO17 SO10 SO9 SO13 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .810a .848a .871a .817a .830a .876a .795a

Kommunalität .404 .565 .448 .515 .431 .449 .357

Faktor 1 .636 .752 .669 .718 .656 .670 .598 3.170 45 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 4 – Feedback-Fragen (FBF) In der gemeinsamen Faktorenanalyse aller Konstrukte laden die Items FBF2umc, FBF3umc, FBF4umc, FBF5umc, FBF6umc, FBF7 auf den Faktor 4. Bei der Prüfung dieser Items auf Eindimensionalität wird eine einfaktorielle Lösung erzielt. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Alle Items erreichen Kommunalitäten über 0.2 und MSA-Werte über 0.5. Da alle Items dem theoretisch angenommenen Konstrukt „Feedback-Fragen“ angehören, wird der Faktor dementsprechend bezeichnet.

158

8 Ergebnisse

Tabelle 14: KMO- und Bartlett-Test des vierten Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.857 866.059 15

Signifikanz nach Bartlett

.000

Tabelle 15: MSA-Werte, Kommunalitäten und Faktorladungen des vierten Faktors Items FBF2umc FBF3umc FBF4umc FBF5umc FBF6umc FBF7umc Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .868a .900a .826a .863a .848a .852a

Kommunalität .330 .626 .697 .612 .651 .664

Faktor 1 .574 .791 .835 .782 .807 .815 3.579 60 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 5 – Kognitiv aktivierendes Unterrichtsgespräch (UG) In der gemeinsamen Faktorenanalyse aller Konstrukte laden die Items UG3, UG2, UG4, UG1, UG5 und UG6 auf den Faktor 5. Das Item UG6 wird aufgrund der Nebenladung nicht in die weitere Analyse aufgenommen. Bei der Prüfung auf Eindimensionalität laden die Items UG3, UG2, UG4, UG1 und UG5 auf einen Faktor. Der KMO-Test wird erfüllt und der Bartlett-Test wird abgelehnt. Die Kommunalitäten liegen bei allen Items über 0.2 und die MSA-Werte über 0.5. Alle Items gehören dem angenommenen Konstrukt „Kognitiv aktivierendes Unterrichtsgespräch“ an, weshalb diese Bezeichnung für den Faktor gewählt wird.

8.1 Güteprüfung der Messmodelle

159

Tabelle 16: KMO- und Bartlett-Test des fünften Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat

.773 394.933

df

10

Signifikanz nach Bartlett

.000

Tabelle 17: MSA-Werte, Kommunalitäten und Faktorladungen des fünften Faktors Items UG3 UG2 UG4 UG1 UG5 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .731a .818a .731a .830a .830a

Kommunalität .674 .478 .620 .418 .374

Faktor 1 .821 .692 .787 .646 .612 2.564 51 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 6 – Informelle diagnostische Methoden (IDM) In der gemeinsamen Faktorenanalyse aller Konstrukte laden die Items DM8, DM3, DM7, NU12, DM10, NU3 und DM6 auf den Faktor 6. Die Items DM10 und DM6 werden aufgrund der Nebenladung nicht mit in die weitere Analyse aufgenommen. Die Items DM8, DM3, DM7, NU12 und NU3 laden auf einen Faktor. Der KMOTest wird erfüllt und der Bartlett-Test wird abgelehnt. Die MSA-Werte liegen über 0.5 und die Kommunalitäten über 0.2. Auf den Faktor 6 laden drei Items des theoretisch angenommenen Konstrukts „diagnostische Methoden“, welche die Fehleranalyse (DM8) und die Beobachtung bei der Bearbeitung von Aufgaben (DM3, DM7) umfassen. Weiterhin laden die zwei Items NU12 (Kompetenztests) 25 und NU3 (Ableitung individueller Fördermaßnahmen) auf den Faktor. Der Faktor wird aufgrund der inhaltlichen Ausrichtung als „informelle diagnostische Methoden“ bezeichnet.

25

Das Item NU12, welches ein eher formelles Verfahren berücksichtigt, wird im Rahmen der nachfolgenden Reliabilitätsanalysen entfernt.

160

8 Ergebnisse

Tabelle 18: KMO- und Bartlett-Test des sechsten Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.787 316.014 10

Signifikanz nach Bartlett

.000

Tabelle 19: MSA-Werte, Kommunalitäten und Faktorladungen des sechsten Faktors Items DM8 DM3 DM7 NU12 NU3 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .779a .799a .772a .801a .786a

Kommunalität .534 .551 .470 .414 .506

Faktor 1 .730 .742 .685 .643 .711 2.474 49 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 7 – Aktivierung der Schülerinnen und Schüler als instruktionale Ressourcen (SAK) In der gemeinsamen Faktorenanalyse aller Konstrukte laden die Items SO22, SO20, SO21, SO23 und SO25 auf den Faktor 7. Die Items SO23 und SO24 werden trotz Nebenladung mit in die weitere Analyse aufgenommen, da die Nebenladungen gering ausfallen, die Items als inhaltlich wichtig für das Konstrukt erachtet werden und ansonsten die Itemanzahl des Faktors sehr gering wäre. Bei der Prüfung auf Eindimensionalität laden die Items SO22, SO20, SO21, SO24 und SO23 auf einen Faktor. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Die Kommunalitäten liegen bei allen Items über 0.2 und die MSA-Werte über 0.5. Alle Items der theoretisch postulierten Skala „Aktivierung der Schülerinnen und Schüler als instruktionale Ressourcen“ laden auf den Faktor 7, weshalb diese Bezeichnung für den Faktor verwendet wird.

8.1 Güteprüfung der Messmodelle

161

Tabelle 20: KMO- und Bartlett-Test des siebten Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.768 466.571 10

Signifikanz nach Bartlett

.000

Tabelle 21: MSA-Werte, Kommunalitäten und Faktorladungen des siebten Faktors Items SO22 SO20 SO21 SO24 SO23 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .706a .721a .834a .852a .827a

Kommunalität .645 .509 .678 .394 .469

Faktor 1 .823 .803 .713 .685 .628 2.694 54 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 8 – Transparente Lernziele (LZ) Die Items LZ1, LZ9, LZ2, LZ7 und LZ8 laden in der gemeinsamen Faktorenanalyse aller Konstrukte auf den Faktor 8. Bei der Prüfung auf Eindimensionalität wird eine einfaktorielle Lösung erzielt. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Die Kommunalitäten liegen bei allen Items über 0.2 und die MSA-Werte über 0.5. Alle Items entstammen dem theoretisch angenommenen Konstrukt der transparenten Lernziele und Beurteilungskriterien. Aufgrund der inhaltlichen Fokussierung auf Lernziele wird der Faktor als „Transparente Lernziele“ benannt.

162

8 Ergebnisse

Tabelle 22: KMO- und Bartlett-Test des achten Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat

.779 313.306

df

10

Signifikanz nach Bartlett

.000

Tabelle 23: MSA-Werte, Kommunalitäten und Faktorladungen des achten Faktors Items LZ1 LZ9 LZ2 LZ7 LZ8 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .762a .776a .779a .815a .767a

Kommunalität .475 .541 .513 .487 .434

Faktor 1 .689 .736 .716 .698 .659 2.450 49 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 9 – Kommunikation der Beurteilungskriterien (LK) In der gemeinsamen Faktorenanalyse aller Konstrukte laden die Items LZ4, LZ6, LZ5 und LZ3 auf den Faktor 9. Die Prüfung auf Eindimensionalität ergibt eine eindimensionale Lösung. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Die Kommunalitäten liegen bei allen Items über 0.2 und die MSA-Werte über 0.5. Die Items thematisieren allesamt den Bereich des Umgangs mit Beurteilungskriterien, weshalb der Faktor im Folgenden als „Kommunikation der Beurteilungskriterien“ bezeichnet wird.

8.1 Güteprüfung der Messmodelle

163

Tabelle 24: KMO- und Bartlett-Test des neunten Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.670 197.384 6

Signifikanz nach Bartlett

.000

Tabelle 25: MSA-Werte, Kommunalitäten und Faktorladungen des neunten Faktors Items LZ3 LZ4 LZ5 LZ6 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .755a .645a .745a .631a

Kommunalität .235 .624 .493 .626

Faktor 1 .485 .790 .702 .791 1.978 49 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 10 – Strategievermittlung (ST) Auf den Faktor 10 laden bei der gemeinsamen Faktorenanalyse aller Konstrukte die Items SO4, SO5 und SO6. Die Prüfung auf Eindimensionalität kommt zu einem einfaktoriellen Ergebnis. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Die Kommunalitäten liegen bei allen Items über 0.2 und die MSA-Werte über 0.5. Der Faktor wird aufgrund der ladenden Items mit der Bezeichnung „Strategievermittlung“ versehen.

164

8 Ergebnisse

Tabelle 26: KMO- und Bartlett-Test des zehnten Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.636 324.651 3

Signifikanz nach Bartlett

.000

Tabelle 27: MSA-Werte, Kommunalitäten und Faktorladungen des zehnten Faktors Items SO4 SO5 SO6 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .786a .614a .593a

Kommunalität .534 .741 .805

Faktor 1 .730 .861 .897 2.080 69 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 11 – Feedback-Ebenen (FBE) In der gemeinsamen Faktorenanalyse aller Konstrukte laden die Items FBE9, FBE3, FBE4, FBE7, SO7 und SO8 auf den Faktor 11. Die Prüfung auf Eindimensionalität kommt zu dem Ergebnis, dass ein Faktor vorliegt. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Das Item SO8 wird entfernt, da die Kommunalität unter 0.2 liegt und das Item ursprünglich nicht der Skala Feedback-Ebenen zugeordnet war. Die MSA-Werte liegen über 0.5. Da bis auf die Items SO7 und SO8 ausschließlich Items des theoretischen Konstrukts „FeedbackEbenen“ auf den Faktor 11 laden, wird dieser entsprechend bezeichnet.

8.1 Güteprüfung der Messmodelle

165

Tabelle 28: KMO- und Bartlett-Test des elften Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.811 471.569 21

Signifikanz nach Bartlett

.000

Tabelle 29: MSA-Werte, Kommunalitäten und Faktorladungen des elften Faktors Items FBE8 FBE9 FBE3 FBE4 FBE7 SO7 SO8 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .821a .796a .806a .796a .824a .835a .831a

Kommunalität .424 .542 .562 .526 .409 .306 .164

Faktor 1 .651 .736 .750 .725 .640 .553 .405 2.934 42 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 12 Auf den Faktor 12 laden in der gemeinsamen Faktorenanalyse aller Konstrukte die Items SO2, SO1, NU2 und DM11. Bei der Prüfung auf Eindimensionalität wird eine eindimensionale Lösung erzielt. Der KMO-Test wird nicht erfüllt, der Bartlett-Test kann jedoch abgelehnt werden. Die Items NU2 und DM11 sollten aufgrund der geringen Kommunualitätswerte und geringen Faktorladungen ausgeschlossen werden. Somit würden lediglich die zwei Items SO1 und SO2 in der Skala verbleiben, womit die empfohlene Itemanzahl von drei Items pro Skala unterschritten würde. Da auch keine inhaltlichen Gründe für den Erhalt der Skala sprechen und der KMO-Test negativ ausfällt, wird der Faktor bzw. die zugeordneten Items von den weiteren Analysen ausgeschlossen.

166

8 Ergebnisse

Tabelle 30: KMO- und Bartlett-Test des zwölften Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.571 121.042 6

Signifikanz nach Bartlett

.000

Tabelle 31: MSA-Werte, Kommunalitäten und Faktorladungen des zwölften Faktors Items SO2 SO1 NU2 DM11 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .549a .549a .769a .762a

Kommunalität .668 .674 .125 .205

Faktor 1 .817 .821 .353 .452 1.671 42 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 13 In der gemeinsamen Faktorenanalyse aller Konstrukte laden die Items FBE1, FBE6 und FBE2 auf den Faktor 13. Die Prüfung auf Eindimensionalität bestätigt sich, allerdings wird der KMO-Test nicht erfüllt. Weiterhin fallen die MSA-Werte gering aus und auch die empfohlene Itemanzahl pro Faktor wird unterschritten, weshalb der Faktor (bzw. die zugeordneten Items) von den weiteren Analysen ausgeschlossen wird.

8.1 Güteprüfung der Messmodelle

167

Tabelle 32: KMO- und Bartlett-Test des 13. Faktors Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.555 90.012 3

Signifikanz nach Bartlett

.000

Tabelle 33: MSA-Werte, Kommunalitäten und Faktorladungen des 13. Faktors Items FBE1 FBE6 FBE2 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .537a .570a .574a

Kommunalität .683 .459 .444

Faktor 1 .826 .677 .666 1.585 53 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Faktor 14 Auf den Faktor 14 laden die zwei Items FBE5 und SO14 als Nebenladung. Der Faktor geht nicht in die weiteren Analysen ein, da die empfohlene Mindestanzahl an Items pro Faktor (Weiber & Mühlhaus, 2014, S. 113) unterschritten wird und die Ladungen lediglich Nebenladungen darstellen. Weiterhin können die Items keinem gemeinsamen inhaltlichen Konstrukt zugeordnet werden. Prüfung der Eindimensionalität weiterer Konstrukte Auch die weiteren Konstrukte Konstruktivistische Überzeugungen zum Lehren und Lernen, Individuelle Bezugsnormorientierung und Tendenz zur aufgabenbezogene Differenzierung wurden hinsichtlich Eindimensionalität überprüft, um ihre Eignung zum Einsatz im Rahmen von Strukturgleichungsmodellen sicherzustellen.

168

8 Ergebnisse

Konstruktivistische Überzeugungen zum Lehren und Lernen (CO) Für den Faktor Konstruktivistische Überzeugungen zum Lehren und Lernen (CO) wird eine einfaktorielle Lösung erzielt. Der KMO-Test wird erfüllt und der Bartlett-Test kann abgelehnt werden. Die MSA-Werte liegen über 0.5 und die Kommunalitäten über 0.2, weshalb alle Items verwendet werden. Tabelle 34: KMO- und Bartlett-Test des Faktors CO Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df

.801 420.748 21

Signifikanz nach Bartlett

.000

Tabelle 35: MSA-Werte, Kommunalitäten und Faktorladungen des Faktors CO CO1 CO2 CO3 CO4 CO5 CO6 CO7 Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .779a .798a .813a .850a .780a .781a .814a

Kommunalität .265 .318 .454 .220 .301 .294 .305

Faktor 1 .515 .564 .674 .469 .549 .542 .553 2.837 41 %

Anmerkung. Extraktionsmethode: Hauptachsen-Faktorenanalyse

Individuelle Bezugsnormorientierung (BN) Bei den Items zur individuellen Bezugsnormorientierung (BN) zeigt sich eine zweifaktorielle Struktur, wobei die Items BN2, BN3, BN4, BN5 und BN6 auf Faktor 1 und die Items BN1 und BN2 (Nebenladung) auf Faktor 2 laden. Der KMOTest wird erfüllt und der Bartlett-Test kann abgelehnt werden. Die Items BN2 und BN1 werden aufgrund der Nebenladung bzw. Ladung auf dem zweiten Faktor ausgeschlossen, wodurch nur die Items BN3, BN4, BN5 und BN6 verbleiben. Bei erneuter Prüfung dieser Items liegt Eindimensionalität vor.

8.1 Güteprüfung der Messmodelle

169

Tabelle 36: KMO- und Bartlett-Test des Faktors BN Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

.676

Ungefähres Chi-Quadrat

222.156

df

15

Signifikanz nach Bartlett

.000

Tabelle 37: MSA-Werte, Kommunalitäten und Faktorladungen des Faktors BN BN2 BN3 BN4 BN5 BN6 BN1_inv Eigenwerte der Faktoren Erklärter Varianzanteil

MSA .632a .730a .704a .705a .699a .533a

Kommunalität .444 .283 .319 .359 .286 .347

Faktor 1 .501 .525 .529 .567 .484

Faktor 2 -.440

2.108

.514 1.222

35 %

20 %

Tendenz zur aufgabenbezogenen Differenzierung (DI) Für den Faktor Tendenz zur aufgabenbezogenen Differenzierung (DI) kann der KMO-Test als erfüllt angesehen werden, der Bartlett-Test wird abgelehnt. Die MSA-Werte liegen über 0.5. Das invertierte Item DI2_inv hat eine geringe Kommunalität unter 0.2 und wird daher ausgeschlossen. Für den Faktor ist Eindimensionalität gegeben. Tabelle 38: KMO- und Bartlett-Test des Faktors DI Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat df Signifikanz nach Bartlett

.857 692.181 15 .000

170

8 Ergebnisse

Tabelle 39: MSA-Werte, Kommunalitäten und Faktorladungen des Faktors DI MSA .889a .830a .885a .856a .834a .844a

DI1 DI2_inv DI3 DI4 DI5 DI6 Eigenwerte der Faktoren Erklärter Varianzanteil

Kommunalität .456 .118 .396 .643 .534 .650

Faktor 1 .676 .343 .629 .802 .731 .806 3.268 54 %

Prüfung der Indikator- und Konstruktreliabilität Reliabilitätsanalyse des Faktors Pädagogische Nutzung (NU) Bei der Reliabilitätsanalyse für den Faktor Pädagogische Nutzung zeigt sich, dass die Inter-Item-Korrelation mit .38 insgesamt ausreichend ausfällt. Aufgrund der geringen Trennschärfe werden die Items NU6, NU5 und PO7 von der Skala ausgeschlossen. Die endgültige Skala besteht aus sechs Items und erzielt einen guten Cronbachs Alpha-Wert von α = .84. Tabelle 40: Indikator- und Konstruktreliabilität des Faktors NU Faktor Formative Nutzung

Indikatoren NU7 NU8 NU9 NU11 NU6 NU5 NU1 NU10 PO7

α

.84

IIK

.382

KITK

α (ohne Item)

.644 .653 .648 .583 .494 .435 .517 .669 .419

.814 .815 .814 .821 .830 .845 .828 .810 .837

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

8.1 Güteprüfung der Messmodelle

171

Reliabilitätsanalyse des Faktors Formelle Diagnostische Methoden (DM) Die Inter-Item-Korrelation des Faktors Formelle Diagnostische Methoden ist mit .36 ausreichend. Die Items PO1, SO15 und DM5 der Skala unterschreiten den für die KITK empfohlenen Grenzwert leicht. Da sich durch Wegnahme der Items Cronbachs Alpha jedoch verschlechtern würde und die Items auch aus inhaltlichen Gesichtspunkten unverzichtbar sind, wird die Skala bestehend aus fünf Items mit einem akzeptablen Cronbachs Alpha Wert von α = .73 belassen. Tabelle 41: Indikator- und Konstruktreliabilität des Faktors DM Faktor Formelle diagnostische Methoden

Indikatoren DM9 DM1 PO1 SO15 DM5

α

IIK

.73

.359

KITK

α (ohne Item)

.561 .500 .484 .480 .466

.661 .685 .691 .696 .701

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Self- und Peer-Assessment (SA) Die Inter-Item-Korrelation des Faktors Self- und Peer-Assessment kann mit .36 als ausreichend beurteilt werden. Die Items SO14 und SO13 haben zwar eine geringe Trennschärfe, werden aber in der Skala belassen, da sich ansonsten Cronbachs Alpha verschlechtern würde und die Items eine hohe inhaltliche Relevanz haben. Die endgültige Skala besteht aus sieben Items und hat einen Cronbachs Alpha Wert von α = .80.

172

8 Ergebnisse

Tabelle 42: Indikator- und Konstruktreliabilität des Faktors SA Faktor Self- und Peer-Assessment

Indikatoren SO14 SO16 SO12 SO17 SO10 SO9 SO13

α

.80

IIK

KITK

α (ohne Item)

.360

.485 .611 .530 .586 .517 .525 .439

.777 .750 .768 .756 .772 .769 .783

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Feedback-Fragen (FBF) Die Inter-Item-Korrelation fällt mit .51 hoch aus. Aus der Skala Feedback-Fragen ausgeschlossen wurde das Item FBF2 aufgrund der geringen Trennschärfe, wegen der dadurch erzielbaren Verbesserung des Cronbach Alpha Wertes und aufgrund der geringen inhaltlichen Passung. Die verbleibende Skala besteht aus fünf Items und hat einen Cronbachs Alpha Wert von α = .86. Tabelle 43: Indikator- und Konstruktreliabilität des Faktors FBF Faktor Feedback-Fragen

Indikatoren FBF2umc FBF3umc FBF4umc FBF5umc FBF6umc FBF7umc

α

.86

IIK

KITK

α (ohne Item)

.508

.453 .679 .742 .663 .693 .708

.872 .835 .822 .839 .832 .829

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Kognitiv aktivierendes Unterrichtsgespräch (UG) Die Inter-Item-Korrelation der Items zum kognitiv aktivierenden Unterrichtsgespräch ist mit .39 ausreichend. Die Items UG1, UG2 und UG5 unterschreiten den Grenzwert für die Korrigierte-Item-to-Total-Korrelation leicht. Die Items werden

8.1 Güteprüfung der Messmodelle

173

allerdings nicht ausgeschlossen, da sich Cronbachs Alpha ansonsten verschlechtern würde. Weiterhin würden nicht mehr ausreichend viele Items für den Faktor zur Verfügung stehen. Die Skala kognitiv aktivierendes Unterrichtsgespräch besteht aus fünf Items und hat einen Cronbachs Alpha Wert von α = .76. Tabelle 44: Indikator- und Konstruktreliabilität des Faktors UG Faktor Kognitiv aktivierendes Unterrichtsgespräch

Indikatoren UG1 UG2 UG3 UG4 UG5

α

.76

IIK

KITK

α (ohne Item)

.385

.452 .497 .657 .613 .430

.741 .725 .666 .682 .749

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Informelle Diagnostische Methoden (IDM) Die Inter-Item-Korrelation des Faktors Informelle Diagnostische Methoden ist mit .37 zufriedenstellend. Die Items DM7 und NU12 unterschreiten den Grenzwert für die Trennschärfe zwar leicht, werden aber nicht ausgeschlossen, da sich dies negativ auf die innere Konsistenz der Skala auswirken würde. Die Skala Informelle Diagnostische Methoden besteht aus fünf Items und hat einen Cronbachs Alpha Wert von α = .74. Tabelle 45: Indikator- und Konstruktreliabilität des Faktors IDM Faktor Informelle diagnostische Methoden

Indikatoren DM8 DM3 DM7 NU12 NU3

α

.74

IIK

KITK

α (ohne Item)

.367

.530 .548 .479 .448 .522

.683 .677 .702 .721 .687

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

174

8 Ergebnisse

Reliabilitätsanalyse des Faktors Aktivierung der Schülerinnen und Schüler als instruktionale Ressource (SAK) Die Inter-Item-Korrelation ist mit .42 ausreichend hoch. Das Item SO23 erzielt mit .46 einen Trennschärfewert, der leicht unter dem Grenzwert liegt. Da sich durch Streichung die innere Konsistenz verschlechtern würde, wird das Item dennoch beibehalten. Die Skala Aktivierung der Schülerinnen und Schüler als instruktionale Ressource erzielt, bestehend aus fünf Items, einen Cronbachs Alpha Wert von α = .78. Tabelle 46: Indikator- und Konstruktreliabilität des Faktors SAK Faktor Schüleraktivierung

Indikatoren SO20 SO21 SO22 SO23 SO24

α

.78

IIK

KITK

α (ohne Item)

.419

.623 .530 .664 .457 .511

.710 .743 .706 .769 .749

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Transparente Lernziele (LZ) Die Inter-Item-Korrelation ist mit .36 zufriedenstellend. Die Items LZ1, LZ7 und LZ8 weisen eine geringe Trennschärfe auf, werden allerdings nicht eliminiert, da sich Cronbachs Alpha ansonsten verschlechtern würden. Die Skala LZ besteht somit aus vier Items und erzielt einen Cronbachs Alpha Wert von α = .74. Tabelle 47: Indikator- und Konstruktreliabilität des Faktors LZ Faktor Transparente Lernziele

Indikatoren LZ1 LZ2 LZ7 LZ8 LZ9

α

.74

IIK

KITK

α (ohne Item)

.362

.489 .514 .499 .467 .541

.697 .685 .692 .703 .678

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

8.1 Güteprüfung der Messmodelle

175

Reliabilitätsanalyse des Faktors Kommunikation der Beurteilungskriterien (LK) Die Inter-Item-Korrelation ist mit .31 zufriedenstellend. Da das Item LZ3 einen sehr geringen KITK-Wert aufweist und sich bei Verzicht auf das Item auch Cronbachs Alpha verbessern würde, wird das Item aus der Skala entfernt. Die verbleibenden drei Items bilden eine Skala mit einem Cronbachs Alpha Wert von α = .57. Tabelle 48: Indikator- und Konstruktreliabilität des Faktors LK Faktor Beurteilungskriterien

Indikatoren LZ3 LZ4 LZ5 LZ6

α

IIK

.57

.314

KITK

α (ohne Item)

.268 .462 .407 .441

.679 .443 .466 .460

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Strategievermittlung (ST) Die Inter-Item-Korrelation fällt mit .53 gut aus. Aufgrund der geringen Itemzahl wird das Item SO4 nicht ausgeschlossen, obwohl der Grenzwert für die Trennschärfe knapp unterschritten wird. Der Faktor besteht aus drei Items und hat einen Cronbachs Alpha Wert von α = .77. Tabelle 49: Indikator- und Konstruktreliabilität des Faktors ST Faktor Strategievermittlung

Indikatoren SO4 SO5 SO6

α

IIK

KITK

α (ohne Item)

.77

.534

.482 .634 .717

.482 .634 .717

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Feedback-Ebenen (FBE) Die Inter-Item-Korrelation fällt mit .36 noch zufriedenstellend aus. Das Item SO7 wird entfernt, da es ursprünglich nicht dieser Skala zugeordnet war und sich Cronbachs Alpha dadurch auf α = .76 verbessert.

176

8 Ergebnisse

Tabelle 50: Indikator- und Konstruktreliabilität des Faktors FBE Faktor Feedback-Ebenen

Indikatoren FBE8 FBE9 FBE3 FBE4 FBE7 SO7

α

.75

IIK

KITK

α (ohne Item)

.359

.469 .570 .581 .542 .483 .393

.719 .698 .695 .701 .716 .761

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Konstruktivistische Überzeugungen (CO) Die Inter-Item-Korrelation ist mit .30 noch zufriedenstellend. Es werden keine Items aufgrund geringer KITK-Werte ausgeschlossen, da sich Cronbachs Alpha dadurch verschlechtern würde. Der Faktor besteht aus sieben Items und hat ein Cronbachs Alpha von α = .74. Tabelle 51: Indikator- und Konstruktreliabilität des Faktors CO Faktor Konstruktivistische Überzeugungen

Indikatoren CO1 CO2 CO3 CO4 CO5 CO6 CO7

α

.74

IIK

KITK

α (ohne Item)

.304

.431 .483 .569 .399 .454 .454 .477

.718 .708 .687 .734 .717 .716 .708

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Individuelle Bezugsnormorientierung (BN) Die Inter-Item-Korrelation fällt mit .30 noch zufriedenstellend aus. Die Items des Faktors Individuelle Bezugsnormorientierung erreichen zwar insgesamt geringe Trennschärfe-Werte, werden aufgrund der geringen Itemanzahl und der Bedeutung für die Analyse dennoch allesamt einbezogen. Cronbachs Alpha, welches sich durch Item-Eliminierung weiter verschlechtern würde, liegt mit .63 noch im akzeptablen Bereich.

8.1 Güteprüfung der Messmodelle

177

Tabelle 52: Indikator- und Konstruktreliabilität des Faktors BN Faktor Individuelle Bezugsnormorientierung (BN)

Indikatoren BN3 BN4 BN5 BN6

α

.63

IIK

KITK

α (ohne Item)

.304

.409 .423 .436 .391

.569 .559 .550 .581

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

Reliabilitätsanalyse des Faktors Tendenz zur aufgabenbezogenen Differenzierung (DI) Die Inter-Item-Korrelation fällt mit .53 gut aus. Die Items des Faktors Tendenz zur aufgabenbezogenen Differenzierung erzielen allesamt gute KITK-Werte. Die Skala besteht aus fünf Items und Cronbachs Alpha liegt bei α = .85. Tabelle 53: Indikator- und Konstruktreliabilität des Faktors DI Faktor Tendenz zur aufgabenbezogenen Differenzierung

Indikatoren DI1 DI3 DI4 DI5 DI6

α

.85

IIK

KITK

α (ohne Item)

.529

.607 .562 .722 .678 .728

.831 .842 .802 .813 .798

Anmerkung. α: Cronbachs Alpha, IIK: Inter-Item-Korrelation, KITK: Korrigierte Item-to-Total-Korrelation, α (ohne Item): Cronbachs Alpha ohne Item.

8.1.2

Reliabilitätsprüfung mit Hilfe der konfirmatorischen Faktorenanalyse

Im Anschluss an die Prüfung der Indikator- und Konstruktreliabilität wird mit den verbliebenen Items die Reliabilitätsanalyse der zweiten Generation (Fornell, 1982) mit Hilfe der konfirmatorischen Faktorenanalyse durchgeführt. Prüfung der Eindimensionalität bei simultaner Berücksichtigung aller Konstrukte Zunächst muss hierfür eine erneute explorative Faktorenanalyse bei simultaner Betrachtung aller Konstrukte (Assessment-Faktoren und weitere unabhängige Variablen) durchgeführt werden. Die methodischen Optionen werden entsprechend

178

8 Ergebnisse

der Empfehlungen von Weiber und Mühlhaus (2014, S. 144) vorgenommen (Hauptachsenanalyse; Promax-Rotation) und es wird die Extraktion von 14 Faktoren vorgegeben (11 Assessment-Faktoren und CO, BNI, DI). Mit einem KMO-Wert von .856 ist die Variablen-Gesamtheit für die Anwendung einer explorativen Faktorenanalyse geeignet. Dies wird mit einem signifikanten Bartlett-Test bestätigt (Tabelle 54). Die variablenbezogenen MSA-Werte liegen alle oberhalb des Grenzwertes von 0.5. Die 14-faktorielle Lösung kann 59 Prozent der Varianz der Ausgangsvariablen erklären. Die Mustermatrix, die die Korrelation der Indikatoren mit den Faktoren (Faktorladungen) angibt, bestätigt weitgehend die vermutete Struktur (Anhang I). Die Items der Faktoren NU, FBF, DI, DM, SA, SAK, UG, CO, LZ, ST, FBE, IDM, LK und BN laden jeweils auf dem entsprechenden Faktor. Das Item NU12 lädt nicht mehr auf den Faktor IDM sondern auf dem Faktor NU und wird deshalb hier ergänzt. Das Item FBE7 lädt nicht mehr auf dem Faktor FBE und wird deshalb nicht weiter berücksichtigt. Die Items SO9, SO23 und CO7 weisen geringe Nebenladungen auf und werden daher ausgeschlossen, um Eindimensionalität aller Faktoren sicherstellen zu können. Die Korrelation der Faktorwerte zeigt, dass mehrere Faktoren mit r ≥ 0.5 stark korrelieren, womit sich ex post die Verwendung der nicht-orthogonalen Promax-Rotation rechtfertigen lässt (Anhang J). Einschränkend muss festgehalten werden, dass die Ladungen einzelner Items (NU12, NU1, SO13, SO17, SO24, UG5, CO2, LZ8, DM7, LZ5) mitunter gering (zwischen .3 und .4) ausfallen. Diesbezüglich ist abzuwägen, ob diese Items verbleiben sollen oder entfernt werden. Bühner (2011, S. 255) empfiehlt diesbezüglich, auf die Inhaltsvalidität zu achten und Items mit niedrigen Ladungen nur zu eliminieren, wenn diese für das Konstrukt verzichtbar sind. Die Items NU12 und NU1 werden entfernt, da der Faktor NU durch die verbleibenden fünf Items ausreichend repräsentiert wird. Die Items SO13 und SO17 werden ebenfalls eliminiert, da die abgefragten Aspekte über ähnliche Items berücksichtigt werden und die Inhaltsvalidität weiterhin gegeben erscheint. Das Item SO24 wird beibehalten, da der Faktor SAK ansonsten nur aus drei Items bestehen würde. Die Items UG5 und CO2 werden entfernt. Das Item LZ8 wird aus inhaltlichen Gründen beibehalten und die Items DM7 und LZ5 werden ebenfalls weiterverwendet, da die Faktoren ansonsten von zu wenig Items repräsentiert werden würden. Zusammenfassend kann festgehalten werden, dass die hypothetisch vermutete Struktur anhand der explorativen Faktorenanalyse bestätigt werden kann. Die reduzierten Faktoren können nach der Eliminierung der Items mit Nebenladungen als eindimensional verstanden werden.

8.1 Güteprüfung der Messmodelle

179

Tabelle 54: KMO- und Bartlett-Test bei simultaner Betrachtung aller Konstrukte Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität

Ungefähres Chi-Quadrat

.856 7984.018

df

2415

Signifikanz nach Bartlett

.000

Reliabilitätsprüfung auf Konstruktebene Zur Berechnung der Reliabilitätskriterien werden die reflektiven Messmodelle der Konstrukte gemeinsam in einer konfirmatorischen Faktorenanalyse untersucht. Bei Betrachtung der Ergebnisse zeigt sich, dass alle Faktorladungen signifikant von Null verschieden sind (Anhang K). Bis auf die Items DM5, PO1, BN3, BN6, CO4 sind alle Ladungen als bedeutsam einzuschätzen, da die jeweilige Indikatorreliabilität über dem Schwellenwert von 0.5 liegt (Anhang K). Somit werden die vorangegangenen Analysen bestätigt, sodass auch unter expliziter Berücksichtigung von Messfehlern von einer hohen Eignung der einzelnen manifesten Variablen ausgegangen werden kann. Ein ähnliches Bild zeigt sich auf der Ebene der Konstrukte. Die Faktorreliabilitäten liegen mit Werten über 0.75 über dem Schwellenwert von 0.6 (Anhang K). Der Grenzwert für die durchschnittliche je Faktor extrahierte Varianz (DEV) wird lediglich bei den Faktoren DM mit 0.42 und BN mit 0.43 unterschritten (Anhang K). Somit ist insgesamt von einer guten Reliabilität der Konstruktmessungen auszugehen, lediglich die Reliabilitätskriterien der Faktoren formelle diagnostische Methoden und Verfahren und individuelle Bezugsnormorientierung werden unter Berücksichtigung von Messfehlern nicht in vollem Maße erfüllt. Da die beiden Skalen inhaltlich sehr bedeutsam sind und die betreffenden Items aus sachlogischer Sicht nicht verzichtbar erscheinen, werden sie dennoch so wie dargestellt verwendet. 8.1.3

Validitätsprüfung der Messmodelle

Inhaltsvalidität In der vorliegenden Arbeit erfolgte die Konzeptualisierung der Konstrukte theoriebasiert und die anschließende Ableitung der Messindikatoren wurde sachlogisch vorgenommen. Weiterhin wurden die Skalen einer Expertenvalidierung unterzogen (vgl. Kapitel 7.2.2). Bei der Güteprüfung der Konstrukte wurden Items nur eliminiert, sofern sie aus inhaltlicher Sicht als für das Konstrukt entbehrlich

180

8 Ergebnisse

angesehen oder bereits durch ähnliche Items berücksichtigt wurden. Weiterhin liegen hinreichend hohe Interkorrelationen zwischen den Indikatoren vor (Inter-Item-Korrelation, Korrigierte-Item-to-Total-Korrelation, vgl. Kapitel 7.1.1). Basierend auf diesen Voraussetzungen kann Inhaltsvalidität der Konstrukte angenommen werden (Cronbach & Meehl, 1955, S. 282; Nunnally, 1967). Empfehlenswert wäre dennoch eine erneute Expertenbeurteilung der endgültigen Skalen zur Überprüfung der Inhaltsvalidität der Kurzskalen zur weiteren Absicherung. Kriteriumsvalidität Da in der vorliegenden Untersuchung kein valides Außenkriterium erfasst werden konnte, ist die Berechnung der Korrelation zwischen Außenkriterium und Konstrukten nicht möglich. Insgesamt gestaltet es sich schwierig, ein angemessenes Außenkriterium zum formativen Assessment zu finden und adäquat zu operationalisieren, was ein häufig auftretendes Problem bei der Kriteriumsvalidierung darstellt (Döring & Bortz, 2016, S. 471). Denkbar wäre eine nachfolgende Erfassung der Assessment-Praxis mittels Beobachtung, wobei sich die Validität der Konstrukte daran bemessen würde, inwieweit das spätere Verhalten korrekt vorhergesagt werden kann (prognostische Validität) (Döring & Bortz, 2016, S. 471). Konstruktvalidität Für die Prüfung der nomologischen Validität werden die Parameterschätzungen der konfirmatorischen Faktorenanalyse herangezogen, die zur Berechnung der Reliabilitätskriterien der zweiten Generation durchgeführt wurde. Die Parameterschätzungen zeigen, dass zwischen den Konstrukten jeweils positive Korrelationsbeziehungen bestehen (Anhang L). Dies ist inhaltlich sehr gut begründbar und entspricht Hypothese 1. Auch aufgrund der insgesamt positiven und signifikanten Faktorladungen kann von nomologischer Validität der Konstrukte ausgegangen werden (Anhang L). Eine Prüfung der Konvergenzvalidität konnte in der vorliegenden Arbeit nicht durchgeführt werden, da die interessierenden Konstrukte nur mit einer Erhebungsmethode (Befragung) erfasst wurden. Empfehlenswert wäre eine Analyse der Konvergenzvalidität im Rahmen nachfolgender Untersuchungen, z.B. mittels Unterrichtsbeobachtungen, wobei hierfür zunächst ein valides Beobachtungsverfahren entwickelt werden müsste. Mit Hilfe der beiden Messmethoden ließe sich dann eine Multitrait-Multi-Method-Matrix erstellen, deren Korrelationen über die konvergente Validität der Konstrukte Auskunft geben (Weiber & Mühlhaus, 2014, S. 162). Da in der vorliegenden Untersuchung bei der explorativen Faktorenanalyse (Kapitel 7.1.1) die Indikatoren auf einem gemeinsamen Faktor laden, für dessen Operationalisierung sie formuliert wurden, kann dies als Indikator für das Vorliegen

8.1 Güteprüfung der Messmodelle

181

von Diskriminanzvalidität angesehen werden (Straub, 1989). Das strenge FornellLarcker-Kriterium (Fornell & Larcker, 1981, S. 46), welches die durchschnittlich durch einen Faktor erfasste Varianz (DEV) mit jeder quadrierten Ladung gegenüberstellt, weist bei einigen Faktoren auf Diskriminanzvalidität hin (Anhang K). Die DEV-Werte der Konstrukte NU, FBF, SAK, ST, liegen über den Werten der quadrierten Korrelationen zwischen den Faktoren (Anhang M). Bei den Faktoren LZ, DM, SA, UG, LK, FBE, DI und CO liegen die DEV-Werte hingegen unterhalb einzelner Werte der quadrierten Korrelationen, was auf eine mangelnde Diskriminanzvalidität hindeutet. Aufgrund dessen wurde mit diesen Konstrukten der ²-Differenztest durchgeführt, um zu prüfen, ob nach diesem liberaleren Kriterium Diskriminanzvalidität dennoch angenommen werden kann (Tabelle 55). Hierzu werden zwei konfirmatorische Faktorenanalysen durchgeführt: Eine KFA mit freier Schätzung der Faktorkorrelationen und eine KFA mit einer auf eins restringierten 26 Faktorkorrelation zwischen zwei Konstrukten. Alle ²-Differenzwerte liegen deutlich oberhalb des kritischen Wertes von 3.841 (Homburg, 1998, S. 101), so dass davon ausgegangen werden kann, dass jeweils zwei Konstrukte Unterschiedliches messen. Dies spricht für das Vorliegen von Diskriminanzvalidität. Tabelle 55: Ergebnisse des ²-Differenztests Modell LZ-UG LZ - LK LZ-FBE LZ-IDM DM-LZ DM-SA DM-IDM SA-LZ SA-FBE SA-IDM UG-LK UG-FBE UG-IDM FBE-IDM 26

²-Werte des restringierten Modells 356.378 375.418 344.479 273.676 335.055 247.737 258.002 356.562 284.414 272.653 370.506 280.322 220.378 234.558

²-Werte des unrestringierten Modells 207.164 283.266 204.904 190.199 168.520 155.853 95.052 204.329 155.306 135.260 216.230 136.962 103.769 127.308

²-Differenztest ≥ 3.841 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓

Restringierte Parameter sind solche Parameter, die im Modell geschätzt werden sollen, deren Wert aber genau dem Wert eines oder mehrerer anderer Parameter entsprechen soll. (Weiber & Mühlhaus, 2014, S. 53)

182

8 Ergebnisse

Modell DI-IDM CO-NU CO-SA CO-ST CO-UG CO-LK CO-FBE CO-DI CO-IDM IDM-DI

8.1.4

²-Werte des restringierten Modells 237.530 368.722 303.211 320.280 333.959 386.628 278.236 329.700 260.872 237.530

²-Werte des unrestringierten Modells 122.443 177.702 165.358 131.382 162.986 128.381 149.966 166.226 151.552 122.443

²-Differenztest ≥ 3.841 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓

Interne Konsistenz der endgültigen Skalen

Nach Abschluss der Güteprüfung der ersten und zweiten Generation bestehen die endgültigen Skalen jeweils aus drei bis fünf Items und weisen eine gute bis zufriedenstellende interne Konsistenz (Cronbachs  ≥ .63) (Tabelle 56) sowie eine gute Reliabilität auf Konstruktebene (Kapitel 7.1.2) auf. Damit liegt ein angemessenes Instrument zur Erfassung der selbstwahrgenommenen formativen AssessmentPraxis für Grundschullehrkräfte vor (Untersuchungsschwerpunkt 2). Eine Übersicht über die Skalen und dazugehörigen Items befindet sich in Anhang N. Tabelle 56: Interne Konsistenz, Mittelwerte, Standardabweichung und Anzahl der Items Dimensionen

Skalenbezeichnung



M

SD

Items

Orientierung an Lernzielen

LZ (transparente Lernziele) LK (Kommunikation der Beurteilungskriterien) UG (Kognitiv aktivierendes Unterrichtsgespräch)

.74 .68

4.81 5.58

0.60 0.48

5 3

.75

4.78

0.58

4

DM (formelle diagnostische Methoden und Verfahren) IDM (informelle diagnostische Methoden und Verfahren)

.73

2.71

0.97

5

.72

4.86

0.67

4

Lernförderliche Unterrichtsgespräche Formative diagnostische Methoden und Verfahren

8.2 Deskriptivstatistische Analysen



M

SD

Items

SA (Self- und Peer-Assessment) ST (Strategievermittlung)

.69

3.99

0.92

4

.77

5.28

0.69

3

SAK (Schüleraktivierung als instruktionale Ressource)

.77

4.26

0.96

4

FBE (Feedback-Ebenen)

.75

4.84

0.68

4

FBF (Feedback-Fragen) NU (pädagogische Nutzung)

.87 .83

2.98 4.89

1.17 0.76

5 5

CO (konstruktivistische Überzeugungen) BN (individuelle Bezugsnormorientierung) DI (Tendenz zur aufgabenbezogenen Differenzierung)

.67

4.89

0.75

5

.63

4.32

0.77

4

.85

4.52

0.82

5

Dimensionen

Skalenbezeichnung

Schüleraktivierung zur Verantwortungsübernahme für ihr eigenes Lernen Aktivierung der Schülerinnen und Schüler als instruktionale Ressourcen füreinander Feedback Pädagogische Nutzung diagnostischer Informationen Konstruktivistische Überzeugungen individuelle Bezugsnormorientierung Tendenz zur aufgabenbezogenen Differenzierung

8.2

183

Deskriptivstatistische Analysen

Zur Analyse der formativen Assessment-Praxis aus der Sicht von Grundschullehrkräften (Untersuchungsschwerpunkt 1) erfolgt die deskriptive Beschreibung der Ergebnisse auf Ebene der Einzelitems basierend auf den reduzierten Skalen der Hauptuntersuchung. Hierbei wird auf den vorliegenden Datensatz (mit missings, nicht imputiert) zurückgegriffen, um genaue Aussagen zum Antwortverhalten der Befragten (Mittelwerte, Standardabweichung, Missinganzahl einzelner Items) treffen zu können.27 Zunächst erfolgt die deskriptive Darstellung der Skalen zum formativen Assessment (Kapitel 7.2.1). Daran anschließend werden die weiteren erhobenen Skalen und personenbezogenen Daten berichtet (Kapitel 7.2.2).

27

Die genaue Antwortverteilung aller Items anhand von Häufigkeitstabellen befindet sich in Anhang F, Angaben zu Minimum- und Maximum-Werten sowie Schiefe und Wölbung finden sich in Anhang O.

184

8.2.1

8 Ergebnisse

Deskriptive Analyse der formativen Assessment-Skalen

Umgang mit Lernzielen und Beurteilungskriterien Anhand der Skalen Transparente Lernziele und Kommunikation der Beurteilungskriterien wurden die Lehrkräfte hinsichtlich ihres Umgangs mit Lernzielen und Beurteilungskriterien befragt. Transparente Lernziele Fast alle Lehrkräfte geben an, zu Beginn jeder Stunde die Lernziele zu nennen (LZ1) und diese mit den Schülerinnen und Schülern zu besprechen (LZ2). Etwas seltener wird allerdings am Ende der Stunde überprüft, ob die Lernziele erreicht wurden (LZ7). Von einem ausgeprägten erweiterten Lernbegriff ist bei einem etwas geringeren Teil der Lehrkräfte auszugehen. So geben die Lehrkräfte an, überwiegend mit den Schülerinnen und Schülern kontinuierlich an Zielen zum Lernen lernen zu arbeiten (LZ8) und regelmäßig soziale Lernziele bekannt zu geben (LZ9), wobei hier die Angaben der Befragten relativ weit streuen. Insgesamt schätzen die Lehrkräfte ihre Kommunikation mit den Schülerinnen und Schülern über Lernziele und deren konsequente Verfolgung im Unterrichtsverlauf sehr positiv ein (M = 4.81, SD = 0.60). Tabelle 57: Mittelwerte und Standardabweichung der Items zur Skala LK Item LZ1: Zu Beginn jeder Stunde nenne ich den Schülerinnen und Schülern (SuS) die Lernziele. LZ2: Ich bespreche die Lernziele mit meinen SuS. LZ7: Am Ende jeder Stunde überprüfe ich (z.B. mit einer kurzen Abfrage), ob die Lernziele erreicht wurden. LZ8: In meinem Unterricht arbeiten die SuS kontinuierlich an Zielen zum Lernen lernen (Lernkompetenz). LZ9: Ich gebe regelmäßig soziale Lernziele bekannt. Skala gesamt

n 335

M 5.36

(SD) 0.76

333 334

4.87 4.44

0.87 0.80

334

4.79

0.83

333 331

4.58 4.81

1.03 0.60

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, LZ = Transparente Lernziele.

Kommunikation der Beurteilungskriterien Die Lehrkräfte sind der Ansicht, dass Sie den Schülerinnen und Schülern mitteilen, anhand welcher Kriterien die Arbeiten bewertet werden (LZ4) und erläutern

8.2 Deskriptivstatistische Analysen

185

diese Kriterien auch (LZ6). Dabei scheint das Modellieren der Aufgabenbearbeitung eine gängige Praxis bei den Befragten darzustellen (LZ5). Insgesamt halten die Lehrkräfte die Aussagen zum transparenten Umgang mit Beurteilungskriterien in großem Maße für zutreffend (M = 5.58, SD = 0.48). Tabelle 58: Mittelwerte und Standardabweichung der Items zur Skala LK Item LZ4: Ich teile den SuS mit, anhand welcher Kriterien ich ihre Arbeiten bewerten werde. LZ5: Ich zeige den SuS, wie man eine Aufgabe bearbeitet und erkläre dabei, worauf es ankommt, wenn man eine gute Leistung erzielen will. LZ6: Ich erläutere den SuS meine Kriterien für die Benotung. Skala gesamt

n 335

M 5.63

(SD) 0.60

332

5.46

0.67

335 332

5.64 5.58

0.59 0.48

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, LK = Kommunikation der Beurteilungskriterien.

Schüleraktivierung zur Verantwortungsübernahme Anhand von zwei Skalen wurden Aspekte der Aktivierung der Schülerinnen und Schüler zur Verantwortungsübernahme für ihr Lernen erfasst. Dazu zählen der Einsatz von Self- und Peer-Assessments (SA) sowie die Vermittlung von Lernstrategien (ST) als Maßnahmen der Selbstregulation. Self- und Peer-Assessment Auf der Skala Self- und Peer-Assessment sollten die Lehrkräfte anhand von vier Items den Einsatz von Self- und Peer-Assessments einschätzen (Tabelle 59). Die Lehrkräfte stimmen der Aussage, dass ihre Schülerinnen und Schüler ihre Leistungen regelmäßig selbst einschätzen (SO16) eher zu. Während Selbsteinschätzungsbögen (SO10) kaum Verwendung finden, geben die Lehrkräfte etwas häufiger an, dass die Schülerinnen und Schüler ihre Arbeiten anhand von Kriterien, die gemeinsam im Unterricht entwickelt wurden (Kompetenzraster), selbst bewerten (SO12). Gegenüber dem Self-Assessment werden Peer-Assessments etwas häufiger eingesetzt. So halten die Befragten die Aussage für überwiegend zutreffend, dass die Schülerinnen und Schüler regelmäßig die Möglichkeit bekommen, sich gegenseitig zu bewerten (SO14). Im Vergleich zu den anderen Assessment-Skalen spielt Self- und Peer-Assessment eine relativ geringe Rolle im Unterricht der Befragten (M = 3.99, SD = 0.92).

186

8 Ergebnisse

Tabelle 59: Mittelwerte und Standardabweichung der Items der Skala SA Item SO10: Ich setze Selbsteinschätzungsbögen ein, anhand derer die SuS ihre Leistungen selbst einschätzen sollen. SO12: Die SuS bewerten ihre eigene Arbeit anhand von Kriterien, die wir gemeinsam im Unterricht entwickelt haben (Kompetenzraster). SO14: Ich gebe den SuS regelmäßig die Möglichkeit, sich gegenseitig zu bewerten (z.B. bei Präsentationen). SO16: Meine SuS müssen ihre Leistungen regelmäßig selbst einschätzen. Skala gesamt

n 335

M 3.16

(SD) 1.42

335

4.05

1.35

334

4.95

0.93

337

3.79

1.33

329

3.99

0.92

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, SA = Self- und Peer-Assessment.

Strategievermittlung In der Skala Strategievermittlung wird mittels drei Items erfasst, inwieweit die Lehrkräfte Lernstrategien im Unterricht vermitteln (Tabelle 60). Die Organisationsstrategien Stichpunktzettel anlegen (SO5) und Kerninformationen notieren (SO6) werden von fast allen Lehrkräften vermittelt. Das Aufschreiben von Arbeitsergebnissen erfolgt etwas seltener (SO4).28 Insgesamt schätzt die Mehrheit der Befragten diese Skala als überwiegend zutreffend auf ihren Deutschunterricht ein (M = 5.28, SD = 0.69).

28

Vor der Güteprüfung der Skalen waren auch Items zu klassischen Kontrollstrategien (Kontrollieren mit dem Wörterbuch), Wiederholungsstrategien und Gesprächstechniken (Lernen lernen) im Fragebogen enthalten, wobei sich zeigte, dass diese ebenfalls von fast allen Lehrkräften vermittelt werden. Hinweise zum Lernen lernen in schriftlicher Form erhielten die Lehrkräfte jedoch kaum (Anhang L).

8.2 Deskriptivstatistische Analysen

187

Tabelle 60: Mittelwerte und Standardabweichung der Items der Skala ST Item SO4: Ich vermittle den SuS, wie man sich Arbeitsergebnisse aufschreibt. SO5: Ich vermittle den SuS, wie man sich einen Stichpunktzettel anlegt. SO6: Ich vermittle den SuS, wie man sich wesentliche Informationen notiert. Skala gesamt

n 335

M 5.16

(SD) 0.85

336

5.34

0.86

338

5.34

0.77

334

5.28

0.69

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, ST = Strategievermittlung.

Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander Anhand von vier Items wurde das Ausmaß der Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander (SAK) erfasst (Tabelle 61). Am häufigsten lassen die Lehrkräfte stärkere Schülerinnen und Schüler schwächere Schülerinnen und Schüler unterstützen (SO22) und setzen Lernhelfer bzw. Paten im Unterricht ein (SO20). Eher zugestimmt wird der Aussage, dass die Schülerinnen und Schüler dazu angehalten werden, zuerst ihre Mitschülerinnen und Mitschüler um Hilfe zu bitten (SO21). Seltener lassen die Lehrkräfte die Schülerinnen und Schüler in ihrem Unterricht in kooperativen bzw. reziproken Lernsituationen oder in festen Lernpartnerschaften zusammenarbeiten (SO24). Die Schüleraktivierung als instruktionale Ressource füreinander wird aus Sicht der Befragten tendenziell im Unterricht realisiert (M = 4.26, SD = 0.96). Tabelle 61: Mittelwerte und Standardabweichung der Items der Skala SAK Item SO20: In meinem Unterricht setze ich SuS als Lernhelfer/Paten ein. SO21: In meinem Unterricht halte ich die SuS dazu an, zuerst ihre Mitschüler um Hilfe zu bitten, bevor sie zu mir kommen. SO22: In meinem Unterricht lasse ich stärkere SuS schwächere Mitschüler bei Aufgaben im Unterricht unterstützen. SO24: In meinem Unterricht lernen die SuS häufig in kooperativen/reziproken Lernsituationen. Skala gesamt

n 338

M 4.30

(SD) 1.38

336

4.16

1.33

338

4.75

1.07

332

3.85

1.20

330

4.26

0.96

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, SAK = Aktivierung der Schülerinnen und Schüler als instruktionale Ressourcen füreinander.

188

8 Ergebnisse

Kognitiv aktivierende Unterrichtsgespräche Anhand der Skala kognitiv aktivierende Unterrichtsgespräche (UG) sollten die Lehrkräfte anhand von vier Items zur Gestaltung von Unterrichtsgesprächen Stellung nehmen (Tabelle 62). Die Items UG1, UG2, UG3 und UG4 erhalten keinerlei Antworten der Kategorie „trifft überhaupt nicht zu“. Die Lehrkräfte halten es mehrheitlich für überwiegend bis voll zutreffend, dass sie ihre Schülerinnen und Schüler dazu auffordern, etwas zu begründen oder zu erklären (UG1) und die Schülerinnen und Schüler dazu anhalten, ihre Gedankengänge genau zu erklären (UG3). Etwas weniger zutreffend finden die Lehrkräfte die Aussagen, überwiegend Aufgaben zu stellen, für deren Lösung man Zeit zum Nachdenken braucht (UG2) und die Begründung von Arbeitsschritten einzufordern (UG4). Die Einschätzung der Lehrkräfte in Bezug auf die Gestaltung von Unterrichtsgesprächen fällt insgesamt deutlich positiv aus (M = 4.78, SD = 0.58). Tabelle 62: Mittelwerte und Standardabweichung der Items der Skala UG Item UG1: Ich fordere die SuS auf, etwas zu begründen oder zu erklären. UG2: Ich stelle Aufgaben, für deren Lösungen man Zeit zum Nachdenken braucht. UG3: Ich halte die SuS dazu an, ihre Gedankengänge genau zu erklären. UG4: Ich verlange, dass SuS ihre Arbeitsschritte ausführlich begründen. Skala gesamt

n 336

M 5.26

(SD) 0.63

333

4.65

0.74

335

4.82

0.80

334

4.40

0.90

331

4.78

0.58

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, UG = kognitiv aktivierendes Unterrichtsgespräch.

Einsatz formativer diagnostischer Methoden und Verfahren Die Lehrkräfte wurden anhand der beiden Skalen formelle diagnostische Methoden und Verfahren (DM) und informelle diagnostische Methoden und Verfahren (IDM) zum Einsatz diagnostischer Methoden, die sich zur formativen Verwendung eignen, befragt. Formelle diagnostische Methoden und Verfahren Hinsichtlich des Einsatzes formeller diagnostischer Instrumente (Tabelle 63) zeigt sich anhand des geringen Skalengesamtmittelwertes, dass diese nur wenig verwendet werden (M = 2.71, SD = 0.97). Noch am häufigsten kommen Beobachtungs-

8.2 Deskriptivstatistische Analysen

189

bögen zur systematischen Schülerbeobachtung zum Einsatz (DM1). Kompetenzraster werden eher nicht genutzt (PO1). Noch etwas seltener werden standardisierte Schulleistungstests eingesetzt, um Kenntnisse über Lösungsstrategien oder Fehlertypen zu bekommen (DM5). Hierbei fällt auch der hohe Anteil fehlender Werte (fünf Prozent) auf. Auch das Portfolio wird eher nicht zur Dokumentation der Lernentwicklung eingesetzt (DM9). Am seltensten finden Lerntagebücher oder ähnliche Instrumente zur Dokumentation des Lernverhaltens Berücksichtigung im Unterricht (SO15). Insgesamt fällt die Streuung der Items dieser Skala relativ hoch aus (SD = 0.97). Tabelle 63: Mittelwerte und Standardabweichung der Items der Skala DM Item DM1: Ich verwende Beobachtungsbögen zur systematischen Schülerbeobachtung. DM5: Ich nutze standardisierte Schulleistungstests, um Kenntnisse über Lösungsstrategien oder Fehlertypen der SuS zu bekommen (z.B. Hamburger Schreibprobe, ELFE, OLFA). DM9: In meinem Unterricht setze ich das Portfolio zur Dokumentation der Lernentwicklung durch die SuS ein. PO1: Ich nutze Kompetenzraster, um einen Überblick über die zu erwerbenden Fähigkeiten und Ausprägungsstufen innerhalb dieser Fähigkeiten zu erhalten. SO15: In meinem Unterricht schreiben die SuS Kurzberichte über ihr Lernen (Lerntagebuch usw.). Skala gesamt

n 335

M 3.35

(SD) 1.37

320

2.59

1.58

332

2.42

1.38

328

3.18

1.49

336

1.98

1.14

308

2.71

0.97

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, DM = Formelle diagnostische Methoden und Verfahren.

Bei Item DM5 hatten die Lehrkräfte zusätzlich die Möglichkeit, Angaben zu konkreten diagnostischen Verfahren zu machen, wovon 56 Befragte Gebrauch machten. Die quantitative Auswertung der Angaben zeigt, dass am häufigsten der Kompetenztest als diagnostisches Instrument zur Strategie- oder Fehleranalyse eingesetzt wird. Die Hamburger Schreibprobe (HSP) ist das standardisierte Testverfahren, welches am zweithäufigsten genannt wird. Weiterhin kommt die Diagnostische Bilderliste (Dummer-Smoch, 1984), der Zürcher Lesetest (Petermann & Daseking, 2015) sowie der Leseverständnistest ELFE 1-6 (Lenhard & Schneider, 2006) zum Einsatz. Alle weiteren Zweifach- bzw. Einzelnennungen sind Abbildung 7 zu entnehmen.

190

Kompetenztest HSP 1-10 SSB-Rechtschreibung DBL 1/2 ZLT/ ZLT II ELFE 1-6 Lernstandserhebungen Lernstandsseiten STOLLE Diagnosebogen LRS KTSA IGLU (VERA) OLFA CFT 1 AFS DRT Screening LRS-Test Online-Diagnose (Schroedel) LWOV Mildenberger Diagnose Förderpaket Lernwerkstätten Testen und Fördern (Klett) Lesefitness (Domino)

8 Ergebnisse

28 13 4 4 4 3 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Abbildung 7: Nennungen verwendeter diagnostischer Verfahren (n = 56) Anmerkung. HSP (Hamburger Schreibprobe 1-10, May, 2012), SSB-Rechtschreibung (Screening für Schul- und Bildungsberatung, Kornmann & Horn, 2001), DBL 1/2 (Die Diagnostischen Bilderlisten, Dummer-Smoch, 1984), ZLT (Zürcher Lesetest I/II, Petermann & Daseking, 2015), ELFE (Ein Leseverständnistest für Erst- bis Sechstklässler, Lenhard & Schneider, 2006), STOLLE (StolperwörterLesetest, Nottbusch, 2017) OLFA (Oldenburger Fehleranalyse für die Klassen 3 bis 9, Thomé, G. & Thomé, D., 2017), CFT 1 (Grundintelligentest Skala 1, Cattell,

8.2 Deskriptivstatistische Analysen

191

Weiß & Osterland, 1997), AFS (Test zur Feststellung einer Legasthenie oder Dyskalkulie, Kopp-Duller, 2017), DRT 1 (Diagnostischer Rechtschreibtest für 1. Klassen, Müller & Rudolf, 2003), LWOV (Lautwortoperationsverfahren, Kossow, 1999), Lesefitness (Floh Lesefitness-Training/Check, VBE, 2017). Informelle diagnostische Methoden und Verfahren In der Skala Informelle diagnostische Methoden (IDM) wurden Items zusammengefasst, die sich primär auf die Analyse von Lösungswegen und Fehlern beziehen, allerdings ohne den Einsatz spezifischer diagnostischer Instrumente (Tabelle 64). Es zeigt sich, dass die Lehrkräfte diese Items für deutlich zutreffender halten als die Items zum Einsatz konkreter (formeller) diagnostischer Instrumente (M = 4.86, SD = 0.67). Nach Ansicht der Lehrkräfte beobachten diese einzelne Schülerinnen und Schüler gezielt bei der Bearbeitung von Aufgaben (DM3) und nutzen Arbeitsphasen, um zu analysieren, was einzelne Schülerinnen und Schüler bereits beherrschen und welche Aufgaben sie mit Unterstützung lösen können (DM7). Auch die Aussage „Ich schaue mir regelmäßig Arbeiten einzelner SuS genau an, um Lösungsstrategien, Fehlertypen oder Fehlkonzepte zu erkennen“ (DM8) halten die Lehrkräfte für überwiegend zutreffend. Weiterhin nutzen die Lehrkräfte die diagnostischen Informationen überwiegend dazu, Fördermaßnahmen für einzelne Schülerinnen und Schüler festzulegen (NU3). Tabelle 64: Mittelwerte und Standardabweichung der Items der Skala IDM Item DM3: Ich beobachte einzelne Kinder gezielt bei der Bearbeitung von Aufgaben (z.B. in Bezug auf schriftsprachliche Fähigkeiten). DM7: Phasen, in denen die SuS selbstständig oder in Partnerarbeit lernen, nutze ich gezielt, um in Einzelsituationen zu analysieren was einzelne SuS bereits beherrschen und welche Aufgaben sie mit Hilfe/Unterstützung lösen können. DM8: Ich schaue mir regelmäßig Arbeiten einzelner SuS genau an, um Lösungsstrategien, Fehlertypen oder Fehlkonzepte zu erkennen. NU3: Ich nutze diagnostische Informationen, um Fördermaßnahmen für einzelne SuS festzulegen (Förderplanung). Skala gesamt

n 336

M 4.76

(SD) 0.92

332

4.68

0.89

335

4.94

0.92

333

5.03

0.90

326

4.86

0.67

192

8 Ergebnisse

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, IDM = Informelle diagnostische Methoden und Verfahren.

Feedbackverhalten Die Lehrkräfte waren aufgefordert, sich anhand der Skalen Feedback-Ebenen (FBE) und Feedback-Fragen (FBF) hinsichtlich ihres Feedbackverhaltens im mündlichen (synchron) bzw. schriftlichen (asynchron) Gebrauch einzuschätzen. Feedback-Ebenen (mündlich) Auf der Skala Feedback-Ebenen (FBE) sollten die Lehrkräfte anhand von vier Items angeben, wie sie reagieren, wenn eine Schülerin oder ein Schüler im Unterricht ihr bzw. sein Arbeitsergebnis präsentiert und dieses falsch oder unzureichend ist (Tabelle 65). Damit sollten insbesondere die Feedback-Ebene des Verstehensprozesses in Bezug auf die Aufgabenerledigung und die Ebene der Selbstregulation (vgl. Kapitel 2.1.5) im mündlichen/synchronen Kontext erfasst werden. Auf der Ebene des Verstehensprozesses in Bezug auf die Aufgabenerledigung geben die Lehrkräfte nach eigenen Angaben sehr häufig Rückmeldung. Die Lehrkräfte sind mehrheitlich der Ansicht, Hinweise zu geben, wie die Schülerinnen und Schüler an ihren Stärken ansetzen können (FBE3). Außerdem sagen sie den Schülerinnen und Schülern, wie sie ein Problem anders angehen könnten (FBE9). Etwas seltener erarbeiten die Lehrkräfte gemeinsam mit den Schülerinnen und Schülern eine Lösung (FBE8). Die Ebene der selbstregulatorischen und metakognitiven Prozesse wird ebenfalls von den Lehrkräften angesprochen. So weisen die Lehrkräfte überwiegend darauf hin, bestimmte Lernstrategien zu verwenden (FBE4). Tabelle 65: Mittelwerte und Standardabweichung der Items der Skala FBE Item Wenn ein Schüler im Unterricht sein Arbeitsergebnis präsentiert und dieses falsch oder unzureichend ist… FBE3: …versuche ich, Hinweise zu geben, wie der Schüler an seinen Stärken ansetzen kann. FBE4: …weise ich ihn darauf hin, eine bestimmte Lernstrategie zu verwenden. FBE8: ...erarbeite ich gemeinsam mit ihm eine Lösung. FBE9: ...gebe ich ihm Hilfestellung, indem ich ihm sage, wie er das Problem anders angehen könnte. Skala gesamt

n

M

(SD)

332

5.17

0.82

330

4.80

0.94

330 330

4.43 4.95

0.95 0.84

322

4.84

0.68

8.2 Deskriptivstatistische Analysen

193

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, FBE = Feedback-Ebenen.

Feedback-Fragen (schriftlich) Anhand von fünf Items sollten die Befragten auch zu ihrer Beurteilungspraxis im schriftlichen/asynchronen Kontext Stellung nehmen (Tabelle 66). Erfasst werden sollte in diesem Fragekomplex die Berücksichtigung der zentralen Feedback-Fragen nach Hattie (2014) (vgl. Kapitel 2.1.5). Insgesamt zeigt sich, dass lernwirksame Feedback-Fragen eher nicht in schriftlichen Rückmeldungen berücksichtigt werden. Am häufigsten geben die Lehrkräfte Hinweise dazu, was eine Schülerin bzw. ein Schüler noch tun muss, um sich zu verbessern (FBF4). Die Lehrkräfte beschreiben eher nicht den Lernstand der Schülerinnen und Schüler (FBF5), was das Lernziel war und wo die Schülerinnen und Schüler in Bezug dazu steht (FBF3). Ebenfalls wird kaum darauf eingegangen, welche Strategien die Schülerinnen und Schüler einsetzen könnten, um ihre Leistungen zu verbessern (FBF7). Stärken der Schülerinnen und Schüler und Hinweise zur Weiterentwicklung dieser werden bei schriftlichen Rückmeldungen ebenfalls eher nicht beschrieben (FBF6). Insgesamt fällt eine große Streuung der Antworten bezüglich der Feedback-Fragen auf. Deutlich wird auch, dass lernwirksames Feedback offenbar eher in mündlicher (FBE) (M = 4.84, SD = 0.68) als in schriftlicher Form (FBF) (M = 2.98, SD = 1.17) gegeben wird.

194

8 Ergebnisse

Tabelle 66: Mittelwerte und Standardabweichung der Items der Skala FBF Item FBF3: Im Kommentar beschreibe ich, was das Lernziel war und wo der Schüler in Bezug dazu steht. FBF4: Im Kommentar beschreibe ich, was der Schüler noch tun muss, um sich zu verbessern. FBF5: Im Kommentar beschreibe ich den Lernstand des Schülers. FBF6: Im Kommentar beschreibe ich die Stärken des Schülers und gebe Hinweise, wie er diese weiterentwickeln kann. FBF7: Im Kommentar beschreibe ich, welche Strategien der Schüler einsetzen könnte, um seine Leistung zu verbessern. Skala gesamt

n 332

M 2.93

(SD) 1.34

333

3.59

1.50

331

2.39

1.25

332

2.87

1.46

329

3.08

1.52

329

2.98

1.17

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, FBF = Feedback-Fragen.

Pädagogische Nutzung der diagnostischen Informationen Mittels der Skala Pädagogische Nutzung der diagnostischen Informationen (NU) wurden die Lehrkräfte gefragt, wozu sie diagnostische Informationen über den Lernstand der Schülerinnen und Schüler nutzen (Tabelle 67). Es zeigt sich, dass die Lehrkräfte diese Informationen in erster Linie dazu einsetzen, um herauszufinden, ob sie im Stoff weitergehen können oder noch weiter am aktuellen Stoff arbeiten müssen (NU8). Auch für eine differenzierte Rückmeldung an die Eltern (NU11) und Schülerinnen und Schüler (NU9) werden die diagnostischen Informationen nach Angaben der Befragten sehr häufig verwendet. Die Lehrkräfte halten es für eher bzw. überwiegend zutreffend, diagnostische Informationen zu verwenden, um bestehende Lernziele zu überdenken (NU10) und, um Aufgaben auszuwählen, die dem Fähigkeitsniveau der Schülerinnen und Schüler entsprechen (NU7). Tabelle 67: Mittelwerte und Standardabweichung der Items der Skala NU Item NU7: ...um Aufgaben, die dem Fähigkeitsniveau der SuS entsprechen, für die nächsten Stunden auszuwählen. NU8: ...um herauszufinden, ob ich im Stoff weitergehen kann oder noch weiter am aktuellen Stoff arbeiten muss. NU9: ...um einzelnen SuS gezielte Rückmeldung geben zu können. NU10: …um bestehende Lernziele zu überdenken.

n 331

M 4.74

(SD) 1.02

334

5.18

0.87

333

4.88

0.95

334

4.63

1.08

8.2 Deskriptivstatistische Analysen

Item NU11: …für eine differenzierte Rückmeldung zur Entwicklung eines Schülers an die Eltern (z.B. Lernstandsgespräch). Skala gesamt

195

n 334

M 5.02

(SD) 1.09

331

4.89

0.76

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, NU = Pädagogische Nutzung der diagnostischen Informationen.

8.2.2

Deskriptive Analyse weiterer Skalen und Items

Konstruktivistische Überzeugungen zum Lehren und Lernen Neben den Assessment-Strategien wurden auch die konstruktivistischen Überzeugungen der Lehrkräfte zum Lehren und Lernen erfasst (Tabelle 68). Die deutlichste Zustimmung erhielt die Aussage „Mir ist es sehr wichtig, dass die SuS in lebensweltlichen Kontexten lernen (z.B. Besuch der Bibliothek)“ (CO5). Die Lehrkräfte stimmen auch der Aussage „Ich finde es sehr gut, wenn Schüler Wörter aus ihrem eigenen Wortschatz lesen und schreiben lernen, auch wenn diese etwas schwieriger sind“ (CO1) überwiegend zu. Sie ermuntern ihre Schülerinnen und Schüler überwiegend zum Verschriften von Wörtern, die im Unterricht noch nicht gelernt wurden (CO3) und beziehen bei der Auswahl von Texten überwiegend die Interessen der Schülerinnen und Schüler ein (CO6). Deutlich weniger zutreffend finden die Lehrkräfte die Aussage CO4, die das Zulassen von Rechtschreibfehlern thematisiert, wobei die Antworten der Teilnehmenden stark streuen. Insgesamt stimmen die Lehrkräfte konstruktivistischen Überzeugungen überwiegend zu (M = 4.89, SD = 0.75).

196

8 Ergebnisse

Tabelle 68: Mittelwerte und Standardabweichung der Items der Skala CO Item CO1: Ich finde es sehr gut, wenn SuS Wörter aus ihrem eigenen Wortschatz lesen und schreiben lernen, auch wenn diese etwas schwieriger sind. CO3: Ich ermuntere die SuS zum Verschriften von Wörtern, die im Unterricht noch nicht gelernt wurden. CO4: Ich lasse Rechtschreibfehler zu, weil sie mir zeigen, auf welchem Stand sich die SuS beim Erwerb der Schriftsprache befinden. CO5: Mir ist es sehr wichtig, dass die SuS in lebensweltlichen Kontexten lernen (z.B. Besuch der Bibliothek). CO6: Ich beziehe bei der Auswahl von Texten für den Leseunterricht häufig die Interessen der SuS ein. Skala gesamt

n 332

M 4.98

(SD) 1.06

332

4.81

1.14

327

3.80

1.45

335

5.26

0.89

335

5.01

0.90

321

4.89

0.75

Anmerkung. Antwortmöglichkeiten: 1 = stimmt überhaupt nicht, 2 = stimmt wenig, 3 = stimmt eher nicht, 4 = stimmt eher, 5 = stimmt überwiegend, 6 = stimmt genau, CO = Konstruktivistische Überzeugungen zum Lehren und Lernen (CO).

Tendenz zur aufgabenbezogenen Differenzierung Anhand von fünf Items wurde die Tendenz zur aufgabenbezogenen Differenzierung erfasst (Tabelle 69). Offenbar spielt die aufgabenbezogene Differenzierung bei der Planung und Vorbereitung von Unterricht eine Rolle, da die Lehrkräfte dabei häufig überlegen, welche Aufgabenschwierigkeit für welchen Schüler bzw. welche Schülerin gerade richtig ist (DI1) und sich auch Gedanken darüber machen, welche Schülerin bzw. welcher Schüler eine bestimmte Aufgabenschwierigkeit gerade noch schaffen würde (DI5). Die Lehrkräfte halten es überwiegend für angemessen, leistungsschwächeren Schülerinnen und Schülern leichtere Aufgaben zu stellen als leistungsstärkeren (DI3), achten aber etwas weniger beim Unterrichten auch tatsächlich darauf, dass schwächere Schülerinnen und Schüler leichtere Aufgaben bekommen und stärkere Schülerinnen und Schüler schwierigere Aufgaben (DI6). Entsprechend sind die Lehrkräfte der Ansicht, dass sie dafür sorgen, dass die Schülerinnen und Schüler unterschiedlich schwere Aufgaben bearbeiten (DI4). Insgesamt sind die Lehrkräfte tendenziell der Einschätzung, dass sie im Deutschunterricht differenzieren (M = 4.52, SD = 0.82).

8.2 Deskriptivstatistische Analysen

197

Tabelle 69: Mittelwerte und Standardabweichung der Items der Skala DI Item DI1: Bei der Unterrichtsvorbereitung überlege ich mir häufig, welche Aufgabenschwierigkeit für welchen Schüler gerade richtig ist. DI3: Ich halte es für angemessen, leistungsschwächeren SuS einer Klasse leichtere Aufgaben zu stellen als leistungsstärkeren. DI4: Ich sorge in meinen Stunden oft dafür, dass verschiedene SuS verschieden schwierige Aufgaben bearbeiten. DI5: Ich mache mir bei der Unterrichtsvorbereitung viele Gedanken darüber, welcher Schüler welche Aufgabenschwierigkeit gerade noch schaffen würde. DI6: Wenn ich im Unterricht einer Klasse Aufgaben stelle, so achte ich darauf, dass ein leistungsschwächerer Schüler leichtere Aufgaben, ein leistungsstärkerer Schüler schwierigere Aufgaben erhält. Skala gesamt

n 334

M 4.74

(SD) 1.02

334

4.56

1.00

333

4.61

0.99

330

4.34

1.12

331

4.35

1.05

326

4.52

0.82

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, DI = Tendenz zur aufgabenbezogenen Differenzierung.

Individuelle Bezugsnormorientierung Als weitere Variable wurde die individuelle Bezugsnormorientierung der Lehrkräfte mittels vier Items erfasst (Tabelle 70). Die größte Zustimmung erfährt das Item „Wenn sich ein schwacher Schüler verbessert, ist das für mich eine gute Leistung, auch wenn der Schüler immer noch unter dem Klassendurchschnitt liegt.“ (BN6). Ebenfalls überwiegend zutreffend schätzen die Lehrkräfte die Aussage ein, dass sie von einer „guten Leistung“ sprechen, wenn sich eine Schülerin bzw. ein Schüler gegenüber früher verbessert hat (BN5). Geht es jedoch konkret um die Benotung anhand einer individuellen Bezugsnorm halten die Grundschullehrkräfte das betreffende Item BN3 nur für eher zutreffend. Item BN4, welches explizit die Bevorzugung der individuellen Bezugsnorm gegenüber der sozialen Bezugsnorm anspricht, schätzen die Lehrkräfte als eher zutreffend für ihren Unterricht ein. Demzufolge zeigt sich bei den Lehrkräften eine leichte Tendenz zur Anwendung einer individuellen Bezugsnorm (M = 4.32, SD = 0.77).

198

8 Ergebnisse

Tabelle 70: Mittelwerte und Standardabweichung der Items der Skala BN Item BN3: Wenn sich ein schwächerer Schüler im Mündlichen verbessert, gebe ich ihm eine gute Note, auch wenn die Qualität seiner Beiträge noch unter dem Durchschnitt liegt. BN4: Wenn ich die Leistung eines Schülers beurteilen will, vergleiche ich sein erzieltes Ergebnis nicht so sehr mit den Ergebnissen seiner Mitschülerinnen, sondern mit den Ergebnissen, die der Schüler bei vergleichbaren Aufgaben erzielt hat. BN5: Wenn ich von einer "guten Leistung" spreche, hat sich der Schüler gegenüber früher verbessert. BN6: Wenn sich ein schwacher Schüler verbessert, ist das für mich eine gute Leistung, auch wenn der Schüler immer noch unter dem Klassendurchschnitt liegt. Skala gesamt

n 329

M 3.58

(SD) 1.16

329

4.18

1.16

328

4.55

1.07

328

4.95

0.97

319

4.32

0.77

Anmerkung. Antwortmöglichkeiten: 1 = trifft überhaupt nicht zu, 2 = trifft wenig zu, 3 = trifft eher nicht zu, 4 = trifft eher zu, 5 = trifft überwiegend zu, 6 = trifft voll zu, BN = Individuelle Bezugsnormorientierung (BN).

Weitere personen-, klassen- und schulbezogene Daten Weiterhin wurden einige zentrale personen-, klassen- und schulbezogene Daten erfasst, um diese als Kontrollvariablen in die Analysen einbeziehen zu können. Dabei zeigt sich, dass 94 Prozent der Befragten weiblich sind und nur 13 männliche Lehrkräfte an der Befragung teilgenommen haben (ohne Abbildung). Bezüglich der Altersstruktur der Befragten wird deutlich, dass 30 Prozent zwischen 41 und 50 Jahren alt sind. Die Hälfte der teilnehmenden Lehrkräfte ist über 50 Jahre alt, während nur rund 18 Prozent unter 41 Jahre alt sind (Abbildung 8).

Prozent

8.2 Deskriptivstatistische Analysen

100 90 80 70 60 50 40 30 20 10 0

199

29,6 8

9,5

≤ 30

31-40

25,4 12,7

41-50

51-55

56-60

11,8

≥ 61

3 fehlend

Altersgruppe

Abbildung 8: Alter der Grundschullehrkräfte (n = 338) Entsprechend der Altersstruktur verfügen 63 Prozent der Befragten über mehr als 26 Jahre Berufserfahrung. 15 Prozent der Lehrkräfte haben erst weniger als sechs Jahre Berufserfahrung, insgesamt 22 Prozent der Lehrkräfte haben zwischen sechs und 25 Jahren Erfahrung im Lehrerberuf (ohne Abbildung). Mit Blick auf die Ausbildungssituation ist festzuhalten, dass 94 Prozent der Befragten Lehramt Grundschule (bzw. Unterstufe) studiert haben, nur acht Lehrkräfte haben ein anderes Lehramt studiert, vier Befragte haben ein anderes Studium absolviert. Hinsichtlich der fachspezifischen Ausbildung geben 89 Prozent der Lehrkräfte an, das Fach Deutsch studiert zu haben, acht Prozent haben das Fach Deutsch nicht studiert und drei Prozent machen diesbezüglich keine Angabe (ohne Abbildung). Gefragt nach themenspezifischen Fort- bzw. Weiterbildungen zu den Aspekten Leistungsbeurteilung, Diagnostik oder verwandten Themen, geben 45 Prozent an, eine solche in letzter Zeit besucht zu haben. 53 Prozent der Lehrkräfte haben keine entsprechende Fortbildung gemacht, zwei Prozent machen keine Angabe diesbezüglich. In einem offenen Antwortfeld konnten ergänzend Angaben gemacht werden, welche Fortbildungen besucht wurden. Von 70 Antworten waren 20 Antworten Nennungen, die nur einmalig auftraten. Am häufigsten wurden Fortbildungen zu Leistungsbeurteilung und -bewertung genannt, zwölfmal wurden LRS-spezifische Fortbildungen besucht und fünfmal Angebote zur Differenzierung genannt (Abbildung 9).

200

8 Ergebnisse

Haben Sie in letzter Zeit Fort- bzw. Weiterbildungen zu den Aspekten Leistungsbeurteilung, Diagnostik oder verwandten Themen besucht? Wenn ja, welche? andere Einzelnennungen

20

Leistungsbeurteilung und -bewertung

19

LRS/LRS-Diagnostik

12

Differenzierung/Individualisierung

5

ZINT/Integration

4

Zertifikatskurs Anfangsunterricht

4

Rechenstörung

2

LEBE

2

Gedichte, Lesen

2

Mentorenqualifikation

2

Abbildung 9: Besuch von Fort- und Weiterbildung (n = 72) Da im Fragebogen auch Fragen zur Nutzung der Kompetenztests auftauchen, wurde erfasst, ob die dritte Klasse, in der die Lehrkraft aktuell Deutsch unterrichtet, für den Kompetenztest angemeldet wurde. 73 Prozent der Befragten geben an, dass eine Anmeldung erfolgte, 24 Prozent äußern, dass ihre Klasse nicht angemeldet wurde und vier Prozent machen dazu keine Angabe (ohne Abbildung). Weiterhin wurde versucht, einzelne Heterogenitätsdimensionen der Klasse zu erfassen. 41 Prozent der Befragten sind in einer dritten Klasse mit Schülerinnen und Schülern mit sonderpädagogischem Förderbedarf tätig. Weiterhin unterrichten 31 Prozent der Befragten in einer dritten Klasse mit Schülerinnen und Schülern nichtdeutscher Herkunftssprache das Fach Deutsch (ohne Abbildung). Da die genaue Populationsgröße der Befragten nicht bekannt war, wurde die Anzahl der Lehrkräfte, die aktuell in der dritten Klassenstufe das Fach Deutsch unterrichten, erfragt, um rückwirkend die tatsächliche Populationsgröße besser abschätzen zu können. Dabei zeigt sich, dass mehrheitlich (49 Prozent) zwei Lehrkräfte in dieser Klassenstufe unterrichten, 24 Prozent unterrichten allein das Fach Deutsch in der dritten Klassenstufe und ein Viertel der Befragten gibt an, dass mehr als zwei Lehrkräfte tätig sind (M = 2.11, SD = .92). Somit bestätigt sich tendenziell der bei der Stichprobenberechnung angenommene Wert von zwei Lehrkräften pro Schule.

8.3 Strukturgleichungsanalysen

8.3

201

Strukturgleichungsanalysen

Ein zentrales Anliegen der Arbeit besteht in der empirischen Prüfung des theoretisch aufgestellten Modells formativen Assessments und der Zusammenhänge zwischen den einzelnen formativen Assessment-Strategien. Die Analyse des Untersuchungsschwerpunktes 3 erfolgt mittels konfirmatorischer Faktorenanalysen (Kapitel 7.3.1). Anhand von Strukturgleichungsmodellen sollen auch die Zusammenhänge zwischen den Assessment-Strategien und weiteren unabhängigen Variablen identifiziert und analysiert werden (Kapitel 7.3.2) (Untersuchungsschwerpunkt 4). Weiterhin werden zur Beantwortung des Untersuchungsschwerpunktes 5 unter Verwendung latenter Profilanalysen Assessment-Gruppen in der Befragungspopulation identifiziert und beschrieben (Kapitel 7.3.3). 8.3.1

Konfirmatorische Faktorenanalyse und Modellvergleich

Mit der Prüfung der Messmodelle anhand der erhobenen Daten der Hauptuntersuchung kann davon ausgegangen werden, dass die hypothetischen Konstrukte reliabel erhoben wurden und diese Diskriminanzvalidität aufweisen (vgl. Kapitel 7.1). Zur Bearbeitung des dritten Untersuchungsschwerpunktes erfolgt zunächst eine konfirmatorische Faktorenanalyse für jeden einzelnen Faktor, um zu überprüfen, ob die Messmodelle den geforderten Mindestkriterien für die Verwendung im Rahmen von Strukturgleichungsmodellen erfüllen. Im Anschluss wird zur Prüfung der Hypothese 1 eine konfirmatorische Faktorenanalyse für das Gesamtmodell formativen Assessments durchgeführt und zur Prüfung der Hypothese 2 ein Modellvergleich mit einem Modell zweiter Ordnung angestellt. Aufstellung der Messmodelle Für die Strukturgleichungsanalysen werden die reduzierten Konstrukte (basierend auf der Güteprüfung der Messmodelle) verwendet (vgl. Kapitel 8.1.4). Die Messmodelle werden als reflektive Messmodelle und nach dem Konzept „multipler Items“ spezifiziert (vgl. Kapitel 7.2.1). Exemplarisch soll das Messmodell für das Konstrukt Feedback-Fragen (FBF) mit standardisierten Faktorladungen und Residualvarianzen dargestellt werden (Abbildung 10).

202

8 Ergebnisse

Abbildung 10: Messmodell für das Konstrukt FBF (Feedback-Fragen) Konfirmatorische Faktorenanalyse der einzelnen Faktoren Zunächst werden für alle Faktoren einzeln konfirmatorische Faktorenanalysen durchgeführt. Die Kennwerte in Tabelle 71 (für weitere Kennwerte siehe Anhang P) zeigen, dass die Cutoff-Werte des SRMR erfüllt werden. Somit kann auf einen guten Modellfit der einzelnen Konstrukte geschlossen werden. Die inkrementellen Fitmaße des CFI mit Werten über 0.90 weisen ebenfalls auf einen guten Fit der Modelle hin. Alle Messmodelle entsprechen somit den geforderten Mindestkriterien für die Verwendung innerhalb von Strukturgleichungsmodellen. Tabelle 71: Güteprüfung der einzelnen Messmodelle Faktor NU DM SA FBF UG IDM SAK LZ LK ST FBE CO BN DI

SRMR (≤ 0.10) 0.025 0.025 0.026 0.031 0.030 0.018 0.028 0.030 0.000 0.000 0.036 0.038 0.037 0.017

CFI (≥ 0.90) 0.981 0.984 0.974 0.958 0.979 0.993 0.983 0.967 1.000 1.000 0.953 0.934 0.935 0.994

8.3 Strukturgleichungsanalysen

203

Konfirmatorische Faktorenanalyse des Gesamtmodells formativer AssessmentStrategien (11-Faktoren Modell) Anschließend an die konfirmatorische Faktorenanalyse der einzelnen Modelle wird eine konfirmatorische Faktorenanalyse für das Gesamtmodell formativen Assessments durchgeführt. Im Strukturmodell werden hierfür zwischen allen elf Assessment-Faktoren ungerichtete Beziehungen spezifiziert. Plausibilitätsanalyse Zur Überprüfung der Plausibilität (Anhang Q) werden zunächst die Vorzeichen der Modellparameter analysiert, welche erwartungskonform positive Zusammenhänge anzeigen. Es treten keine unzulässigen Parameterschätzungen auf. Alle Parameterschätzungen sind signifikant und zeigen hinsichtlich Höhe und Richtung erwartungsgemäße Werte. Alle Vorzeichen der Faktorladungen sind positiv. Die Faktorladungen liegen über .50 und erreichen damit hinreichende Werte (i.d.R. > 0.5; Weiber & Mühlhaus, 2014, S. 203). Die Faktorinterkorrelationen liegen zwischen r = .15 und r = .68. Damit können die Parameterschätzungen als plausibel angesehen werden. Evaluation des 11-Faktorenmodells Die Ergebnisse der Modellschätzung der konfirmatorischen Faktorenanalyse des 11-Faktorenmodells sind in zu finden. Aufgeführt werden der Chi-Quadrat-Wert, die Freiheitsgrade, das Signifikanzniveau, der RMSEA, der χ²/df-Wert, SRMR und CFI. Der χ²-Test wird bei der Prüfung des 11-Faktorenmodells signifikant, das weniger strenge inferenzstatistische Kriterium RMSEA wird hingegen erfüllt. Ebenso sprechen der χ²/df-Wert und der SRMR als absolute Fitmaße für einen guten Modell-Fit. Das inkrementelle Fitmaß des CFI wird ebenfalls erfüllt. Darüber hinaus kann nun aufgrund der positiven Evaluation des Modells auch eine Aussage zur nomologischen Validität der Konstrukte getroffen werden. Da das Modell einen akzeptablen Fit aufweist, kann auf nomologische Validität (vgl. Kapitel 6.4.2) der Konstrukte geschlossen werden.

204

8 Ergebnisse

Tabelle 72: Güteprüfung des 11-Faktorenmodells ² df p RMSEA (≤ 0.05-0.08) ²/df (≤ 3) CFI (≥ 0.90) SRMR (≤ 0.10)

Modell 1: 11-Faktoren KFA 1487.34 934 0.000 0.04 1.59 0.90 0.06

Analyse der Zusammenhänge Bei Betrachtung der Korrelationen zwischen den Konstrukten bestätigen sich die vermuteten Zusammenhänge, wobei alle Faktoren auf p < .001-Niveau signifikant korrelieren (Tabelle 73). Damit kann die Hypothese 1 verifiziert werden. Zwischen dem Faktor Formelle Diagnostische Methoden (DM) und den Faktoren Self- und Peer-Assessment (SA) sowie Feedback-Fragen (FBF) gibt es eine Korrelation mit großem Effekt29. Auch zwischen den Faktoren informelle diagnostische Methoden (IDM) und den Faktoren pädagogische Nutzung (NU), Unterrichtsgespräch (UG), transparente Lernziele (LZ), Beurteilungskriterien (LK), Strategievermittlung (ST) und Feedback-Ebenen (FBE) fällt der Zusammenhang stark aus. Der Faktor transparente Lernziele (LZ) korreliert hoch mit den Faktoren Beurteilungskriterien (LK), Unterrichtsgespräch (UG), Feedback-Ebenen (FBE) und informelle diagnostische Methoden (IDM). Der Faktor Beurteilungskriterien (LK) hängt darüber hinaus noch stark mit dem Faktor informelle diagnostische Methoden (IDM) zusammen. Zwischen dem Faktor Feedback-Ebenen (FBE) und den meisten anderen Assessment-Strategien (NU, SA, UG, IDM, LZ, ST) treten ebenfalls Korrelationen mit mittlerem Effekt auf. Der Faktor Schüleraktivierung als instruktionale Ressource (SAK) korreliert offensichtlich am geringsten mit den anderen Aspekten formativen Assessments, da hier lediglich Korrelationen zwischen r = .19 und r = .46 auftreten. Die Faktoren transparente Lernziele (LZ), Kommunikation von Beurteilungskriterien (LK) und Strategievermittlung (ST) korrelieren ebenfalls mit einzelnen Faktoren nur gering. Die Interkorrelationen liegen insgesamt zwischen r = .15 und r = .68, was auf eine ausreichende Diskriminanzvalidität der Konstrukte hindeutet (Geiser, 2011,

29

Bei der bivariaten Korrelation wird der Korrelationskoeffizient direkt als standardisiertes Effektgrößenmaß betrachtet. Bei einer Korrelation ab .10 spricht man von einem kleinen Effekt, ab .30 von einem mittleren Effekt und ab .50 von einem großen Effekt (Cohen, 1988).

8.3 Strukturgleichungsanalysen

205

S. 70). Allerdings fallen die Korrelationen unterschiedlich hoch aus, was nicht unbedingt einen zugrundeliegenden gemeinsamen Faktor nahelegt (Brown, T. A., 2006, S. 323; Weiber & Mühlhaus, 2014, 287f.). Da dieser theoretisch angenommen wurde (Hypothese 2), wird dennoch ein Vergleich mit einem Faktorenmodell zweiter Ordnung vorgenommen. Zur Prüfung, ob die Durchführung einer SecondOrder-Faktoranalyse überhaupt sinnvoll ist, werden die frei geschätzten Kovarianzen analysiert (Anhang R). Diese sind signifikant von Null verschieden, weshalb eine Faktorenanalyse zweiter Ordnung (SFA) durchgeführt werden kann (Weiber & Mühlhaus, 2014, S. 279). Tabelle 73: Korrelationsmatrix der Assessment Faktoren NU NU DM

1

DM .33

*

1

SA FBF

SA

FBF

UG

IDM

SAK

LZ

LK

ST

FBE

.36*

.31*

.37*

.60*

.26*

.37*

.48*

.34*

.54*

.63*

.51*

.33*

.48*

.29*

.48*

.24*

.21*

.41*

1

.41*

.40*

.49*

.46*

.43*

.31*

.47*

.53 *

1

.34*

.34*

.40*

.24*

.15*

.16*

.39*

1

.63*

.22*

.53*

.48*

.38*

.57*

1

.34*

.68*

.52*

.51*

.62*

1

.21*

.19*

.22*

.34*

1

.56*

.46*

.54*

1

.38*

.40*

1

.52*

UG IDM SAK LZ LK ST FBE

1

Anmerkung. *p < .001

Second-Order-Faktorenanalyse Im Second-Order-Modell wird ein übergeordneter latenter Faktor modelliert, der die Konstrukte erster Ordnung beeinflusst und damit Kovariationen zwischen den Konstrukten verursacht (Weiber & Mühlhaus, 2014, S. 277). Dieser Faktor wird als formative Assessment Orientierung (FO) bezeichnet und als reflektives Konstrukt operationalisiert.

206

8 Ergebnisse

Plausibilitätsanalyse Die Vorzeichen der Modellparameter zeigen erwartungskonform positive Zusammenhänge an. Ebenso treten keine unzulässigen Parameterschätzungen auf. Alle Parameterschätzungen sind signifikant und zeigen hinsichtlich Höhe und Richtung erwartungsgemäße Werte. Die Faktorladungen der einzelnen Konstrukte erreichen hinreichend hohe Werte (> 0.5). Die Parameterschätzungen sind somit plausibel. Evaluation des Second-Order-Modells Wie der Tabelle 74 zu entnehmen ist, wird der χ²-Test signifikant, das inferenzstatistische Kriterium des RMSEA wird hingegen erfüllt. Der χ²/df-Wert und der SRMR als absolute Fitmaße sprechen für einen guten Modell-Fit. Das inkrementelle Fitmaß des CFI wird knapp nicht erfüllt. Tabelle 74: Güteprüfung des Second-Order-Modells

² df p RMSEA (≤ 0.05-0.08) ²/df (≤ 3) CFI (≥ 0.90) SRMR (≤ 0.10)

Modell 2: Second-Order-Modell 1639.50 978 .000 0.05 1.67 0.88 0.07

Analyse der Faktorladungen zweiter Ordnung Bei der Analyse der Faktorladungen zweiter Ordnung (Tabelle 75) zeigt sich, dass insbesondere die Faktoren informelle diagnostische Methoden (IDM), die Berücksichtigung der FeedbackEbenen (FBE), transparente Lernziele (LZ) und die Gestaltung kognitiv aktivierender Unterrichtsgespräche (UG) hoch auf den Faktor Formative Orientierung laden. Die Verwendung von Feedback-Fragen (FBF) und die Schüleraktivierung (SAK) werden weniger vom übergeordneten Konstrukt beeinflusst. Im Modell liegen demzufolge nicht alle Faktorladungen über .70, wie von Chin (1998a, S. 10) für Second-Order-Modelle empfohlen.

8.3 Strukturgleichungsanalysen

207

Tabelle 75: Faktorladungen der Konstrukte 1. Ordnung auf den Faktor 2. Ordnung (FO) Faktor IDM FBE LZ UG SA NU LK DM ST FBF SAK

Faktorladung 0.846 0.777 0.741 0.704 0.669 0.619 0.597 0.595 0.577 0.474 0.420

Modellvergleich Zum Modellvergleich werden die bereits berichteten Kennwerte Chi-Quadrat, ²/df-Wert, SRMR und CFI analysiert. Weiterhin werden die Informationskriterien AIC und der sample size adjusted BIC herangezogen. Wird das Second-Order-Modell mit dem 11-Faktoren-Modell, bei dem die Kovarianzen zwischen den Konstrukten erster Ordnung frei geschätzt werden, verglichen, so erzielt das Second-Order-Modell bei allen Fit-Indizes etwas schlechtere Werte als das 11-Faktoren-Modell (Tabelle 76). Auch die Informationskriterien AIC und Sample-Size Adjusted BIC deuten auf einen besseren Fit des 11-FaktorenModells hin. Lediglich der BIC weist beim Second-Order-Modell einen etwas geringeren Wert auf als das 11-Faktoren-Modell. Tabelle 76: Modellvergleich

² df p RMSEA (≤ 0.05-0.08) ²/df CFI (≥ 0.90) SRMR (≤ 0.10) AIC

Modell 1: 11-Faktoren-Modell

Modell 2: Second-Order-Modell

1487.34 934 0.000 0.04

1639.50 978 0.000 0.05

1.59 0.90 0.06

1.67 0.88 0.07

39152.036

39216.193

208

BIC Adjusted BIC

8 Ergebnisse

Modell 1: 11-Faktoren-Modell 39889.884 39277.658

Modell 2: Second-Order-Modell 39785.826 39313.175

Abschließende Gesamtbeurteilung Zunächst ist festzuhalten, dass keines der beiden Modelle den ²-Test erfüllt, was allerdings angesichts der Komplexität der Modelle und der Stichprobengröße tolerierbar ist, sofern die anderen Fit-Indizes erfüllt werden (Brown, T. A., 2006). Demgegenüber weist der RMSEA als inferenzstatistisches Maß bei Modell 1 und 2 auf einen akzeptablen Fit hin. Zieht man weiterhin das inkrementelle Fitmaß CFI hinzu, so liegt der CFI bei Modell 1 über dem geforderten Cutoff-Wert von 0.90 und zeigt somit einen akzeptablen und besseren Modellfit an als bei Modell 2. Gestützt wird dieses Ergebnis auch durch die absoluten deskriptiven Fitmaße SRMR und ²/df, welche bei beiden Modellen im akzeptablen Bereich liegen, bei Modell 1 aber etwas besser ausfallen. Aufgrund der Nähe der Fitmaße zu den geforderten Cutoff-Werten wird der Modell-Fit des Modells 1 als akzeptabel bezeichnet. Das Second-Order-Modell wird aufgrund der Unterschreitung der inkrementellen Fitmaße als nicht mehr akzeptabel beurteilt. Der Vergleich der beiden Modelle anhand der Informationskriterien AIC und Sample-Size Adjusted BIC deutet darauf hin, dass das Modell erster Ordnung bei größerer Modellsparsamkeit eine bessere Anpassung an die Daten erzielt. Weiterhin zeigen sich unterschiedlich hohe und zum Teil geringe Faktorladungen im Modell zweiter Ordnung. Insgesamt weisen die Ergebnisse darauf hin, dass, obwohl die Faktoren zum Teil hoch miteinander korrelieren, ein Modell zweiter Ordnung die Daten nicht besser abbilden kann als ein Modell erster Ordnung. 30 Somit kann die Hypothese 2 nicht bestätigt werden. Es scheint sich eher um mehr oder weniger eng zusammenhängende eigenständige Aspekte formativen Assessments zu handeln als um Strategien, die gleichermaßen von einer übergeordneten Orientierung beeinflusst werden. Man kann annehmen, dass den Assessment-Dimensionen zwar ein starker gemeinsamer Faktor zu Grunde liegt, darüber hinaus jedoch noch systematische faktorenspezifische Varianz vorliegt. Da das Second-Order-Modell keinen zufriedenstellenden Modell-Fit aufweist, wird von weiteren Prüfungen des Modells (Einfluss im nomologischen Netz, Prognosevalidität) abgesehen. Entsprechend der Ergebnisse des Modellvergleichs werden die nachfolgenden Berechnungen mit den einzelnen Konstrukten formativen Assessments, welche einen ausreichend guten Modell-Fit erzielen, durchgeführt.

30

Auch ein modifiziertes Second-Order-Modell ohne den Faktor SAK erreicht den Cut-Off-Wert des CFI nicht und ist somit nicht für weiterführende Analysen geeignet (Anhang S).

8.3 Strukturgleichungsanalysen

8.3.2

209

Analyse der Zusammenhänge

Eine zentrale Fragestellung der vorliegenden Arbeit besteht in der strukturgleichungsanalytischen Modellierung von Zusammenhängen zwischen den Assessment-Strategien und ausgewählten unabhängigen Variablen (Untersuchungsschwerpunkt 4). Vor der Darstellung der latenten Regressionsanalysen und des komplexen Strukturgleichungsmodells erfolgt die Analyse der vorbereitenden Korrelationsanalysen. Vorbereitende Analysen Zur Vorbereitung der Strukturgleichungsanalysen werden zunächst die Beziehungen zwischen den Variablen unter Verwendung von Korrelationsanalysen untersucht. Zur Analyse der Zusammenhänge zwischen den Variablen Individuelle Bezugsnormorientierung (BN), Konstruktivistische Überzeugungen (CO) und der Tendenz zur aufgabenbezogenen Differenzierung (DI) werden zunächst die Interkorrelationen mit den Assessment-Strategien untersucht. Alle Korrelationen bis auf BN-SAK werden signifikant (auf p < .001 Niveau). Insgesamt zeigen sich überwiegend mittlere Zusammenhänge (Tabelle 77). Tabelle 77: Korrelationsmatrix N U

D M

S FB U ID SA L L S FB B C D A F G M K Z K T E N O I B .2 .1 .1 .2 .37 .20 .30 .33 .29 .14 .18 .36 1 .33 N 1 9 8 4 C .4 .2 .4 .3 .5 .46 .21 .28 .39 .56 .42 .34 .54 1 O 3 6 5 3 3 DI .3 .5 .3 .2 .48 .35 .31 .49 .68 .39 .44 .53 .53 1 8 2 6 4 Anmerkung. p < .001 (außer BN-SAK), NU (Formative Nutzung), DM (Diagnostische Methoden), SA (Self- und Peer-Assessment), FBF (Feedback-Fragen), UG (Unterrichtsgespräch), IDM (Informelle diagnostische Methoden), SAK (Schüleraktivierung), LZ (Lernzielorientierung), LK (Beurteilungskriterien), ST (Strategievermittlung), FBE (Feedback-Ebenen), BN (Individuelle Bezugsnormorientierung); CO (Konstruktivistische Überzeugungen, DI (Tendenz zur Differenzierung).

Zusammenhänge mit der individuellen Bezugsnormorientierung Zwischen der individuellen Bezugsnormorientierung (BN) der Lehrkräfte und den AssessmentStrategien bestehen signifikante Zusammenhänge, lediglich die Korrelation mit der Schüleraktivierung als instruktionale Ressource füreinander wird nicht signifikant (SAK: r = .14, p = 0.06). Korrelationen mit mittleren Effekten treten zwischen der individuellen Bezugsnormorientierung und der pädagogischen

210

8 Ergebnisse

Nutzung diagnostischer Informationen (NU: r = .37, p < .001), der Nutzung der Feedback-Ebenen (FBE: r = .36, p < .001), dem Unterrichtsgespräch (UG: r = .33, p < .001) und der Orientierung an Feedback-Fragen (FBF: r = .30, p < .001) auf. Bei allen weiteren Strategien zeigt sich nur geringe Zusammenhänge. Zusammenhänge mit den konstruktivistischen Überzeugungen Die konstruktivistischen Überzeugungen der Lehrkräfte (CO) hängen signifikant mit den Assessment-Strategien zusammen, wobei sich die Effektstärke von Konstrukt zu Konstrukt stark unterscheidet (r zwischen .21 und .56). Am stärksten fällt der Zusammenhang zwischen den konstruktivistischen Überzeugungen und den informellen diagnostischen Methoden (IDM: r = .56, p < .001) sowie der Berücksichtigung der Feedback-Ebenen (r = .54, p < .001) aus. Mittlere Zusammenhänge bestehen mit den Faktoren NU (r = .46, p < .001), SA (r = .43, p < .001), UG (r = .39, p < .001), SAK (r = .42, p < .001), LK (r = .34, p < .001) und ST (r = .45, p < .001). Zusammenhänge mit der Tendenz zur aufgabenbezogenen Differenzierung Die Tendenz zur aufgabenbezogenen Differenzierung (DI) hängt signifikant positiv mit allen Assessment-Strategien zusammen, mit einem mittleren bis großen Effekt (r > .31, p < .001). Am stärksten gestaltet sich der Zusammenhang zwischen der Tendenz zur aufgabenbezogenen Differenzierung und der Verwendung informeller diagnostischer Methoden (IDM: r = .68, p < .001). Auch zwischen der Differenzierung und der Berücksichtigung relevanter Feedback-Ebenen (FBE: r = .53, p < .001) und der Kommunikation von Beurteilungskriterien (LK: r = .52, p < .001) bestehen hohe Zusammenhänge. Darüber wird deutlich, dass die Tendenz zur Differenzierung auch mit den konstruktivistischen Überzeugungen der Lehrkräfte zusammenhängt (CO: r = .53, p < .001). Mittlere Zusammenhänge zwischen r = .30 und .49 liegen zwischen der Tendenz zur Differenzierung und allen weiteren Assessment-Faktoren vor. Zusammenhänge mit den personen- und schulbezogenen Kontrollvariablen Zur Überprüfung, welche Kovariaten sich als relevant erweisen und entsprechend im Regressionsmodell berücksichtigt werden müssen, wird die Korrelationsmatrix mit den Kovariaten betrachtet (Tabelle 78). Von den erhobenen Kovarianten werden die Variablen Geschlecht, studiertes Fach und studiertes Lehramt nicht in die weiteren Analysen einbezogen, da sich bei der deskriptiven Auswertung gezeigt hat, dass hier die Normalverteilungsannahme zu stark verletzt wird (Anhang G). In Vorbereitung auf die Strukturgleichungsanalysen wurden die nominal- und ordinalskalierten Kontrollvariablen dummy-codiert, so dass diese als intervallska-

8.3 Strukturgleichungsanalysen

211

liert aufgefasst und in die Analysen einbezogen werden können (Kuckartz, Rädiker, Ebert & Schehl, 2013, S. 267). Bei der Analyse der Korrelationen der verbleibenden Kovariaten zeigen sich erwartungsgemäß nur geringe Zusammenhänge. Zwischen Alter und Berufserfahrung und der transparenten Kommunikation über Lernziele (LZ: r = .31 bzw. r = .33, p < .001) sowie der Verwendung formeller diagnostischer Methoden (DM: r = .20 bzw. r = .21, p < .001) bestehen geringe Zusammenhänge. Weiterhin bestehen geringe positive Zusammenhänge zwischen der Teilnahme an themenspezifischen Fortbildungen und den Assessment-Strategien sowie mit der Tendenz zur Differenzierung und den konstruktivistischen Überzeugungen der Lehrkräfte. Die Anzahl der Lehrkräfte an der Schule hängt signifikant mit den Faktoren NU, LK und ST zusammen, allerdings ebenfalls nur mit geringen Effekten (r ≤ .18, p < .05). Ebenso zeigt sich eine geringe negative Korrelation zwischen der Tätigkeit in einer Klasse mit Schülerinnen und Schülern mit nichtdeutscher Herkunftssprache (SmndH) und den Faktoren NU (r = -.13, p < .05) und IDM (r = -.17, p < .05). Keine Zusammenhänge treten zwischen der Anwesenheit von Schülerinnen und Schülern mit sonderpädagogischem Förderbedarf in der Klasse (SPF) sowie mit der Beteiligung an den Kompetenztests (Kompetenztest) und den Assessment-Strategien auf. Das Alter und die Berufserfahrung korrelieren erwartungsgemäß hoch (r = .60, p < .001). Tabelle 78: Korrelationsanalysen Alter NU DM SA FBF UG IDM SAK LZ LK ST FBE DI BN CO Alter Erfahrung Fortbildung

.05 .20*** -.01 -.01 .00 .13* -.06 .31*** -.03 .06 .08 -.01 .05 -.17* 1

Erfahrung .07 .21*** -.04 .03 .06 .19** .00 .33*** .01 .13* .07 .13* .02 -.13* .60*** 1

Fortbildung .15* .19** .28*** .08 .13* .28*** .12 .19** .11 .18** -.05 .18** -.05 .14* .06 .15** 1

Kompetenztest .02 .09 .12 .02 .08 .12 .02 .11 .08 .05 .00 .09 .02 .06 .03 .07 -.09

SPF -.01 -.01 .11 .06 .05 .06 .10 -.01 .01 .09 .04 .12 -.06 .11 -.05 -.09 .05

SmndHs -.13* -.04 -.02 .00 -.10 -.17** .01 -.04 -.11 -.06 -.11 -.03 -.06 0.03 .10 -.02 -.03

212

8 Ergebnisse

Alter

Erfahrung

Kompetenztest SPF SmndHs

Fortbildung

Kompetenztest 1

SPF

SmndHs

.09

.04

1

.18*** 1

Anmerkung. Dummy-Kodierung: Fortbildung (1 = teilgenommen), Erfahrung (1 = mehr als 15 Jahre), Alter (1 = ab 51 Jahre); Kompetenztest (1= ja), SPF (1 = ja), SmndHs (1 = ja); NU (Formative Nutzung), DM (Diagnostische Methoden), SA (Self- und Peer-Assessment), FBF (Feedback-Fragen), UG (Unterrichtsgespräch), IDM (Informelle diagnostische Methoden), SAK (Schüleraktivierung), LZ (transparente Lernziele), LK (Beurteilungskriterien), ST (Strategievermittlung), FBE (Feedback-Ebenen), DI (Tendenz zur Differenzierung), BN (Individuelle Bezugsnormorientierung), CO (Konstruktivistische Überzeugungen), SPF (Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf in der Klasse), SmndHs (Schülerinnen und Schüler mit nichtdeutscher Herkunftssprache in der Klasse).

Latente Regressionsanalysen Basierend auf den Korrelationsanalysen wird zur Überprüfung der Hypothesen 3 und 4 im nächsten Schritt mittels latenter Regressionsmodelle analysiert, ob die konstruktivistischen Überzeugungen zum Lehren und Lernen und die individuelle Bezugsnormorientierung der Lehrkräfte einen positiven Effekt auf die Realisierung formativer Assessment-Strategien haben. Weiterhin wird mit latenten Regressionsanalysen überprüft, inwieweit das formative Assessment-Handeln (Hypothese 5) und die konstruktivistischen Überzeugungen der Lehrkräfte (Hypothese 6) einen Effekt auf die Tendenz zur Differenzierung (DI) haben. Darauf aufbauend wird schließlich ein erweitertes Strukturgleichungsmodell aufgestellt, um die komplexen Beziehungen zwischen den Konstrukten beleuchten zu können. Aufstellung des Strukturmodells Die Strukturmodelle werden basierend auf den vorangehenden Analysen und den aufgestellten Hypothesen H3 bis H6 aufgestellt. In den latenten Regressionsanalysen stellen die einzelnen Assessment-Strategien jeweils die abhängige Variable im Modell dar. Die Faktoren konstruktivistische Überzeugungen (CO) und individuelle Bezugsnormorientierung (BN) werden als unabhängige Variablen modelliert. Zur Drittvariablenkontrolle werden in allen Modellen die Variablen Erfahrung, Fortbildung und Tätigkeit in einer Klasse mit Schülerinnen und Schülern mit nichtdeutscher Herkunftssprache (SmndH) aufgrund der signifikanten Zusammenhänge mit einzelnen Assessment-Strategien als weitere unabhängige Variablen in die Modelle aufgenommen. Da sich in den Korrelationsanalysen ein hoher Zusammenhang zwischen Alter und Erfahrung zeigte, wird in den Strukturgleichungsmodellen nur die Variable Erfahrung verwendet, um Multikollinearität zu vermeiden (Rumsey & Muhr, 2012, S. 113).

8.3 Strukturgleichungsanalysen

213

Strukturgleichungsmodelle der Assessment-Strategien Die multiplen Regressionsanalysen zeigen, dass die konstruktivistischen Überzeugungen (CO) einen signifikanten positiven Effekt auf alle Assessment-Faktoren haben. Anhand dieser Analysen kann die Hypothese 3 verifiziert werden. Lehrkräfte mit eher konstruktivistischen Überzeugungen (CO) neigen somit eher dazu Assessment-Strategien einzusetzen als Lehrkräfte mit weniger konstruktivistischen Überzeugungen. Die individuelle Bezugsnormorientierung (BN) hat einen signifikanten positiven Effekt auf das Feedbackverhalten (FBE und FBF) und auf die formative Nutzung der diagnostischen Informationen (NU). Basierend auf diesen Analysen muss die Hypothese 4 „Eine individuelle Bezugsnormorientierung hat einen positiven Effekt auf die Nutzung formativer Assessment-Strategien.“ abgelehnt werden, da eine individuelle Bezugsnormorientierung offenbar nur einen positiven Effekt auf einzelne formative Assessment-Strategien erzielt. Von den Kontrollvariablen erweist sich insbesondere die Erfahrung der Lehrkräfte, aber auch die Teilnahme an themenspezifischer Fortbildung als relevant. Es zeigt sich, dass erfahrene Lehrkräfte deutlich intensiver mit ihren Schülerinnen und Schülern über Lernziele kommunizieren (LZ) als Lehrkräfte mit weniger Erfahrung. Weiterhin setzen erfahrene Lehrkräfte eher diagnostische Methoden (DM und IDM) ein und vermitteln Lernstrategien (ST) als Lehrkräfte mit weniger als 15 Jahren Berufserfahrung. Die Teilnahme an themenspezifischen Fortbildungen (Fobi) hat insbesondere einen positiven Effekt auf den Einsatz von Self- und PeerAssessment (SA) sowie weiteren diagnostischen Methoden (IDM und DM). Die Tätigkeit in einer heterogenen Klasse (mit Schülerinnen und Schülern mit nichtdeutscher Herkunftssprache; SmndH) hat einen signifikant negativen Effekt auf den Einsatz informeller diagnostischer Methoden (IDM) sowie auf die pädagogische Nutzung der diagnostischen Ergebnisse (NU). Die Varianzaufklärung der Modelle liegt zwischen R² = .13 und R² = .47. Die betrachteten Variablen können die Varianz der Faktoren informelle diagnostische Methoden und Nutzung lernförderlicher Feedback-Ebenen (FBE) gemäß Chin (1998a) in moderatem Ausmaß erklären. Auch unter Ausschluss der nicht-signifikanten Faktoren verändert sich die Varianzaufklärung nur marginal (Anhang T).

214

8 Ergebnisse

Tabelle 79: Ergebnisse der Multiplen Regressionsanalysen

CO BN Erf. Fobi

LZ

LK

UG

DM

FBE

.15

ID M .54* * .12

.26* * .11

.24* * .04

.35* * .21*

.18*

.72* * .21

.00

.16

.05

.14

SA

.20

FB F .19 * .24 * .06

.44* * .27*

.45* * .37*

.09

.12

.49* * .19*

ST

NU

.35* * .11

SA K .41* * .01

.43* * .05

.40* * .23*

-.11

.09

.28*

.18

.49* * -.02

.13

.26*

.20

Smnd -.09 -.12 -.20 -.03 -.23 .02 .03 -.10 H .37* .27* R² .24 .13 .23 .15 .47 .36 .13 .22 .18 .24 .31 Anmerkung. Multiple Regressionsanalysen. n = 327; NU (Formative Nutzung), DM (Diagnostische Methoden), SA (Self- und Peerassessment), FBF (Feedback-Fragen), UG (Unterrichtsgespräch), IDM (Informelle diagnostische Methoden), SAK (Schüleraktivierung), LZ (transparente Lernziele), LK (Beurteilungskriterien), ST (Strategievermittlung), FBE (Feedback-Ebenen), BN (Individuelle Bezugsnormorientierung); CO (Konstruktivistische Überzeugungen, DI (Tendenz zur Differenzierung), Fobi (Teilnahme an Fortbildung), SmndHs (Schülerinnen und Schüler mit nichtdeutscher Herkunftssprache in der Klasse).

Die Analyse der Fitmaße der Regressionsmodelle zeigt, dass die Kriterien überwiegend erfüllt werden (Anhang U). In den Regressionsmodellen zu den Faktoren DM, FBE, FBF und ST werden alle Kriterien bis auf den ²-Test erfüllt. Bei den anderen Modellen fallen zwar der RMSEA, der SRMR und der ²/df-Wert zufriedenstellend aus, jedoch wird das inkrementelle Fitmaß CFI jeweils knapp unterschritten. Dieser geringe Wert ist vermutlich in erster Linie auf die geringe Reliabilität des in den Modellen enthaltenen Faktors Bezugsnormorientierung (BN) zurückzuführen (vgl. Kapitel 7.1). Strukturgleichungsmodell zur Tendenz zur aufgabenbezogenen Differenzierung (DI) Weiterhin wurde zur Überprüfung der Hypothese 5 der Frage nachgegangen, ob formatives Assessment einen Effekt auf die Tendenz zur aufgabenbezogenen Differenzierung (DI) hat. Ebenfalls wurde in einem gemeinsamen Regressionsmodell analysiert, ob ein Effekt der konstruktivistischen Überzeugungen auf die Tendenz zur Differenzierung (DI) auftritt (Hypothese 6). Die multiple Regressionsanalyse unter Kontrolle der Variablen Berufserfahrung und Teilnahme an Fortbildung zeigt, dass die Verwendung informeller diagnostischer Methoden (IDM) und die Berücksichtigung schüleraktivierender Elemente

8.3 Strukturgleichungsanalysen

215

(SAK) einen positiven Effekt auf die Tendenz zur Differenzierung haben (Tabelle 80). Auf Grundlage dieser Berechnung muss die Hypothese 5 „Die Nutzung formativer Assessment-Strategien hat einen positiven Effekt auf die Differenzierung“ falsifiziert werden, da nicht bei allen formativen Assessment-Strategien Effekte auf die Differenzierung auftraten, sondern sich lediglich zwei Assessment-Strategien als bedeutsam für die Differenzierungpraxis erweisen. Hingegen haben die konstruktivistische Überzeugungen (CO) einen signifikanten Effekt auf die Tendenz zur Differenzierung (Tabelle 80), womit Hypothese 6 „Die konstruktivistischen Überzeugungen zum Lehren und Lernen haben einen positiven Effekt auf die Differenzierung“ bestätigt werden kann. Alle weiteren Assessment-Strategien bzw. personen- und schulbezogenen Variablen haben keinen Einfluss auf die Tendenz zur Differenzierung. Das Regressionsmodell erklärt 53 Prozent der Varianz und leistet somit einen moderaten Beitrag zur Varianzaufklärung des Faktors Tendenz zur Differenzierung. Tabelle 80: Latente Multiple Regressionanalyse auf Faktor Differenzierung (DI)

NU (Pädagogische Nutzung) DM (Formelle Diagnostische Methoden) SA (Self- und Peer-Assessment) FBF (Feedback-Fragen) UG (Unterrichtsgespräch) IDM (Informelle diagn. Methoden) SAK (Schüleraktivierung) LZ (Transparente Lernziele) LK (Beurteilungskriterien) ST (Strategievermittlung) FBE (Feedback-Ebenen) CO (Konstruktivistische Überzeugungen) Erfahrung Fortbildung R²

Abhängige Variable DI .06 .01 -.08 .00 .03 .35* .14* .12 .06 .07 .10 .20* .09 .05 .53

Anmerkung. n = 331, DI = Tendenz zur aufgabenbezogenen Differenzierung.

Die Analyse der Fitmaße des Regressionsmodells zeigt, dass die Kriterien zum Teil erfüllt werden (Tabelle 81). Zwar wird der Chi-Quadrat-Test nicht erfüllt, al-

216

8 Ergebnisse

lerdings deuten die absoluten Fitmaße SRMR und der ²/df –Wert auf einen zufriedenstellenden Modellfit hin. Der CFI-Wert wird knapp unterschritten, was insgesamt auf einen unzureichenden Modellfit hindeutet. Es wird davon ausgegangen, dass der unbefriedigende Modellfit durch die große Anzahl an unbedeutenden Variablen im Modell zustande kommt. Daher wird im nächsten Schritt ein reduziertes Modell analysiert, in das nur die relevanten Faktoren IDM, SAK und CO aufgenommen werden. Tabelle 81: Gütekriterien des Regressionsmodells DI Modell DI

² 2456.316

df 1516

²/df 1.62

p .000

RMSEA .04

CFI .86

SRMR .06

Anmerkung. DI = Tendenz zur aufgabenbezogenen Differenzierung.

Reduziertes Regressionsmodell Es zeigt sich, dass die Varianzaufklärung im reduzierten Regressionsmodell mit 51 Prozent nur geringfügig geringer ausfällt als im Modell, in das alle Variablen aufgenommen wurden, die mit der Tendenz zur Differenzierung korrelieren. Somit kann davon ausgegangen werden, dass die Variablen, die nicht mehr berücksichtigt wurden, nur einen marginalen Anteil an der Aufklärung der Varianz der Tendenz zur Differenzierung leisten. Im reduzierten Regressionsmodell fällt der Effekt der Variable informelle diagnostische Methoden (IDM) mit ẞ = .53 bedeutungsvoll aus, während der Einfluss der Schüleraktivierung (SAK) und der konstruktivistischen Überzeugungen (CO) zwar signifikant wird, aber als kaum bedeutsam einzuschätzen ist. Tabelle 82: Reduzierte latente multiple Regressionsanalyse der Variable DI

IDM (Informelle diagnostische Methoden) SAK (Schüleraktivierung) CO (Konstruktivistische Überzeugungen) R²

Abhängige Variable DI .53* .13* .18* .51

Anmerkung. n = 332, DI = Tendenz zur aufgabenbezogenen Differenzierung.

Die Anpassung des Regressionsmodells schlägt sich positiv in den Fit-Werten des Modells nieder. Sowohl die absoluten Kennwerte ²/df und SRMR als auch das inkrementelle Fitmaß CFI werden nun erfüllt (Tabelle 83)

8.3 Strukturgleichungsanalysen

217

Tabelle 83: Gütekriterien des reduzierten latenten Regressionsmodells DI Modell DI reduziert

² 263.924

df 129

²/df 2.05

p .000

RMSEA .06

CFI .93

SRMR .06

Anmerkung. DI = Tendenz zur aufgabenbezogenen Differenzierung.

Vertiefende Strukturgleichungsanalysen der Beziehungen zwischen Assessment und Differenzierung Zur besseren Analyse der komplexen Zusammenhänge zwischen den konstruktivistischen Überzeugungen (CO), der Nutzung informeller diagnostischer Methoden (IDM), der Schüleraktivierung (SAK) und der Tendenz zur Differenzierung (DI) wird ein Strukturgleichungsmodell unter Berücksichtigung dieser Variablen sowie weiterer relevanter personen- und schulbezogener Variablen aufgestellt. Die Faktoren informelle diagnostische Methoden (IDM) und Schüleraktivierung (SAK) werden einbezogen, da diese signifikante Effekte auf die Differenzierung haben, der Faktor konstruktivistische Überzeugungen (CO) aufgrund der Effekte auf IDM, SAK und DI. Der Faktor konstruktivistische Überzeugungen (CO) stellt die unabhängige und somit erklärende Variable dar. Die Faktoren informelle diagnostische Methoden (IDM) und Schüleraktivierung (SAK) nehmen eine Doppelfunktion ein, da sie als abhängige Variablen modelliert werden, gleichzeitig aber als erklärende Variablen für den Faktor Tendenz zur Differenzierung (DI) fungieren. Der Faktor Tendenz zur Differenzierung (DI) wird als abhängige Variable modelliert. Weiterhin werden ungerichtete Zusammenhänge zwischen IDM und SAK, Erfahrung und Fortbildung sowie zwischen den konstruktivistischen Überzeugungen (CO) und Fortbildung sowie Erfahrung modelliert. Aufgrund der im Regressionsmodell gezeigten negativen Effekte der Tätigkeit in einer Klasse mit Schülerinnen und Schülern mit nichtdeutscher Herkunftssprache (SmndH) auf den Faktor IDM wird auch diese Beziehung modelliert. Plausibilitätsprüfung Zur Überprüfung der Plausibilität werden zunächst die Vorzeichen der Modellparameter analysiert, welche erwartungskonform positive Zusammenhänge anzeigen. Lediglich der Effekt der Variable Schülerinnen und Schüler mit nichtdeutscher Herkunftssprache (SmndH) auf den Einsatz informeller diagnostischer Methoden (IDM) fällt wie bereits im Regressionsmodell negativ aus und die Erfahrung der Lehrkräfte korreliert negativ mit den konstruktivistischen Überzeugungen (Anhang V). Es treten keine unplausiblen Parameterschätzungen auf. Alle Parameterschätzungen sind signifikant und zeigen hinsichtlich Höhe und Richtung erwartungsgemäße Werte.

218

8 Ergebnisse

Evaluation des komplexen Strukturmodells (IDM, DI, SAK, CO) Der normierte ²-Wert liegt mit 1.79 unter dem Grenzwert 3 und kann als zufriedenstellend beurteilt werden. Der SRMR mit .06 und das inkrementelle Fitmaß CFI mit .92 sind ebenfalls als zufriedenstellend einzuschätzen (Tabelle 84). Somit kann davon ausgegangen werden, dass ein guter Modell-Fit vorliegt. Tabelle 84: Gütekriterien des komplexen Strukturmodells Modell DI komplex

² 320.991

df 179

²/df 1.79

p .000

RMSEA .05

CFI .92

SRMR .06

Abbildung 11: Strukturgleichungsmodell IDM, SAK, CO und DI Anmerkung. Nur signifikante Pfade werden abgebildet. Modellfit: ² = .000, RMSEA = .05, CFI = .92, SRMR = .06. Abbildung 11 ist zu entnehmen, dass die konstruktivistischen Überzeugungen der Lehrkräfte (CO) einen signifikanten direkten Effekt auf die Nutzung informeller diagnostischer Methoden (IDM; ẞ = .57, p < .001), die Schüleraktivierung (SAK;

8.3 Strukturgleichungsanalysen

219

ẞ = .39, p < .001) und die Differenzierung (DI; ẞ. = .18, p = .05) haben. Darüber hinaus zeigt sich ein signifikanter indirekter Effekt der konstruktivistischen Überzeugungen (CO) über die informellen diagnostischen Methoden (IDM) auf die Differenzierung (DI; ẞ = .31, p < .001). Ein indirekter Effekt über SAK tritt hingegen nicht auf. Der totale Effekt von CO auf DI beträgt ẞ = .54 (p < .001). Damit ist der Effekt der konstruktivistischen Überzeugungen im komplexen Strukturgleichungsmodell deutlich größer als im Regressionsmodell (ẞ = .20) Die Verwendung informeller diagnostischer Methoden (IDM) hat ebenfalls einen signifikanten Effekt auf die Differenzierung (ẞ = .55, p < .001). Die Schüleraktivierung (SAK) hat hingegen keinen signifikanten Effekt auf die Tendenz zur Differenzierung (ẞ = .12, p = .05). Hinsichtlich der Kontrollvariablen wird deutlich, dass diese ebenfalls einen signifikanten Effekt auf den Einsatz informeller diagnostischer Methoden (IDM) haben. Während die Teilnahme an Fortbildung als praktisch nicht bedeutsam angesehen werden kann (ẞ = .15, p = .01), zeigt sich ein mittlerer Effekt der Erfahrung (ẞ = .24, p < .001) und ein mittlerer negativer Effekt der Tätigkeit in einer Klasse mit Schülerinnen und Schülern mit nichtdeutscher Herkunftssprache (SmndH; ẞ = -.35, p = .003) auf die Nutzung informeller diagnostischer Methoden. Die Varianzaufklärung der Variable IDM beträgt 42 Prozent (R² = .42, p < .001). Weiterhin können 52 Prozent der Varianz der Variable DI (R² = .52, p < .001) und 16 Prozent der Variable SAK (R² = .16, p = .002) erklärt werden. Das Modell vermag also in moderatem Ausmaß zur Erklärung der Varianz der Nutzung informeller diagnostischer Methoden (IDM) und der Tendenz zur Differenzierung (DI) beizutragen. 8.3.3

Latente Profilanalyse

Zur Beantwortung des Untersuchungsschwerpunktes 5 werden basierend auf den errechneten Faktorwerten der Befragten auf den Assessment-Faktoren Modelle mit unterschiedlich vielen Gruppen geschätzt und anhand der Gütekriterien miteinander verglichen. Das Modell, welches zur besten Lösung kommt, wird im Anschluss deskriptiv beschrieben. Vertiefend werden darüber hinaus Zusammenhänge zwischen der Gruppenzugehörigkeit und der Ausprägung der konstruktivistischen Überzeugungen (CO), der individuellen Bezugsnormorientierung (BN) und der Tendenz zur aufgabenbezogenen Differenzierung (DI) analysiert. Modellgütebeurteilung und Modellvergleich Zur Identifizierung von Assessmentprofilen wurde eine Latente Profilanalyse mit den Factorscores der Lehrkräfte auf den Assessment-Faktoren durchgeführt. In der

220

8 Ergebnisse

Analyse wurden Modelle mit zwei bis sechs Gruppen31 geschätzt und miteinander verglichen. Bootstrap-Likelihood-Ratio-Differenztest (BLRT) Bei den durchgeführten Modellvergleichen ( Tabelle 85) zeigt sich, dass der BLRT bei keinem der Vergleiche signifikant wird und daher keine Aussage darüber ermöglicht, welche Lösung die geeignetste wäre. Tabelle 85: Signifikanzwerte der Bootstrap-Likelihood-Ratio-Differenztests Klassen FOR 1 (H0) VERSUS 2 CLASSES FOR 2 (H0) VERSUS 3 CLASSES FOR 3 (H0) VERSUS 4 CLASSES FOR 4 (H0) VERSUS 5 CLASSES FOR 5 (H0) VERSUS 6 CLASSES FOR 6 (H0) VERSUS 7 CLASSES

approximate p-Value .000 .000 .000 .000 .000 .000

Vuong-Lo-Mendell-Rubin-Test (VLMR) Da der BLRT keine Entscheidung zur Anzahl der Klassen ermöglicht, wird darüber hinaus der Vuong-Lo-Mendell-Rubin-Test (VLMR) berücksichtigt (Tabelle 86). Dieser wiederum zeigt mit einem signifikanten Wert bei der 2- und 3-Klassenlösung an, dass bereits eine 3-Klassenlösung zur Beschreibung der Daten ausreichend wäre.

31

Lösungen mit mehr als sechs Klassen wurden nicht weiterverfolgt, da hier bei der Analyse lokale Maxima auftraten, die als Indiz für die Extraktion zu vieler Klassen angesehen werden können (Geiser, 2010, S. 270) und ohnehin eine sinnvolle Interpretierbarkeit aufgrund der Vielzahl der Klassen nicht mehr gegeben wäre.

8.3 Strukturgleichungsanalysen

221

Tabelle 86: Signifikanzwerte des VLMR-Test Klassen FOR 1 (H0) VERSUS 2 CLASSES FOR 2 (H0) VERSUS 3 CLASSES FOR 3 (H0) VERSUS 4 CLASSES FOR 4 (H0) VERSUS 5 CLASSES FOR 5 (H0) VERSUS 6 CLASSES

approximate p-Value 0.00 0.03 0.50 0.19 0.38

Vergleich anhand der deskriptiven informationstheoretischen Maße Die Ergebnisse in Tabelle 87 zeigen die informationstheoretischen Kennwerte zum Modellvergleich. Sowohl AIC, BIC als auch der adjustierte BIC weisen für das Modell mit sechs Gruppen den niedrigsten Wert, also die beste Passung, auf. Es zeigt sich aber auch, dass sich die Werte besonders im Vergleich der 3-Klassenlösung gegenüber der 2-Klassenlösung verbessern. Bei den weiteren Vergleichen sinken die Werte nur noch geringfügig. Tabelle 87: Informationstheoretische Kennwerte zum Modellvergleich Modell 2-Klassenlösung 3-Klassenlösung 4-Klassenlösung 5-Klassenlösung 6-Klassenlösung

AIC 4615.234 4163.593 3990.928 3898.974 3817.165

BIC 4745.218 4339.453 4212.665 4166.588 4130.654

aBIC 4637.365 4193.534 4028.680 3944.537 3870.538

Anmerkung. AIC = Akaike’s Information Criterion. BIC = Bayesian Information Criterion. aBIC = sample size adjusted BIC. Kleinste Werte sind fett gedruckt.

Vergleich anhand der Entropy-Werte Als weiterer Kennwert wurde die Entropy, ein Globalmaß für die Zuverlässigkeit der Klassifikation in einem LCA-Modell, herangezogen (Tabelle 88). Die Entropy-Werte liegen bei allen Lösungen nahe eins, was auf eine hohe Sicherheit der Klassifikationen hindeutet. Die besten Werte erzielt die 3-Klassenlösung.

222

8 Ergebnisse

Tabelle 88: Vergleich der Entropy-Werte Modell 2-Klassenlösung 3-Klassenlösung 4-Klassenlösung 5-Klassenlösung 6-Klassenlösung

Entropy 0.895 0.902 0.865 0.859 0.873

Auswahl der Klassenlösung Die Analyse der Kennwerte zum Modellvergleich erbringt kein eindeutiges Ergebnis (Tabelle 89). Da der Bootstrap-Likelihood-Ratio-Differenztest zu keinem eindeutigen Ergebnis kommt, wurde der Vuong-Lo-Mendell-Rubin-Test durchgeführt, welcher darauf hindeutet, dass bereits eine 3-Klassenlösung ausreichend wäre. Der Entropy-Wert fällt bei der 3-Klassen-Lösung ebenfalls am besten aus. Hingegen spricht der BIC (sowie AIC und aBIC) für die Bevorzugung einer 6Gruppen-Lösung. Neben statistischen Kriterien sollte bei der Entscheidung für eine Klassenlösung auch das Parsimonitätsprinzip berücksichtigt werden (Geiser, 2011, S. 270). Das heißt, dass die Lösung mit möglichst wenigen Klassen auskommen sollte und bei Lösungen mit einer oder mehreren sehr kleinen Klassen überlegt werden sollte, ob ein Modell mit weniger Klassen vorzuziehen ist. Da im 6Klassen-Modell der Klasse 1 nur 14 Probanden zugeordet werden und damit eine sehr kleine Klasse entstehen würde, wird letztendlich die 3-Klassenlösung bevorzugt. Diese Entscheidung wird in erster Linie aufgrund des Parsimonitätsprinzips und der guten Interpretierbarkeit (Geiser, 2011, S. 270) sowie des VLRM-Tests und des Entropie-Wertes getroffen. Tabelle 89: Überblick über Kennwerte zum Modellvergleich df

AIC

BIC

aBIC

2 Kl.

Loglikelihood -2273.617

34

4615.234

4745.218

4637.365

Entropy 0.895

3 Kl.

-2035.796

46

4163.593

4339.453

4193.534

0.902

VL RM < .01 .03

4 Kl.

-1937.464

58

3990.928

4212.665

4028.680

0.865

.50

BL RT < .01 < .01 < .01

8.3 Strukturgleichungsanalysen

223

df

AIC

BIC

aBIC

5 Kl.

Loglikelihood -1879.487

3944.537

Entropy 0.859

VL RM .19

70

3898.974

4166.588

6 Kl.

-1826.582

82

3817.165

4130.654

3870.538

0.873

.38

BL RT < .01 < .01

Modellgütebeurteilung und Beschreibung der 3-Klassenlösung Nachfolgend wird die 3-Klassenlösung anhand ergänzender Kennwerte und Klassengrößen näher beschrieben. Bei der Analyse der Loglikeliwerte für die 50 Startwertesets zeigt sich, dass die Loglikelihood-Werte in diesem Modell nicht variieren (-2035.796). Dies deutet laut Geiser (2011, S. 245) darauf hin, dass die Lösung eindeutig ist und keine lokalen Maxima aufgetreten sind. Weiterhin zeigen sich in der 3-Klassenlösung sehr gute bis mittlere Klassenzuordnungswahrscheinlichkeiten von 0.950 bis 0.967 (Tabelle 90) Tabelle 90: Durchschnittliche Klassenzuordnungswahrscheinlichkeit 1 2 3

1 0.962 0.020 0.000

2 0.038 0.950 0.033

3 0.000 0.030 0.967

Beschreibung der Klassen Die aufgrund des Modells geschätzten Klassengrößenparameter geben Auskunft über die Größen der drei Klassen (Tabelle 91). Der größten Klasse 2 gehören ca. 53 Prozent der Befragten an (entspricht etwa n = 181). Etwa 61 Lehrkräfte (18 %) sind der Gruppe 1 zuzuordnen. Die dritte Gruppe umfasst 28 Prozent der Befragten (n = 95). Zur Interpretation der Gruppenzugehörigkeit werden im Folgenden die Gruppenprofile in Abbildung 12 analysiert (vgl. auch Anhang W). Klasse 1 erzielt in allen Bereichen die geringsten Werte. Insbesondere die Verwendung diagnostischer Methoden (IDM und DM), Self- und Peer-Assessment (SA) und die pädagogische Nutzung diagnostischer Informationen (NU) sind bei dieser Gruppe besonders gering ausgeprägt. Klasse 2 weist durchschnittliche bis knapp unterdurchschnittliche Werte auf. Am geringsten ausgeprägt sind die Verwendung informeller diagnostischer Methoden (IDM) und der Einsatz von Feedback-Fragen. Klasse 3 erzielt auf allen Skalen die besten Werte. Insbesondere diagnostische Methoden (DM und IDM) werden deutlich mehr verwendet als in den beiden anderen Gruppen und

224

8 Ergebnisse

auch Feedback-Fragen (FBF), Schüleraktivierung (SAK) und die pädagogische Nutzung (NU) spielen hier eine deutlich größere Rolle als in den beiden anderen Gruppen. 1

Factorscores

0,5

0

-0,5

-1 1 LZ

2 LK

3 UG

4 DM 5 IDM

6 SA 7 SAK

8 ST

9 FBF 10 FBE 11 NU

Assessmentfaktoren Klasse 1

Klasse 2

Klasse 3

Abbildung 12: Latente Profilanalyse mit drei Klassen Anmerkung. LZ (Lernzielorientierung), LK (Beurteilungskriterien), UG (Unterrichtsgespräch), DM (Diagnostische Methoden), IDM (Informelle diagnostische Methoden), SA (Self- und Peer-Assessment),), SAK (Schüleraktivierung), ST (Strategievermittlung), FBE (Feedback-Ebenen), FBF (Feedback-Fragen), NU (Formative Nutzung). Factorscores bezeichnen den numerischen Wert, der die relative Position einer Person bzw. Gruppe auf einem latenten Faktor angibt. Die Skalierung entspricht einer z-Transformation.

Entsprechend der Werteprofile lassen sich für die einzelnen Klassen verschiedene Assessment-Gruppen interpretieren (Tabelle 91). Die Mehrheit der Lehrkräfte (54 Prozent) wird der Klasse 2 zugeordnet. Diese Gruppe schätzt den Einsatz aller formativen Assessment-Strategien auf mittlerem Niveau ein. Sie weist ein insgesamt sehr ausgeglichenes Profil auf, wobei keine der Strategien im Vergleich zur Gesamtstichprobe besonders stark bzw. gering ausgeprägt ist. Zur zweitgrößten Gruppe (28 Prozent, Klasse 3) gehören Lehrkräfte, die ihren Einsatz formativer Assessment-Strategien signifikant ausgeprägter einschätzen als die anderen Lehrkräfte. Insbesondere formelle diagnostische Methoden werden aus ihrer Sicht vermehrt eingesetzt. Darüber hinaus zeigen sie eine deutlichere Tendenz dazu, die Schülerinnen und Schüler als instruktionale Ressource füreinander zu aktivieren und formatives Feedback zu geben.

8.3 Strukturgleichungsanalysen

225

Die Klasse 1 ist durch eine geringe Ausprägung der selbstwahrgenommenen formativen Assessment-Strategien gekennzeichnet. Alle Strategien liegen deutlich unterhalb des arithmethischen Mittelwerts und werden damit deutlich geringer eingeschätzt als bei den anderen Befragten. Am geringsten ausgeprägt ist der Einsatz diagnostischer Methoden, die Aktivierung der Schülerinnen und Schüler als instruktionale Ressourcen füreinander und die pädagogische Nutzung der diagnostischen Informationen. Am ausgeprägtesten realisiert diese Gruppe aus ihrer Sicht lernförderliche Unterrichtsgespräche. Insgesamt werden 18 Prozent der Befragten dieser Gruppe zugeordnet, womit die Lehrkräfte mit sehr gering ausgeprägten selbstwahrgenommenen Assessment-Strategien die kleinste Gruppe darstellen. Tabelle 91: Bezeichnung Klassen

Geschätzte

Klassengrößenparameter,

1

geschätztes n 61

Klassengrößen-parameter 0.18

Anteil in Prozent 18

2

181

0.53

54

3

95

0.28

28

Klassengrößen

und

Bezeichnung gering ausgeprägte formative Strategien mäßig ausgeprägt formative Strategien ausgeprägte formative Strategien

Vertiefende Analysen In einem weiteren Analyseschritt soll überprüft werden, inwieweit sich die Assessment-Gruppen hinsichtlich der konstruktivistischen Überzeugungen (CO), der individuellen Bezugsnormorientierung (BN) und der Tendenz zur Differenzierung (DI) unterscheiden. Dies dient zum einen der besseren Beschreibung der Gruppen, zum anderen sprechen hypothesenkonforme Zusammenhänge mit externen Kriterien für die Validität (bzw. Nützlichkeit) der gewählten Lösung (Geiser, 2011, S. 270). Hierzu wurden die Klassenzuordnungen der einzelnen Fälle und die Factorscores in SPSS importiert. Es wurden einfaktorielle Varianzanalysen (ANOVA) durchgeführt, um zu überprüfen, inwieweit sich die Assessment-Gruppen in den betreffenden Variablen unterscheiden. Es zeigt sich, dass sich die drei Gruppen signifikant und mit großem Effekt unterscheiden, sowohl hinsichtlich der Werte bezüglich der konstruktivistischen Überzeugungen, der individuellen Bezugsnormorientierung als auch der Tendenz zur Differenzierung ( Tabelle 92). Post-hoc Tests (Dunn-Bonferroni) bestätigen, dass sich alle Gruppen signifikant voneinander unterscheiden, d.h., dass die Unterschiede zwischen der

226

8 Ergebnisse

Gruppe mit ausgeprägten formativen Strategien bzw. gering ausgeprägten formativen Strategien und der Gruppe mit mäßig ausgeprägten formativen Strategien signifikant werden (vgl. Anhang X). Tabelle 92: Einfaktorielle Varianzanalysen Quadratsumme CO

BN

DI

Zwischen den Gruppen Innerhalb der Gruppen Gesamt Zwischen den Gruppen Innerhalb der Gruppen Gesamt Zwischen den Gruppen Innerhalb der Gruppen Gesamt

df

26.722

2

Mittel der Quadrate 13.361

42.514

335

.127

69.236 14.949

337 2

7.474

68.930

335

.206

83.879 47.176

337 2

23.588

60.320

335

.180

107.496

337

F

p

η²

105.280

.000

0.39

36.325

.000

0.18

131.000

.000

0.44

Die Gruppe mit ausgeprägten formativen Assessment-Strategien weist überdurchschnittliche Werte bezüglich der konstruktivistischen Überzeugungen, der individuellen Bezugsnormorientierung sowie der Tendenz zur Differenzierung auf. Lehrkräfte die formatives Assessment in mittlerem Ausmaß realisieren, erzielen auch hinsichtlich der Überzeugungen, Bezugsnormorientierung und Differenzierung eher durchschnittliche Werte, während Lehrkräfte mit gering ausgeprägten Assessment-Strategien eher geringe konstruktivistische Überzeugungen aufweisen, sich weniger an einer individuellen Bezugsnorm orientieren und weniger im Unterricht differenzieren als die Lehrkräfte der anderen Gruppen (Abbildung 13).

8.3 Strukturgleichungsanalysen

227

1

F-scores

0,5 0 -0,5 -1 gering ausgeprägte formative Strategien

mäßig ausgeprägte formative Strategien

Konstruktivistische Überzeugungen

ausgeprägte formative Strategien

Individuelle Bezugsnormorientierung

Tendenz zur Differenzierung

Abbildung 13: Factorscores der drei Assessment-Gruppen auf den Skalen CO, BN und DI

9

Diskussion und Schlussfolgerungen

Die eingangs zitierte Beschreibung der komplexen Herausforderungen, die in der gegenwärtigen Zeit angesichts zunehmend heterogener Klassen an Grundschullehrkräfte gestellt werden, soll an dieser Stelle noch einmal aufgegriffen werden: Schließlich geht es darum, auf die Individualität jedes Schülers und jeder Schülerin einzugehen und Unterschiede pädagogisch fruchtbar zu machen. Ohne innere Differenzierung, ohne individuell zugeschnittene Lernangebote auf der Basis formativer Diagnostik und ohne eine respektvolle adaptive Unterstützung durch die Lehrer_innen kann dies nicht gelingen. Individualisierung ist zentral, zugleich aber sind Normen und Standards einzuhalten und darf kooperatives Lernen keinesfalls vernachlässigt werden – und das in einem gut choreografierten, kognitiv anspruchsvollen Unterricht, der auch die Förderung von Akzeptanz und Empathie groß schreibt. (Vock & Gronostaj, 2017, S. 6)

Angesichts dieser Problematik lagen zentrale Anliegen der vorliegenden Arbeit in der Modellierung des Konzepts formatives Assessment und in der Beleuchtung der gegenwärtigen formativen Assessment-Praktiken an Grundschulen. Darüber hinaus sollten Zusammenhänge zu ausgewählten Aspekten der professionellen Kompetenz von Lehrkräften und weiteren Unterrichtsmerkmalen untersucht werden. Dabei ist deutlich geworden, dass es sich bei formativem Assessment um einen Ansatz handelt, der zahlreiche der oben angesprochenen Facetten eines Unterrichts, der angemessen mit Heterogenität umgeht, in sich vereint. So ist formatives Assessment explizit darauf ausgerichtet, individuell passfähige Lernangebote auf der Basis formativer Diagnostik bereit zu stellen. Die Kernintention formativen Assessments liegt in der Optimierung der Lernprozesse aller Schülerinnen und Schüler, weshalb insbesondere Strategien zum Einsatz kommen, die auf eine stärkere Aktivierung der Schülerinnen und Schüler, einschließlich der Beteiligung an der Festlegung von Lernzielen sowie an der Diagnose und Rückmeldung der Leistungen, abzielen. Darüber hinaus werden aber auch die von Vock und Gronostaj (2017) angesprochenen Aspekte des kooperativen Lernens und kognitiv aktivierenden Unterrichts berücksichtigt. Das Konzept formatives Assessment geht demzufolge weit über Prozesse der Diagnose bzw. Leistungsermittlung hinaus und verknüpft diagnostisches Handeln eng mit lernförderlichen didaktischen Maßnahmen. Nach einer kurzen Beschreibung der Schwerpunkte und Besonderheiten der vorliegenden Arbeit werden in diesem Kapitel die Ergebnisse zu den einzelnen Untersuchungsschwerpunkten zusammenfassend diskutiert (Kapitel 8.1). Es werden methodische und inhaltliche Grenzen der Arbeit sowie Perspektiven für zukünftige Forschungsarbeiten aufgezeigt (Kapitel 8.2). Implikationen für das Begriffs© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0_9

230

9 Diskussion und Schlussfolgerungen

verständnis von formativem Assessment sowie Weiterentwicklungen im Kontext inklusiven Assessments werden abgeleitet und die Relevanz der Befunde für die Unterrichtspraxis und Lehrerbildung diskutiert (Kapitel 8.3). Die Arbeit schließt mit einem zusammenfassenden Fazit (Kapitel 8.4). Besonderheiten der Arbeit Bei der vorliegenden Arbeit handelt es sich um eine empirische Studie mit quantitativem Querschnittdesign, welche sich in der Forschung zum Lehrerhandeln im Unterricht einordnen lässt. Die Arbeit knüpft an vorliegende Theorien und empirische Befunde zu formativem Assessment an und soll vertiefende Einblicke im Kontext des Deutschunterrichts in der Grundschule liefern. Eine Besonderheit der Studie liegt zunächst in der Verwendung des AssessmentBegriffs, der alle möglichen Formen von Methoden und Verfahren, mit denen systematische Informationen über die Entwicklung und das Lernen gesammelt werden, einschließt und der eher als der Begriff Diagnostik die subjektive Wahrnehmung des Diagnostizierenden im Sinne einer diagnostischen Deutung betont. Der Fokus wird dabei auf das sogenannte formative Assessment gelegt, welches explizit auf die Optimierung der Lernprozesse und die Förderung des Lernens ausgerichtet ist und in erster Linie während des Lernprozesses unterrichtsimmanent stattfindet (Black & Wiliam, 2009; Prengel, 2016; Stiggins, 2005). Der Ansatz formatives Assessment umfasst neben diagnostischen auch didaktische Maßnahmen, die als lernförderlich gelten und auf die individuelle Lernentwicklung der Schülerinnen und Schüler ausgerichtet sind (Black & Wiliam, 2009). Die Arbeit stellt eine der wenigen Studien im deutschsprachigen Raum dar, die sich systematisch mit diesem neuen Ansatz einer lernförderlichen Leistungsbeurteilung und Unterrichtsgestaltung auseinandersetzt und somit einen Beitrag zur theoretischen und konzeptuellen Aufarbeitung neuer diagnostischer Zugänge leistet. Eine Stärke der Arbeit ist es daher, dass sie diese theoretische Konzeptualisierung aufnimmt und diese Form der Diagnostik gezielt mit weiteren Unterrichtsmerkmalen in Verbindung bringt. Die Studie gibt durch ihre empirischen Befunde Hinweise darauf, dass formative Diagnostik eng mit der Gestaltung eines differenzierten Unterrichts verknüpft ist. Dabei wird aber auch deutlich, dass formatives Assessment nicht automatisch mit einem adaptiven Unterricht einhergeht, sondern diagnostische Verfahren explizit didaktische Hinweise enthalten sollten, um von den Lehrkräften zur Unterrichtsgestaltung genutzt werden zu können. Zur Realisierung von formativem Assessment liegen bisher überwiegend Studien aus dem englischsprachigen Raum vor (vgl. Kapitel 3.2). In Deutschland fehlen Studien zur Deskription der Praxis formativer Leistungsdiagnostik an Schulen fast völlig (Maier, 2011a). Vor diesem Hintergrund liefert die vorliegende Untersuchung wichtige Erkenntnisse über die Praxis und Bedingungen formativen Assessments aus der Sicht von Grundschullehrkräften im deutschsprachigen Kontext.

9.1 Zusammenfassende Ergebnisdiskussion

231

Die Befunde deuten insbesondere auf Entwicklungsbedarfe hinsichtlich der diagnostischen Praxis und Rückmeldekultur in der Grundschule hin. Eine weitere Besonderheit der Arbeit liegt in der Analyse der Zusammenhänge zwischen Lehrerüberzeugungen und Assessment-Handeln, wobei die Ergebnisse zeigen, dass die konstruktivistischen Überzeugungen der Lehrkräfte positiv mit dem selbstwahrgenommenen Assessment-Handeln zusammenhängen und demzufolge einen wichtigen Faktor darstellen, den es bei der Entwicklung formativer Praktiken zu berücksichtigen gilt. Neben diesen inhaltlichen Gesichtspunkten trägt die vorliegende Studie auch durch die Wahl der statistischen Methoden und Analyseverfahren zu einer Erweiterung der Ansätze bisheriger Arbeiten bei. Die entwickelten Skalen wurden mit Verfahren überprüft, die über klassische Möglichkeiten der Reliabilitätsanalyse hinausgehen. Dadurch konnte ein zuverlässiges Erhebungsinstrument konstruiert werden, welches für Folgeuntersuchungen einen wichtigen Ausgangspunkt darstellen kann. Darüber hinaus ermöglichen die Strukturgleichungsanalysen mit latenten Variablen die Untersuchung komplexer Zusammenhangsstrukturen unter expliziter Berücksichtigung zufälliger Messfehlereinflüsse, wodurch verzerrte Schätzungen, wie sie beispielsweise bei Korrelations- und Regressionsanalysen auftreten, vermieden werden (Geiser, 2011). Die durchgeführten latenten Profilanalysen bringen gegenüber herkömmlichen deterministischen Verfahren der Clusteranalyse ebenfalls einige Vorteile mit sich und eignen sich daher in besonderem Maße zur Klassifikation von Assessment-Gruppen. 9.1 9.1.1

Zusammenfassende Ergebnisdiskussion Fragebogenentwicklung und Modellprüfung

Entwicklung eines Fragebogens zur Erfassung formativer Assessment-Praktiken Wenngleich die Realisierung von Praktiken, die sich dem formativen Assessment zuordnen lassen, für den Unterricht in der Grundschule vielfach gefordert und als lernwirksam beschrieben werden (Black & Wiliam, 2009; Kingston & Nash, 2011; Prengel, 2016), ist der aktuelle Kenntnisstand über die gegenwärtige Praxis formativen Assessments an Grundschulen in Deutschland noch sehr gering (Eckerth, 2013; Inckemann, 2008; Smit & Engeli, 2017; Racherbäumer, 2009; Solzbacher, 2012). Da sich die Forschung zum formativen Assessment hier erst seit einigen Jahren entwickelt, mangelt es auch an geeigneten deutschsprachigen Instrumenten zur Erfassung formativer Assessment-Praktiken aus der Sicht von Lehrkräften. Ein Untersuchungsschwerpunkt der vorliegenden Arbeit lag daher in der Entwicklung eines Erhebungsinstrumentes, welches die ökonomische Erfassung formativer Assessment-Praktiken im Grundschulbereich ermöglicht. Hierzu

232

9 Diskussion und Schlussfolgerungen

wurde ein Fragebogen mit geschlossenem Aufgabenformat entwickelt, pilotiert, im Rahmen der Hauptuntersuchung einer Güteprüfung der ersten und zweiten Generation unterzogen und entsprechend überarbeitet. Wie in Kapitel 7.1 gezeigt werden konnte, gelang es, aufbauend auf den Studien von Smit (2009a), James und Pedder (2006) sowie Pat-El et al. (2013) ein Instrument zur Erfassung der formativen Assessment-Strategien aus Sicht von Grundschullehrkräften zu entwickeln. Im Rahmen der Güteprüfung der Messmodelle ist deutlich geworden, dass sich die theoretisch angenommenen Konstrukte weitgehend erwartungsgemäß abbilden lassen. Bei einigen Faktoren ist es zu einer Ausdifferenzierung gekommen, lediglich das Konstrukt der Prozessorientierung konnte anhand der Ladungsstruktur nicht reproduziert werden. Die Ergebnisse deuten darauf hin, dass die Prozessorientierung eher als übergeordnetes handlungsleitendes Prinzip formativen Assessments zu verstehen ist und weniger als konkrete Handlungsmöglichkeit. Die endgültigen elf formativen Assessment-Skalen bestehen nach Abschluss der Güteprüfung der ersten und zweiten Generation jeweils aus drei bis fünf Items und weisen eine gute bis zufriedenstellende interne Konsistenz und akzeptable Faktorreliabilität auf. Die vorliegende Arbeit schließt damit an die Vorarbeit von Smit (2009a) an, der bereits Skalen zur förderorientierten Beurteilung für den deutschsprachigen Raum vorgelegt hat. Der entwickelte Fragebogen stellt insofern einen Beitrag auf dem Gebiet der Instrumententwicklung zum formativen Assessment dar, als dass die Skalen nicht nur mittels der klassischen Reliabilitätsanalysen überprüft, sondern auch einer Güteprüfung der zweiten Generation unterzogen wurden. Damit entspricht die Skalenanalyse dem State-of-the-Art (Seifried, 2015) und die Skalen können als entsprechend reliabel beurteilt werden, wodurch auch der Einsatz in Strukturgleichungsmodellen möglich wird. Die in der Literatur zum formativen Assessment als relevant diskutierten Strategien konnten im Rahmen der vorliegenden Arbeit gesamtheitlich und nicht nur ausschnitthaft operationalisiert werden. Dabei ist es auch gelungen, die Strategien, die in der Theorie teilweise nur schwer voneinander abzugrenzen waren (Wiliam, 2010) empirisch trennscharf abzubilden. Dadurch wird sowohl die Analyse von Zusammenhangsstrukturen zwischen den Assessment-Strategien als auch die von Smit und Engeli (2017) geforderte Analyse der Effekte des Gesamtkonstrukts möglich. Prüfung des empirischen Modells zum Konstrukt formatives Assessment In der theoretischen Diskussion um formatives Assessment wird davon ausgegangen, dass es sich bei den verschiedenen Assessment-Strategien um unterrichtsimmanente Praktiken handelt, die allesamt den Fokus auf den Lernprozess legen und dazu beitragen sollen, den Unterricht kontinuierlich an die Bedürfnisse der Schülerinnen und Schüler anzupassen (Filsecker & Kerres, 2012). Die Strategien sind

9.1 Zusammenfassende Ergebnisdiskussion

233

also über die gemeinsame handlungsleitende Zielstellung der Optimierung der Lernprozesse und Förderung des Lernens (Black & Wiliam, 2009; Stiggins, 2005) miteinander verknüpft. Entsprechend wurde angenommen, dass sich auch auf empirischer Ebene ein übergeordneter Faktor, eine „formative Orientierung“, abbilden lässt. Gegen diese Annahme spricht die große inhaltliche Heterogenität der Assessment-Strategien, weshalb es auch denkbar wäre, dass die Strategien eher als eigenständige Aspekte der lernförderlichen Gestaltung von Lehr-Lernprozessen verstanden werden sollten und nicht über einen gemeinsamen übergeordneten Faktor in Verbindung stehen. Bislang liegen jedoch nur wenige Untersuchungen vor, die Auskunft darüber geben, in welchem Verhältnis die verschiedenen Assessment-Strategien zueinanderstehen. Ein weiterer Untersuchungsschwerpunkt lag daher in der empirischen Prüfung der theoretischen Annahmen über die Struktur des Konstrukts formatives Assessment. Mit Hilfe einer konfirmatorischen Faktorenanalyse wurden die Zusammenhänge zwischen den einzelnen Strategien formativen Assessments analysiert und die Modellgüte des Faktorenmodells überprüft. Weiterhin wurde ein Modellvergleich zwischen einem Modell erster Ordnung und einem Modell zweiter Ordnung vorgenommen. Im Rahmen der Strukturgleichungsanalysen konnte die Annahme bestätigt werden, dass zwischen allen formativen Assessment-Strategien signifikante Zusammenhänge bestehen (Hypothese 1). Insbesondere zwischen dem Einsatz formeller diagnostischer Methoden und Self- und Peer-Assessments sowie der Nutzung von Feedback-Fragen bei schriftlichen Rückmeldungen gibt es eine Korrelation mit großem Effekt. Die Ergebnisse deuten darauf hin, dass eine ausgeprägte diagnostische Praxis mit einer veränderten Feedbackkultur einhergeht und diagnostische Informationen aus Portfolios, Kompetenzrastern, Tests, Beobachtungsbögen oder Lerntagebüchern eine wichtige Basis für die Formulierung lernförderlicher schriftlicher Rückmeldungen darstellen. Es zeigt sich auch, dass Lehrkräfte, die verstärkt informelle diagnostische Methoden verwenden, eher lernförderliche Unterrichtsgespräche führen, auf einen transparenten Umgang mit Lernzielen und Beurteilungskriterien achten, Lernstrategien vermitteln, lernförderliches mündliches Feedback geben und diagnostische Informationen pädagogisch nutzen. Die Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander steht offenbar am wenigsten mit den anderen Aspekten formativen Assessments in Verbindung, da hier lediglich Korrelationen mit geringem bis mittlerem Effekt auftreten. Dies deckt sich insofern mit den theoretischen Konzepten formativen Assessments, als dass bei der Analyse verschiedener Ansätze formativen Assessments deutlich geworden ist, dass die Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander nur in wenigen Arbeiten dem formativen Assessment zugeordnet wird (Black & Wiliam, 2009; Maier, 2015). Auch der

234

9 Diskussion und Schlussfolgerungen

transparente Umgang mit Lernzielen und Beurteilungskriterien sowie die Vermittlung von Lernstrategien korreliert mit einzelnen Assessment-Strategien nur gering. Hinsichtlich der Modellstruktur weisen die Ergebnisse des Modellvergleichs darauf hin, dass, obwohl die Faktoren zum Teil hoch miteinander korrelieren, ein Modell mit einem übergeordneten latenten Faktor („formative Orientierung“) die Daten nicht besser abbilden kann als ein Modell mit korrelierenden Faktoren. Die Hypothese 2 kann damit nicht bestätigt werden. Es scheint sich eher um mehr oder weniger eng zusammenhängende eigenständige Aspekte formativen Assessments zu handeln als um Strategien, die gleichermaßen von einer übergeordneten Zielstellung bzw. Orientierung beeinflusst werden. Man kann annehmen, dass den Assessment-Dimensionen zwar ein starker gemeinsamer Faktor zu Grunde liegt, darüber hinaus jedoch noch systematische faktorenspezifische Varianz vorliegt. Am deutlichsten führt eine formative Orientierung offenbar dazu, dass Lehrkräfte informelle diagnostische Methoden, lernförderliche Unterrichtsgespräche und mündliches Feedback einsetzen sowie transparent mit Lernzielen umgehen. Die Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander kann am wenigsten durch eine formative Orientierung erklärt werden. Eine mögliche Ursache hierfür wäre, dass den Lehrkräften die lernförderlichen Effekte kooperativer Lernsettings nicht ausreichend bewusst sind und sie daher auch nicht zu diesen Zwecken eingesetzt werden, sondern eher andere Ziele, wie die Verbesserung der Beziehungen innerhalb der Lerngruppe oder die Erhöhung der intrinsischen Motivation (Bochmann & Kirchmann, 2006) handlungsleitend für deren Nutzung sind. Auch die Ladung des Faktors Feedback-Fragen (schriftlich) auf die „formative Orientierung“ fällt nur gering aus. Dies überrascht zunächst, da lernförderliches Feedback als ein wesentliches Element formativen Feedbacks angesehen wird. Dass die Berücksichtigung von lernförderlichen Feedback-Fragen bei schriftlichen Rückmeldungen nur geringfügig von einer formativen Orientierung beeinflusst wird, könnte ebenfalls damit erklärt werden, dass den Lehrkräften Kenntnisse darüber fehlen, welche positiven Effekte von schriftlichen Rückmeldungen, die sich an den Feedback-Fragen nach Hattie und Timperley (2007) orientieren, ausgehen können. Entsprechend kann bei fehlender Kenntnis der geeigneten Handlungsmöglichkeiten eine formative Orientierung (Ziel der Optimierung der Lernprozesse und Förderung des Lernens) dann auch nicht dazu führen, dass diese Strategie angewendet wird. - Basierend auf den statistischen Analysen kann das theoretische Modell formativen Assessments insofern weiterentwickelt werden, als dass es über elf eigenständige Aspekte erfasst werden kann, die sich zu folgenden sieben Handlungsstrategien bündeln lassen:

9.1 Zusammenfassende Ergebnisdiskussion

-

235

Transparente Kommunikation über Lernziele und Beurteilungskriterien Gestaltung kognitiv aktivierender Unterrichtsgespräche Förderung des selbstregulierten Lernens mittels Self- und Peer-Assessments sowie der Vermittlung von Lernstrategien Aktivierung der Schülerinnen und Schüler zum kooperativen Lernen Regelmäßige Verwendung informeller und formeller diagnostischer Verfahren Konstruktives schriftliches und mündliches Feedback Pädagogische Nutzung der diagnostischen Informationen

Die von Black und Wiliam (2009) gewählten Bezeichnungen der Strategien wurden zur besseren Verständlichkeit begrifflich leicht modifiziert. Erweitert werden die von Black und Wiliam (2009) beschriebenen Strategien um die Verwendung informeller und formativer diagnostischer Verfahren, womit die Feststellung der Lernstände und Lernentwicklungen als Kernelement formativen Assessments betont wird. Die Prozessorientierung wird nicht mehr als eigenständige Handlungsstrategie verstanden, sondern über den regelmäßigen Einsatz prozessorientierter diagnostischer Verfahren sowie durch die pädagogische Nutzung der diagnostischen Informationen realisiert. Einen Neuwert hat das Modell auch durch die explizite Berücksichtigung der pädagogischen Nutzung der diagnostischen Informationen als konkrete Handlungsstrategie. Bislang wurde dieser Aspekt im Diskurs um formatives Assessment zwar als zentrale Zielstellung verstanden, jedoch nur von wenigen Autoren als Teil des Assessment-Prozesses konzeptualisiert (Maier, 2015). Und das, obwohl Black et al. schon seit einigen Jahren darauf hinweisen, dass Assessment erst dann formativ wird, „when the evidence is actually used to adapt the teaching work to meet learning needs“ (2002, S. 0). Darüber hinaus schließt das Strukturgleichungsmodell auch die Aspekte Feedback und kognitiv aktivierendes Unterrichtsgespräch ein, die in den empirischen Modellen von Smit (2009a) bzw. Smit und Engeli (2017) nicht berücksichtigt, aber als relevant für nachfolgende Untersuchungen erachtet werden. Die Arbeit leistet damit einen Beitrag bezüglich der Theoriebildung zu formativem Assessment, da in das Modell bislang zu wenig berücksichtigte Aspekte aufgenommen wurden und das Modell auch empirisch geprüft wurde. In der theoretischen Auseinandersetzung mit der diagnostischen Kompetenz von Lehrkräften (vgl. Kapitel 4.1) ist deutlich geworden, dass aktuelle Modelle diagnostischer Kompetenz formatives Assessment noch zu wenig berücksichtigen (Glogger-Frey & Herppich, 2017). Zukünftig zu entwickelnde Rahmenmodelle diagnostischer Kompetenz sollten diesen Aspekt

236

9 Diskussion und Schlussfolgerungen

explizit adressieren (Förster & Karst, 2017), wobei auf die in dieser Arbeit beschriebenen Strategien zurückgegriffen werden könnte. 9.1.2

Formative Assessment-Praxis an Grundschulen

Einen zentralen Untersuchungsschwerpunkt stellt die Beschreibung gegenwärtiger formativer Assessment-Praktiken an Grundschulen dar. Erfasst wurde die selbsteingeschätzte formative Assessment-Praxis von Grundschullehrkräften an staatlichen Grundschulen in Sachsen (n = 338) in Bezug auf das Fach Deutsch in der dritten Klassenstufe. Insgesamt zeigt sich folgendes Bild hinsichtlich der formativen Assessment-Praxis: Die Grundschullehrkräfte schätzen ihre Kommunikation mit den Schülerinnen und Schülern über Lernziele und deren konsequente Verfolgung im Unterrichtsverlauf sehr positiv ein. Nahezu alle Lehrkräfte geben an, zu Beginn jeder Stunde die Lernziele zu nennen und mit den Schülerinnen und Schülern zu besprechen, nicht ganz so häufig wird die Zielerreichung auch am Ende der Stunde überprüft. Die Ergebnisse sind konform mit denen von Smit (2009a) bei dem die Sekundarstufenlehrkräfte ebenfalls den transparenten Umgang mit Lernzielen als eher zutreffend für ihren Unterricht einschätzen. Auch bei Herman et al. (2006) sowie James und Pedder (2006) zeigte sich, dass die Lehrkräfte regelmäßig Lernziele kommunizieren und die Zielerreichung überprüfen. Mit Beurteilungs- und Erfolgskriterien wird aus Sicht der befragten Grundschullehrkräfte im Deutschunterricht sehr transparent umgegangen. So sind die Lehrkräfte der Ansicht, dass sie ihren Schülerinnen und Schülern die Beurteilungskriterien mitteilen und diese erläutern, wobei auch das Modellieren der Aufgabenbearbeitung eine gängige Praxis darzustellen scheint. In ähnlicher Weise zeigte sich diese sehr positive Selbsteinschätzung auch bei James und Pedder (2006) für Lehrkräfte verschiedener Schulformen. Die Gestaltung von Unterrichtsgesprächen, bei denen die Schülerinnen und Schüler Gelegenheit haben, Gedankengänge und Lösungswege zu erläutern und zu begründen, wird in der Literatur zum formativen Assessment als zentrale Strategie angesehen, Denkprozesse auf Seiten der Schülerinnen und Schüler anzuregen und damit kognitiv aktivierend zu wirken. Die Lehrkräfte schätzen ihr Unterrichtshandeln diesbezüglich sehr positiv ein. Die Schülerinnen und Schüler werden überwiegend dazu aufgefordert, Lösungswege oder Gedankengänge zu begründen oder zu erklären und die Lehrkräfte sind auch der Ansicht, dass Sie Aufgaben stellen, für deren Lösungen man Zeit zum Nachdenken braucht, was auf kognitiv aktivierendendes Potenzial hindeutet. Die Ergebnisse deuten damit in eine etwas andere Richtung als vorliegende Beobachtungstudien, bei denen die Gesprächspraxis im Unterricht durch eher reproduktive Fragen und eine Dominanz des Beschreibens und Faktensammelns gekennzeichnet ist (Kobarg et al., 2009; Schmölzer-

9.1 Zusammenfassende Ergebnisdiskussion

237

Eibinger, 2013; Schramm, Hardy, Saalbach & Gadow, 2013) und den Schülerinnen und Schüler nur wenig Bedenkzeit gewährt wird (Niegemann, 2004). Diese Differenz ist möglicherweise auch auf die Erhebungsmethode zurückzuführen, wobei davon auszugehen ist, dass die Gefahr des Auftretens von Milde-Effekten bei Selbsteinschätzungsinstrumenten größer ist als bei einer externen Beobachtung (Bogner & Landrock, 2014; Döring & Bortz, 2016, S. 253). Für die Aktivierung der Schülerinnen und Schüler zur Verantwortungsübernahme für das eigene Lernen wird in der Literatur insbesondere die Verwendung von Selfund Peer-Assessments hervorgehoben. Aus der Befragung geht hervor, dass diese formative Assessment-Strategie aktuell jedoch noch wenig genutzt wird. Selbsteinschätzungsbögen werden von den Lehrkräften eher nicht eingesetzt und auch die Bewertung eigener Arbeiten anhand von Kriterien, die im Unterricht gemeinsam entwickelt wurden, erfolgt eher selten. Etwas stärker etabliert zu sein scheinen Formen des Peer-Assessments, bei denen die Schülerinnen und Schüler die Gelegenheit haben, sich gegenseitig zu bewerten. Das Ausmaß der Nutzung von Selfund Peer-Assessments an Grundschulen bewegt sich auf einem ähnlichen Niveau wie in den Befragungen in der Sekundarstufe von Smit (2009a) und Bürgermeister (2014) sowie von James und Pedder (2006), in denen Self- und Peer-Assessments ebenfalls eher selten eingesetzt werden. Da aus der Studie auch hervorgeht, dass Fortbildungen zu Leistungsbeurteilung und -bewertung mit einem verstärkten Einsatz von Self- und Peer-Assessments einhergehen, kann davon ausgegangen werden, dass Fortbildungsangebote offenbar Potenzial aufweisen, Entwicklungsprozesse diesbezüglich anzuregen. Aufgrund der niedrigen Ausprägungen auf dieser Assessment-Skala sollten Angebote diesbezüglich unbedingt weitergeführt und genutzt werden. Stärker als mittels Self- und Peer-Assessments wird die Förderung der Verantwortungsübernahme für das eigene Lernen über die Vermittlung von Lernstrategien realisiert, welche die Entwicklung des selbstregulierten Lernens unterstützen sollen. So geben die Lehrkräfte mehrheitlich an, Organisationsstrategien zu vermitteln. Solch eine starke Tendenz zur direkten Förderung von Lernstrategien zeigt sich in vergleichbaren Untersuchungen (Killus, 2009) weniger. Möglicherweise sind die hohen Zustimmungswerte dadurch zustande gekommen, dass es sich bei den nach der Güteprüfung verbliebenen Items um Lerninhalte handelt, die explizit im Lehrplan Deutsch der Grundschule (Sächsisches Staatsministerium für Kultus, 2009) aufgeführt sind und für die Lehrkräfte somit eine hohe Relevanz haben. Es ist anzunehmen, dass metakognitive und motivationale Lernstrategien einen deutlich geringeren Stellenwert im Unterricht einnehmen (Killus, 2009). Dass die Schülerinnen und Schüler im Unterricht als instruktionale Ressourcen füreinander aktiviert werden, halten die befragten Lehrkräfte für eher zutreffend. Die Lehrkräfte regen insbesondere eine Unterstützung schwächerer Schülerinnen

238

9 Diskussion und Schlussfolgerungen

und Schüler durch Mitschülerinnen und Mitschüler an und setzen Lernhelfer- oder Patensysteme im Unterricht ein. Die Befragung kommt diesbezüglich zu ähnlichen Ergebnissen wie Solzbacher (2012), bei der die meisten Grundschullehrkräfte häufig bis sehr häufig Partnerarbeit und Helfersysteme im Unterricht einsetzen. Das Arbeiten in kooperativen bzw. reziproken Lernsituationen, welches als besonders lernförderlich gilt, wird hingegen seltener praktiziert. Im Rahmen der Modellprüfung wurde deutlich, dass die Aktivierung der Schülerinnen und Schüler als instruktionale Ressource füreinander nur wenig auf eine formative Orientierung zurückzuführen ist. Möglicherweise könnten Lehrkräfte durch Informationen über die lernförderlichen Effekte kooperativer Lernformen dazu angeregt werden, diese wirksamen Unterrichtsmaßnahmen stärker in ihren Unterricht einzubeziehen. Formelle diagnostische Methoden und Verfahren, die sich zur formativen Nutzung eignen, werden von den Grundschullehrkräften insgesamt sehr wenig eingesetzt. Noch am häufigsten verwenden die Lehrkräfte Beobachtungsbögen zur systematischen Schülerbeobachtung. Kompetenzraster und Portfolios, die eine Dokumentation der Lernentwicklung der Schülerinnen und Schüler ermöglichen, werden kaum genutzt. Am seltensten kommt das Lerntagebuch zum Einsatz, welches vielfältige Einsatzmöglichkeiten als Dokumentations- und formatives Diagnoseinstrument bietet. Auch standardisierte Schulleistungstests werden nur von wenigen Lehrkräften formativ genutzt. Aus den offenen Antworten geht hervor, dass hierfür insbesondere die Hamburger Schreibprobe (HSP) (May, 2012) und die Diagnostische Bilderliste (Dummer-Smoch, 1984) genutzt werden. Auch die Ergebnisse der landesweiten Vergleichsarbeiten (Kompetenztests) werden von einigen Lehrkräften formativ genutzt, wobei das Potenzial dieser standardisierten Arbeiten, welche im Gegensatz zu kommerziellen Testverfahren für alle Schulen prinzipiell zugänglich wären, offenbar noch wenig ausgeschöpft wird. Eine mögliche Ursache für den geringen Einsatz formeller diagnostischer Verfahren kann darin gesehen werden, dass die Lehrkräfte diese Instrumente als zeitaufwendig ansehen und befürchten, dass durch den Einsatz dieser Verfahren weniger Zeit für die Umsetzung der Lehrplaninhalte zur Verfügung steht (Grittner, 2010; Tierney, 2006). Neben diesem zeitlichen Aspekt ist aber auch davon auszugehen, dass diese eher neuen und zum Teil schülerorientierten Methoden in der Lehrerausbildung der Mehrheit der befragten Lehrkräfte nicht verankert waren und daher weitgehend unvertraut sind, sofern keine intensive Auseinandersetzung im Rahmen von Fortund Weiterbildungsmaßnahmen stattgefunden hat. Differenzierte Kenntnisse der Methoden sind jedoch erforderlich für einen angemessenen Einsatz der Verfahren. Hier deutet sich also ein Bedarf an spezifischen Professionalisierungsangeboten an. Deutlich häufiger als formelle Verfahren nutzen die Grundschullehrkräfte offenbar eher informelle diagnostische Methoden und Verfahren bzw. Situationen. So beobachten die Lehrkräfte einzelne Schülerinnen und Schüler gezielt bei der

9.1 Zusammenfassende Ergebnisdiskussion

239

Bearbeitung von Aufgaben und analysieren in Einzelsituationen was einzelne Schülerinnen und Schüler bereits beherrschen und welche Aufgaben sie mit Hilfe bzw. Unterstützung bereits lösen können. Damit können hilfreiche Informationen zur Zone der nächsten Entwicklung gewonnen werden, welche für die Ableitung nachfolgender Förder- bzw. Unterrichtsmaßnahmen nützlich sein können. Auch die Fehleranalyse anhand von Arbeitsprodukten der Schülerinnen und Schüler scheint eine gängige Praxis im Deutschunterricht der Grundschule darzustellen. Die Befunde bestätigen die Tendenzen nationaler und internationaler Studien, die ebenfalls eine geringe Nutzung von formellen Instrumenten, die sich zur formativen Nutzung eignen, konstatieren, während informelle bzw. einfach anzuwendende Verfahren in etwas größerem Ausmaß eingesetzt werden (Cizek & Fitzgerald, 1996; Eckerth, 2013; Maier, 2011a; McMillan et al., 2002; Smit, 2009a; Smit & Engeli, 2017; Solzbacher, 2012). Die große Streuung der Skala formelle diagnostische Methoden und Verfahren kann ferner als weiterer Beleg für die von Inckemann (2008) und Racherbäumer (2012) beschriebene Heterogenität bezüglich der diagnostischen Praxis im Grundschulunterricht gewertet werden. Es ist also anzunehmen, dass unter Grundschullehrkräften große Unterschiede bezüglich der eingesetzten diagnostischen Verfahren bestehen. Während einige Lehrkräfte formelle Verfahren so gut wie überhaupt nicht nutzen, ist bei anderen bereits von einem ausgeprägten Einsatz diagnostischer Instrumente auszugehen. Perspektivisch könnten bundeslandspezifische Orientierungsrahmen und Leitlinien, wie sie z.B. mit der „Checkliste zur Erfassung von Maßnahmen der lernprozessbegleitenden Diagnostik“ (LISUM, 2014) in anderen Bundesländern (z.B. Brandenburg) bereits existieren, einen Beitrag zu einer verstärkten und vergleichbareren diagnostischen Tätigkeit leisten. Rückmeldungen, welche den Schülerinnen und Schülern Informationen auf der Verstehens-ebene bezüglich der Aufgabe sowie auf der Ebene der selbstregulatorischen und meta-kognitiven Prozesse geben, gelten als besonders lernförderliche Strategie formativen Assessments (Hattie & Timperley, 2007; Kluger & DeNisi, 1996). Die befragten Grundschullehrkräfte sind der Ansicht, dass sie im Unterrichtsgespräch überwiegend Rückmeldungen geben, die diese Feedback-Ebenen berücksichtigen. So geben sie bei einer falschen oder unzureichenden Schülerantwort Hinweise, wie die Schülerin bzw. der Schüler an ihren bzw. seinen Stärken ansetzen kann, das Problem anders angehen. Auch Hinweise zu lern- bzw. selbstregulatorischen Strategien werden von den Lehrkräften gegeben, womit metakognitive Prozesse angeregt werden können. Die Einschätzungen der sächsischen Grundschullehrkräfte sind vergleichbar mit denen von Altmann et al. (2010), Brown et al. (2012) sowie James und Pedder (2006), fallen jedoch deutlich positiver aus als die auf Videoanalysen basierenden Befunde von Martschinke (2015), was vermutlich mit den unterschiedlichen Erhebungsformaten und dem

240

9 Diskussion und Schlussfolgerungen

damit verbundenen Milde-Effekte zusammenhängt (Bogner & Landrock, 2014; Döring & Bortz, 2016, S. 253). Deutlich seltener als in mündlichen Situationen erhalten die Schülerinnen und Schüler lernförderliches Feedback in schriftlicher Form. Ein geringer Teil der Lehrkräfte ergänzt schriftliche Noten niemals um einen Kommentar, bei der Mehrheit der Lehrkräfte beschränkt sich der Kommentar auf ein kurzes Worturteil, welches nicht als formatives Feedback angesehen werden kann. Am stärksten orientiert sich das Feedback der Lehrkräfte offenbar an der Feedback-Frage „Wie kommst du voran?“ und ist dabei eher lösungsprozessbezogen. Die Rückmeldungen beziehen sich aber nur geringfügig auf die anderen Feedback-Fragen „Wohin gehst du?“ und „Wohin geht es danach?“ und beinhalten verhältnismäßig wenige Hinweise zum Einsatz von Selbstregulations- bzw. Lernstrategien. Damit ist davon auszugehen, dass das lernförderliche Potenzial schriftlicher Rückmeldungen noch wenig ausgeschöpft wird und die Schülerinnen und Schüler nur bedingt hilfreiche Rückmeldungen in schriftlicher Form erhalten. Die große Streuung der Antworten deutet auf große Unterschiede in der schriftlichen Feedbackkultur hin, wobei ein Teil der Lehrkräfte Noten überhaupt nicht um lernförderliche schriftliche Rückmeldungen ergänzt. Damit bestätigen die Befunde die Ergebnisse und Einschätzungen von Solzbacher (2012), wonach die Grundschulen noch weit entfernt sind von einer differenzierten Feedbackkultur. Zur Strategie der Prozessorientierung können auf Grundlage der Lehrkräftebefragung nur bedingt Aussagen getroffen werden, da der Faktor mittels exploratorischer Faktorenanalyse nicht abgebildet werden konnte. Die Analyse der Einzelitems ergibt, dass mehr als die Hälfte der Lehrkräfte eher bis überhaupt keine diagnostischen Instrumente nutzt, die es ermöglichen, das Lernen im Verlauf zu dokumentieren (z.B. Kompetenzraster, CBM’s, individuelle Lernstandsanalysen). Dennoch gibt die Mehrheit der Befragten an, die Entwicklung der Schülerinnen und Schüler über das Schuljahr hinweg schriftlich zu dokumentieren. Insgesamt ist jedoch davon auszugehen, dass die Lehrkräfte sich nur bedingt an der Lernentwicklung orientieren (können), wenn sie dazu keine geeigneten Instrumente zur Erfassung und Dokumentation nutzen. Damit deuten die Ergebnisse in eine ähnliche Richtung wie die von Maier (2011a), bei dem Gymnasiallehrkräfte ebenfalls kaum eine lernprozessbegleitende systematische Dokumentation der Kompetenzentwicklung vornehmen. Die befragten Grundschullehrkräfte sind überwiegend der Einschätzung, dass sie diagnostische Informationen pädagogisch nutzen. Sie geben an, dass sie diagnostische Informationen überwiegend dazu verwenden, herauszufinden, ob sie im Stoff weitergehen können oder noch weiter am aktuellen Stoff arbeiten müssen. Auch die Nutzung für Feedback wird hoch bewertet, wobei die Lehrkräfte die In-

9.1 Zusammenfassende Ergebnisdiskussion

241

formationen etwas häufiger für eine differenzierte Rückmeldung an die Eltern heranziehen als für Feedback an die Schülerinnen und Schüler selbst. Die Befunde sind konform mit denen von Eckerth (2013), bei der die Entwicklungs-dokumentationen auch häufiger zur Rückmeldung an die Eltern sowie zur Planung des Unterrichts genutzt werden als zur individuellen Förderung. Die Adaption der Lernziele sowie die Auswahl von Aufgaben, die dem Fähigkeitsniveau der Schülerinnen und Schüler entsprechen, zählen aus Sicht der Lehrkräfte ebenfalls zu gängigen pädagogischen Verwendungsweisen. Damit ähneln die erbrachten Befunde denen von Smit und Engeli (2017), bei denen die Lehrkräfte ebenfalls angaben, Beobachtungen gezielt für die Unterrichtsgestaltung und individuelle Beurteilung zu nutzen. Jedoch ist auch festzustellen, dass die diagnostischen Informationen ebenso häufig zu summativen Zwecken der Benotung und Begründung der Noten gegenüber den Eltern genutzt werden. An dieser Stelle wird deutlich, dass die Grundschullehrkräfte die diagnostischen Informationen also sowohl zu formativen als auch zu summativen Zwecken verwenden. Diese Ergebnisse könnten als Indiz für eine ausgewogene summative und formative Diagnostik bewertet werden, wobei berücksichtigt werden muss, dass der Fragebogen nicht auf eine vergleichende Betrachtung formativer und summativer Praktiken ausgerichtet ist. Dass diagnostische Informationen von den Lehrkräften auch summativ genutzt werden, sollte nicht als Ausdruck defizitärer Praxis bewertet werden. Vielmehr ist dies Ausdruck der ebenfalls wichtigen Allokations- und Sozialisationsfunktion schulischer Beurteilungsprozesse (Remesal, 2011), die von den Lehrkräften ebenfalls erfüllt werden muss. Vergleicht man abschließend die Ausprägung der einzelnen formativen Assessment-Skalen, so zeigt sich, dass die formativen Assessment-Praktiken aus Sicht der befragten Lehrkräfte überwiegend im Unterricht angewendet werden. Insbesondere ein transparenter Umgang mit Beurteilungskriterien und die Aktivierung der Schülerinnen und Schüler zur Verantwortungsübernahme für ihr Lernen durch die Vermittlung von Lernstrategien (Organisationsstrategien) scheinen zur gängigen Praxis im Deutschunterricht der Grundschule zu gehören. Ebenfalls eher hoch ausgeprägt sind der Einsatz von lernförderlichen Rückmeldungen im mündlichen Kontext, der transparente Umgang mit Lernzielen sowie die Verwendung informeller diagnostischer Methoden und Verfahren. Demgegenüber sind formelle bzw. high-cost Methoden und Verfahren verhältnismäßig wenig etabliert. Formelle diagnostische Instrumente wie Kompetenzraster, Portfolios, Lerntagebücher, Beobachtungsbögen oder die formative Nutzung standardisierter Tests kommen kaum zum Einsatz. Ebenso werden Self- und Peer-Assessments wenig genutzt. Auch das Potenzial schriftlichen Feedbacks wird vergleichsweise wenig ausgeschöpft. Die Lehrkräfte geben an, dass sie die diagnostischen Informationen in erster Linie zur allgemeinen Unterrichtsplanung und für Feedback an die Eltern

242

9 Diskussion und Schlussfolgerungen

verwenden, seltener für Feedback an die Schülerinnen und Schüler und zur Adaption der Lernziele und Aufgaben. Gleichermaßen nutzen die Lehrkräfte die diagnostischen Informationen aber auch summativ, zum Beispiel zur Notengebung. Beschreibung von Gruppen mit unterschiedlichen Assessment-Profilen Zur vertiefenden Beschreibung der Assessment-Praxis der befragten Grundschullehrkräfte in Sachsen (Untersuchungsschwerpunkt 5) sollte eine Gruppierung anhand der Ausprägung der Assessment-Strategien vorgenommen werden. Dazu wurden latente Profilanalysen durchgeführt, um verschiedene Assessment-Gruppen zu identifizieren und unterschiedliche Assessment-Muster beschreiben zu können. Basierend auf den Ergebnissen der latenten Profilanalysen wurde eine Lösung mit drei Gruppen zur Beschreibung der Befragungspopulation gewählt. Für diese drei Gruppen zeigt sich folgendes Bild: Knapp ein Drittel der Lehrkräfte schätzt ihren Einsatz formativer Assessment-Strategien signifikant ausgeprägter ein als die anderen befragten Lehrkräfte. Insbesondere formelle diagnostische Methoden werden aus Sicht der Lehrkräfte dieser Gruppe vermehrt eingesetzt. Darüber hinaus zeigt sich bei ihnen eine deutlichere Tendenz dazu, die Schülerinnen und Schüler als instruktionale Ressource füreinander zu aktivieren und formatives Feedback zu geben. Aus den vertiefenden Analysen geht hervor, dass diese Gruppe auch durch signifikant ausgeprägtere konstruktivistische Überzeugungen, eine höhere individuelle Bezugsnormorientierung sowie eine stärkere Tendenz zur aufgabenbezogenen Differenzierung gekennzeichnet ist. Rund die Hälfte der Lehrkräfte werden einer Gruppe zugeordnet, die den Einsatz aller formativen AssessmentStrategien auf mittlerem Niveau einschätzen. Die Gruppe weist ein insgesamt sehr ausgeglichenes Profil auf, wobei keine der Strategien im Vergleich zur Gesamtstichprobe besonders stark bzw. gering ausgeprägt ist. Nur rund ein Sechstel der Lehrkräfte wird der Gruppe mit sehr gering ausgeprägten selbstwahrgenommenen Assessment-Strategien zugeordnet. Sie weist ein Profil mit unterdurchschnittlichen Werten auf allen Assessment-Konstrukten auf. Insbesondere die Verwendung diagnostischer Methoden, die Aktivierung zum kooperativen Lernen und die formative Nutzung diagnostischer Informationen fallen hier niedrig aus. Generell zeigt sich in den Profil-Analysen, dass nur ein Drittel der befragten Grundschullehrkräfte in Sachsen formatives Assessment bereits in ausgeprägter Form realisiert und immerhin ein Sechstel der Lehrkräfte formative Assessment-Strategien nur in geringem Maße im Unterricht berücksichtigt, womit die Ergebnisse auf einen Professionalisierungsbedarf hinsichtlich der untersuchten Praktiken hindeuten. Diese Befunde sind weitgehend konform mit der Analyse von Smit und Engeli (2017), bei der 15 Prozent der Lehrkräfte im jahrgangsübergreifenden Unterricht

9.1 Zusammenfassende Ergebnisdiskussion

243

in der Schweiz einer „traditionellen Beurteilungsform“ zugeordnet wurden, welche im weitesten Sinne der Gruppe mit gering ausgeprägten Assessment-Strategien dieser Untersuchung entspricht. Einen Mehrwert gegenüber Smit und Engelis (2017) Studie besteht allerdings in der Differenzierung von drei AssessmentGruppen, wodurch zwischen mäßig und ausgeprägt formativ orientierten Lehrkräften unterschieden werden kann und sichtbar wird, dass ein deutlich geringerer Teil der Lehrkräfte formative Assessment-Strategien in hohem Maße einsetzt. Somit bestehen auch Parallelen zu den von Eckerth (2013, S. 171) anhand einer kleinen Fallzahl ermittelten Diagnosetypen, bei der die Gruppe derjenigen Lehrkräfte, die eine ausgeprägte Diagnostik mit häufiger Nutzung gezielter Verfahren realisieren, deutlich kleiner ist als die Gruppe von Lehrkräften, die gelegentlich gezielt diagnostisch aktiv wird. Etwas im Widerspruch stehen die Befunde zu denen von James und Pedder (2006), die aufgrund einer hohen Leistungsorientierung bei den Lehrkräften darauf schließen, dass ein Typus eher summativen Praktiken vorherrscht. Allerdings sind in deren Erhebung auch Lehrkräfte der Sekundarstufe eingeschlossen, bei denen insgesamt von einer stärkeren Leistungsorientierung ausgegangen werden kann als in der Primarstufe (Remesal, 2011). 9.1.3

Zusammenhänge mit ausgewählten Lehrer- und Unterrichtsmerkmalen

Formatives Assessment und Differenzierung Formatives Assessment kann als Aspekt professioneller Handlungskompetenz von Grundschullehrkräften (Förster & Karst, 2017; Prengel, 2016) und als Facette adaptiver Lehrkompetenz (Beck et al., 2008; Hertel, 2014) verstanden werden. Ein adaptiver Unterricht macht eine enge Verzahnung von diagnostischen und darauf aufbauenden didaktischen Maßnahmen erforderlich, wobei zu diesem Zusammenspiel noch keine breite empirische Basis vorliegt (Brühwiler, 2017; Smit & Engeli, 2017). Zur Anpassung des Unterrichts an die individuellen Lernausgangslagen der Schülerinnen und Schüler existieren vielfältige Möglichkeiten, wobei auch die Binnendifferenzierung als eine Maßnahme angesehen werden kann (Inckemann, 2008; Martschinke, 2015). In der vorliegenden Arbeit wurde daher das Zusammenspiel zwischen Assessment-Strategien und der Tendenz der Lehrkräfte zur aufgabenbezogenen Differenzierung untersucht. In den Strukturgleichungsanalysen zeigt sich, dass von allen Assessment-Strategien lediglich die Nutzung informeller diagnostischer Methoden einen bedeutsamen positiven Effekt auf die Tendenz zur aufgabenbezogenen Differenzierung hat, womit die Hypothese 5 nicht bestätigt werden kann. Lehrkräfte, welche häufiger informelle diagnostische Methoden und Verfahren einsetzen, tendieren demnach stärker dazu, im Unterricht Aufgaben mit unterschiedlichen Anforderungsniveaus bereit zu stellen. Dieses Ergebnis untermauert und erweitert den Befund von Smit

244

9 Diskussion und Schlussfolgerungen

und Engeli (2017), welche ebenfalls einen Zusammenhang zwischen dem Einsatz formativer Methoden und Verfahren und der Differenzierung im Unterricht herstellen. In der latenten multiplen Regressionsanalyse hat darüber hinaus zwar auch die Aktivierung der Schülerinnen und Schüler zum kooperativen Lernen einen signifikanten positiven Effekt auf die Tendenz zur Differenzierung, der sich jedoch als praktisch nicht bedeutsam und in den vertiefenden Analysen auch als nicht mehr signifikant erweist. Dass zwischen den anderen Assessment-Strategien und der Tendenz zur Differenzierung keine signifikanten Zusammenhänge bestehen, ist nicht erwartungskonform, wurde doch davon ausgegangen, dass alle formativen Assessment-Strategien dazu beitragen sollen, den Unterricht kontinuierlich an die Bedürfnisse der Schülerinnen und Schüler anzupassen (Filsecker & Kerres, 2012). Offenbar führt der Einsatz der meisten Assessment-Strategien nicht dazu, dass die Lehrkräfte den Unterricht adaptiver gestalten. Die zentrale Zielstellung, dass formatives Assessment zu einer Anpassung des Unterrichts an die Bedürfnisse der Schülerinnen und Schüler führen soll, wird damit also nur bedingt erfüllt. Insbesondere der ausbleibende Zusammenhang zwischen dem Einsatz formeller diagnostischer Verfahren und der Differenzierung überrascht zunächst. Zur Interpretation der Befunde kann die bereits 1985 von Schlee in Zusammenhang mit der Förderdiagnostik vorgebrachte Kritik, dass sich aus Ist-Werten keine Soll-Werte ableiten lassen bzw. sich aus diagnostischen Daten keine Handlungsempfehlungen entnehmen lassen, herangezogen werden. Dieses Problem scheint sich auch in den Ergebnissen dieser Studie abzubilden. Obwohl beispielsweise Kompetenzraster, wie in Kapitel 2.2 aufgezeigt wurde, sehr wohl Informationen über nachfolgende Lernziele enthalten, führt deren Anwendung offenbar nicht zu einer differenzierenden Unterrichtsgestaltung. Die Informationen müssen von den Lehrkräften in didaktische Maßnahmen übersetzt werden, was offenbar eine zentrale Herausforderung darstellt. Dass Lehrkräfte es als herausfordernd erleben, aus diagnostischen Ergebnissen differenzierte Angebote für die Schülerinnen und Schüler abzuleiten, zeigt sich bereits bei Walm (2018). Die Befunde der vorliegenden Studie deuten darauf hin, dass Lehrkräfte aus Informationen, die mittels alternativer und standardisierter Beurteilungsformen gewonnen wurden, nicht ohne Weiteres pädagogische Maßnahmen ableiten (können). Daraus lässt sich der Bedarf einer stärkeren Verknüpfung diagnostischer Verfahren mit didaktischen Maßnahmen ableiten. Prengel (2016) weist auf die Notwendigkeit einer Kombination von Kompetenzrastern mit Materialangeboten bzw. Fördermaßnahmen hin, um den Zusammenhang von Diagnostik und Didaktik realisierbar zu machen. Die Ergebnisse dieser Arbeit untermauern die Notwendigkeit der Entwicklung solcher Materialien, da ansonsten wertvolle Informationen ungenutzt bleiben und letztlich die formative Intention nicht erfüllt werden kann. Mit ILEA-T (Geiling et al., 2015) und den Individuellen Lernstandsanalyen (LISUM, 2010) liegen bereits erste Ansätze vor,

9.1 Zusammenfassende Ergebnisdiskussion

245

die diesen Anspruch formulieren und neben diagnostischen Aufgaben auch explizite Vorschläge zur Förderung unterbreiten. Es bedarf jedoch noch weiterer ähnlich angelegter Verfahren, die über Basiskompetenzen hinausgehen und auch andere Lern- und Entwicklungsbereiche abdecken. Mit Blick auf die Ergebnisse muss erwähnt werden, dass eine Anpassung des Unterrichts an die Bedürfnisse der Schülerinnen und Schüler nicht nur mittels Differenzierung, sondern auch über vielfältige andere adaptive Maßnahmen erfolgen kann. Betrachtet man die Ausprägung der Skalen Pädagogische Nutzung der diagnostischen Informationen und Tendenz zur Differenzierung, wird deutlich, dass die pädagogische Nutzung der diagnostischen Informationen, die sich eher auf allgemeine Unterrichtsanpassungen (Auswahl an geeigneten Aufgaben, Planung nächster Unterrichtsschritte) und Rückmeldungen bezieht, etwas mehr Zustimmung erfährt als die Differenzierung. Entsprechend könnte vermutet werden, dass die Lehrkräfte eher allgemeine Planungsentscheidungen auf Grundlage der Lernstände der Schülerinnen und Schüler treffen als dass sie individualisierende Maßnahmen daraus ableiten. Damit schließen die Ergebnisse an die Befunde von Eckerth (2013) an, aus denen ebenfalls hervorgeht, dass die Lehrkräfte die Entwicklungsdokumentationen ebenfalls eher für Rückmeldungen und zur Planung des Unterrichts mit der gesamten Lerngruppe als zur Differenzierung und individuellen Förderung nutzten. Überzeugungen der Lehrkräfte und adaptives Unterrichtshandeln Auch über die Bedingungsfaktoren, welche die Assessment-Praktiken beeinflussen, ist noch wenig bekannt (Maier, 2011a; McMillan, 2010). Basierend auf dem Modell der Determinanten und Konsequenzen der professionellen Kompetenz von Lehrkräften (Kunter et al., 2011) wird angenommen, dass insbesondere die professionelle Kompetenz (Professionswissen, Überzeugungen, motivationale Orientierungen und Selbstregulation) das Assessment-Handeln der Lehrkräfte beeinflusst. Im Fokus der empirischen Untersuchung stehen insbesondere die Überzeugungen der Lehrkräfte zum Lehren und Lernen, da sowohl Black und Wiliam (1998b), Allal und Mottier Lopez (2005) als auch Marshall und Drummond (2006) die Annahme formulieren, dass die Überzeugungen zum Lehren und Lernen Einfluss darauf haben, wie formatives Assessment im Unterricht implementiert wird. Einige Studien deuten darauf hin, dass insbesondere Zusammenhänge zwischen den konstruktivistischen Überzeugungen der Lehrkräfte und dem Einsatz adaptiver, differenzierter und schülerorientierter Unterrichtsformen bestehen (Drexl, 2014; Hartinger et al., 2006; Maier, 2011a; Warwas et al., 2011). Insgesamt ist die Befundlage zum Zusammenhang zwischen Überzeugungen zum Lehren und Lernen und dem Unterrichtshandeln aufgrund der wenigen Studien noch diffus (Sei-

246

9 Diskussion und Schlussfolgerungen

del et al., 2008). In der Arbeit wurden daher Zusammenhänge der konstruktivistischen Überzeugungen zum Lehren und Lernen mit den formativen AssessmentStrategien sowie mit der Tendenz zur aufgabenbezogenen Differenzierung analysiert. Auf Grundlage der Strukturgleichungsanalysen kann festgestellt werden, dass die konstruktivistischen Überzeugungen zum Lehren und Lernen einen positiven Effekt auf alle Assessment-Strategien haben, womit Hypothese 3 bestätigt werden kann. Lehrkräfte mit eher konstruktivistischen Überzeugungen neigen somit stärker dazu, Assessment-Strategien einzusetzen als Lehrkräfte mit weniger ausgeprägten konstruktivistischen Überzeugungen. Die konstruktivistischen Überzeugungen gehen insbesondere mit dem Einsatz informeller diagnostischer Methoden und Verfahren einher. Es ist also davon auszugehen, dass Lehrkräfte, welche Lernen als aktive und weitgehend selbstgesteuerte Konstruktionsleistung verstehen (Post et al., 2013), diagnostische Situationen auch eher so gestalten, dass sie Informationen über Denkprozesse, Lösungsstrategien und Fehler erhalten. Weiterhin nutzen sie auch vermehrt Unterrichtsarrangements, die ein individuelles Arbeiten mit den Schülerinnen und Schülern zulassen, um Informationen über die Zone der nächsten Entwicklung zu gewinnen. Darüber hinaus zeigt sich, dass die konstruktivistischen Überzeugungen der Lehrkräfte auch mit einer ausgeprägten Gestaltung lernförderlichen Feedbacks, Maßnahmen der Schüleraktivierung sowie der pädagogischen Nutzung diagnostischer Informationen zusammenhängen. Die Studie liefert somit einen wichtigen Hinweis darauf, dass sich die konstruktivistischen Überzeugungen von Lehrkräften nicht nur positiv auf die Unterrichtsgestaltung (Hartinger et al., 2006; Warwas et al., 2011) sondern auch auf die Beurteilungspraxis auswirken und erweitert diesbezüglich den Kenntnisstand, welcher sich bislang fast ausschließlich auf den Sekundarbereich bezieht (Leuchter et al., 2006; Maier, 2011b; Seidel et al., 2008; Seidel, 2014). Die Befunde stützen die Annahme, dass die Überzeugungen der Lehrkräfte Einfluss darauf haben, wie die Lehrkräfte Assessment im Unterricht implementieren (Marshall & Drummond, 2006). Daraus ergibt sich die Notwendigkeit, die Überzeugungen der Lehrkräfte zum Lehren und Lernen bei Bemühungen, die auf eine Entwicklung formativer Beurteilungspraktiken abzielen, stärker zu berücksichtigen (Remesal, 2011). Die konstruktivistischen Überzeugungen der Lehrkräfte scheinen aber offenbar nicht nur den Einsatz von formativem Assessment zu begünstigen, sondern auch die Tendenz zur aufgabenbezogenen Differenzierung, womit Hypothese 6 bestätigt werden kann. Der Effekt wird dabei moderiert über die Nutzung informeller diagnostischer Methoden und Verfahren. Die Befunde weisen somit in dieselbe Richtung wie die Ergebnisse von Warwas et al. (2011) und Drexl (2014), bei denen konstruktivistische Überzeugungen mit einer verstärkten Variation des Aufgabenmaterials bzw. dem häufigeren Einsatz differenzierender Lerngelegenheiten

9.1 Zusammenfassende Ergebnisdiskussion

247

einhergehen. Die Ergebnisse der vorliegenden Studie tragen zu einem tieferen Verständnis zum Verhältnis dieser Faktoren bei, wobei deutlich wird, dass konstruktivistische Überzeugungen nicht automatisch (bzw. nur geringfügig) zu einem differenzierenden Unterricht führen. Erst wenn die konstruktivistischen Überzeugungen zu einem verstärkten Einsatz informeller diagnostischer Methoden und Verfahren führen, schlägt sich dies in einer differenzierenden Unterrichtspraxis nieder. Dieser Zusammenhang erscheint plausibel, macht doch erst der detaillierte Kenntnisstand der individuellen Lernstände den Einsatz differenzierter Aufgaben möglich. Damit liefert die Studie Hinweise darauf, dass die Implementierung eines differenzierenden Unterrichts durch die Stärkung der diagnostischen Kompetenz der Lehrkräfte begünstigt werden kann. Bei Qualifizierungsangeboten sollten deshalb wie bereits angedeutet neben Wissenskomponenten auch die Überzeugungen der Lehrkräfte zum Lehren und Lernen Berücksichtigung finden. Insgesamt sprechen die Ergebnisse für ein enges Zusammenspiel diagnostischer und didaktischer Unterrichtsaktivitäten auf Grundlage eines konstruktivistischen LehrLernverständnisses. Auch die Bezugsnormorientierung der Lehrkräfte (Rheinberg, 2006) spielt eine wichtige Rolle im Kontext der Leistungsbeurteilung und wird ebenfalls mit formativem Assessment in Zusammenhang gebracht (Köller, 2005; Maier, 2014; Prengel, 2013), allerdings liegen hierzu kaum empirischen Befunde vor. Es wurde angenommen, dass eine individuelle Bezugsnormorientierung einen positiven Effekt auf das formative Assessment-Handeln hat. Diese Annahme kann auf Grundlage der Strukturgleichungsanalysen nicht verifiziert werden (Hypothese 4). Die individuelle Bezugsnormorientierung der Lehrkräfte hat zwar geringe positive Effekt auf das Feedbackverhalten, die pädagogische Nutzung diagnostischer Methoden und die Gestaltung lernförderlicher Unterrichtsgespräche, jedoch nicht auf die anderen Assessment-Strategien. Damit erweist sich die individuelle Bezugsnormorientierung als weniger bedeutsam für formatives Assessment-Handeln als angenommen. Der Zusammenhang zwischen Bezugsnormorientierung und Feedbackverhalten ist erwartungskonform. Es scheint also, als würden Lehrkräfte, welche die individuelle Entwicklung der Schülerinnen und Schüler bei der Beurteilung berücksichtigen, diesen Aspekt auch in ihre Rückmeldungen einbeziehen und demnach auch eher dazu tendieren, Informationen dazu zu geben, wo die Schülerinnen und Schüler in Bezug auf ein Lernziel stehen und wie sie dieses erreichen können. Der Zusammenhang der individuellen Bezugsnormorientierung mit der pädagogischen Nutzung diagnostischer Methoden lässt sich damit erklären, dass es dabei eben nicht um die Nutzung zur Notengebung oder Rechenschaftslegung, die auf einer sozialen bzw. kriterialen Bezugsnorm basieren, geht, sondern darum, pädagogische Entscheidungen abzuleiten, die auf den individuellen Lernständen der Schülerinnen und Schüler beruhen. Nicht erwartungsgemäß ist hingegen, dass

248

9 Diskussion und Schlussfolgerungen

sich keine Zusammenhänge zwischen der individuellen Bezugsnormorientierung und dem Einsatz von Self-Assessment zeigen. Dieser Befund steht im Widerspruch zu den Ergebnissen von Bürgermeister (2014), bei der eine individuelle Bezugsnormorientierung mit einer partizipativen Beurteilung, die ebenfalls Selfund Peer-Assessments umfasst, einhergeht. Eine mögliche Erklärung für den nicht gefundenen Zusammenhang könnte sein, dass sich Self- und Peer-Assessments in erster Linie auf die Beurteilung anhand festgelegter Kriterien bezieht, womit eher eine kriteriale Bezugsnorm zum Ausdruck kommt. Zur Klärung dieser Annahme sollte die kriteriale Bezugsnormorientierung, welche ebenfalls als zentral für formatives Assessment gilt (Prengel, 2016), in nachfolgenden Studien stärker in den Blick genommen werden. Auch, dass sich kein Zusammenhang mit dem Einsatz formeller diagnostischer Verfahren zeigt, überrascht insofern, als dass Kompetenzraster, Lerntagebücher und Portfolios in besonderem Maße eine Beurteilung der individuellen Lernentwicklung erlauben. Möglicherweise verwenden die Lehrkräfte die Verfahren aber dennoch primär dazu, um interindividuelle Vergleiche zu ziehen. In Kapitel 2.2 wurde außerdem herausgearbeitet, dass insbesondere Kompetenzraster die individuelle Entwicklung bzw. den individuellen Entwicklungsstand anhand der Erfüllung inhaltlicher Kriterien abbilden. Auch hier wäre es also denkbar, dass sich in der Verwendung dieser Instrumente eher eine kriteriale Bezugsnorm widerspiegelt und bei der Beurteilung kriteriale Aspekte eher berücksichtigt werden als die individuelle Lernentwicklung. Weiterhin hat sich bei den Analysen der Zusammenhänge gezeigt, dass auch die Kontrollvariablen Alter, Erfahrung, Teilnahme an Fortbildung, Tätigkeit in einer Klasse mit Schülerinnen und Schülern mit nichtdeutscher Herkunftssprache sowie die Anzahl der Deutschlehrkräfte in der dritten Klassenstufe mit einzelnen Aspekten formativen Assessments zusammenhängen, jedoch deutlich geringer als die bereits diskutierten Variablen. Mittlere Zusammenhänge zeigen sich lediglich zwischen Alter bzw. Erfahrung und der Lernzielorientierung. Lehrkräfte mit mehr als 15 Jahren Berufserfahrung achten demzufolge eher auf einen transparenten Umgang mit Lernzielen als Lehrkräfte mit weniger Berufserfahrung. Darüber hinaus hat die Teilnahme an themenspezifischen Fortbildungsangeboten einen mittleren Effekt auf den Einsatz von Self- und Peer-Assessments. Abgesehen davon fallen die Korrelationen gering aus und sind daher bei der Interpretation zu vernachlässigen. Damit bestätigen sich die Befunde von McMillan (2010), Lorenz (2011) und Maier (2011a), die ebenfalls darauf hindeuten, dass die Beurteilungspraxis weitgehend unabhängig von demografischen bzw. klassenbezogenen Faktoren ist.

9.2 Grenzen der Studie und Forschungsausblick

9.2 9.2.1

249

Grenzen der Studie und Forschungsausblick Repräsentativität und Größe der Stichprobe

In der vorliegenden Untersuchung wurden n = 338 Grundschullehrkräfte in Sachsen zu ihren formativen Assessment-Praktiken unter Fokus auf das Fach Deutsch in der dritten Klassenstufe befragt. Beim Vergleich der soziodemografischen Daten mit denen der Population sächsischer Grundschullehrkräfte zeigt sich eine weitgehende Übereinstimmung hinsichtlich Alter und Geschlechterverteilung. Die Stichprobenziehung erfolgte zufallsbasiert und die berechnete Stichprobengröße, die notwendig ist, um repräsentative Aussagen zu treffen, wurde erreicht. Dennoch muss berücksichtigt werden, dass die Teilnahme an der Befragung freiwillig erfolgte und sich möglicherweise insbesondere Lehrkräfte an der Studie beteiligten, die eine gewisse Offenheit bzw. Interesse am Themenbereich haben. Die Studienergebnisse gelten demzufolge nur für Grundschullehrkräfte in Sachsen in Bezug auf das Fach Deutsch und die dritte Klassenstufe. Sie können als Bestandsaufnahme zur Beschreibung der Assessment-Praxis im Deutschunterricht an Grundschulen aus Sicht von Lehrkräften in Sachsen verstanden werden. Jedoch sind die Ergebnisse nicht ohne weiteres auf andere Fächer, Schultypen oder Bundesländer übertragbar. So zeigten sich beispielsweise bei Maier (2011a) Unterschiede in Abhängigkeit vom Bundesland, die Ergebnisse von Duncan und Noonan (2007) deuten darauf hin, dass in den Fächern unterschiedliche diagnostische Instrumente präferiert werden und die Befunde von Bol et al. (1998) legen nahe, dass Grundschullehrkräfte etwas häufiger alternative Assessments, wie Portfolio und SelfAssessments, nutzen als Lehrkräfte der Sekundarstufe. Wünschenswert wäre es daher, den Fragebogen für andere Klassenstufen, Fächer und (Bundes-)länder zu adaptieren und im Sinne der vergleichenden Bildungsforschung einzusetzen. Anhand dieser Stichproben könnten auch die Modelle der vorliegenden Studie repliziert und validiert werden. Dadurch wäre es möglich, zu untersuchen, wie stabil die Zusammenhänge und Gruppenzuordnungen sind. Außerdem könnten schulform-, fach- und landesspezifische Unterschiede herausgearbeitet werden. 9.2.2

Zur Validität der Erfassung der selbsteingeschätzten Assessment-Praxis

Selbsteinschätzungen Bei der Interpretation der Ergebnisse ist zu beachten, dass die Angaben zu den Assessment-Praktiken sowie weiteren Variablen anhand eines Fragebogens erfasst wurden und somit auf Selbsteinschätzungen beruhen. Mit dieser Erhebungsform geht die Gefahr der Antwortverzerrung einher, wobei es insbesondere zur Abgabe sozial erwünschter Antworten kommen kann. Um diesen Effekt zu minimieren, wurden die Lehrkräfte im Fragebogen ausdrücklich darauf hingewiesen, dass die

250

9 Diskussion und Schlussfolgerungen

Erhebung freiwillig und anonym erfolgt und es wurde um ehrliche Antworten gebeten (Döring & Bortz, 2016, S. 438). Weiterhin ist die Gefahr des Auftretens von Milde-Effekten bei Selbsteinschätzungsinstrumenten größer als bei anderen Erhebungsmethoden, z.B. einer externen Beobachtung (Bogner & Landrock, 2014; Döring & Bortz, 2016, S. 253). Ergänzende qualitative Methoden, wie Videostudien zur Analyse einzelner Unterrichtsstunden oder qualitative Inhaltsanalysen von Unterrichtsdokumenten (z.B. schriftlichen Rückmeldungen) könnten dazu beitragen, die Effekte sozialer Erwünschtheit zu reduzieren (Cheng & Wang, 2007) und ermöglichen darüber hinaus einen umfassenderen Blick auf die formative Assessment-Praxis an Grundschulen. Da mit der ausschließlichen Erfassung von Selbsteinschätzungen auch das Risiko einher geht, dass Zusammenhänge durch individuelle Antworttendenzen und gemeinsame Methodenvarianz überschätzt werden, sollten die Befunde untermauert werden, indem verstärkt Zusammenhänge zu Merkmalen der Unterrichtsqualität aus Schülersicht betrachtet werden. Reliabilität und Validität des Erhebungsinstruments Im Zuge der Güteprüfung der Messmodelle mussten einige Items eliminiert werden, um die erforderlichen messtheoretischen Voraussetzungen zu erfüllen. Allerdings ist nicht auszuschließen, dass die Reduktion der Items zu einer Einschränkung der Inhaltsvalidität geführt hat, weshalb eine erneute Expertenbeurteilung der reduzierten Kurzskalen zur Absicherung der Inhaltsvalidität wünschenswert wäre. Insbesondere hinsichtlich der Schüleraktivierung zum selbstregulierten Lernen ist zu berücksichtigen, dass lediglich Items zum Self- und Peer-Assessment sowie zur Vermittlung von Organisationsstrategien, jedoch nicht zu metakognitiven und motivationalen Lernstrategien erfasst werden. Die Entwicklung einer Skala, die das Konstrukt der Förderung von Lernstrategien im Kontext von formativem Assessment breiter erfasst, wäre entsprechend ein weiteres Ziel für künftige Forschung. Während das Vorliegen von Diskriminanzvalidität für die Assessment-Faktoren angenommen werden kann, steht eine Prüfung der Kriteriums- und Konvergenzvalidität anhand einer weiteren Stichprobe noch aus. Die Faktoren weisen eine gute bis zufriedenstellende interne Konsistenz auf (Cronbachs  ≥ .63), dennoch ist darauf hinzuweisen, dass die Reliabilitätskriterien der zweiten Generation bei den Faktoren Formelle diagnostische Methoden und Individuelle Bezugsnormorientierung unter Berücksichtigung von Messfehlern nicht in vollem Maße erfüllt wurden. Die Ergebnisse müssen vor dem Hintergrund dieser Einschränkungen interpretiert werden. Darüber hinaus scheint bei diesen Skalen eine Überarbeitung mit dem Ziel der Verbesserung der Reliabilität sinnvoll.

9.2 Grenzen der Studie und Forschungsausblick

9.2.3

251

Einschränkungen aufgrund der korrelativen Anlage der Studie

Die Beziehungen zwischen den Assessment-Strategien untereinander sowie mit weiteren Unterrichtsvariablen wurden in dieser Arbeit querschnittlich erfasst und anhand von korrelativen Analysen untersucht. Damit können Aussagen zu systematischen Merkmalszusammenhängen, jedoch nicht über kausale Beziehungen getroffen werden (Döring & Bortz, 2016, S. 54). Die Regressionsanalysen, die eine Gerichtetheit der Effekte implizieren, sind entsprechend nicht im Sinne einer Ursache-Wirkungs-Relation zu verstehen. Insbesondere der modellierte Zusammenhang zwischen Assessment und Differenzierung sowie weiteren adaptiven Maßnahmen sollte mit Längsschnittdaten untersucht und über entsprechende Modelle (z.B. Cross-Lagged-Panel-Modelle) überprüft werden, um die Annahmen über die Wirkrichtung bestätigen zu können. Weiterhin sind die Aussagen über die Wirkungen der Lehrervorstellungen und Assessment-Praktiken in korrelativen Studien durch nicht berücksichtigte, aber mit Blick auf die untersuchten Wirkungen bedeutsame Dritt-Variablen beschränkt. In die Arbeit konnten nicht alle der in Kapitel 4.2 diskutierten Variablen aufgenommen werden. Insbesondere das Professionswissen gilt als relevanter Einflussfaktor für professionelles Lehrerhandeln bzw. für die Qualität formativen Assessments und sollte in nachfolgende Untersuchungen aufgegriffen werden. Damit einher geht zunächst die Herausforderung, das für formatives Assessment notwendige pädagogisch-psychologische, fachdidaktische und fachliche Wissen angemessen zu modellieren und entsprechende Erhebungsinstrumente zu entwickeln. 9.2.4

Weitere Forschungsperspektiven

Mit der Entwicklung der Assessment-Skalen liegt ein adäquates Forschungsinstrument vor, welches sich zur Erfassung von formativen Assessment-Strategien aus der Sicht von Lehrkräften eignet. Damit eröffnen sich zahlreiche weitere Forschungsperspektiven. Neben dem Einsatz im Rahmen der vergleichenden Bildungsforschung könnte das Instrument auch in Studien zum Einsatz kommen, die sich mit den Effekten formativen Assessments auf die Schülerleistung bzw. weitere Schülervariablen (Motivation, Selbstregulation) beschäftigen. Diesbezüglich ist im Forschungsstand dieser Arbeit deutlich geworden, dass Effektivitätsstudien bislang überwiegend einzelne Assessment-Komponenten und deren Effekte auf die Schülerleistung untersuchen, während die Analyse formativen Assessments als Gesamtkonstrukt und damit einhergehender Auswirkungen auf die Schülerinnen und Schüler noch weitestgehend aussteht. Der Einsatz der Assessment-Skalen würde eine Analyse der Effekte des Gesamtkonstrukts auf die Schülerleistungen ermöglichen. Weiterhin können die Assessment-Skalen auch als (Selbst-)-evalua-

252

9 Diskussion und Schlussfolgerungen

tionsinstrument weiterentwickelt und eingesetzt werden, beispielsweise im Rahmen von Fortbildungsmaßnahmen zur Erfassung der Ausgangslage und zur Reflexion der professionellen Kompetenzentwicklung. 9.3 9.3.1

Implikationen Begriffsverständnis

Resümiert man die unter dem Stichwort formatives Assessment gefassten Strategien, so stellt sich die Frage, ob es sich dabei tatsächlich noch um Assessment, also Methoden und Verfahren, „mit denen systematische Informationen über die Entwicklung und das Lernen gesammelt werden“ (Geiling & Liebers, 2014, S. 529), oder nicht vielmehr um „just good teaching“ (Brown 2016), also um eine lernförderliche Unterrichtsgestaltung handelt? Brown (2016) kommt zu dem Schluss, dass formatives Assessment eine „gute Pädagogik“ beschreibt, wobei diagnostische Verfahren zur Fundierung von Unterrichtsprozessen und zur Justierung von Entscheidungen eingesetzt werden, darüber hinaus aber auch lernförderliche pädagogische Praktiken eine zentrale Rolle spielen. Insbesondere der transparente Umgang mit Lernzielen und Beurteilungskriterien, die Aktivierung der Schülerinnen und Schüler zum selbstregulierten und kooperativen Lernen sowie der Einsatz von Feedback können nicht als Assessment-Prozesse im engeren Sinne verstanden werden, sondern vielmehr als Ausgangspunkt bzw. Ergebnis der diagnostischen Informationssammlung. Formatives Assessment geht demnach weit über die reine Beschreibung von Lern- und Entwicklungsständen hinaus und schließt sowohl diagnostische als auch didaktische Prozesse unter der Maßgabe der Optimierung der Lehr-Lernprozesse mit ein. Folgt man diesem Verständnis, so ist die Verwendung des Begriffs formatives Assessment möglicherweise irreführend. Auch vor dem Hintergrund, das Konzept im deutschsprachigen Praxisfeld zu implementieren, erscheint die Verwendung eines englischsprachigen Begriffs, der gewöhnlich sehr eng an Diagnostik geknüpft ist, als problematisch. Daher sollte eine Bezeichnung gefunden werden, die dieser Herausforderung Rechnung trägt. Bisher unternommene Bemühungen, geeignete deutsche Bezeichnungen zu finden, wie die „Formative Beurteilung“ (Smit, 2009a), die „Didaktische Diagnostik“ (Prengel, 2016) und die „Formative Leistungsdiagnostik“ (Maier, 2015) betonen allesamt sehr stark den Diagnoseaspekt. Wenngleich die Findung eines geeigneteren Begriffs schwierig ist, soll als erster Impuls für die Begriffsdiskussion die Bezeichnung „Formative Leistungsbeurteilung und Unterrichtsgestaltung“ vorgeschlagen werden. Damit soll zum einen sowohl dem diagnostischen als auch dem didaktischen Aspekt Rechnung getragen werden. Zum anderen soll durch die Beibehaltung der Bezeichnung formativ der Fokus auf die ausgewählten

9.3 Implikationen

253

Strategien deutlich werden, da bei Verwendung des Begriffs „lernförderlich“ zahlreiche andere Facetten guten Unterrichts, wie die Klassenführung oder das Unterrichtsklima, assoziiert werden könnten. Zusammenfassend ergibt sich aus den Ergebnissen und Überlegungen dieser Arbeit folgende Definition: Die formative Leistungsbeurteilung und Unterrichtsgestaltung dient der Optimierung von Lehr-Lern-Prozessen durch die enge Verzahnung diagnostischen und didaktischen Handelns und den Einsatz lernförderlicher Maßnahmen. Zentrale Strategien zur Realisierung einer formativen Leistungsbeurteilung und Unterrichtsgestaltung sind die transparente Kommunikation über Lernziele und Beurteilungskriterien, die Gestaltung kognitiv aktivierender Unterrichtsgespräche, die Aktivierung der Schülerinnen und Schüler zum selbstregulierten und kooperativen Lernen, die regelmäßige Verwendung informeller und formeller diagnostischer Verfahren und die Nutzung diagnostischer Informationen für konstruktives Feedback und pädagogische Entscheidungen. 9.3.2

Weiterentwicklung im Kontext eines inklusiven Assessments

Wie Unterricht auf Basis der Beurteilung und Diagnostik von Lernleistungen lernförderlich gestaltet werden kann, stellt vor dem aktuellen bildungspolitischen Hintergrund eine zentrale Fragestellung der (empirischen) Bildungsforschung dar. Einerseits wird mit dem Ziel der Entwicklung eines inklusiven Bildungsangebotes in der allgemeinen Schule der Fokus stärker auf das gemeinsame und zugleich individuell orientierte Lernen aller Schülerinnen und Schüler gerichtet, andererseits hat sich durch die Einführung von Bildungsstandards das Spannungsverhältnis von Individualisierung und Standardisierung erheblich verschärft (Schuck, 2014; Walm et al., 2017). Mit der Forderung nach der Umsetzung schulischer Inklusion treffen die bislang relativ getrennten Praxen der schulpädagogischen Leistungsbeurteilung und der sonderpädagogischen Diagnostik unsystematisch aufeinander und sehen sich mit demselben strukturellen Zielkonflikt zwischen Selektion und Förderung konfrontiert (Walm et al., 2017). Im Rahmen der Arbeit ist deutlich geworden, dass Ansätze formativen und inklusiven Assessments zahlreiche Gemeinsamkeiten hinsichtlich der Zielstellungen, Akteure und Verfahren aufweisen und formatives Assessment auf der Mikro-Ebene innerhalb eines inklusiven Assessment-Systems verortet werden kann. Die Berücksichtigung der herausgearbeiteten Strategien formativen Assessments eröffnet die Möglichkeit, sowohl das Problem des fehlenden Unterrichtsbezuges der traditionellen Leistungsbeurteilung anzugehen als auch die beiden Zugänge unter der Perspektive der Lernförderung zu orientieren und zu verknüpfen (Walm et al., 2017). Eine zentrale Herausforderung für Forschung und Praxis stellt die Klärung des Verhältnisses von formativem und summativem Assessment innerhalb eines inklusiven Assessments

254

9 Diskussion und Schlussfolgerungen

dar. Angesichts der zunehmenden Leistungsorientierung und Standardisierungstendenzen ist aktuell nicht von einer gänzlichen Ablösung summativer Beurteilungsprozesse auszugehen. Vielmehr ist eine ausgewogene und integrierte summative und formative Praxis der Leistungsbeurteilung anzustreben (Harlen, 2007b, S. 56; Jürgens & Lissmann, 2015; Schmidt & Liebers, 2017). Modelle, die Vorstellungen von Assessment in einem Kontinuum zwischen pädagogischer und Sozialisationsfunktion verorten (Remesal, 2011) und dabei auch die unterschiedlichen und mitunter widersprüchlichen Ziele von Assessment in den Blick nehmen, können eine Grundlage für weitere Untersuchungen, aber auch für die Reflexion und Weiterentwicklung pädagogischer Arbeit darstellen. Lohnenswert erscheinen diesbezüglich qualitative Studien zu sein, die sich der Frage widmen, wie Lehrkräfte mit diesen disparaten Anforderungen umgehen und welche Rekontextualisierungsprozesse sich hier möglicherweise vollziehen (Amrhein, 2016). Auch erscheint die Analyse und Weiterentwicklung diagnostischer Instrumente wie Kompetenzraster, Lerntagebücher und Portfolios, die sowohl eine formative als auch summative Nutzung ermöglichen, zum Beispiel im Rahmen von Best-Practice-Analysen, notwendig, da hierdurch möglicherweise Synergieeffekte erzeugt werden können (Harlen, 2005). Weitere Untersuchungen sollten sich darüber hinaus auch der Adaption dieser Instrumente und Vorgehensweisen für Schülerinnen und Schüler mit sonderpädagogischem Förderbedarf, Sprachschwierigkeiten oder anderweitigen Besonderheiten widmen, um dazu beizutragen, dass diese auch allen Schülerinnen und Schülern zugänglich sind. 9.3.3

Lehrerbildung

Formatives Assessment stellt eine vielversprechende Facette adaptiver Lehrkompetenz von Grundschullehrkräften dar. Die Entwicklung der für adaptiven Unterricht notwendigen Kompetenzen auf Seiten der Lehrkräfte erscheint angesichts der zunehmenden Heterogenität in den Klassenzimmern, aber auch angesichts der Forderung nach Individualisierung einerseits und der Erreichung von Standards andererseits besonders notwendig zu sein (Vock & Gronostaj, 2017; Walm et al., 2017). Der Einsatz der Assessment-Skalen ermöglicht eine typen- bzw. bedarfsgerechte Konzeption von Fortbildungsangeboten, wobei aus den Selbsteinschätzungen der Lehrkräfte inhaltliche Schwerpunkte abgeleitet werden können. Ein Fortbildungsschwerpunkt sollte angesichts der Ergebnisse der vorliegenden Arbeit in erster Linie in der Verwendung formeller und informeller Diagnoseverfahren liegen. Der Fokus ist hierbei insbesondere auf die noch wenig etablierten Verfahren Kompetenzraster, Portfolios, Lerntagebücher sowie Möglichkeiten des Self- und Peer-Assessments zu richten. Diese sollten vor dem Hintergrund fachspezifischer Stufenmodelle des Kompetenzerwerbs sowie grundlegender konstruktivistischer Annahmen zum Lehren und Lernen diskutiert und angewendet

9.4 Fazit

255

werden, weshalb sich fachspezifische Fortbildungen hierfür möglicherweise besser eignen als Angebote ohne Fachbezug. Einen zweiten Schwerpunkt sollte die Gestaltung lernförderlichen Feedbacks darstellen, wobei insbesondere das Potenzial schriftlicher Rückmeldungen betont werden sollte. Aber auch die anderen formativen Assessment-Strategien sollten aufgegriffen und insbesondere vor dem Hintergrund empirischer Befunde, die deren positive Effekte auf die Leistungsentwicklung der Schülerinnen und Schüler belegen, diskutiert werden, um das Potenzial der Strategien innerhalb eines lernförderlichen Unterrichts zu verdeutlichen. Aus den Ergebnissen zu den Zusammenhängen zwischen konstruktivistischen Überzeugungen, formativem Assessment und Differenzierung lässt sich weiterhin schlussfolgern, dass in der Vermittlung von Kompetenzen im Bereich informeller diagnostischer Methoden und Verfahren auch ein Potenzial für Fortbildungen zur Differenzierung liegt. Die Daten unterstützen die Annahme, dass Lehrkräfte dazu befähigt werden müssen, individuelle Lernstände differenziert zu erfassen, um auf Grundlage dieser Ergebnisse Differenzierungsmaßnahmen ableiten zu können. Sofern Lehrkräfte nicht über die notwendigen diagnostischen Fertigkeiten verfügen, ist davon auszugehen, dass Kenntnisse über Möglichkeiten der Differenzierung und Individualisierung nicht adäquat umgesetzt werden können. Eine Verknüpfung diagnostischer und didaktischer Inhalte sollte dementsprechend angestrebt werden. 9.4

Fazit

Zusammenfassend leistet die Arbeit einen Beitrag zum Diskurs um die Weiterentwicklung schulischer Diagnostik und Leistungsbeurteilung auf verschiedenen Ebenen. Der erziehungswissenschaftliche Kenntnisstand wird auf der Ebene der Theoriebildung zum Konstrukt formatives Assessment insofern erweitert, als dass deutlich geworden ist, dass der transparente Umgang mit Lernzielen und Beurteilungskriterien, die Gestaltung kognitiv aktivierender Unterrichtsgespräche, die Aktivierung der Schülerinnen und Schüler, die regelmäßige Verwendung geeigneter diagnostischer Verfahren und die Nutzung diagnostischer Informationen für konstruktives Feedback und pädagogische Entscheidungen als zentrale Strategien zur Realisierung einer formativen Leistungsbeurteilung und Unterrichtsgestaltung angesehen werden können. Diese lernförderlichen diagnostischen und didaktischen Maßnahmen begünstigen sich gegenseitig, werden jedoch nicht alle gleichermaßen von der formativen Zielstellung der Optimierung von Lehr-Lern-Prozessen beeinflusst. Von Maier (2011) wurde ein spezifisches Forschungsdesiderat bezüglich Studien zur Deskription der Praxis formativer Leistungsdiagnostik an Schulen gekenn-

256

9 Diskussion und Schlussfolgerungen

zeichnet. Die Arbeit leistet einen Beitrag auf dem Gebiet der Forschung zum Lehrerhandeln, wobei es gelungen ist, die formative Assessment-Praxis an Grundschulen im Fach Deutsch aus Sicht von Grundschullehrkräften in ihrer großen Bandbreite zu skizzieren. Dabei ist deutlich geworden, dass knapp ein Drittel der befragten Grundschullehrkräfte formative Assessment-Strategien in ausgeprägter Form nutzt, während sich bei zwei Dritteln der Lehrkräfte noch Entwicklungspotenzial insbesondere hinsichtlich des Einsatzes formeller diagnostischer Verfahren, lernförderlicher Rückmeldungen und Möglichkeiten der pädagogischen Nutzung diagnostischer Informationen andeutet. Diese Bereiche können als wichtige assessmentbezogene Entwicklungsfelder der professionellen Kompetenz von Grundschullehrkräften und als Ansatzpunkte für Maßnahmen der Lehrerbildung angesehen werden. In der Arbeit wird weiterhin deutlich, dass insbesondere die Verwendung informeller diagnostischer Instrumente mit einem differenzierten Unterricht einhergeht. Hingegen können die diagnostischen Informationen aus formellen diagnostischen Verfahren offenbar noch nicht adäquat genutzt werden, um Unterricht adaptiver zu gestalten. Die Befunde verdeutlichen die Notwendigkeit, diagnostische Verfahren dahingehend weiterzuentwickeln, dass sie passend zu den Kompetenzständen der Schülerinnen und Schüler Vorschläge zu pädagogisch-didaktischen Maßnahmen unterbreiten, um Lehrkräfte dabei zu unterstützen, die diagnostischen Informationen angemessen in didaktisches Handeln umsetzen zu können. Im Kontext der Forschung zu Determinanten der professionellen Kompetenz von Lehrkräften erweitert die Studie die schwache und widersprüchliche Befundlage zum Zusammenhang zwischen Überzeugungen zum Lehren und Lernen und dem Unterrichtshandeln und erbringt einen Beleg für die positiven Effekte konstruktivistischer Überzeugungen auf das Assessment-Handeln und die Differenzierungspraxis von Grundschullehrkräften. Die Befunde zum Zusammenspiel zwischen konstruktivistischen Überzeugungen, diagnostischem und didaktischen Handeln liefert wichtige Anhaltspunkte für die Entwicklung und Gestaltung von Professionalisierungsangeboten zum Umgang mit heterogenen Lerngruppen. Darüber hinaus liegt mit der Entwicklung der Assessment-Kurzskalen ein adäquates Forschungsinstrument vor, welches sich zur Erfassung von formativen Assessment-Strategien aus Sicht von Lehrkräften eignet. Das Instrument könnte in der vergleichenden Bildungsforschung, in Effektivitätsstudien sowie als (Selbst-)evaluationsinstrument eingesetzt werden und damit sowohl weitere Forschungsbemühungen als auch die professionelle Entwicklung von Grundschullehrkräften vorantreiben. Angesichts des großen Potenzials, welches die formative Leistungsbeurteilung und Unterrichtsgestaltung für die Optimierung von Lern- und Unterrichtsprozessen in sich birgt, ist davon auszugehen, dass der Ansatz zukünftig verstärkt in der

9.4 Fazit

257

Unterrichtspraxis Berücksichtigung finden wird. Inwieweit dies gelingt, wird letztlich jedoch von verschiedensten Faktoren, wie den Überzeugungen der Lehrkräfte, der Verfügbarkeit angemessener Professionalisierungsmöglichkeiten und Instrumente, aber auch von schulstrukturellen Entwicklungen abhängig sein.

Literaturverzeichnis Aeschbacher, U. (1989). "Reziprokes Lehren". Eine amerikanische Unterrichtsmethode zur Verbesserung des Textverstehens. Beiträge zur Lehrerinnen- und Lehrerbildung, 7(2), 194–204. Akremi, L. (2011). Datenanalyse mit SPSS für Fortgeschrittene (3., völlig überarbeitete und erweiterte Auflage). Wiesbaden: Springer VS. Allal, L., & Mottier Lopez, L. (2005). Formative Assessment of Learning: A Review of Publications in French. In OECD (Hg.), Formative Assessment. Improving Learning in Secondary Classrooms (S. 241–264). Paris: Organisation for Economic Co-operation and Development. Allison, P. D. (2001). Missing data. Thousand Oaks, CA: Sage. Altman, P. C., Fleming, P. B. & Heyburn, S. L. (2010). Understanding and Using Formative Assessments: A Mixed Methods Study of Assessment for Learning Adoption. Abgerufen von http://hdl.handle.net/1803/4288* (zuletzt geprüft am: 24.06.2017). Amrhein, B. (2016). Inklusion als Mehrebenenkonstellation - Anmerkungen zu Rekontextualisierungstendenzen in inklusiven Bildungsreformen. In B. Amrhein & K. Ziemen (Hrsg.), Diagnostik im Kontext inklusiver Bildung – Theorien, Ambivalenzen, Akteure, Konzepte (S. 17–38). Bad Heilbrunn: Klinkhardt. Amrhein, B., & Ziemen, K. (Hrsg.). (2016). Diagnostik im Kontext inklusiver Bildung – Theorien, Ambivalenzen, Akteure, Konzepte. Bad Heilbrunn: Klinkhardt. Anders, Y., Kunter, M., Brunner, M., Krauss, S., & Baumert, J. (2010). Diagnostische Fähigkeiten von Mathematiklehrkräften und die Leistungen ihrer Schülerinnen und Schüler. Psychologie in Erziehung und Unterricht. (3), 175-193. https://doi.org/10.2378/peu2010.art13d Andrade, H. L. (2010). Students as the Definitive Source of Formative Assessment. In H. Andrade & G. J. Cizek (Hrsg.), Handbook of formative Assessment (S. 90–105). Routledge: New York. Andrade, H. L., Du, Y., & Wang, X. (2008). Putting Rubrics to the Test: The Effect of a Model, Criteria Generation, and Rubric-Referenced Self-Assessment on

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 C. Schmidt, Formatives Assessment in der Grundschule, https://doi.org/10.1007/978-3-658-26921-0

260

Literaturverzeichnis

Elementary School Students' Writing. Educational Measurement: Issues and Practice, 27(2), 3–13. https://doi.org/10.1111/j.1745-3992.2008.00118.x Arbuckle, J. L. (1996). Full information estimation in the presence of incomplete data. In G. A. Marcoulides & R. E. Schumacker (Hrsg.), Advanced structural equation modeling (S. 243–277). Mahwah, NJ: Lawrence Erlbaum Publishers. Artelt, C. (2006). Lernstrategien in der Schule. In H. Mandl & H. F. Friedrich (Hrsg.), Handbuch Lernstrategien (S. 337–351). Göttingen: Hogrefe. Assessment Reform Group. (2002). Assessment for Learning: 10 principles.: Research based principles to guide classroom practice. Abgerufen von http:// www.hkeaa.edu.hk/DocLibrary/SBA/HKDSE/Eng_DVD/doc/Afl_principles.pdf* (zuletzt geprüft am: 05.03.2018). Aufschnaiter, C., Cappell, J., Dübberlde, G., Ennemoder, M., Mayer, J., Stiensmeier-Pelster, J., Sträßer, R., & Wolgast, A. (2015). Diagnostische Kompetenz: Theoretische Überlegungen zu einem zentralen Konstrukt der Lehrerbildung. Zeitschrift für Pädagogik, 61(5), 738–758. Baas, D., Castelijns, J., Vermeulen, M., Martens, R., & Segers, M. (2015). The relation between Assessment for Learning and elementary students' cognitive and metacognitive strategy use. The British journal of educational psychology, 85(1), 33–46. https://doi.org/10.1111/bjep.12058 Bacher, J., Pöge, A., & Wenzig, K. (2011). Clusteranalyse: Anwendungsorientierte Einführung in Klassifikationsverfahren (3. Aufl.). München: Oldenbourg. Bacher, J., & Vermunt, J. K. (2010). Analyse latenter Klassen. In C. Wolf & H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse (S. 553– 574). Wiesbaden: Springer VS. Backhaus, K., Erichson, B., & Weiber, R. (2015). Fortgeschrittene Multivariate Analysemethoden: Eine anwendungsorientierte Einführung (3. Auflage). Berlin: Springer Gabler. Backhaus, K., Erichson, B., Weiber, R., & Plinke, W. (2016). Multivariate Analysemethoden: Eine anwendungsorientierte Einführung (14., überarbeitete und aktualisierte Auflage). Berlin: Springer Gabler.

Literaturverzeichnis

261

Bagozzi, R. (1981). Evaluating Structural Equation Models with Unobservable Variables and Measurement Error. A Comment. Journal of Marketing Research, 18(3), 375–381. Bagozzi, R., & Yi, Y. (1988). On the evaluation of structural equation models. Journal of the Academy of Marketing Science, 16, 74–97. Ballweg, S. (2015). Portfolioarbeit im Fremdsprachunterricht: Eine empirische Studie zu Schreibportfolios im DaF-Unterricht. Tübingen: Narr. Baltes-Götz, B. (2013). Behandlung fehlender Werte in SPSS und Amos. Abgerufen von https://www.uni-trier.de/fileadmin/urt/doku/bfw/bfw.pdf* (zuletzt geprüft am: 22.01.2018). Bandura, A. (1986). Social foundations of thought and action: A social cognitive theory. NJ: Prentice-Hall. Baumert, J., & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9(4), 469–520. Baumert, J., Blum, W., Brunner, M., Dubberke, T., Jordan, A., Klusmann, U., Krauß, S., Kunter, M., Löwen, K., Neubrand, M., & Tsai, Y.-M. (2009). Professionswissen von Lehrkräften, kognitiv aktivierender Mathematikunterricht und die Entwicklung von mathematischer Kompetenz (COACTIV): Dokumentation der Erhebungsinstrumente. Materialien aus der Bildungsforschung: Nr. 83. Berlin: Max-Planck-Inst. für Bildungsforschung. Beck, E., Baer, M., Guldimann, T., Bischoff, S., Brühwiler, C., Müller, P., Niedermann, R., Rogalla, M., & Vogt, F. (2008). Adaptive Lehrkompetenz: Analyse und Struktur, Veränderbarkeit und Wirkung handlungssteuernden Lehrerwissens. Pädagogische Psychologie und Entwicklungspsychologie: Vol. 63. Münster: Waxmann. Beck, G., & Scholz, G. (1995). Beobachten im Schulalltag. Ein Studien- und Praxisbuch. Frankfurt am Main: Cornelsen. Behrmann, L., & Kaiser, J. (2017). Das Modell der pädagogischen Diagnostik nach Ingenkamp und Lissmann. In A. Südkamp & A.-K. Praetorius (Hrsg.), Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 59–62). Münster: Waxmann.

262

Literaturverzeichnis

Bell, B., & Cowie, B. (2001). The Characteristics of Formative Assessment in Science Education. Science Education, 85(5), 536–553. https://doi.org/10.1002/sce.1022 Bendorf, M. (2016). Sozio-konstruktivistisches bzw. situiertes Lernen. In B. Fürstenau (Hg.), Studientexte Basiscurriculum Berufs- und Wirtschaftspädagogik: Band 6. Lehr-Lern-Theorien. Behaviorismus, Kognitivismus, Konstruktivismus: Lernen und Expertise verstehen und fördern (S. 77–94). Baltmannsweiler: Schneider Hohengehren. Bennett, R. E. (2011). Formative assessment: A critical review. Assessment in Education: Principles, Policy & Practice, 18(1), 5–25. https://doi.org/10.1080/0969594X.2010.513678 Bentler, P. M. (1990). Comparative fit indexes in structural models. Psychological Bulletin, 107, 238–246. Beutel, S.-I., & Beutel, W. (Hrsg.). (2014). Individuelle Lernbegleitung und Leistungsbeurteilung. Schwalbach/Ts: WOCHENSCHAU Verlag. Birkel, P. (2007). WRT 3+: Weingartener Grundwortschatz Rechtschreib-Test für dritte und vierte Klassen (2. neu normierte und vollständig überarbeitete Auflage). Göttingen: Hogrefe. Black, P., Harrison, C., Lee, C., Marshall, B., & Wiliam, D. (2002). Working inside the black box: Assessment for learning in the classroom. London: King's College London, Department of Education and Professional Studies. Black, P., Harrison, C., Lee, C., Marshall, B., & Wiliam, D. (2003). Assessment for learning: Putting it into practice. Buckingham: Open University Press. Black, P., & Wiliam, D. (1998a). Inside the Black Box: Raising Standards Through Classroom Assessment. Phi Delta Kappan, 80(2), 81–90. Black, P., & Wiliam, D. (2005a). Changing Teaching through Formative Assessment: Research and Practice: The King's-Medway-Oxfordshire Formative Assessment Project. In OECD (Hg.), Formative Assessment. Improving Learning in Secondary Classrooms (S. 223–237). Paris: Organisation for Economic Cooperation and Development. Black, P., & Wiliam, D. (1998b). Assessment and Classroom Learning. Assessment in Education, 5(1), 7–74.

Literaturverzeichnis

263

Black, P., & Wiliam, D. (2005b). Lessons from around the world: How policies, politics and cultures constrain and afford assessment practices. Curriculum Journal, 16(2), 249–261. https://doi.org/10.1080/09585170500136218 Black, P., & Wiliam, D. (2009). Developing the theory of formative assessment. Educational Assessment, Evaluation and Accountability, 21(1), 5–31. https://doi.org/10.1007/s11092-008-9068-5 Black, P., & Wiliam, D. (2010). Inside the Black Box: Raising Standards Through Classroom Assessment. Kappan Magazine, 92(1), 81–90. Bloom, B. S., Hastings, J. T., & Madaus, G. F. (1971). Handbook on formative and summative evaluation of student learning. New York: McGraw-Hill. Bochmann, R., & Kirchmann, R. (2006). Kooperatives Lernen in der Grundschule: Zusammen arbeiten - aktive Kinder lernen mehr (5. Aufl.). Essen: Neue Deutsch Schule. Boekaerts, M. (1999). Self-regulated learning:: Where we are today. International Journal of Educational Research, 31(6), 445–457. https://doi.org/10.1016/S0883-0355(99)00014-2 Bogner, K., & Landrock, U. (2014). Antworttendenzen in standardisierten Umfragen: SMD Survey Guidelines. Mannheim: SDM-Survey Guidelines (GESIS Leibniz Institute for the Social Sciences). Bohl, T., Batzel, A., & Richey, P. (2012). Öffnung - Differenzierung - Individualisierung - Adaptivität. Charakteristika, didaktische Implikationen und Forschungsbefunde verwandter Unterrichtskonzepte zum Umgang mit Heterogenität. In T. Bohl, M. Bönsch, M. Trautmann & B. Wischer (Hrsg.), Reihe: Theorie und Praxis der Schulpädagogik: Vol. 17. Didaktische Grundlagen und Forschungsergebnisse zur Binnendifferenzierung im Unterricht (S. 40–71). Immenhausen bei Kassel: Prolog-Verlag. Bohl, T., & Grunder, H. U. (2008). Neue Formen der Leistungsbeurteilung in den Sekundarstufen I und II (3. Aufl.). Baltmannsweiler: Schneider Hohengehren. Bol, L., Stephenson, P., O'Connell, A. A., & Nunnery, J. A. (1998). Influence of experience, grade level, and subject area on teachers' assessment practices. The Journal of Educational Research, 91(6), 323–330.

264

Literaturverzeichnis

Böwing-Schmalenbrock, M. & Jurczok, A. (2011). Multiple Imputation in der Praxis. Ein sozialwissenschaftliches Anwendungsbeispiel. Abgerufen von http:// opus.kobv.de/ubp/volltexte/2012/5811/* (zuletzt geprüft am: 08.03.2018). Bräu, K. (2015). Schüler-Lehrer-Gespräche: Lernberatung. In H. de Boer & M. Bonanati (Hrsg.), Gespräche über Lernen - Lernen im Gespräch (125-142). Wiesbaden: Springer VS. Bräu, K., & Schwerdt, U. (Hrsg.). (2005). Heterogenität als Chance. Vom produktiven Umgang mit Gleichheit und Differenz in der Schule. Münster: Lit. Breidenstein, G., Carle, U., Heinzel, F., Lipowsky, F., & Götz, M. (2015). Lernprozessbegleitung und adaptive Lerngelegenheiten im Unterricht der Grundschule – ein wissenschaftliches Streitgespräch. In K. Liebers, B. Landwehr, A. Marquardt & K. Schlotter (Hrsg.), Jahrbuch Grundschulforschung: Vol. 19. Lernprozessbegleitung und adaptives Lernen in der Grundschule. Forschungsbezogene Beiträge (S. 47–56). Wiesbaden: Springer VS. Breuer, A. C. (2009). Das Portfolio im Unterricht: Theorie und Praxis im Spiegel des Konstruktivismus. Interaktionistischer Konstruktivismus: Bd. 8. Münster: Waxmann. Brown, A. L., & Campione, J. C. (1996). Psychological theory and the design of innovative learning environments: on procedures, principles, and systems. In L. Schauble & R. Glaser (Hrsg.), Innovations in learning: New environments for education Hillsdale (S. 291–292). Hillsdale, NJ: Lawrence Erlbaum Associates. Brown, A. L., & Palincsar, A. S. (1982). Inducing strategic learning from texts by means of informed, self-control training. Topics in Learning and Learning Disabilities, 2, 1–17. Brown, G. T. L. (2006). Teachers' conceptions of assessment: Validation of an abridged version. Psychological Reports 2006, 99, 166–170. Brown, G. T. L., & Harris, L. R. (Hrsg.). (2016). Handbook of Human and Social Conditions in Assessment. London: Routledge. Brown, G. T.L. (2002). Teachers' Conceptions of Assessment: Thesis (PhD). Abgerufen von https://researchspace.auckland.ac.nz/docs/uoa-docs/rights.htm* (zuletzt geprüft am: 23.03.2018).

Literaturverzeichnis

265

Brown, G. T.L. (2010). Assessment: Principles and Practice. In R. Cantwell & J. Scevak (Hrsg.), An Academic Life: A Handbook for New Academics. Melbourne: ACER Press. Brown, G. T.L. (2011). Teachers' conceptions of assessment: Comparing primary and secondary teachers in New Zealand. Assessment Matters, 3, 45–70. Brown, G. T.L. (2016). Reconsidering assessment for learning: Is it just good teaching? Presentation to Dept of Applied Education, Sciences, University of Umea. Abgerufen von http://www.edusci.umu.se/english/about-the-department/calendar/calendardisplaypage/?eventId=13960* (zuletzt geprüft am: 08.03.2018). Brown, G. T.L. (2017). The effect of conceptions of assessment upon reading achievement: An evaluation of the influence of self-efficacy and interest. Interdisciplinary Education and Psychology, 1(1), 1–15. Brown, G. T.L., Harris, L. R., & Harnett, J. (2012). Teacher beliefs about feedback within an assessment for learning environment: Endorsement of improved learning over student well-being. Teaching and Teacher Education, 28, 968–978. Brown, G. T.L., Lake, R., & Matters, G. (2011). Queensland teachers’ conceptions of assessment: The impact of policy priorities on teacher attitudes: The impact of policy priorities on teacher attitudes. Teaching and Teacher Education, 27(1), 210–220. https://doi.org/10.1016/j.tate.2010.08.003 Brown, T. A. (2006). Confirmatory factor analysis for applied research. New York: The Guilford Press. Browne, K. A., & Cudeck, J. S. (1993). Alternative ways of assessing equation model fit. In K. A. Bollen & J. S. Long (Hrsg.), Testing structural equation models. Newbury Park: Sage. Brügelmann, H. (2012). Beobachtung im Schriftspracherwerb: Aufgaben zur Beobachtung und Förderung - am Beispiel des Schriftspracherwerbs. In H. de Boer & S. Reh (Hrsg.), Beobachtung in der Schule - Beobachten lernen (S. 247–259). Wiesbaden: Springer VS. Brühwiler, C. (2017). Diagnostische und didaktische Kompetenz als Kern adaptiver Lehrkompetenz. In A. Südkamp & A.-K. Praetorius (Hrsg.), Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Diagnostische Kompetenz

266

Literaturverzeichnis

von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 123– 133). Münster: Waxmann. Brunner, I., Häcker, T., & Winter, F. (2008). Das Handbuch Portfolioarbeit. Konzepte, Anregungen, Erfahrungen aus Schule und Lehrerbildung. Seelze-Velber: Klett/Kallmeyer. Brunner, M., Anders, Y., Hachfeld, A., & Krauss, S. (2011). Diagnostische Fähigkeiten von Mathematiklehrkräften. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss & M. Neubrand (Hrsg.), Professionelle Kompetenz von Lehrkräften -Ergebnisse des Forschungsprogramms COACTIV (S. 215–234). Münster: Waxmann. Brunstein, J. C., & Spörer, N. (2010). Selbstgesteuertes Lernen. In D. H. Rost (Hg.), Handwörterbuch Pädagogische Psychologie (S. 751–759). Weinheim: Beltz. Bühner, M. (2011). Einführung in die Test- und Fragebogenkonstruktion (3., aktual. u. erw. Aufl.). Pearson Studium - Psychologie. München: Pearson Studium. Bundschuh, K. (2007). Förderdiagnostik konkret: Theoretische und praktische Implikationen für die Förderschwerpunkte Lernen, geistige, emotionale und soziale Entwicklung. Bad Heilbrunn: Klinkhardt. Bundschuh, K. (2010). Einführung in die sonderpädagogische Diagnostik (7., überarb. Aufl.). München: Reinhardt. Bürgermeister, A. (2014). Leistungsbeurteilung im Mathematikunterricht: Bedingungen und Effekte von Beurteilungspraxis und Beurteilungsgenauigkeit. Empirische Erziehungswissenschaft: Vol. 45. Münster: Waxmann. Bürgermeister, A., Klieme, E., Rakoczy, K., Harks, B., & Blum, W. (2014). Formative Leistungsbeurteilung im Unterricht: Konzepte, Praxisberichte und ein neues Diagnoseinstrument für das Fach Mathematik. In M. Hasselhorn, W. Schneider & U. Trautwein (Hrsg.), Tests und Trends: Vol. 12. Lernverlaufsdiagnostik. Göttingen: Hogrefe. Bürgermeister, A., Klimczak, M., Klieme, E., Rakoczy, K., Blum, W., Leiß, D., Harks, B., & Besser, M. (2011). Leistungsbeurteilung im Mathematikunterricht - Eine Darstellung des Projekts "Nutzung und Auswirkungen der Kompetenzmessung in mathematischen Lehr-Lernprozessen". In A. Füchter & K.

Literaturverzeichnis

267

Moegling (Hrsg.), Diagnostik und Förderung. Teil III: Forschungsergebnisse (S. 28–51). Immenhausen: Prolog-Verlag. Büttner, G., Decristan, J., & Adl-Amini, K. (2015). Kooperatives Lernen in der Grundschule. In C. Huf & I. Schnell (Hrsg.), Inklusive Bildung in Kita und Grundschule (S. 207–215). Stuttgart: Kohlhammer. Büttner, G., Warwas, J. & Adl-Amini, K. (2012). Kooperatives Lernen und Peer Tutoring im inklusiven Unterricht. Abgerufen von https://www.inklusion-online.net/index.php/inklusion-online/article/view/61/61* (zuletzt geprüft am: 07.12.2017). Büyükkarci, K. (2014). Assessment Beliefs and Practices of Language Teachers in Primary Education. International Journal of Instruction, 7(1), 107–120. Calderhead, J. (1996). Teachers: beliefs and knowledge. In D. C. Berliner & R. C. Calfee (Hrsg.), Handbook of educational psychology (S. 709–725). New York: MacMillan. Cattell, R. B., Weiß, R. H., & Osterland, J. (1997). CFT 1: Grundintelligenztest Skala 1 (5., revid. Auflage). Göttingen: Hogrefe. Chen, F., Bollen, K. A., Paxton, P., Curran, P., & Kirby, J. (2001). lmproper solutions in structural equation models: Causes, consequences, and strategies. Sociological Methods & Research, 29, 468–508. Cheng, L., & Wang, X. (2007). Grading, feedback, and reporting in ESL/EFL classrooms. Language Assessment Quarterly, 4(1), 85–107. Chin, W. W. (1998a). Issues and opinion on structural equation modeling. Management Information Systems Quarterly, 22, 7–16. Chin, W. W. (1998b). The partial least squares approach for structural equation modeling. In G. A. Marcoulides (Hg.), Modern methods for business research (S. 295–336). London: Lawrence Erlbaum Associates. Christ, O., & Schlüter, E. (2012). Strukturgleichungsmodelle mit MPlus: Eine praktische Einführung. München: Oldenbourg. Cizek, G. J., & Fitzgerald, S. M. (1996). Teachers' Assessment Practices: Preparation, Isolation, and the Kitchen Sink. Educational Assessment, 32(2), 159– 179.

268

Literaturverzeichnis

Clark, I. (2012). Formative Assessment: Assessment Is for Self-regulated Learning. Educational Psychology Review, 24(2), 205–249. https://doi.org/10.1007/s10648-011-9191-6 Cowie, B. (2005). Pupil commentary on assessment for learning. Curriculum Journal, 16(2), 137–151. https://doi.org/10.1080/09585170500135921 Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281–302. Cwik, G. (Hg.). (2009). Selbstständiges Lernen unterstützen: Konzepte und Methoden, Unterrichtsbeispiele, für die Jahrgänge 1 bis 4. Lehrer-Bücherei: Grundschule. Berlin: Cornelsen Scriptor. de Boer, H. (2012). Pädagogische Beobachtung: Padagogische Beobachtungen machen - Lerngeschichten entwickeln. In H. de Boer & S. Reh (Hrsg.), Beobachtung in der Schule - Beobachten lernen (S. 65–82). Wiesbaden: Springer VS. de Boer, H. (2015). Lernprozesse in Unterrichtsgesprächen. In H. de Boer & M. Bonanati (Hrsg.), Gespräche über Lernen - Lernen im Gespräch (S. 17–36). Wiesbaden: Springer VS. de Boer, H., Braß, B., Heyl, T., & Merklinger, D. (2015). Lernprozessbeobachtung in der Lehrerbildung – Fachdidaktische Perspektiven und Herausforderungen. In K. Liebers, B. Landwehr, A. Marquardt & K. Schlotter (Hrsg.), Jahrbuch Grundschulforschung: Band 19. Lernprozessbegleitung und adaptives Lernen in der Grundschule. Forschungsbezogene Beiträge (Vol. 19, S. 237–252). Wiesbaden: Springer VS. de Boer, H., & Eschrich, U. (2016). "Guck, das bläst sich auf" - Beobachtungen im Sachunterricht. Die Grundschulzeitschrift. (292/293), 29–32. de Boer, H., & Merklinger, D. (2016). Beobachten: Lernperspektiven beschreiben. Die Grundschulzeitschrift. (292-293), 42–46. Decristan, J., Klieme, E., Kunter, M., Hochweber, J., Buettner, G., Fauth, B., Hondrich, A. L., Rieser, S., Hertel, S., & Hardy, I. (2015). Embedded Formative Assessment and Classroom Process Quality: How Do They Interact in Promoting Science Understanding? American Educational Research Journal, 52(6), 1133–1159. https://doi.org/10.3102/0002831215596412

Literaturverzeichnis

269

DeVellis, R. F. (2012). Scale development: Theory and applications (3.Aufl.). Applied social research methods series: Vol. 26. Thousand Oaks, Calif.: Sage. Dickhäuser, O., & Rheinberg, F. (2003). Bezugsnormorientierung: Erfassung, Probleme, Perspektiven. In J. Stiensmeyer-Pelster & F. Rheinberg (Hrsg.), Diagnostik von Selbstkonzept, Lernmotivation und Selbstregulation. Tests und Trends (S. 41–55). Göttingen: Hogrefe. Dickhäuser, O. & Stiensmeier-Pelster, J. (2000). Motivationale Orientierung und Selbstkonzept eigener Begabung - zwei unabhängige Konstrukte? Poster vorgestellt auf dem 20. Motivationspsychologischen Kolloquium. September 2000. Dortmund. Ditton, H. (Hg.). (2014). Feedback und Rückmeldungen: Theoretische Grundlagen, empirische Befunde, praktische Anwendungsfelder. Münster: Waxmann. Döring, N., & Bortz, J. (2016). Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (5. vollst. überarb., aktualisierte und erw. Aufl.). Springer-Lehrbuch. Berlin: Springer. Drexl, D. (2014). Qualität im Grundschulunterricht: Der Einfluss der Elementarauf die Primarpädagogik. Wiesbaden: Springer VS. Dubberke, T., Kunter, M., McElvany, N., Brunner, M., & Baumert, J. (2008). Lerntheoretische Überzeugungen von Mathematiklehrkräften. Zeitschrift für Pädagogische Psychologie, 22(34), 193–206. https://doi.org/10.1024/10100652.22.34.193 Dummer-Smoch, L. (1984). Die Diagnostischen Bilderlisten: Siebungsverfahren zur Früherkennung von Leselernschwierigkeiten im Leselernprozess. Kiel: Veris. Duncan, C. R., & Noonan, B. (2007). Factors affecting teachers’ grading and assessment practices. The Alberta Journal of Educational Research, 53(1), 1–21. Dunn, K. E., & Mulvenon, S. W. (2009). A Critical Review of Research on Formative Assessments: The Limited Scientific Evidence of the Impact of Formative Assessments in Education. Practical Assessment Research & Evaluation, 14(7), 1–11. Dweck, C. S. (2000). Self-theories: Their role in motivation, personality and development. Philadelphia, PA: Psychology Press.

270

Literaturverzeichnis

Eckerth, M. (2013). Formen der Diagnose und Förderung: Eine mehrperspektivische Analyse zur Praxis pädagogischer Fachkräfte in der Grundschule (1. Aufl.). Internationale Hochschulschriften: Vol. 593. Münster: Waxmann. Edwards, J. R. (2001). Multidimensional Constructs in Organizational Behavior Research: An Integrative Analytical Framework. Organizational Research Methods, 4(2), 144–192. Elliott, S. N., Kettler, R. J., Beddow, P. A., & Kurz, A. (2010). Research and Strategies for Adapting Formative Assessments for Students with Special Needs. In H. Andrade & G. J. Cizek (Hrsg.), Handbook of formative Assessment (S. 159–180). Routledge: New York. Enders, C. K. (2010). Applied missing data analysis. New York: Guilford Press. Ewald, T.-M., & Huber, C. (2017). Kooperatives Lernen und soziale Akzeptanz?! - Wie das Konzept des kooperativen Lernens durch die Kontakthypothese geschärft werden könnte. In F. Hellmich & E. Blumberg (Hrsg.), Inklusiver Unterricht in der Grundschule (S. 66–81). Stuttgart: Kohlhammer. Ewald, T.-M., & Wilmanns, I. (2014). Instrumente und Verfahren der Lernbegleitung. Eine Interviewstudie. In S.-I. Beutel & W. Beutel (Hrsg.), Individuelle Lernbegleitung und Leistungsbeurteilung (S. 88–187). Schwalbach/Ts: WOCHENSCHAU Verlag. Fauth, B., Decristan, J., Rieser, S., Klieme, E., & Büttner, G. (2014). Grundschulunterricht aus Schüler-, Lehrer- und Beobachterperspektive: Zusammenhänge und Vorhersage von Lernerfolg. Zeitschrift für Pädagogische Psychologie, 28(3), 127–137. https://doi.org/10.1024/1010-0652/a000129 Filsecker, M., & Kerres, M. (2012). Repositioning Formative Assessment from an Educational Assessment Perspective: A Response to Dunn & Mulvenon (2009). Practical Assessment Research & Evaluation, 17(16), 1–9. Finau, T., Treagust, D. F., Won, M., & Chandrasegaran, A. L. (2018). Effects of a Mathematics Cognitive Acceleration Program on Student Achievement and Motivation. International Journal of Science and Mathematics Education, 72(16), 183–202. https://doi.org/10.1007/s10763-016-9763-5 Fisseni, H.-J. (1997). Lehrbuch der psychologischen Diagnostik: Mit Hinweisen zur Intervention (2., überarb. und erw. Aufl.). Göttingen: Hogrefe.

Literaturverzeichnis

271

Fornell, C. (1982). A second generation of multivariate analysis: An overview. In C. Fornell (Hg.), A second generation ofmultivariate analysis: Classification of methods and implications for marketing research (S. 1–21). New York: Greenwood. Fornell, C., & Larcker, D. F. (1981). Evaluation structural equation models with unobservable variables and measurement error. Journal of Marketing Research. (18), 39–50. Förster, N., & Karst, K. (2017). Modelle diagnostischer Kompetenz: Gemeinsamkeiten und Unterschiede. In A. Südkamp & A.-K. Praetorius (Hrsg.), Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 63–66). Münster: Waxmann. Frey, A. (2008). Kompetenzstrukturen von Studierenden in der ersten und zweiten Phase der Lehrerbildung. Eine nationale und internationale Standortbestimmung. Landau: Empirische Pädagogik. Fromm, S. (2012). Datenanalyse mit SPSS für Fortgeschrittene 2: Multivariate Verfahren für Querschnittsdaten (2.Aufl.). Lehrbuch. Wiesbaden: Springer VS. Fuchs, L. S., & Fuchs, D. (1986). Effects of Systematic Formative Evaluation: A Meta-Analysis. Exceptional Children, 53(3), 199–208. Galton, M., Simon, B., & Croll, P. (1980). Inside the primary classroom. London: Routledge & Kegan Paul. Gardner, J., Harlen, W., Hayward, L. & Stobart, G. (2008). Changing Assessment Practice: Process, Principles and Standards. Abgerufen von https:// www.stir.ac.uk/research/hub/publication/15731* (zuletzt geprüft am: 29.01.2018). Geiling, U., & Liebers, K. (2014). Diagnostik und Assessment im Elementarbereich. In Braches-Chyrek, R, Röhner C., H. Sünker & M. Hopf (Hrsg.), Handbuch Frühe Kindheit (S. 529–537). Opladen: Budrich. Geiling, U., Liebers, K. & Prengel, A. (2015). Handbuch ILEA T: Individuelle Lern-Entwicklungsanalyse im Übergang von der Kita in die Schule. Abgerufen von wcms.itz.uni-halle.de/download.php?down=34521&elem=2750160* (zuletzt geprüft am: 28.11.2017).

272

Literaturverzeichnis

Geiser, C. (2011). Datenanalyse mit MPlus: Eine anwendungsorientierte Einführung (2., durchgesehene Auflage). Wiesbaden: Springer VS. Gerbing, D. W., & Anderson, J. C. (1984). On the Meaning of Within-Factor Correlated Measurement Errors. Journal of Consumer Research, 11(1), 572–580. Giere, J., Wirtz, B. W., & Schilke, O. (2006). Mehrdimensionale Konstrukte: Konzeptionelle Grundlagen und Möglichkeiten ihrer Analyse mithilfe von Strukturgleichungsmodellen. Die Betriebswirtschaft: DBW, 66(6), 678–695. Gipps, C. V. (1994). Beyond Testing: Towards a Theory of Educational Assessment. London: The Falmer Press. Gläser-Zikuda, M. (Hg.). (2010). Lerntagebuch und Portfolio aus empirischer Sicht. Erziehungswissenschaft: Vol. 27. Landau: Verlag Empirische Pädagogik. Gläser-Zikuda, M., Rohde, J., & Schlomske, N. (2010). Empirische Studien zum Lerntagebuch- und Portfolio-Ansatz im Bildungskontext - ein Überblick. In M. Gläser-Zikuda (Hg.), Erziehungswissenschaft: Vol. 27. Lerntagebuch und Portfolio aus empirischer Sicht (S. 3–31). Landau: Verlag Empirische Pädagogik. Glogger-Frey, I., & Herppich, S. (2017). Formative Diagnostik als Teilaspekt diagnostischer Kompetenz. In A. Südkamp & A.-K. Praetorius (Hrsg.), Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 43–45). Münster: Waxmann. Graf, U., & Moser Opitz, E. (2007). Lernprozesse wahrnehmen, deuten und begleiten. In U. Graf & E. Moser Opitz (Hrsg.), Diagnostik und Förderung im Elementarbereich und Grundschulunterricht. Lernprozesse wahrnehmen, deuten und begleiten (S. 5–14). Baltmannsweiler: Schneider Hohengehren. Graham, J. W. (2012). Missing data: Analysis and design. New York: Springer. Greb, K., Poloczek, S., Lipowsky, F., & Faust, G. (2011). Dokumentation der Erhebungsinstrumente des Projekts "Persönlichkeits- und Lernentwicklung von Grundschülern" (PERLE).: Teil 1: PERLE-Instrumente: Schüler, Lehrer & Eltern (Messzeitpunkt 1). Materialien zur Bildungsforschung 23/1 (2. überarbeitete Aufl.). Frankfurt am Main: GFPF.

Literaturverzeichnis

273

Green, P. E., & Rao, V. R. (1970). Rating scales and information recovery - How many scales and response categories to use? Journal of Marketing. (34), 33– 39. Grittner, F. (2010). Leistungsbewertung mit Portfolio in der Grundschule: Eine mehrperspektivische Fallstudie aus einer notenfreien sechsjährigen Grundschule. Zugl.: Berlin, Freie Univ., Diss., 2009 (2., durchges. Aufl.). Bad Heilbrunn: Klinkhardt. Grundschulverband (Hg.). (2014). Sind Noten nützlich und nötig? Ziffernzensuren und ihre Alternativen im empirischen Vergleich. Eine wissenschaftliche Expertise des Grundschulverbandes (3. aktualisierte Aufl.). Frankfurt am Main: Grundschulverband. Häcker, T. (2005). Portfolio als Instrument der Kompetenzdarstellung und reflexiven Lernprozesssteuerung. Abgerufen von http://www.bwpat.de/ausgabe8/ haecker_bwpat8.pdf* (zuletzt geprüft am: 03.03.2018). Handal, B. (2003). Teachers' Mathematical Beliefs: A Review. The Mathematics Educator. (2), 47–57. Hao, S., & Johnson, R. L. (2013). Teachers' classroom assessment practices and fourth-graders' reading literacy achievements: An international study. Teaching and Teacher Education, 29, 53–63. https://doi.org/10.1016/j.tate.2012.08.010 Hardy, I., Hertel, S., Kunter, M., Klieme, E., Warwas, J., Büttner, G., & Lühken, A. (2011). Adaptive Lerngelegenheiten in der Grundschule. Merkmale, methodisch-didaktische Schwerpunktsetzungen und erforderliche Lehrerkompetenzen. Zeitschrift für Pädagogik, 57(6), 819–833. Harks, B., Rakoczy, K., Hattie, J., Besser, M., & Klieme, E. (2013). The effects of feedback on achievement, interest and self-evaluation: The role of feedback’s perceived usefulness. Educational Psychology, 34(3), 269–290. https://doi.org/10.1080/01443410.2013.785384 Harks, B., Rakoczy, K., Klieme, E., Hattie, J., & Besser, M. (2014). Indirekte und moderierte Effekte von schriftlicher Rückmeldung auf Leistung und Motivation. In H. Ditton (Hg.), Feedback und Rückmeldungen. Theoretische Grundlagen, empirische Befunde, praktische Anwendungsfelder (S. 163–194). Münster: Waxmann.

274

Literaturverzeichnis

Harlen, W. (2005). Teachers' summative practices and assessment for learning – tensions and synergies. Curriculum Journal, 16(2), 207–223. https://doi.org/10.1080/09585170500136093 Harlen, W. (2007a). Assessment of learning. London: Sage. Harlen, W. (2007b). The impact of summative assessment on children, teaching, and the curriculum. In K. Möller (Hg.), Jahrbuch Grundschulforschung: Bd. 11. Qualität von Grundschulunterricht. Entwickeln, erfassen und bewerten (S. 51–65). Wiesbaden: Springer VS. Harrison, C., & Howard, S. (2009). Inside the primary black box: Assessment for learning in primary and early years classrooms. London: GL Assessment. Hartinger, A., Kleickmann, T., & Hawelka, B. (2006). Der Einfluss von Lehrervorstellungen zum Lernen und Lehren auf die Gestaltung des Unterrichts und auf motivationale Schülervariablen. Zeitschrift für Erziehungswissenschaft, 9(1), 110–126. https://doi.org/10.1007/s11618-006-0008-1 Hascher, T. (2010). Lernen verstehen und begleiten - Welchen Beitrag leisten Tagebuch und Portfolio? In M. Gläser-Zikuda (Hg.), Erziehungswissenschaft: Vol. 27. Lerntagebuch und Portfolio aus empirischer Sicht (S. 166–180). Landau: Verlag Empirische Pädagogik. Hasselhorn, M., Schneider, W., & Trautwein, U. (Hrsg.). (2014). Lernverlaufsdiagnostik. Göttingen: Hogrefe. Hattie, J., & Timperley, H. (2007). The Power of Feedback. Review of Educational Research, 77(1), 81–112. https://doi.org/10.3102/003465430298487 Hattie, J., & Wollenschläger, M. (2014). A conceptualization of feedback. In H. Ditton & A. Müller (Hrsg.), Feedback und Rückmeldung. Theoretische Grundlagen, empirische Befunde, praktische Anwendungsfelder (S. 135–150). Münster: Waxmann. Hattie, J. (2003). Formative and Summative Interpretations of Assessment Information. Abgerufen von https://cdn.auckland.ac.nz/assets/education/hattie/ docs/formative-and-summative-assessment-(2003).pdf* (zuletzt geprüft am: 23.03.2018). Beywl, W., & Zierer, K. (Hrsg.). (2014). Lernen sichtbar machen (2., korrigierte Aufl.). Baltmannsweiler: Schneider Hohengehren.

Literaturverzeichnis

275

Hatzinger, R., Hornik, K., & Nagel, H. (2011). R: Einführung durch angewandte Statistik. Pearson Studium - Scientific Tools. München: Pearson Studium. Heimlich, U., Lutz, S., & Wilfert de Icaza, K. (2015). Ratgeber Förderdiagnostik: Feststellung des sonderpädagogischen Förderbedarfs im Förderschwerpunkt Lernen: 1.-9. Klasse (3. Aufl.). Hamburg: Persen. Heimlich, U., & Wember, F. B. (2015). Didaktik des Unterrichts im Förderschwerpunkt Lernen: Ein Handbuch für Studium und Praxis. Stuttgart: Kohlhammer. Heritage, M. (2007). Formative Assessment: What Do Teachers Need to Know and Do? Phi Delta Kappan, 89(2), 140–145. Heritage, M. (2008). Learning Progressions: Supporting Instruction and Formative Assessment: National Center for Research on Evaluation, Standards, and Student Testing (CRESST) and the Council of Chief State School Officers (CCSSO). Abgerufen von http://www.k12.wa.us/assessment/ClassroomAssessmentIntegration/pubdocs/FASTLearningProgressions.pdf* (zuletzt geprüft am: 23.03.2018). Heritage, M. (2010). Formative Assessment and Next-Generation Assessment Systems: Are We Losing an Opportunity? National Center for Research on Evaluation, Standards, and Student Testing (CRESST) and the Council of Chief State School Officers (CCSSO). Abgerufen von https://eric.ed.gov/ ?id=ED543063* (zuletzt geprüft am: 14.01.2018). Herman, J. L., Osmundson, E., Ayala, C., Schneider, S. & Timms, M. (2006). The Nature and Impact of Teachers’ Formative Assessment Practices: National Center for Research on Evaluation, Standards, and Student Testing (CRESST) and the Council of Chief State School Officers (CCSSO). Abgerufen von https://files.eric.ed.gov/fulltext/ED495850.pdf* (zuletzt geprüft am: 17.03.2018). Herman, J. L., Osmundson, E., & Silver, D. (2010). Capturing quality in formative assessment practice: measurement challenges: CRESST Report 770. Los Angeles, CA: University of California, National Center for Research on Evaluation, Standards, and Student Testing (CRESST). Herné, K.-L., Naumann, C. L., & Löffler, C. (2015). Aachener förderdiagnostische Rechtschreibfehler-Analyse: AFRA. Version 5. Systematische Einführung

276

Literaturverzeichnis

in die Praxis der Fehleranalyse mit Auswertungshilfen zu insgesamt 30 standardisierten Testverfahren als Kopiervorlagen (5. aktual. Aufl.). Aachen: Alfa-Zentaurus. Hertel, S. (2014). Adaptive Lerngelegenheiten in der Grundschule: Merkmale, methodisch-didaktische Schwerpunktsetzungen und erforderliche Lehrerkompetenzen. In B. Kopp (Hg.), Jahrbuch Grundschulforschung: Bd. 17. Individuelle Förderung und Lernen in der Gemeinschaft (S. 19–34). Wiesbaden: Springer VS. Hesse, I., & Latzko, B. (2011). Diagnostik für Lehrkräfte (2. Aufl.). Opladen: Budrich. Hidi, S., & Harackiewicz, J. M. (2000). Motivating the academically unmotivated: A critical issue for the 21st century. Review of Educational Research, 70(2), 151–179. Hinz, A. (2013). Inklusion – von der Unkenntnis zur Unkenntlichkeit!? - Kritische Anmerkungen zu einem Jahrzehnt Diskurs über schulische Inklusion in Deutschland. Zeitschrift für Inklusion online, 1. Abgerufen von http://www.inklusion-online.net/index.php/inklusion-online/article/view/194/200* (zuletzt geprüft am: 17.10.2017). Homburg, C. (1998). Kundennähe von Industriegüterunternehmen (2. Aufl.). Wiesbaden: Springer Gabler. Homburg, C., & Baumgartner, H. (1995). Beurteilung von Kausalmodellen. Marketing ZFP, 17(3), 162–176. Homburg, C., & Giering, A. (1996). Konzeptualisierung und Operationalisierung komplexer Konstrukte – Ein Leitfaden für die Marketingforschung. Marketing: Zeitschrift für Forschung und Praxis, 18(1), 5–24. Homburg, C., Klarmann, M., & Pflesser, C. (2008). Konfirmatorische Faktorenanalyse. In A. Herrmann, C. Homburg & M. Klarmann (Hrsg.), Handbuch Marktforschung (S. 271–303). Wiesbaden: Gabler. Horstkemper, M. (2006). Fördern heißt diagnostizieren: Pädagogische Diagnostik als wichtige Voraussetzung für individuellen Lernerfolg. Friedrich Jahresheft, XXIV, 4–7. Hsia, L.-H., Huang, I., & Hwang, G.-J. (2015). A web-based peer-assessment approach to improving junior high school students' performance, self-efficacy

Literaturverzeichnis

277

and motivation in performing arts courses. British Journal of Educational Technology, 47(4), 618–632. https://doi.org/10.1111/bjet.12248 Hu, L.-T., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling. (6), 1–55. Huber, C., & Grosche, M. (2012). Das response-to-intervention-Modell als Grundlage für einen inklusiven Paradigmenwechsel in der Sonderpädagogik. Zeitschrift für Heilpädagogik, 8, 312–321. Huber, C. (2013). Der Einfluss von Lehrkraftfeedback auf die soziale Akzeptanz bei Grundschulkindern - eine experimentelle Studie zur Wirkung von sozialen Referenzierungsprozessen in Lerngruppen. Heilpädagogische Forschung. (1), 14–25. Hugener, I., Pauli, C., & Reusser, K. (2007). Inszenierungsmuster, kognitive Aktivierung und Leistung im Mathematikunterricht. Analysen aus der schweizerisch-deutschen Videostudie. In M. Lemmermöhle, S. Rothgangel, M. Bögeholz, M. Hasselhorn & R. Watermann (Hrsg.), Professionell Lehren - Erfolgreich Lernen (S. 109–121). Münster: Waxmann. Imhof, M., Langfeldt, H.-P., Preiser, S., Souvignier, E., & Borsch, F. (Hrsg.). (2016). Psychologie für Lehramtsstudierende (4., durchgesehene Auflage). Lehrbuch. Wiesbaden: Springer VS. Inckemann, E. (2008). Förderdiagnostische Kompetenzen von Grundschullehrerinnen im schriftsprachlichen Anfangsunterricht. Zeitschrift für Grundschulforschung, 1(2), 99–115. Inckemann, E. (2014). Binnendifferenzierung - Individualisierung - adaptiver Unterricht. In W. Einsiedler, M. Götz, A. Hartinger, Heinzel, F., Kahlert, J. & U. Sandfuchs (Hrsg.), Handbuch Grundschulpädagogik und Grundschuldidaktik (S. 374–384). Bad Heilbrunn: Klinkhardt. Ingenkamp, K., & Lissmann, U. (2008). Lehrbuch der pädagogischen Diagnostik (6., neu ausgestattete Aufl.). Studium Pädagogik. Weinheim: Beltz. James, M., & Pedder, D. (2006). Beyond method: Assessment and learning practices and values. Curriculum Journal, 17(2), 109–138. https://doi.org/10.1080/09585170600792712

278

Literaturverzeichnis

Jegodtka, A. (2016). Individualisierte Diagnostik: Das revidierte klinische Interview und die Zone der nächsten Entwicklung in der Diagnostik von Schwierigkeiten im basalen mathematischen Bereich (1. Aufl.). Berlin: Lehmanns. Johnson, D. W., & Johnson, R. T. (1998). Learning together and alone. Cooperative, competitive, and individualistic learning (5. Aufl.). Boston: Allyn and Bacon. Jöreskog, K. G. (1969). A general approach to confirmatory maximum likelihood factor analysis. Psychometrika, 34, 183–202. Jöreskog, K. G. (1970). General Method for Analysis of Covariance Structures. Biometrika, 57(2), 239–251. Jöreskog, K. G. (1973). A general method for estimating a linear structural equation system. In A. S. Goldberger & O. D. Duncan (Hrsg.), Structural equation models in the social sciences (S. 83–112). New York: Seminar Press. Jürgens, E., & Lissmann, U. (2015). Pädagogische Diagnostik: Grundlagen und Methoden der Leistungsbeurteilung in der Schule. Reihe "Bildungswissen Lehramt": Band 27. Weinheim: Beltz. Kaiser, J., Praetorius, A.-K., Südkamp, A., & Ufer, S. (2017). Die enge Verwobenheit von diagnostischem und pädagogischem Handeln als Herausforderung bei der Erfassung diagnostischer Kompetenz. In A. Südkamp & A.-K. Praetorius (Hrsg.), Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 114–123). Münster: Waxmann. Karst, K. (2017). Diagnostische Kompetenz und unterrichtliche Situationen. In A. Südkamp & A.-K. Praetorius (Hrsg.), Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 25–28). Münster: Waxmann. Kautter, H., & Munz, W. (1974). Verfahren der Aufnahme und Überweisung in die Sonderschule. Schwerpunktmäßig dargestellt an der Schule für Lernbehinderte. In Deutscher Bildungsrat (Hg.), Sonderpädagogik 3 (S. 235–358). Stuttgart: Klett. Keller, S. (2011). Beurteilungsraster und Kompetenzmodelle. In W. Sacher, F. Winter & C. Schreiner (Hrsg.), Professionswissen für Lehrerinnen und Lehrer:

Literaturverzeichnis

279

Bd. 4. Diagnose und Beurteilung von Schülerleistungen. Grundlagen und Reformansätze (S. 143–160). Baltmannsweiler: Schneider Hohengehren. Killus, D. (2009). Förderung selbstgesteuerten Lernens im Kontext lehrer- und organisationsbezogener Merkmale. Zeitschrift für Pädagogik, 55(1), 130–150. Kingston, N., & Nash, B. (2011). Formative Assessment: A Meta-Analysis and a Call for Research. Educational Measurement: Issues and Practice, 30(4), 28– 37. Klauer, K. J. (2014). Formative Leistungsdiagnostik: Historischer Hintergrund und Weiterentwicklung zur Lernverlaufsdiagnostik. In M. Hasselhorn, W. Schneider & U. Trautwein (Hrsg.), Lernverlaufsdiagnostik (S. 1–17). Göttingen: Hogrefe. Kleickmann, T. (2008). Zusammenhänge fachspezifischer Vorstellungen von Grundschullehrkräften zum Lehren und Lernen mit Fortschritten von Schülerinnen und Schülern im konzeptuellen naturwissenschaftlichen Verständnis. Westfälische Wilhelms-Universität Münster, Münster. Klieme, E., Bürgermeister, A., Harks, B., Blum, W., Leiß, D., & Rakoczy, K. (2010). Leistungsbeurteilung und Kompetenzmodellierung im Mathematikunterricht. Projekt Co2CA1. In E. Klieme, D. Leutner & M. Kenk (Hrsg.), Zeitschrift für Pädagogik. Beiheft: 56, 2010. Kompetenzmodellierung. Zwischenbilanz des DFG-Schwerpunktprogramms und Perspektiven des Forschungsansatzes (S. 64–76). Weinheim: Beltz. Klieme, E., & Warwas, J. (2011). Konzepte der Individuellen Förderung. Zeitschrift für Pädagogik, 57(6), 805–818. Kline, R. B. (2010). Principles and practice of structural equation modeling (3. Aufl.). New York: Guilford Press. Kluger, A. N., & DeNisi, A. (1996). The Effects of Feedback Interventions on Performance: A Historical Review, a Meta-Analysis, and a Preliminary Feedback Intervention Theory. Psychological Bulletin, 119(2), 254–284. KMK. (2004). Standards für die Lehrerbildung: Bildungswissenschaften: Beschluss der Kultusministerkonferenz vom 16.12.2004. Abgerufen von https:// www.kmk.org/fileadmin/veroeffentlichungen_beschluesse/2004/2004_12_ 16-Standards-Lehrerbildung.pdf* (zuletzt geprüft am: 20.03.2018).

280

Literaturverzeichnis

KMK. (2011). Inklusive Bildung von Kindern und Jugendlichen mit Behinderungen in Schulen: Beschluss der Kultusministerkonferenz vom 20.10.2011. Abgerufen von http://www.kmk.org/fileadmin/veroeffentlichungen_beschluesse/ 2011/2011_10_20-Inklusive-Bildung.pdf* (zuletzt geprüft am: 22.11.2017). KMK. (2016). Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring. Abgerufen von http://www.kmk.org/fileadmin/veroeffentlichungen_ beschluesse/2015/2015_06_11-Gesamtstrategie-Bildungsmonitoring.pdf* (zuletzt geprüft am: 21.02.2018). Kobarg, M., Prenzel, M., & Schwindt, K. (2009). Stand der Unterrichtsforschung zum Unterrichtsgespräch im naturwissenschaftlichen Unterricht. In W. Ulrich (Hg.), Deutschunterricht in Theorie und Praxis (S. 408–429). Baltmannsweiler: Schneider Hohengehren. Kobi, E. E. (1977). Einweisungsdiagnostik - Förderdiagnostik: eine schematische Gegenüberstellung. Vierteljahresschrift für Heilpädagogik. (46), 115–123. Köller, O. (2000). Leistungsgruppierung, soziale Vergleiche und selbstbezogene Fähigkeitskognitionen in der Schule.: Habilitationsschrift. Institut für Psychologie. Universität Potsdam. Köller, O. (2005). Formative Assessment in Classrooms: A Review of the Empirical German Literature. In OECD (Hg.), Formative Assessment. Improving Learning in Secondary Classrooms (S. 265–277). Paris: Organisation for Economic Co-operation and Development. Kopmann, H., & Zeinz, H. (2018). Professionelle Handlungskompetenz in inklusiven Lernsettings. In S. Miller (Hg.), Jahrbuch Grundschulforschung: Band 22. Profession und Disziplin. Grundschulpädagogik im Diskurs (S. 151–157). Wiesbaden: Springer VS. Kopp-Duller, A. (2017). Legasthenie - Training nach der AFS-Methode (5. überarbeitete Auflage). Klagenfurt: KLL. Kornmann, A., & Horn, R. (2001). SSB: Screening für Schul- und Bildungsberatung. Rechtschreibung und Intelligenz. Frankfurt: Pearson. Kornmann, R. (1983). Diagnose von Lernbehinderungen: Strategie und Methoden im Überweisungsverfahren zur Sonderschule für Lernbehinderte (3., durchges. Aufl.). Weinheim: Beltz.

Literaturverzeichnis

281

Kossow, H.-J. (1999). Das Lautwortoperationsverfahren (LWOV): Ein detailliertes Verfahren mit diagnostischem und therapeutischem Nutzen zur Ermittlung des individuellen Entwicklungsstandes einiger für die Rechtschreibleistung erforderlicher Teiloperationen. Bochum: Winkler. Krajewski, K., Küspert, P., & Schneider, W. (2002). DEMAT 1+: Deutscher Mathematiktest für erste Klassen (1. Aufl.). Göttingen: Hogrefe. Krammer, K. (2017). Die Bedeutung der Lernbegleitung im Kindergarten und am Anfang der Grundschule. Wie können frühe mathematische Lernprozesse unterstützt werden? In S. Schuler, C. Streit & G. Wittmann (Hrsg.), Perspektiven mathematischer Bildung im Übergang vom Kindergarten zur Grundschule. Wiesbaden: Springer Spektrum. Krauss, S., Kunter, M., Brunner, M., Baumert, J., Blum, W., Neubrand, M., Jordan, A., & Löwen, K. (2004). COACTIV: Professionswissen von Lehrkräften, kognitiv aktivierender Mathematikunterricht und die Entwicklung von mathematischer Kompetenz. In J. Doll & M. Prenzel (Hrsg.), Bildungsqualität von Schule: Lehrerprofessionalisierung, Unterrichtsentwicklung und Schülerförderung als Strategie der Qualitätsverbesserung (S. 31–53). Münster: Waxmann. Krenz, A. (2009). Beobachtung und Entwicklungsdokumentation im Elementarbereich. München: Olzog. Krille, F. (2014). Selbstgesteuertes Lernen mit Kompetenzrastern. Ein theoretischer Blick auf das Potenzial eines pädagogischen Instruments zum individualisierten Lernen. Berufs- und Wirtschaftspädagogik Online. (26), 1–27. Kuckartz, U., Rädiker, U., Ebert, T., & Schehl, J. (2013). Statistik: Eine verständliche Einführung (2. Auflage). Wiesbaden: Springer VS. Kunter, M., Baumert, J., Blum, W., Klusmann, U., Krauss, S., & Neubrand, M. (Hrsg.). (2011). Professionelle Kompetenz von Lehrkräften -Ergebnisse des Forschungsprogramms COACTIV. Münster: Waxmann. Kunter, M., & Klusmann, U. (2010). Kompetenzmessung bei Lehrkräften – Methodische Herausforderungen. Unterrichtswissenschaft, 38(1), 68–86. Landesinstitut für Schule und Medien Berlin-Brandenburg (Hg.). (2010). Bausteine für eine Lernentwicklungsdokumentation (Portfolio). Bildungsregion

282

Literaturverzeichnis

Berlin-Brandenburg. Ludwigsfelde-Struveshof. Abgerufen von https://bildungsserver.berlin-brandenburg.de/fileadmin/bbb/unterricht/unterrichtsentwicklung/Portfolio/Portfolio_Baustein_fuer_eine_Lernentwicklungsdokumentation_2010.pdf* (zuletzt geprüft am: 25.01.2018). Lankes, E.-M., Rieger, E., & Pook, M. (2015). VERA-3 in Bayern: Ein Instrument für die Schul- und Unterrichtsentwicklung. München. Abgerufen von http:// www.isb.bayern.de/schulartspezifisches/materialien/vera-3_in_bayern/* (zuletzt geprüft am: 01.02.2018). Lenhard, W., & Schneider, W. (2006). ELFE 1-6: Ein Leseverständnistest für Erst- bis Sechsklässler. Göttingen: Hogrefe. Leu, H. R., Flämig, K., Frankenstein, Y., Schneider, K., & Schweiger, M. (2007). Bildungs- und Lerngeschichten. Bildungsprozesse in früher Kindheit beobachten, dokumentieren und unterstützen. Weimar: Verlag das Netz. Leuchter, M., Pauli, C., Reusser, K., & Lipowsky, F. (2006). Unterrichtsbezogene Überzeugungen und handlungsleitende Kognitionen von Lehrpersonen. Zeitschrift für Erziehungswissenschaft, 9(4), 562–579. https://doi.org/10.1007/s11618-006-0168-z Liebers, K., & Seifert, C. (2012). Assessmentkonzepte für die inklusive Schule – eine Bestandsaufnahme. Zeitschrift für Inklusion online. (3). Abgerufen von http://www.inklusion-online.net/index.php/inklusion-online/article/view/44/ 44* (zuletzt geprüft am: 20.03.2018). Liebers, K., Seifert, C., & Kolke, S. (2014). Gestaltung inklusiven Unterrichts in den ERINA-Oberschulen - erste Befunde. In M. Lichtblau, D. Blömer, A.-K. Jüttner, K. Koch, M. Krüger & R. Werning (Hrsg.), Forschung zu inklusiver Bildung. Gemeinsam anders lehren und lernen (S. 230–243). Bad Heilbrunn: Klinkhardt. Liebers, K., Landwehr, B., Marquardt, A., & Schlotter, K. (Hrsg.). (2015). Lernprozessbegleitung und adaptives Lernen in der Grundschule: Forschungsbezogene Beiträge (1. Auflage). Jahrbuch Grundschulforschung: Vol. 19. Wiesbaden: Springer VS. Limbach-Reich, A. (2015). "Response to Intervention" (RTI) im Spannungsfeld Inklusiver Diagnostik. In H. Schäfer & C. Rittmeyer (Hrsg.), Handbuch Inklusive Diagnostik (S. 478–495). Weinheim: Beltz.

Literaturverzeichnis

283

Lipowsky, F., Faust, G., & Kastens, C. (Hrsg.). (2013). Persönlichkeits- und Lernentwicklung an staatlichen und privaten Grundschulen: Ergebnisse der PERLE-Studie zu den ersten beiden Schuljahren. Münster: Waxmann. LISUM. (2010). Individuelle Lernstandsanalysen in der Grundschule (ILeA). Abgerufen von http://bildungsserver.berlin-brandenburg.de/unterricht/lernstandsanalysen-vergleichsarb/ilea/* (zuletzt geprüft am: 20.03.2018). LISUM. (2014). Fachbrief Grundschule Nr. 6. Lernprozessbegleitende Diagnostik. Abgerufen von http://bildungsserver.berlin-brandenburg.de/fileadmin/ bbb/unterricht/fachbriefe_berlin/grundschule/Fachbrief_Grundschule_Nr_ 06.pdf* (zuletzt geprüft am: 03.03.2018). Lompscher, J. (2004). Lernkultur kompetenzentwicklung aus kulturhistorischer sicht: Lernen Erwachsener im arbeitsprozess. ICHS : International culturalhistorical human sciences: Bd. 7. Berlin: Lehmanns Media. Lorenz, C. (2011). Diagnostische Kompetenz von Grundschullehrkräften. Strukturelle Aspekte und Bedingungen. Bamberg: University of Bamberg Press. Lotz, M. (2016). Kognitive Aktivierung im Leseunterricht der Grundschule. Eine Videostudie zur Gestaltung und Qualität von Leseübungen im ersten Schuljahr. Wiesbaden: Springer VS. Lotz, M., & Lipowsky, F. (2015). Die Hattie-Studie und ihre Bedeutung für den Unterricht Ein Blick auf ausgewählte Aspekte der Lehrer-Schüler-Interaktion. In G. Mehlhorn, F. Schulz & K. Schöppe (Hrsg.), Begabungen entwickeln & Kreativität fördern (S. 97–136). München: kopaed. Lüdtke, O., & Köller, O. (2002). Individuelle Bezugsnormorientierung und soziale Vergleiche im Mathematikunterricht. Einfluss unterschiedlicher Referenzrahmen auf das fachspezifische Selbstkonzept der Begabung. Zeitschrift für Entwicklungspsychologie und pädagogische Psychologie, 34(3), 156–166. Lüdtke, O., Robitzsch, A., Trautwein, U., & Köller, O. (2007). Umgang mit fehlenden Werten in der psychologischen Forschung. Psychologische Rundschau, 58(2), 103–117. https://doi.org/10.1026/0033-3042.58.2.103 Maier, U. (2011a). Formative Leistungsdiagnostik in der Sekundarstufe I - Befunde einer quantitativen Lehrerbefragung zu Nutzung und Korrelaten verschiedener Typen formativer Diagnosemethoden in Gymnasien. Empirische Pädagogik, 25(1), 25–46.

284

Literaturverzeichnis

Maier, U. (2010). Formative Assessment – Ein erfolgversprechendes Konzept zur Reform von Unterricht und Leistungsmessung? Zeitschrift für Erziehungswissenschaft, 13(2), 293–308. https://doi.org/10.1007/s11618-010-0124-9 Maier, U. (2011b). Formative Leistungsmessung: Von einer Noten- zu einer Diagnosekultur. schulmanagement-online.de, 3, 22–24. Maier, U. (2014). Formative Leistungsdiagnostik in der Sekundarstufe - Grundlegende Fragen, domänenspezifische Verfahren und empirische Befunde. In M. Hasselhorn, W. Schneider & U. Trautwein (Hrsg.), Tests und Trends: Vol. 12. Lernverlaufsdiagnostik (S. 19–39). Göttingen: Hogrefe. Maier, U. (2015). Leistungsdiagnostik in Schule und Unterricht. Bad Heilbrunn: Klinkhardt. Marshall, B., & Wiliam, D. (1990). English inside the black box. London: GL Assessment. Marshall, B., & Drummond, M. J. (2006). How teachers engage with Assessment for Learning: Lessons from the classroom. Research Papers in Education, 21(2), 133–149. https://doi.org/10.1080/02671520600615638 Martinez, J. G. R., & Martinez, N. C. (1992). Re-examining repeated testing and teacher effects in a remedial mathematics course. British Journal of Educational Psychology. (62), 356–363. Martschinke, S. (2015). Facetten adaptiven Unterrichts aus der Sicht der Unterrichtsforschung. In K. Liebers, B. Landwehr, A. Marquardt & K. Schlotter (Hrsg.), Jahrbuch Grundschulforschung: Band 19. Lernprozessbegleitung und adaptives Lernen in der Grundschule. Forschungsbezogene Beiträge (Vol. 19, S. 15–32). Wiesbaden: Springer VS. May, P. (2012). HSP 1-10: Hamburger Schreib-Probe 1-10 (6., neu norm. Auflage). Stuttgart: vpm. Mayer, H. O. (2013). Interview und schriftliche Befragung: Grundlagen und Methoden empirischer Sozialforschung (6., überarb. Aufl.). München: Oldenbourg. McMillan, J. H. (2010). The practical Implications of Educational Aims and Contexts for Formative Assessment. In H. Andrade & G. J. Cizek (Hrsg.), Handbook of formative Assessment (S. 41–58). Routledge: New York.

Literaturverzeichnis

285

McMillan, J. H. (Hg.). (2013). SAGE handbook of research on classroom assessment. Los Angeles: Sage. McMillan, J. H., Myran, S., & Workman, D. (2002). Elementary Teachers' Classroom Assessment and Grading Pracitices. The Journal of Educational Research, 95(4), 203–213. McMillan, J. H., Venable, J. C., & Varier, D. (2013). Studies of the Effect of Formative Assessment on Student Achievement: So Much More is Needed. Practical Assessment Research & Evaluation, 18(2), 1–15. Mendoza, J., Stafford, K., & Stauffer, J. (2000). Large-sample confidence intervals for validity and reliability coefficients. Psychological methods, 5(3), 356– 369. Merklinger, D. (2016). Beobachten am Schulanfang: Spiel mit Schrift. Die Grundschulzeitschrift, 292/293(38-41). Meyer, M., & Jansen, C. (2016). Schulische Diagnostik: Eine Einführung (1.Aufl.). UTB: Vol. 4532. Bad Heilbrunn: Klinkhardt. Mietzel, G. (Hg.). (2017). Pädagogische Psychologie des Lernens und Lehrens (9., aktualisierte und erweiterte Auflage). Göttingen: Hogrefe. Mischo, C., & Rheinberg, F. (1995). Erziehungsziele von Lehrern und individuelle Bezugsnormen der Leistungsbewertung. Zeitschrift für Pädagogische Psychologie, 9(139-152). Moll, K., & Landerl, K. (2014). SLRT-II: Lese- und Rechtschreibtest. Weiterentwicklung des Salzburger Lese- und Rechtschreibtests (SLRT) (2., korr. Auflage). Bern: Huber. Moosbrugger, H., & Kelava, A. (2012). Testtheorie und Fragebogenkonstruktion (2., aktualisierte und überarbeitete Aufl.). Springer-Lehrbuch. Berlin, Heidelberg: Springer. Moser, V., Schäfer, L., & Kropp, A. (2014). Kompetenzbereiche von Lehrkräften in inklusiven Settings. In M. Lichtblau, D. Blömer, A.-K. Jüttner, K. Koch, M. Krüger & R. Werning (Hrsg.), Forschung zu inklusiver Bildung. Gemeinsam anders lehren und lernen (S. 124–143). Bad Heilbrunn: Klinkhardt. Mulaik, S. A., & Millsap, R. E. (2000). Doing the four-step right. Structural Equation Modeling, 7(1), 36–73.

286

Literaturverzeichnis

Müller, & Rudolf. (2003). DRT 1: Diagnostischer Rechtschreibtest für 1. Klassen (2. aktual. Auflage). Weinheim: Beltz. Müller, R. (2003). DRT 3. Diagnostischer Rechtschreibtest für 3. Klassen (4. aktualisierte). Göttingen: Hogrefe. Munser-Kiefer, M. (2014). Leseförderung im Leseteam in der Grundschule: Eine Interventionsstudie zur Förderung von basaler Lesefertigkeit und (meta- )kognitiven Lesestrategien. Empirische Erziehungswissenschaft: Vol. 40. Münster: Waxmann. Muthén, B. (2008). Confirmatory Factor Analysis: Mplus Discussion (16.05.2008, 5:39). Abgerufen von http://www.statmodel2.com/discussion/messages/9/ 352.html?1381537833* (zuletzt geprüft am: 02.06.2017). Muthén, L. (2009). Structural Equation Modeling: Mplus Discussion (23.04.2009, 4:05). Abgerufen von http://www.statmodel.com/discussion/messages/11/ 2156.html?1495576935* (zuletzt geprüft am: 02.06.2017). Nerdinger, F. W., Blickle, G., & Schaper, N. (2014). Arbeits- und Organisationspsychologie (3., vollst. überarb. Aufl.). Springer-Lehrbuch. Berlin: Springer. Niegemann, H. M. (2004). Lernen und Fragen: Bilanz und Perspektiven der Forschung. Unterrichtswissenschaft, 32(4), 345–356. Nottbusch, G. (2017). STOLLE (STOLperwörter-LEsetest). Abgerufen von https://www.uni-potsdam.de/de/gsp-deutsch/forschung/stolle.html* (zuletzt geprüft am: 28.11.2017). Nunnally, J. C. (1967). Psychometric theory. New York: McGraw-Hill. Nylund, K., Asparouhov, T., & Muthén, B. (2007). Deciding on the Number of Classes in Latent Class Analysis and Growth Mixture Modeling: A Monte Carlo Simulation Study. Structural Equation Modeling, 4(4), 535–569. Oberski, D. (2015). Mixture Models: Latent Profile and Latent Class Analysis. Modern Statistical Methods for HCI, 275–287. https://doi.org/10.1007/978-3319-26633-6_12 OECD (Hg.). (2005). Formative Assessment: Improving Learning in Secondary Classrooms. Paris: Organisation for Economic Co-operation and Development. Abgerufen von www.oecd.org/education/ceri/35661078.pdf* (zuletzt geprüft am: 24.06.2017).

Literaturverzeichnis

287

Ohle, A., McElvany, N., Horz, H., & Ullrich, M. (2017). Aspekte diagnostischer Kompetenz im Projekt "BiTe". In A. Südkamp & A.-K. Praetorius (Hrsg.), Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 29–33). Münster: Waxmann. Ones, D. S., & Viswesvaran, C. (1996). Bandwidth-fidelity dilemma in personality measurement for personnel selection. Journal of Organizational Behavior, 17(6), 609–626. Oser, F., & Blömeke, S. (2012). Überzeugungen von Lehrpersonen. Einführung in den Thementeil. Zeitschrift für Pädagogik, 58(4), 415–421. Palinscar, A. S., & Brown, A. L. (2009). Reciprocal Teaching of ComprehensionFostering and Comprehension-Monitoring Activities. Cognition and Instruction, 1(2), 117–175. https://doi.org/10.1207/s1532690xci0102_1 Pat-El, R. J., Tillema, H., Segers, M., & Vedder, P. (2013). Validation of Assessment for Learning Questionnaires for teachers and students. The British journal of educational psychology, 83(1), 98–113. https://doi.org/10.1111/j.20448279.2011.02057.x Pauli, C., Reusser, K., & Grob, U. (2007). Teaching for understanding and/or selfregulated learning? A video-based analysis of reform-oriented mathematics instruction in Switzerland. International Journal of Educational Research, 46(5), 294–305. https://doi.org/10.1016/j.ijer.2007.10.004 Petermann, F., & Daseking, M. (2015). ZLT-II: Zürcher Lesetest-II. Weiterentwicklung des Zürcher Lesetests (ZLT) von Maria Linder und Hans Grissemann (3., überarb. Auflage). Bern: Huber. Peterson, P., Fennema, E., Carpenter, T. P., & Loef, M. (1986). Teachers´pedagogical content belief in mathematics. Cognition and Instruction, 6, 1–40. Pinger, P., Rakoczy, K., Besser, M., & Klieme, E. (2017). Interplay of formative assessment and instructional quality—interactive effects on students’ mathematics achievement. Learning Environments Research, 47(1), 114–133. https://doi.org/10.1007/s10984-017-9240-2 Pitsch, H.-J. (2015). Konstruktivismus und Diagnostik. In H. Schäfer & C. Rittmeyer (Hrsg.), Handbuch Inklusive Diagnostik (S. 500–524). Weinheim: Beltz.

288

Literaturverzeichnis

Popham, W. J. (2008). Transformative assessment. Alexandria, Va.: ASCD. Post, S., Kastens, C., & Lipowsky, F. (2013). Professionelle Handlungskompetenz von Lehrpersonen. In F. Lipowsky, G. Faust & C. Kastens (Hrsg.), Persönlichkeits- und Lernentwicklung an staatlichen und privaten Grundschulen. Ergebnisse der PERLE-Studie zu den ersten beiden Schuljahren (S. 153–187). Münster: Waxmann. Praetorius, A.-K., Hetmanek, A., Herppich, S., & Ufer, S. (2017). Herausforderungen bei der empirischen Erforschung diagnostischer Kompetenz. In A. Südkamp & A.-K. Praetorius (Hrsg.), Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 95–102). Münster: Waxmann. Prange, K. (2012). Die Zeigestruktur der Erziehung (2. Aufl.). Paderborn, München, Wien: Schöningh. Prengel, A., & Thiel, M. (2005). In den Paradoxien der Schule - Kinderbefragung zu einem Instrument der Selbstevaluation von Schulleistungen. In G. Breidenstein & A. Prengel (Hrsg.), Schulforschung und Kindheitsforschung — ein Gegensatz? (S. 115–136). Springer VS. Prengel, A. (2009). Differenzierung, Individualisierung und Methodenvielfalt im Unterricht. In R. Hinz & R. Walthes (Hrsg.), Heterogenität in der Grundschule. Den pädagogischen Alltag erfolgreich bewältigen. (S. 168–177). Weinheim: Beltz. Prengel, A. (2013). Inklusive Bildung in der Primarstufe: Eine wissenschaftliche Expertise des Grundschulverbandes. Frankfurt am Main: Grundschulverband. Prengel, A. (2014). Kriterien für eine "Inklusive Didaktische Diagnostik" (= formatives Assessment): Handout zum Vortrag am 10.10.2014. Göttinger Kongresse für Erziehung und Bildung, Göttingen. Abgerufen von www.goekeb.de/wp-content/uploads/goekeb_2014_prengel.pdf* (zuletzt geprüft am: 23.03.2018). Prengel, A. (2016). Didaktische Diagnostik als Element alltäglicher Lehrerarbeit - "Formatives Assessment" im inklusiven Unterricht. In B. Amrhein & K. Ziemen (Hrsg.), Diagnostik im Kontext inklusiver Bildung – Theorien, Ambivalenzen, Akteure, Konzepte. Bad Heilbrunn: Klinkhardt.

Literaturverzeichnis

289

Prengel, A., Riegler, S., & Wannack, E. (2009). “Formative Assessment” als ReImpuls für pädagogischdidaktisches Handeln. In C. Röhner (Hg.), Jahrbuch Grundschulforschung: Vol. 13. Europäisierung der Bildung. Konsequenzen und Herausforderungen für die Grundschulpädagogik (S. 253–257). Wiesbaden: Springer VS. Probst, H. (Hg.). (1979). Kritische Behindertenpädagogik in Theorie und Praxis. Oberbiel: Jarick. Qualitäts- und Unterstützungsagentur – Landesinstitut für Schule. (2014). Nutzung der Ergebnisse von VERA 3 für die Entwicklung des Unterrichts im Fach Deutsch »Rechtschreibung«. Abgerufen von https://www.iqb.hu-berlin.de/ vera/unterricht* (zuletzt geprüft am: 17.08.2017). Racherbäumer, K. (2009). Hochbegabte Schulanfängerinnen und Schulanfänger: Eine explorative Längsschnittstudie zum Übergang hochbegabter Kinder vom Kindergarten in die flexible Schuleingangsstufe NRW. Internationale Hochschulschriften: Bd. 533. Münster: Waxmann. Racherbäumer, K. (2012). Individualisiert Lehren im Anfangsunterricht?! Erste Ergebnisse zur Diagnostik der Lernausgangslage im Anfangsunterricht von Lehrkräften in NRW. In F. Hellmich (Hg.), Jahrbuch Grundschulforschung: Bd. 16. Bedingungen des Lehrens und Lernens in der Grundschule. Bilanz und Perspektiven (S. 105–108). Wiesbaden: Springer VS. Rakoczy, K., Klieme, E., Bürgermeister, A., & Harks, B. (2008). The Interplay Between Student Evaluation and Instruction. Zeitschrift für Psychologie, 216(2), 111–124. https://doi.org/10.1027/0044-3409.216.2.111 Ramaprasad, A. (1983). On the definition of feedback. Behavioral Science, 28(1), 4–13. Rässler, S. (2006). Der Einsatz von Missing Data Techniken in der Arbeitsmarktforschung des IAB. Journal of the German Statistical Society, 90(4), 527–552. Rauin, U., & Maier, U. (2007). Subjektive Einschätzungen des Kompetenzerwerbs in der Lehramtsausbildung. In M. Lüders & J. Wissinger (Hrsg.), Forschung zur Lehrerbildung. Kompetenzentwicklung und Programmevaluation (S. 103– 133). Münster: Waxmann.

290

Literaturverzeichnis

Reh, S. (2005). Warum fällt es Lehrerinnen und Lehrern so schwer, mit Heterogenität umzugehen? Historische und empirische Deutungen. Die Deutsche Schule, 97(1), 76–86. Reinecke, J. (2014). Strukturgleichungsmodelle in den Sozialwissenschaften (2., akualisierte und erw. Aufl.). München: Oldenbourg. Remesal, A. (2011). Primary and secondary teachers’ conceptions of assessment: A qualitative study. Teaching and Teacher Education, 27(2), 472–482. https://doi.org/10.1016/j.tate.2010.09.017 Reusser, K., Pauli, C., & Elmer, A. (2014). Berufsbezogene Überzeugungen von Lehrerinnen und Lehrern. In E. Terhart, H. Bennewitz & M. Rothland (Hrsg.), Handbuch der Forschung zum Lehrerberuf (S. 478–495). Münster: Waxmann. Rheinberg, F. (1980). Leistungsbewertung und Lernmotivation. Göttingen: Hogrefe. Rheinberg, F. (2006). Bezugsnorm-Orientierung. In K.-H. Arnold, J. Wiechmann & U. Sandfuchs (Hrsg.), Beitrag für Handbuch Unterricht (S. 643–648). Bad Heilbrunn: Klinkhardt. Rheinberg, F. (2008). Bezugsnormen und die Beurteilung von Lernleistung. In W. Schneider & M. Hasselhorn (Hrsg.), Handbuch der Psychologie: Vol. 10. Handbuch der pädagogischen Psychologie (S. 178–186). Göttingen: Hogrefe. Rindskopf, D., & Rose, T. (1988). Some Theory and Applications of Confirmatory Second-Order Factor Analysis. Multivariate Behavioral Research, 23(1), 51– 67. Rosenberg, M. J., & Hovland, C. J. (1960). Cognitive, affective, and behavioral components of attitudes. In C. J. Hovland & M. J. Rosenberg (Hrsg.), Attitude organization and change: An analysis of consistency among attitude components (S. 1–14). New Haven: Yale University Press. Rost, D. H. (2013). Interpretation und Bewertung pädagogisch-psychologischer Studien: Eine Einführung (3., vollst. überarb. und erw. Aufl., Vol. 8518). Bad Heilbrunn: Klinkhardt. Rost, J. (2006). Latent-Class-Ana1yse. In F. Petermann & M. Eid (Hrsg.), Handbuch der Psychologischen Diagnostik (S. 275–287). Göttingen: Hogrefe.

Literaturverzeichnis

291

Roznowski, M., & Hanisch, K. A. (1990). Building Systematic Heterogeneity Into Work Attitudes and Behavior Measures. Journal of Vocational Behavior, 36(3), 361–375. Ruiz-Primo, M. A. (2011). Informal formative assessment: The role of instructional dialogues in assessing students? learning. Studies in Educational Evaluation, 37(1), 15–24. https://doi.org/10.1016/j.stueduc.2011.04.003 Ruiz-Primo, M. A., & Furtak, E. M. (2007). Exploring teachers' informal formative assessment practices and students' understanding in the context of scientific inquiry. Journal of Research in Science Teaching, 44(1), 57–84. https://doi.org/10.1002/tea.20163 Rumsey, D. J., & Muhr, J. (2012). Weiterführende Statistik fur Dummies (4. Aufl.). Hoboken: John Wiley & Sons. Ryan, R. M., & Deci, E. L. (2000). Intrinsic and extrinsic motivations: Classic definitions and new directions. Contemporary Educational Psychology, 25, 54–67. Sächsisches Staatsministerium für Kultus (Hg.). (2005). Handbuch zur Förderdiagnostik in Sachsen: Handlungs- und Arbeitsgrundlage zum Verfahren zur Feststellung des Sonderpädagogischen Förderbedarfs. Dresden. Sächsisches Staatsministerium für Kultus (Hg.). (2009). Lehrplan Grundschule: Deutsch. Dresden. Sadler, R. (1989). Formative assessment and the design of instructional systems. Instructional Science, 18, 119–144. Schafer, J. L. (2000). Analysis of incomplete multivariate data (1. Aufl.). London: Chapman & Hall. Schäfer, H., & Rittmeyer, C. (Hrsg.). (2015). Handbuch Inklusive Diagnostik. Weinheim: Beltz. Scheerer-Neumann, G., Schnitzler, C., Hübner, A., Mühlbauer, E., & Ritter, C. (2010). ILeA. Individuelle Lernstandsanalysen.: Lehrerheft Deutsch 3 (2. Aufl.). Abgerufen von http://bildungsserver.berlin-brandenburg.de/unterricht/ lernstandsanalysen-vergleichsarb/ilea/ilea3/* (zuletzt geprüft am: 01.02.2018). Schendera, C. F. G. (2007). Datenqualität mit SPSS. München: Oldenbourg.

292

Literaturverzeichnis

Schlangen, B., & Stiensmeyer-Pelster, J. (1997). Implizite Theorien über die Veränderbarkeit von Intelligen als Determinante von Leistungsmotivation. Zeitschrift für Pädagogische Psychologie, 11, 167–176. Schlee, J. (1985). Kann Diagnostik beim Fördern helfen? Zeitschrift für Heilpädagogik, 36, 153–165. Schmidt, C., & Liebers, K. (2017). Formatives Assessment im inklusiven Unterricht- Forschungsstand und erste Befunde. In F. Hellmich & E. Blumberg (Hrsg.), Inklusiver Unterricht in der Grundschule (S. 50–65). Stuttgart: Kohlhammer. Schmitz, B. (2001). Self-Monitoring zur Unterstützung des Transfers einer Schulung in Selbstregulation für Studierende. Eine prozessanalytische Untersuchung. Zeitschrift für Pädagogische Psychologie, 15(181-197). Schmölzer-Eibinger, S. (2013). Sprache als Medium des Lernens im Fach. In M. Becker-Mrotzek, K. Schramm & E. Thürmann (Hrsg.), Sprache im Fach. Sprachlichkeit und fachliches Lernen (S. 25–41). Münster: Waxmann. Schnell, R., Hill, P. B., & Esser, E. (2013). Methoden der empirischen Sozialforschung (10. Aufl.). München: Oldenbourg. Schnotz, W. (1979). Lerndiagnose als Handlungsanalyse. Weinheim: Beltz. Schöler, H., & Kany, W. (2009). Diagnostik schulischer Lern- und Leistungsschwierigkeiten: Ein Leitfaden. Stuttgart: Kohlhammer. Schorch, G. (2007). Studienbuch Grundschulpädagogik: Die Grundschule als Bildungsinstitution und pädagogisches Handlungsfeld (3. überarbeitete und erweiterte Auflage). Bad Heilbrunn: Klinkhardt. Schrader, F.-W. (1989). Diagnostische Kompetenzen von Lehrern und ihre Bedeutung für die Gestaltung und Effektivität des Unterrichts. Europäische Hochschulschriften: Vol. 289. Frankfurt am Main: Lang. Schrader, F.-W. (1997). Lern- und Leistungsdiagnostik im Unterricht. In F. E. Weinert (Hg.), Psychologie des Unterrichts und der Schule: Band 3. Enzyklopädie der Psychologie (S. 659–699). Göttingen: Hogrefe. Schrader, F.-W. (2008). Diagnoseleistungen und diagnostische Kompetenzen von Lehrkräften. In W. Schneider & M. Hasselhorn (Hrsg.), Handbuch der Pädagogischen Psychologie (S. 168–177). Göttingen: Hogrefe.

Literaturverzeichnis

293

Schrader, F.-W. (2013). Diagnostische Kompetenz von Lehrpersonen. Beiträge zur Lehrerbildung, 31(2), 154–165. Schrader, F.-W. (2014). Lehrer als Diagnostiker. In E. Terhart, H. Bennewitz & M. Rothland (Hrsg.), Handbuch der Forschung zum Lehrerberuf (S. 865–882). Münster: Waxmann. Schramm, K., Hardy, I., Saalbach, H., & Gadow, A. (2013). Wissenschaftliches Begründen im Sachunterricht. In M. Becker-Mrotzek, K. Schramm & E. Thürmann (Hrsg.), Sprache im Fach. Sprachlichkeit und fachliches Lernen (S. 295– 317). Münster: Waxmann. Schratz, M., Pant, H. A., & Wischer, B. (Hrsg.). (2012). Was für Schulen! Vom Umgang mit Vielfalt - Beispiele guter Praxis. Der Deutsche Schulpreis. Seelze-Velber. Schuck, K. D. (2014). Individualisierung und Standardisierung in der inklusiven Schule - ein unauflösbarer Widerspruch? Die Deutsche Schule, 106(2), 162– 174. Schwarz, J. (2011). Stichprobenziehung. Abgerufen von http://www.mesosworld.ch/lerninhalte/Grund_Stichprob/de/text/Grund_Stichprob.pdf* (zuletzt geprüft am: 23.03.2018). Scriven, M. (1967). The Methodology of Evaluation. Washington, DC: American Educational Research Association. Seidel, T. (2014). Lehrerhandeln im Unterricht. In E. Terhart, H. Bennewitz & M. Rothland (Hrsg.), Handbuch der Forschung zum Lehrerberuf (S. 781–806). Münster: Waxmann. Seidel, T., Schwindt, K., Rimmele, R., & Prenzel, M. (2008). Konstruktivistische Überzeugungen von Lehrpersonen: Was bedeuten sie für den Unterricht? In M. A. Meinert, M. Prenzel & S. Hellekamps (Hrsg.), Zeitschrift für Erziehungswissenschaft/ Sonderheft: Vol. 9. Perspektiven der Didaktik. Wiesbaden: Springer VS. Seifried, S. (2015). Einstellungen von Lehrkräften zu Inklusion und deren Bedeutung für den schulischen Implementierungsprozess – Entwicklung, Validierung und strukturgleichungsanalytische Modellierung der Skala EFI-L: Dissertation. Abgerufen von https://opus.ph-heidelberg.de/frontdoor/deliver/index/

294

Literaturverzeichnis

docld/140/file/Dissertation_Seifried_Stefanie.pdf* 26.03.2018).

(zuletzt

geprüft

am:

Selter, C. (o. A.). Diagnostische Gespräche. Abgerufen von https://kira.dzlm.de/ lernen-wie-kinder-denken/diagnostische-gespraeche* (zuletzt geprüft am: 20.03.2018). Selter, C., & Spiegel, H. (1997). Wie Kinder rechnen. Leipzig: Klett. Simon, J., & Simon, T. (2013). Inklusive Diagnostik – Wesenszüge und Abgrenzung von traditionellen "Grundkonzepten" diagnostischer Praxis. Eine Diskussionsgrundlage. Zeitschrift für Inklusion online, 4. Abgerufen von http:// www.inklusion-online.net/index.php/inklusion-online/article/view/26/26* (zuletzt geprüft am: 20.03.2018). Slavin, R. E., Hurley, E. A., & Chamberlain, A. M. (2003). Cooperative learning and achievement. In W. M. R. Reynolds & G. J. Miller (Hrsg.), Handbook of psychology. Educational psychology (S. 177–198). Hoboken, NJ: Wiley. Smit, R. (2009a). Die formative Beurteilung und ihr Nutzen für die Entwicklung von Lernkompetenz: Eine empirische Studie in der Sekundarstufe I. Schul- und Unterrichtsforschung: Bd. 10. Baltmannsweiler: Schneider Hohengehren. Smit, R. (2009b). Formative Beurteilung im kompetenz- und standardorientierten Unterricht. Beiträge zur Lehrerbildung, 26(3), 383–392. Smit, R., Bachmann, P., Blum, V., Birri, T., & Hess, K. (2017). Effects of a rubric for mathematical reasoning on teaching and learning in primary school. Instructional Science, 45(5), 603–622. https://doi.org/10.1007/s11251-0179416-2 Smit, R., & Engeli, E. (2017). Formative Beurteilung im jahrgangsübergreifenden Unterricht - The role of formative assessment in mixed-age teaching. Zeitschrift für Erziehungswissenschaft, 20(2), 279–303. Solzbacher, C. (2012). Jedem Kind gerecht werden? Sichtweisen und Erfahrungen von Grundschullehrkräften. Praxiswissen Unterricht. Köln: Link. Speck, K., Schubarth, W., & Seidel, A. (2007). Theorie-Praxis-Verhältnis in der zweiten Phase der Lehrerbildung. Empirische Befunde und theoretische Implikationen. In H. Giest (Hg.), Lehrerbildung, Lern- und Lehrforschungs-Berichte (S. 5–26). Potsdam: Universitätsverlag.

Literaturverzeichnis

295

Speck, O. (2008). System Heilpädagogik: Eine ökologisch reflexive Grundlegung (6., überarb. Aufl.). München, Basel: Reinhardt. Statistisches Landesamt des Freistaates Sachsen (Hg.). (2015). Allgemeinbildende Schulen im Freistaat Sachsen. Schuljahr 2014/15: Korrekturausgabe. Kamenz. Statistisches Landesamt des Freistaates Sachsen (Hg.). (2016a). Allgemeinbildende Schulen - Grundschulen. Kamenz. Statistisches Landesamt des Freistaates Sachsen (Hg.). (2016b). Statistisch betrachtet: Schulen in Sachsen - Ausgabe 2016. Kamenz. Staub, F. C., & Stern, E. (2002). The nature of teachers' pedagogical content beliefs matters for students' achievement gains: Quasi-experimental evidence from elementary mathematics. Journal of Educational Psychology, 94(2), 344–355. https://doi.org/10.1037//0022-0663.94.2.344 Stiensmeier-Pelster, J., & Heckhausen, H. (2010). Kausalattribution von Verhalten und Leistung. In J. Heckhausen & H. Heckhausen (Hrsg.), Springer-Lehrbuch. Motivation und Handeln (S. 389–426). Berlin, Heidelberg: Springer. Stiggins, R. J. (2002). Assessment Crisis: The Absence of Assessment for Learning. Phi Delta Kappan, 83(10), 758–765. https://doi.org/10.1177/003172170208301010 Stiggins, R. (2005). From Formative Assessment to Assessment FOR Learning: A Path to Success in Standards-Based Schools - Google-Suche: Phi Delta Kappan, 87(4), 324–328. Stiggins, R. (2010). Essential Formative Assessment Competencies for Teachers and School Leaders. In H. Andrade & G. J. Cizek (Hrsg.), Handbook of formative Assessment (S. 233–250). Routledge: New York. Stiggins, R., & Cappuis, S. (2005). Putting Testing in Perspective: It's for Learning. Principal Leadership, 6(2), 16–20. Stigler, J. W., & Hiebert, J. (1997). Understanding and Improving Classroom Mathematics Instruction: An Overview of the TIMSS Video Study. Phi Delta Kappan, 79(1), 14–21. Stipek, D. J., Givvin, K. B., Salmon, J. M., & MacGyvers, V. L. (2001). Teachers’ beliefs and practices related to mathematics instruction. Teaching and Teacher Education, 17(2), 213–226.

296

Literaturverzeichnis

Straub, D. W. (1989). Validating Instruments in MIS Research. MIS Quarterly, 13(2). Südkamp, A., Kaiser, J., & Möller, J. (2017). Ein heuristisches Modell der Akkuratheit dignostischer Urteile von Lehrkräften. In A. Südkamp & A.-K. Praetorius (Hrsg.), Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Diagnostische Kompetenz von Lehrkräften. Theoretische und methodische Weiterentwicklungen (S. 33–37). Münster: Waxmann. Südkamp, A., & Praetorius, A.-K. (Hrsg.). (2017). Diagnostische Kompetenz von Lehrkräften: Theoretische und methodische Weiterentwicklungen (1. Auflage). Pädagogische Psychologie und Entwicklungspsychologie: Vol. 94. Münster: Waxmann. Temme, D., & Hildebrandt, L. (2009). Gruppenvergleiche bei hypothetischen Konstrukten – Die Prüfung der Übereinstimmung von Messmodellen mit der Strukturgleichungsmethodik. zfbf, 61(2), 138–185. Terhart, E. (2006). Kompetenzen von Grundschullehrerinnen und -lehrern. In P. Hanke (Hg.), Grundschule in Entwicklung. Herausforderungen und Perspektiven für die Grundschule heute (S. 233–248). Münster: Waxmann. Terhart, E. (2014). Die Beurteilung von Schülern als Aufgabe des Lehrers: Forschungslinien und Forschungsergebnisse. In E. Terhart, H. Bennewitz & M. Rothland (Hrsg.), Handbuch der Forschung zum Lehrerberuf (S. 884–904). Münster: Waxmann. Thomé, D., & Thomé, G. (2017). OLFA 1-2: Oldenburger Fehleranalyse für die Klassen 1 und 2: Handbuch und Instrument (4., verbess. Auflage). Oldenburg: Isb. Thomé, G., & Thomé, D. (2017). OLFA 3-9: Oldenburger Fehleranalyse für die Klassen 3-9: Instrument und Handbuch zur Ermittlung der orthographischen Kompetenz und Leistung aus freien Texten und für die Planung und Qualitätssicherung von Fördermaßnahmen (5., verbess. Auflage). Oldenburg: Isb. Tierney, R. D. (2006). Changing practices: influences on classroom assessment. Assessment in Education: Principles, Policy & Practice, 13(3), 239–264. Topping, K. J. (2005). Trends in peer learning. Educational Psychology, 25(6), 631–645.

Literaturverzeichnis

297

Topping, K. J. (2010). Peers as a Source of Formative Assessment. In H. Andrade & G. J. Cizek (Hrsg.), Handbook of formative Assessment (S. 61–74). Routledge: New York. Trommsdorff, V. (1975). Die Messung von Produktimages für das Marketing: Grundlagen und Operationalisierung. Köln: Heymann. Urban, D., & Mayerl, J. (2011). Regressionsanalyse: Theorie, Technik und Anwendung (4., überarbeitete und erweiterte Auflage). Wiesbaden: Springer VS. van Evera, W. C. (2003). Achievement and motivation in the middle school science classroom: The effects of formative assessment feedback: ProQuest Dissertations And Theses. George Mason University. Ann Arbour. VBE (Hg.). (2017). FLOH-Lesefitness-Training: Domini Verlag. Viernickel, S. (2014). Beobachtung und Dokumentation. In Braches-Chyrek, R, Röhner C., H. Sünker & M. Hopf (Hrsg.), Handbuch Frühe Kindheit (S. 491– 502). Opladen: Budrich. Vock, M. & Gronostaj, A. (2017). Umgang mit Heterogenität in Schule und Unterricht: Friedrich-Ebert-Stiftung. Schriftenreihe des Netzwerk Bildung. Berlin. Abgerufen von http://library.fes.de/pdf-files/studienfoerderung/ 13277.pdf* (zuletzt geprüft am: 23.03.2018). Vollmers, B. (1997). Learning by doing - Piagets konstruktivistische Lerntheorie und ihre Konsequenzen für die pädagogische Praxis. International Review of Education, 43(1), 73–85. Voß, S., & Hartke, B. (2014). Curriculumbasierte Messverfahren (CBM) als Methode der formativen Leistungsdiagnostik im RTI-Ansatz. In M. Hasselhorn, W. Schneider & U. Trautwein (Hrsg.), Tests und Trends: Vol. 12. Lernverlaufsdiagnostik (S. 85–99). Göttingen: Hogrefe. Vygotsky, L. S. (1978). Mind in society: The development of higher psychological processes. Cambridge: Harvard University Press. Walm, M., Schultz, C., Häcker, T., & Moser, V. (2017). "Diagnostik und Leistungsbewertung im Dienste des Lernens" - Theoretische Perspektiven auf ein inklusives Entwicklungsfeld. In A. Textor, S. Grüter & Schiermeyer-Reichl, I., Streese, B. (Hrsg.), Leistung Inklusive? Inklusion in der Leistungsgesellschaft. Unterricht, Leistungsbewertung und Schulentwicklung (S. 113–120). Bad Heilbrunn: Klinkhardt.

298

Literaturverzeichnis

Walm, M. (2018). "Von der schulpädagogischen Leistungsbeurteilung und sonderpädagogischen Diagnostik zur kooperativen Lernförderung". Vortrag auf dem DGfE-Kongress am 19.03.2018, Essen. Walter, J. (2009). LDL: Lernfortschrittsdiagnostik Lesen. Ein curriculumsbasiertes Verfahren. Göttingen: Hogrefe. Walter, J. (2013). VSL: Verlaufsdiagnostik sinnerfassendes Lesen. Göttingen: Hogrefe. Wang, J., & Wang, X. (2012). Structural equation modeling: Applications using Mplus. New York: Wiley. Warwas, J., Hertel, S., & Labuhn, A. S. (2011). Bedingungsfaktoren des Einsatzes von adaptiven Unterrichtsformen im Grundschulunterricht. Zeitschrift für Pädagogik, 57(6), 854–867. Watkins, A. (Hg.). (2007). Assessment in inklusiven Schulen: Bildungspolitische und praxisorientierte Aspekte. Odense, Middelfart: European Agency for Development in Special Needs Education. Weiber, R. & Mühlhaus, D. (o. J.). Excel-Datei zur Berechnung der Reliabilitätskriterien. Abgerufen von http://www.strukturgleichungsmodellierung.de/index.php?id=184* (zuletzt geprüft am: 02.06.2017). Weiber, R., & Mühlhaus, D. (2014). Strukturgleichungsmodellierung. Eine anwendungsorientierte Einführung in die Kausalanalyse mit Hilfe von AMOS, SmartPLS und SPSS (2. Aufl.). Berlin: Springer. Wellenreuther, M. (2009). Forschungsbasierte Schulpädagogik: Anleitungen zur Nutzung empirischer Forschung für die Schulpraxis (1. Aufl.). Baltmannsweiler: Schneider Hohengehren. Wember, F. B. (2013). Herausforderung Inklusion: Ein präventiv orientiertes Modell schulischen Lernens und vier zentrale Bedingungen inklusiver Unterrichtsentwicklung. Zeitschrift für Heilpädagogik, 64(10), 380–388. West, S. G., Finch, J. F., & Curran, P. J. (1995). Structural equation models with nonnormal variables: Problems and remedies. In R. H. Hoyle (Hg.), Structural equation modeling (S. 56–75). London: Sage. Wildt, M. (2009). Wo stehe ich? – wo will ich hin? Lernlandkarten als Mittel zur Selbsteinschätzung und Selbststeuerung. Lernchancen, 71, 4–7.

Literaturverzeichnis

299

Wiliam, D. (2000). Formative assessment in mathematics part 3: the learner’s role. Equals: Mathematics and Special Educational Needs, 6(1), 19–22. Wiliam, D. (2007). Keeping learning on track: Formative assessment and the regulation of learning. Abgerufen von https://www.researchgate.net/publication/ 252646685_Keeping_learning_on_track_Formative_assessment_and_the_regulation_of_learning* (zuletzt geprüft am: 20.03.2018). Wiliam, D. (2009). Assessment for learning: why, what and how? An inaugural professional lecture by Dylan Wiliam. Leading education and social research. London: Institute of Education. Wiliam, D. (2010). An Integrative Summary of the Research Literature and Implications for a New Theory of Formative Assessment. In H. Andrade & G. J. Cizek (Hrsg.), Handbook of formative Assessment (S. 18–40). Routledge: New York. Wiliam, D. (2011). What is assessment for learning? Studies in Educational Evaluation, 37(1), 3–14. https://doi.org/10.1016/j.stueduc.2011.03.001 Wiliam, D. & Leahy, S. (2006). A Theoretical Foundation for Formative Assessment: Paper presented at the annual meeting of the American Educational Research Association (AERA) and the National Council on Measurement in Education (NCME). Abgerufen von http://www.ets.org/research/aerancme06* (zuletzt geprüft am: 17.08.2017). Winter, F. (2004). Leistungsbewertung: eine neue Lernkultur braucht einen anderen Umgang mit den Schülerleistungen. Baltmannsweiler: Schneider Hohengehren. Winter, F. (2015). Lerndialog statt Noten: Neue Formen der Leistungsbeurteilung. Pädagogikpraxis. Weinheim: Beltz. Wischer, B., & Trautmann, M. (2012). Innere Differenzierung als reformerischer Hoffnungsträger - Eine einführende Problemskizze zu Leerstellen und ungelösten Fragen. In T. Bohl, M. Bönsch, M. Trautmann & B. Wischer (Hrsg.), Reihe: Theorie und Praxis der Schulpädagogik: Vol. 17. Didaktische Grundlagen und Forschungsergebnisse zur Binnendifferenzierung im Unterricht (S. 24–38). Immenhausen bei Kassel: Prolog-Verlag.

300

Literaturverzeichnis

Wischer, B., & Trautmann, M. (2014). 'Individuelle Förderung' als bildungspolitische Reformvorgabe und wissenschaftliche Herausforderung. Die Deutsche Schule, 106(2), 105–118. Xylander, B., & Heusler, M. (2007). Bilanz- und Zielgespräche. Rückmeldung und Bewertung auf der Basis von Selbsteinschätzung, Logbuch und Zielvereinbarung. Pädagogik, 59(7/8), 18–21. Yin, Y., Shavelson, R. J., Ayala, C. C., Ruiz-Primo, M. A., Brandon, P. R., Furtak, E. M., Tomita, M. K., & Young, D. B. (2008). On the Impact of Formative Assessment on Student Motivation, Achievement, and Conceptual Change. Applied Measurement in Education, 21(4), 335–359. https://doi.org/10.1080/08957340802347845 Zimmerman, B. J. (2000). Attaining self-regulation: a social cognitive perspective. In M. Boekaerts, P. R. Pintrich & M. Zeidner (Hrsg.), Handbook of Self-Regulation (S. 13–39). San Diego: Academic Press. Zimmerman, B. J., & Pons, M. M. (1986). Development of a structured interview for assessing student use of self-regulated learning strategies. American Educational Research Journal, 23(4), 614–628.