Das Burnout-Inventar misst 10 Dimensionen und genügt als einziges auf deutsch online verfügbares Instrument wissenschaft
604 103 963KB
German Pages IX, 44 [52] Year 2020
Table of contents :
Front Matter ....Pages I-IX
Überblick über das Hamburger Burnout-Inventar (HBI) (Matthias Burisch)....Pages 1-1
Theoretische Grundlagen und Anwendungszwecke (Matthias Burisch)....Pages 3-6
Testkonstruktion (Matthias Burisch)....Pages 7-8
Psychometrische Eigenschaften (Matthias Burisch)....Pages 9-38
Auswertung und Normierung (Matthias Burisch)....Pages 39-40
Einsatz und Durchführung (Matthias Burisch)....Pages 41-41
Interpretation (Matthias Burisch)....Pages 43-44
Springer Tests
Matthias Burisch
HBI – Hamburger Burnout-Inventar Manual
SpringerTests
pringerTests – unsere psychologischen Testverfahren für diverse AnwendungsS bereiche bieten: • Qualität durch transparente Gütekriterien und Orientierung an DIN 33430 • Testdurchführung digital oder mit (einer) Paper-Pencil-Version • Digitale Anwendung auf moderner Testplattform: Individualisierbares Dashboard, Testung auch auf Tablet/Smartphone, vielfältige Auswertungsfunktionen und übersichtliche Ergebnisdarstellung • Kontinuierliche Weiterentwicklung und Verbesserung der Plattform • Weitere Informationen auf springertests.de
Weitere Bände in der Reihe http://www.springer.com/series/16508
Matthias Burisch
HBI – Hamburger Burnout-Inventar Manual
Matthias Burisch Burnout-Institut Norddeutschland Moorrege, Deutschland
ISSN 2662-7612 ISSN 2662-7620 (electronic) SpringerTests ISBN 978-3-662-61689-5 ISBN 978-3-662-61690-1 (eBook) https://doi.org/10.1007/978-3-662-61690-1 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Umschlaggestaltung: debilk Berlin Planung/Lektorat: Alexander Horn Springer ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Vorwort und Danksagungen
Dieses Projekt begann vor fast vier Jahrzehnten. Anfang der achtziger Jahre hatte ich den Forschungsgegenstand Burnout über mehrere Wege für mich entdeckt. In den USA hatte dieser schon seit 1974 lauffeuerartig öffentliches Interesse gefunden, aber die ersten Veröffentlichungen dazu waren schwer zu beschaffen; sie waren großenteils in abgelegenen Zeitschriften erschienen, und es dauerte Monate, auch nur Fotokopien von ihnen zu beschaffen. Immerhin war mir früh klar geworden, dass mich das Thema mindestens für eine Weile beschäftigen würde. Es hat seitdem angehalten. Spätestens 1984 begann ich, ernsthafter über die Messung von Burnout nachzudenken. Zwar war mein erstes Buch (Das Burnout-Syndrom) noch lange nicht fertig, geschweige denn erschienen; das würde noch ein paar Jahre dauern. Aber ich hatte, mehr als Fingerübung, eine kleine, nur halb-ernstgemeinte Studie zum Maslach Burnout Inventory (MBI) und dem Tedium Measure abgeschlossen, den damals und leider immer noch populärsten Burnout-Fragebögen. Diese Studie (Burisch 1984) war für das MBI, vorsichtig formuliert, wenig ermutigend ausgegangen; sie wurde nie veröffentlicht. Weder die MBI-Autorinnen noch die vielen anderen Forscher beiderlei Geschlechts, die sich auf das Thema Burnout stürzten, waren Psychometriker. Da fielen die Schwachstellen des MBI lange nicht auf. So konnte sich das Instrument, erstmals 1981 veröffentlicht, rasch als unersetzlicher „Goldstandard“ der Burnout-Messung etablieren. Ein solcher Status ist schwer zu revidieren. Im englischen Sprachraum dürfte es dafür zu spät sein. Ich selber hatte angefangen, schon lange, bevor mein Buch dann Ende 1988 endlich abgeschlossen war und einen Verlag suchte, mich der Messung von Burnout ernsthafter zuzuwenden. Das war ein logischer Schritt. Die Burnout-Forschung, die ich in Form von mehr als 500 Veröffentlichungen durchmusterte, stand schon wegen der verwendeten Messinstrumente auf methodisch äußerst instabilen Grundlagen; das hat sich bis heute kaum geändert. Und mit Persönlichkeitsmessung mittels Fragebögen hatte ich mich ja ein Jahrzehnt früher in meiner Dissertation beschäftigt. Alles sprach also dafür, hier einen Versuch zu unternehmen.
V
VI
Vorwort und Danksagungen
Erste Anfänge Ein naheliegender Schritt also durchaus, aber gewiss nicht mit der Absicht begonnen, ein ganzes Burnout-Inventar zu entwickeln. Das ergab sich eher ungeplant. Ich hatte nämlich im Wintersemester 1984/85 am Fachbereich Psychologie in Hamburg erstmals ein reguläres Seminar zum Thema Burnout angekündigt; damals ging so etwas noch. Es fand ungewöhnlich starkes Interesse bei den Studierenden, auch wenn die normale Schrumpfung auf der Anwesenheitsliste nicht ausblieb, sobald klar wurde, dass weder eine Therapie-, noch eine Selbsthilfegruppe vorgesehen war. Um diese Zeit lernte ich drei spätere Diplomandinnen kennen, von denen nur eine, Felicitas Frühauf (1990), ihr Projekt mit einer regulären Diplomarbeit auch dokumentierte. Kirsten Steinhoff sammelte und hinterließ noch Daten, die später in die Normstichprobe des Hamburger Burnout-Inventars (HBI) einfließen würden, brach später aber ihr Studium ab. Sie hatte das HBI um das Item „Ich stecke in einer Krise, aus der ich momentan keinen Ausweg finde“ ergänzt, das aus meiner Längsschnittstudie in Krankenpflegeschulen (Burisch 2002) stammte und seither als globales Screening-Item 40 das HBI abschließt. Bianka Giesa war die erste Mitstreiterin gewesen; mit ihr saß ich viele Stunden zusammen, um über Burnout-Facetten und Testitems zu diskutieren. Auch sie beendete ihr Studium vorzeitig.
Spätere Entwicklungen Das neue Jahrtausend brachte fünf weitere Projekte: • Maren Hagge (2005) verglich die Validität des HBI mit der des NEO FFI und des Oldenburg Burnout Inventory (OLBI). • Friedrich von Herder (2011) ermittelte erstmals die Retest-Reliabilität des Instruments, auch stellte er einen Vergleich mit dem Arbeitsbezogenen Verhaltens- und Erlebensmuster (AVEM-44) an. Der Autor des AVEM, Uwe Schaarschmidt, stellte hilfreiches Material zur Verfügung. • Anna-Maria Tolke (2013) von der Universität Kiel versuchte, das HBI um zwei zusätzliche Konstrukte, „Sinnverlust“ und „Engagement“, zu erweitern. Dafür sammelte sie eine weitere Stichprobe im norddeutschen Raum. • Ulli Weber (2014) setzte das HBI in seiner Dissertation ein, die ein Burnout-Präventionsprogramm auf Basis individueller Selbsthilfe beforschte. Das HBI diente dabei als ein Instrument zur Evaluation der Wirksamkeit, neben dem AVEM. Sein umfangreicher Datensatz lieferte eine willkommene Absicherung der Binnenstruktur des Fragebogens. • Manuela Mielke (2014) konnte das HBI erstmals im klinischen Kontext erproben; leider erlaubten dessen Rahmenbedingungen nur eine sehr kleine Stichprobe von Psychotherapie-Klienten.
Vorwort und Danksagungen
VII
Eine gewisse internationale Bekanntheit erlangte das HBI ab 2004, nach einem Vortrag in der Schweiz. Dieser war von zwei Schweizer Experten organisiert gewesen, Frank Petermann und Alexander Harbaugh, die später zu Freunden wurden. Sie gründeten SwissBurnout, eine Internet-Plattform, auf der das Inventar bis 2013 stand, und zwar zusätzlich zur deutschen in einer englischen und einer französischen Version. An der französischen war auch Catherine Vasey beteiligt, die englische wurde später von Rainer Kurz überarbeitet. Das HBI erfreute sich in diesen Jahren der enormen Popularität des Mediums Internet, zumal eine Sofort-Auswertung gratis angeboten wurde. Zum Zeitpunkt der Stilllegung waren mehr als 300.000 Fragebögen eingegangen. (Eine unveröffentlichte Analyse der ersten 16.273 bzw. 14.123 Protokolle ist beim Verfasser erhältlich.) Einige Informationen zu den deutschsprachigen Daten finden sich in Abschn. 4.3.3.1 dieses Manuals. Parallel dazu hatte ich, ermuntert und unterstützt von einigen Freunden und Weggefährten, 2010 das Burnout-Institut Norddeutschland (BIND) gegründet. Auf dessen Website ist seither, neben vielerlei Informationsmaterial, auch das HBI zugänglich. Da den Nutzern dieses kostenpflichtigen Angebots vollständige Vertraulichkeit zugesichert wurde und wird, lasse ich die dort gesammelten Daten unanalysiert. Schließlich lieferte mir Erich Hotter, ein Grazer Unternehmensberater, drei außergewöhnlich umfangreiche HBI-Stichproben, in Online-Umfragen erhoben: Von 774 Rechtsanwälten und Anwältinnen (2009), 6249 Ärztinnen und Ärzten (2011) sowie 10.674 Lehrerinnen und Lehrern (2016), sämtlich aus Österreich. Von ihnen wird in Abschn. 4.3.3.2 die Rede sein. Schließlich geht es in Abschn. 4.3.3.3 um einen großen Datensatz, den Prof. Helmut Peter und Dipl.-Psych. Stefanie Franck von der VT Falkenried beisteuerten, einem Medizinischen Versorgungszentrum in Hamburg, welches das HBI seit Jahren im Rahmen von Erstuntersuchungen und Verlaufskontrollen einsetzt. Das HBI wurde für eine ganze Reihe weiterer Projekte angefordert und vermutlich auch eingesetzt; bekannt geworden sind mir nur die Veröffentlichungen von Frick und Filipp (1997) und Wurm et al. (2016). Seit 2010 ist eine Kurzversion des HBI, das HBI21, auf der Website http:// www.cconsult.info/selbsttest/burnout-test.html kostenlos nutzbar. Dieses Angebot ist Dr. Susanne Roscher und Dr. Ralf Schweer zu verdanken. Als der Springer-Verlag, wo schon meine ersten beiden Bücher erschienen waren, diese Test-Publikation vorschlug, habe ich zunächst gezögert. Denn das, was ich wissenswert über das HBI fand, hatte ich schon 2007 niedergeschrieben und 2017 aktualisiert, allerdings auf Englisch und in Form eines kürzeren, informellen Manuskripts auf der Website des BIND. Die Annäherung an die Anforderungen einer Verlagspublikation kostete dann doch mehr Zeit als erwartet; auch mussten teils jahrzehntealte Datensätze in längst ausgestorbenen Computersprachen reanimiert werden.
VIII
Vorwort und Danksagungen
Allen, die auf die eine oder andere Weise zu diesem Testmanual beigetragen haben, sei an dieser Stelle noch einmal herzlich gedankt! Selbstverständlich gehen mögliche Irrtümer oder Fehler allein auf mein Konto. Ich wünsche dem HBI viele Nutzer beiderlei Geschlechts. Matthias Burisch
Literatur Aronson, E., Pines, A. M., & Kafry, D. (1983). Ausgebrannt. Stuttgart: Klett-Cotta. Burisch, M. (1984). The Maslach Burnout Inventory and the Tedium Measure: Reliability and validity in a German sample. Unveröff. Ms. Burisch, M. (2002). A longitudinal study of burnout: The relative importance of dispositions and experiences. Work & Stress, 16, 1–17. Burisch, M. (2014). Das Burnout-Syndrom. Theorie der inneren Erschöpfung (5. Aufl.). Heidelberg: Springer. Franck, S., & Peter, H. (2019). Unveröff. Datensatz. Frick, U., & Filipp, G. (1997). Gesundheitsberufe im Land Salzburg. Berufs- und Lebenssituation. Salzburg: Amt der Salzburger Landesregierung. Frühauf, F. (1990). Entwicklung eines deutschen Burnout-Inventars. Unveröff. Abschlussarb. Universität Hamburg. Hagge, M. (2005). Vergleich zweier deutscher Burnout-Inventare. Unveröff. Abschlussarb. Universität Hamburg. Hotter, E. (2009, 2011, 2016). Unveröff. Datensätze. Maslach, C., Jackson, S.E., & Leiter, M.P. (1996). Maslach Burnout Inventory Manual (3. Aufl.). Palo Alto: Consulting Psychologists Press. Mielke, M. (2014). Die Validität des Hamburger Burnout-Inventars im Klinischen Kontext. Unveröff. Abschlussarb. Universität Hamburg. Schaarschmidt, U., & Fischer, A.W. (2008). AVEM. Arbeitsbezogenes Verhaltensund Erlebensmuster. London: Pearson. Steinhoff, K. (1991). Unveröff. Datensatz. Tolke, A.-M. (2013). Erweiterung eines bestehenden Burnout-Inventars. Effekte auf Reliabilität und Validität. Unveröff. Abschlussarb. Universität Kiel. von Herder, F. (2011). Das Hamburger Burnout-Inventar (HBI). Eine Studie zu Retestreliabilität und Korrelaten. Unveröff. Abschlussarb. Universität Hamburg. Weber, U. (2014). Burnout-Prävention im Internet. Konzeption und Evaluation eines Online-Präventionsprogramms. Unveröff. Dissertation, Universität Hamburg. Wurm, W., Vogel, K., Holl, A., Ebner, C., Bayer, D., Mörkl, S., et al. (2016). Depression-burnout overlap in physicians. PLoS ONE 11(3), e0149913. https:// doi.org/10.1371/journal.pone.0149913.
Inhaltsverzeichnis
1 Überblick über das Hamburger Burnout-Inventar (HBI) . . . . . . . . . . 1 2 Theoretische Grundlagen und Anwendungszwecke . . . . . . . . . . . . . . . 3 2.1 Theoretische Grundlagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Anwendungszwecke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Anwendungsgrenzen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3 Testkonstruktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4 Psychometrische Eigenschaften. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4.1 Binnenstruktur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.1.1 Verwendete Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.1.2 Faktorenanalysen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.1.3 Itemanalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.1.4 Interkorrelationen der HBI-Skalen. . . . . . . . . . . . . . . . . . . . . 16 4.1.5 Reliabilität. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2.1 Was ist Validität?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2.2 Validierung des HBI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.3 Ergänzende Informationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.3.1 Validitätsvergleiche mit anderen Instrumenten. . . . . . . . . . . 25 4.3.2 Zusammenhänge mit anderen Instrumenten . . . . . . . . . . . . . 26 4.3.3 Einige große internationale HBI-Stichproben. . . . . . . . . . . . 30 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5 Auswertung und Normierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.1 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2 Normierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6 Einsatz und Durchführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 7 Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
IX
1
Überblick über das Hamburger Burnout-Inventar (HBI)
Das Hamburger Burnout-Inventar (HBI) wurde in den neunziger Jahren als erster deutscher Fragebogen zum Thema von Grund auf neu entwickelt. Es bildet die vier Konstrukte der beiden gebräuchlichsten amerikanischen Inventare ab, ergänzt durch sechs weitere Konstrukte und ein Einzel-Item, das als grobes Screening-Instrument dienen kann. Insgesamt umfasst das HBI 40 Items; es liefert so mit geringem Aufwand relativ viel differenzierte Information, zumal die Skalen nicht allzu hoch korrelieren. Die Validität für das Kriterium Peer-Ratings wurde in mehreren Studien geprüft, für fast alle Skalen ist sie zumindest zufriedenstellend. Dasselbe gilt für die Innere Konsistenz und die Retest-Reliabilität. Die zehn Rohscores können nichtlinear in Stanines transformiert werden. Die Normstichprobe umfasst 296 Probandinnen und 320 Probanden (insgesamt also 616) und ist vermutlich einigermaßen repräsentativ für deutsche Erwachsene. Das Instrument, das auch auf Englisch und Französisch vorliegt, wurde von mehr als 300.000 Probanden aus allen Kontinenten der Erde bearbeitet, die freilich wegen Selbstselektion die entsprechenden Populationen nur stark verzerrt vertreten. Grundlage des HBI ist die Klassische Testtheorie.
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Burisch, HBI – Hamburger Burnout-Inventar, SpringerTests, https://doi.org/10.1007/978-3-662-61690-1_1
1
2
Theoretische Grundlagen und Anwendungszwecke
Inhaltsverzeichnis 2.1 Theoretische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Anwendungszwecke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Anwendungsgrenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1 Theoretische Grundlagen Die begrifflichen Grundlagen des Hamburger Burnout-Inventars (HBI), insbesondere die Spezifikation des Konstrukts Burnout, wurden ausführlich an anderem Orte dargelegt (Burisch 2014). Hier mögen die folgenden Informationen genügen: • Burnout wird aufgefasst als ein Prozess, der meist mit unauffälligen Warnsymptomen beginnt und im Prinzip jederzeit gestoppt werden kann, auch wenn ein solches Stoppen im Verlauf immer schwieriger und damit unwahrscheinlicher wird. • Burnout-Prozesse können abbrechen und erneut aufflammen. • Wird der Prozess nicht gestoppt, kann das zu einer schweren Krise führen, die schlimmstenfalls in einen Suizid(versuch) mündet. • Der Prozess wird wahrscheinlich durch gewisse Vulnerabilitätsfaktoren (z. B. hohe Anforderungen an sich selbst) begünstigt. Er äußert sich in einigen charakteristischen Symptomen, vor allem emotionaler (z. B. Erschöpfung) und attitudinaler Art (z. B. Distanziertheit). • Zwischen eher disponierenden Faktoren einerseits und Reaktionsstilen andererseits wird im HBI nicht unterschieden. Die Verläufe können von Fall zu Fall sehr unterschiedlich sein.
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Burisch, HBI – Hamburger Burnout-Inventar, SpringerTests, https://doi.org/10.1007/978-3-662-61690-1_2
3
4
2 Theoretische Grundlagen und Anwendungszwecke
• Aus diesem Grunde wird auch die Verwendung eines Gesamt-Punktwerts aus den zehn Einzelwerten für die meisten Anwendungsfälle nicht empfohlen. • Es wird nicht angenommen, dass die im HBI angesprochenen Inhalte das Syndrom vollständig abbilden. Die Auswahl erfolgte pragmatisch nach vermuteter Relevanz und nach Machbarkeit. Aus ebendiesen Gründen wurde bei der Konzeption des HBI auf die Konstrukte der beiden bekanntesten existierenden Instrumente nicht verzichtet: die drei des Maslach Burnout Inventory (MBI; Maslach et al. 1996) – Emotionale Erschöpfung, Leistungsunzufriedenheit und Depersonalisation – und das eine des Tedium Measure (TM; Aronson et al. 1983) – Überdruss. Diese beiden Fragebögen nämlich dominieren die Burnout-Forschung schon seit deren Anfängen; in Schaufeli und Enzmanns (1998, S. 71) immer noch gültiger Übersicht machen sie 93 % bzw. 5 % der einschlägigen Publikationen aus. Das dürfte nicht nur forschungsökonomische Gründe haben. Es wurden nun aber nicht die vor allem im MBI ziemlich heterogenen Iteminhalte der genannten Skalen paraphrasiert, zumal diese weder im amerikanischen Original, noch in deutschen Übersetzungen durchgehend gut zu den Skalenbenennungen passen. Die Bezeichnung Depersonalisation wurde von vornherein ganz fallengelassen, weil diese als psychiatrischer Fachterminus etwas ganz anderes bedeutet; sie wurde durch Distanziertheit ersetzt (vgl. a. Enzmann 1996). Um die Entscheidung für eine inhaltliche Neukonzeption zu begründen, je ein besonders wenig überzeugendes Beispiel-Item aus MBI und TM: • Emotionale Erschöpfung (MBI): „Ich finde, dass ich in meinem Beruf zu viel arbeite“ • Leistungs(un)zufriedenheit (MBI): „Ich fühle mich energiegeladen“ • Depersonalisation (MBI): „Ich habe das Gefühl, dass meine Patienten manche ihrer Probleme mir anlasten“ • Überdruss (TM): „körperlich erschöpft sein“. Statt die Inhalte der MBI-Skalen zu duplizieren, versuchten wir, die Skalennamen sozusagen „wörtlich“ zu nehmen und in Items zu übersetzen. Zum Vergleich je ein HBI-Item aus den entsprechenden Skalen: • Emotionale Erschöpfung (HBI): „Ich fühle mich erschöpft und kraftlos“ • Leistungs(un)zufriedenheit (HBI): „Mit meinen Leistungen kann ich mich sehen lassen“ • Depersonalisation/Distanziertheit (HBI): „Im Umgang mit den meisten anderen bleibe ich lieber auf Distanz“ • Überdruss (HBI): „Oft habe ich meine Arbeit gründlich satt“.
2.3 Anwendungsgrenzen
5
2.2 Anwendungszwecke Ähnlich wie das MBI und das TM ist das HBI für allem für zwei Einsatzzwecke gedacht: Forschung und Selbstvergewisserung. Mit „Forschung“ ist nicht primär die immer noch beliebte Praxis gemeint, Angehörige einer spezifischen Berufs- oder Patientengruppe zu „analysieren“, um deren besonderen Belastungsgrad zu dokumentieren – obwohl sich das HBI für solche Zwecke, da normiert, sogar besser eignen würde. Sinnvoller erscheinen z. B. Längsschnittuntersuchungen wie die Krankenpflege-Studie von Burisch (2002; für diese mussten noch MBI und TM eingesetzt werden, weil das HBI erst nach dem Startzeitpunkt verfügbar wurde) oder Wirksamkeitsanalysen wie die von Weber (2014). In Abschn. 4.3.3.5 wird als Beispiel für solche Erfolgskontrollen ein Datensatz von Patienten vorgestellt, die das HBI vor und nach Verhaltenstherapie bearbeiteten. „Sich selbst den Puls zu fühlen“, ist, zweitens, wahrscheinlich der häufigste Anwendungszweck vieler Persönlichkeitstests, vor allem der unseriöseren Art, z. B. des Myers-Briggs Type Indicator (MBTI; vgl. z. B. Emre 2018). Immerhin, es ist ein legitimes Interesse, den eigenen Leidensdruck mit dem Anderer zu vergleichen. Drittens kann das HBI eine Entscheidungshilfe liefern bei der Frage, ob im Einzelfall eine Therapie, vor allem wegen Burnout, angezeigt ist. Letztendlich wird aber jeder Therapeut hier seinem eigenen Eindruck folgen. Und schließlich kann das HBI, vor allem bei Beratungen und am Anfang von Therapien, Explorationszeit sparen, insbesondere bei Klienten und Patienten mit wenig Übung in der Formulierung eigener Probleme.
2.3 Anwendungsgrenzen In zehn Items des HBI taucht das Wort Arbeit (oder arbeiten) auf. Damit ist selbstverständlich nicht allein Erwerbsarbeit gemeint. Unter den Benutzern, die den Fragebogen seinerzeit auf der Internet-Seite von SwissBurnout bearbeiteten, waren zahlreiche Hausfrauen, Schüler und Studenten, was zeigt, dass dies auch nicht missverstanden wurde. Einzig frühere Arbeitnehmer im Ruhestand könnten sich ausgeschlossen fühlen. Aber auch solche Menschen verrichten offenbar Tätigkeiten, die sie als Arbeit empfinden; jedenfalls gab es durchaus auch Nutzer dieser Gruppe, ohne dass Probleme bekannt geworden wären. Ähnlich breit stellt sich das Anwendungsgebiet in Bezug auf das Alter dar. In der Normstichprobe finden sich Probanden zwischen 15 und 80 Jahren. Ob eine fünfzehnjährige Schülerin die Fragebogenitems gleich auffasst wie ein siebzigjähriger Pensionär, ist selbstverständlich nicht gesichert. Die analoge Frage bleibt aber auch bei anderen Instrumenten offen, die auf Selbsteinschätzungen beruhen.
6
2 Theoretische Grundlagen und Anwendungszwecke
Literatur Aronson, E., Pines, A. M., & Kafry, D. (1983). Ausgebrannt. Stuttgart: Klett-Cotta. Burisch, M. (2002). A longitudinal study of burnout: The relative importance of dispositions and experiences. Work & Stress, 16, 1–17. Burisch, M. (2014). Das Burnout-Syndrom. Theorie der inneren Erschöpfung (5. Aufl.). Heidelberg: Springer. Emre, M. (2018). The personality brokers. New York: Doubleday. Enzmann, D. (1996). Gestresst, erschöpft oder ausgebrannt? München: Profil. Maslach, C., Jackson, S. E., & Leiter, M. P. (1996). Maslach Burnout Inventory Manual (3. Aufl.). Palo Alto: Consulting Psychologists Press. Schaufeli, W. B., & Enzmann, D. (1998). The burnout companion to study & practice. Chichester: Taylor & Francis. Weber, U. (2014). Burnout-Prävention im Internet. Konzeption und Evaluation eines Online-Präventionsprogramms. Unveröff. Dissertation, Universität Hamburg.
3
Testkonstruktion
Inhaltsverzeichnis Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
In Zusammenarbeit mit Diplomandinnen entstanden ca. 200 Items zu mehr als 30 Sub-Konstrukten, die wir einer allerersten studentischen Stichprobe vorlegten. Diese erste Bewährungsprobe überlebten zunächst noch 81 Items, die dann Felix Frühauf (1990) einer größeren Stichprobe von 238 Berufstätigen und 75 Psychologiestudierenden vorlegte. (Zu dieser Zeit waren Hamburger Psychologiestudierende fast ausnahmslos mindestens in Teilzeit arbeitstätig; die beiden Teilstichproben unterschieden sich in Bezug auf die Fragebogenskalen denn auch kaum.) Durch Faktoren- und Itemanalysen wurde eine vorläufige Endform aus 39 Items in zehn Skalen (Skalenlänge jeweils in Klammern) destilliert: 1. Emotionale Erschöpfung (5) 2. Leistungsunzufriedenheit (3) 3. Distanziertheit (4) 4. Depressive Reaktion auf emotionale Belastungen (3) 5. Hilflosigkeit (4) 6. Innere Leere (4) 7. Arbeitsüberdruss (5) 8. Unfähigkeit zur Entspannung (3) 9. Selbstüberforderung (5) 10. Aggressive Reaktion auf emotionale Belastung (3). Spätere Versuche von Anna-Maria Tolke (2013), zwei weitere Konstrukte (Sinnverlust und Engagement) anzufügen, verliefen wenig ermutigend. Auch von einer Handvoll Items, die die bestehenden Skalen ergänzen sollten, überzeugten
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Burisch, HBI – Hamburger Burnout-Inventar, SpringerTests, https://doi.org/10.1007/978-3-662-61690-1_3
7
8
3 Testkonstruktion
in diesem Projekt nur wenige. So blieb denn das HBI einstweilen unverändert in seiner ursprünglichen Form. Eine Ausnahme: Erstmals in der Erhebung von Kirsten Steinhoff (1991), die weitere 182 Fragebögen und je drei Peer-Ratings sammelte, bildete das zusätzliche Item 40 („Ich stecke in einer Krise, aus der ich momentan keinen Ausweg finde“) den Burnout-Globalindikator, der keiner der zehn Skalen zugeordnet wird. Er korreliert in der Normstichprobe (abzüglich der ersten Teilstichprobe von Frühauf), extrem schief verteilt, am höchsten mit der Skala HILFLOSIGKEIT (r = .54), was inhaltlich Sinn macht. Er ist seither durchgängig das Abschluss-Item des HBI. Die ersten beiden Stichproben (Frühauf 1990; N = 313, und Steinhoff 1991; N = 182) wurden später ergänzt von Maren Hagge (2005; N = 77) und Moritz von Herder (2011; N = 44). Die Normstichprobe besteht somit aus 616 Probandinnen (55 %) und Probanden (45 %). Zur Zusammensetzung der Teil-Stichproben s. u. Abschn. 4.1.1.1. Die Items des HBI werden auf 7-stufigen Skalen vom Likert-Typ beantwortet (7 = völlig zutreffend, 6 = weitgehend zutreffend, 5 = eher zutreffend, 4 = weder-noch bzw. weiß nicht, 3 = eher unzutreffend, 2 = weitgehend unzutreffend, 1 = völlig unzutreffend).
Literatur Frühauf, F. (1990). Entwicklung eines deutschen Burnout-Inventars. Unveröff. Abschlussarb. Universität Hamburg. Hagge, M. (2005). Vergleich zweier deutscher Burnout-Inventare. Unveröff. Abschlussarb. Universität Hamburg. Steinhoff, K. (1991). Unveröff. Datensatz. Tolke, A.-M. (2013). Erweiterung eines bestehenden Burnout-Inventars. Effekte auf Reliabilität und Validität. Unveröff. Abschlussarb. Universität Kiel. von Herder, F. (2011). Das Hamburger Burnout-Inventar (HBI). Eine Studie zu Retestreliabilität und Korrelaten. Unveröff. Abschlussarb. Universität Hamburg.
4
Psychometrische Eigenschaften
Inhaltsverzeichnis 4.1 Binnenstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.1.1 Verwendete Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 4.1.2 Faktorenanalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.1.3 Itemanalysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.1.4 Interkorrelationen der HBI-Skalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.1.5 Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2.1 Was ist Validität? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.2.2 Validierung des HBI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.3 Ergänzende Informationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.3.1 Validitätsvergleiche mit anderen Instrumenten . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.3.2 Zusammenhänge mit anderen Instrumenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3.3 Einige große internationale HBI-Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
• Abschn. 4.1 stellt die faktorenanalytisch bestätigte Binnenstruktur des HBI dar. Die Analysen basieren auf zwei separaten Stichproben, die in Abschn. 4.1.1 beschrieben werden: der Normstichprobe (Abschn. 4.1.1.1) und der sog. Burnout-Stichprobe (Abschn. 4.1.1.2). • Faktorenanalysen (Abschn. 4.1.2) führten zu gut interpretierbaren und weitgehend stabilen 7-Faktoren-Lösungen. Aus inhaltlichen Gründen wurde jedoch die differenziertere Struktur mit zehn Skalen beibehalten, von denen drei den ersten und zwei weitere den vierten Faktor ausmachen. • Itemanalysen (Abschn. 4.1.3) bestätigten die Haltbarkeit dieser Entscheidung weitgehend. Beinahe überall korrelieren die Items maximal mit der eigenen Skala, auch wenn die Fremd-Trennschärfen oft hoch sind. • Dementsprechend hoch liegen auch die Skalen-Interkorrelationen (Abschn. 4.1.4), die die inhaltlichen Zusammenhänge der HBI-Konstrukte widerspiegeln. • Die Inneren Konsistenzen (Cronbachs α) werden in Abschn. 4.1.5 dargestellt.
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Burisch, HBI – Hamburger Burnout-Inventar, SpringerTests, https://doi.org/10.1007/978-3-662-61690-1_4
9
10
4 Psychometrische Eigenschaften
• Abschn. 4.2 Validität beginnt mit einer allgemeinen Diskussion der Validierungsmöglichkeiten von Persönlichkeitstests und plädiert für das Kriterium Peer-Ratings (Abschn. 4.2.1). • Abschn. 4.2.2 stellt die bislang vorliegenden Validitäts-Studien für das HBI dar. • Es folgen ergänzende Informationen zu Korrelaten des HBI (Abschn. 4.3.1), im Wesentlichen zu anderen, bereits etablierten Fragebögen. • Abschn. 4.3.2 beschreibt einige Befunde aus umfangreichen internationalen (Schweiz und Österreich) und deutschen Stichproben sowie ein praktisches Anwendungsbeispiel.
4.1 Binnenstruktur Welche Struktur ist für die zehn Subkonstrukte von Burnout zu erwarten? Einerseits sollten sie nicht auf eine einzige Dimension reduzierbar sein, die man „Gestörtheit“ oder „Leidensdruck“ nennen könnte; ein solches Instrument ist das Tedium Measure (Aronson et al. 1983). Auch die bloß drei Dimensionen des Maslach Burnout Inventory (MBI; Maslach und Jackson 1986) scheinen die Sache allzu stark zu vereinfachen. Andererseits war von vornherein nicht zu erwarten, dass sich zehn voneinander völlig unabhängige Facetten ergeben würden. Wie sich zeigen wird, deckt sich die Empirie relativ gut mit den Erwartungen. Die HBI-Konstrukte sind in sich konsistent messbar, bei überwiegend vertretbaren Interkorrelationen untereinander. Abschn. 4.1.2 (s. u.) zeigt, dass für einzelne Konstrukte auch ein „Fusionieren“ vertretbar gewesen wäre, was aber im Interesse der angestrebten Differenziertheit nicht empfohlen wird. In den Itemanalysen korrelieren lediglich drei bzw. zwei Items mit „fremden“ Skalen etwas höher als mit der eigenen, könnten diesen also bei streng empirischem Vorgehen sogar zugeordnet werden. Auch solche Neuzuordnungen werden nicht empfohlen, weil sonst die Begrifflichkeiten allzu stark verwässert würden. Beispiel: „Ich neige dazu, die Dinge schwer zu nehmen“ korreliert etwas höher mit der Skala HILFLOSIGKEIT als mit der eigenen Skala, DEPRESSIVE REAKTION, scheint aber inhaltlich eindeutig besser zu letzterer zu gehören und wurde darum dort belassen.
4.1.1 Verwendete Stichproben Die in Abschn. 4.1.2 bis 4.1.5 folgenden Analysen der HBI-Binnenstruktur beruhen auf zwei separaten Stichproben: der Normstichprobe mit N = 616, die sich aus den Daten von Frühauf (1990), Steinhoff (1991, unveröff.), Hagge (2005) und von Herder (2011) zusammensetzt, und einer relativ großen Burnout-Stichprobe von Weber (2014) mit N = 861 Teilnehmerinnen und Teilnehmern, die sich aufgrund von Werbung für ein Burnout-Präventions-Programm im Internet gemeldet hatten.
4.1 Binnenstruktur
11
4.1.1.1 Normstichprobe Die Normstichprobe stammt aus den vier Teilstichproben der eben genannten Diplom-Projekte. Sie besteht aus 337 weiblichen (55 %) und 279 männlichen (45 %) Teilnehmer(inne)n. Das Durchschnittsalter der ersteren war 35,2 Jahre (s = 11,1), das der letzteren 37,2 Jahre (s = 11,5). In der gesamten Normstichprobe war das Durchschnittsalter 36,1 (s = 11,3); die Werte variierten von 15 bis 80 Jahre; insgesamt sieben Pbn machten keine Altersangaben. Diese Stichprobe ist offensichtlich nicht repräsentativ für die deutsche Gesamtbevölkerung. Studierende und deren Bekanntenkreise, ebenfalls Akademiker(innen), sind sicher überrepräsentiert, und schon darum ist der Altersdurchschnitt zu niedrig. Allerdings waren die Studierenden zu einem hohen Anteil berufstätig. Zudem sind die Zusammenhänge der Fragebogenskalen mit Alter und Geschlecht hier wie in anderen Stichproben sehr schwach. Der Hauptvorteil der Normstichprobe liegt darin, dass eine Selbstselektion durch das Interesse am Thema Burnout insofern vermieden wurde, als bei der Rekrutierung dieser Begriff mit seltenen Ausnahmen nicht genannt wurde. Die Teilnehmer taten Freundinnen oder Freunden durch ihre Teilnahme einen Gefallen. Die Fragebogen-Bearbeitung fand ausschließlich an selbstgewählten Orten und Zeiten statt, in der Regel zu Hause. Und zwar nicht in Gegenwart von (Telefon-)Interviewern. In fast allen Fällen wurde eine anonyme schriftliche Auswertung angeboten und meist auch angenommen, was ehrliche Antworten weiter gefördert haben dürfte. 4.1.1.2 Burnout-Stichprobe Die sog. Burnout-Stichprobe wurde von Ulrich Weber (2014) für Zwecke seiner Dissertation im Internet rekrutiert, und zwar mit expliziter Nennung des Begriffs Burnout. Gratis angeboten wurde ein internetbasiertes BurnoutPräventions-Programm. Es meldeten sich 592 weibliche (69 %) und 269 männliche (31 %) Interessenten und füllten online sowohl das HBI als auch die Kurzform des Arbeitsbezogenen Verhaltens- und Erlebensmusters (AVEM-44; Schaarschmidt und Fischer 2008) aus. Das Durchschnittsalter der Frauen war 43,1 Jahre (s = 11,4), das der Männer 46,9 Jahre (s = 11,7). In der gesamten Burnout-Stichprobe mit N = 861 variierte das Alter von 16 bis 76 Jahre; das Durchschnittsalter war 44,3 (s = 11,6). Bezüglich des Alters entsprach die Burnout-Stichprobe eher der Durchschnittsbevölkerung als die Normstichprobe. Es dominierten aber auch hier gehobene und akademische Berufe; lediglich 16 Schüler(innen) bzw. Student(inn)en nahmen teil. Es bestand durchaus die Versuchung, die Norm- und die Burnout-Stichprobe zu einer einzigen zu kombinieren, die dann einen ansehnlichen Umfang gehabt hätte. Dagegen sprach aber von vornherein, dass Webers Gruppe explizit unter dem Rubrum „Burnout-Prävention“ rekrutiert worden war, auch wenn sie zum Zeitpunkt des Pretests von Projektseite noch kaum Informationen über das Thema erhalten hatte. Und in der Tat zeigte sich, dass die beiden Stichproben auf allen Skalen hochsignifikant von einander abwichen. Das Effektstärke-Maß e ta-Quadrat
12
4 Psychometrische Eigenschaften
überschritt überall die Grenze für einen „schwachen“ Effekt (= ,01), bei drei Skalen sogar die für einen „mittleren“ (= ,06), nämlich bei EMOTIONALE ERSCHÖPFUNG (,130), bei HILFLOSIGKEIT (,092) und bei INNERE LEERE (,104); die Grenze für einen „starken“ Effekte (= ,14) wurde nicht erreicht. Ein weiteres Indiz: Dem „Burnout-Item“ 40 („Ich stecke in einer Krise, aus der ich momentan keinen Ausweg finde“) stimmten 9 % voll zu, 30 % lehnten es vollständig ab; in der Normstichprobe taten dasselbe 3 % bzw. 54 %. Es hatte also offensichtlich eine beträchtliche Selbstselektion stattgefunden. Wenn in den folgenden Abschnitten zur Binnenstruktur des HBI nicht nur die Norm-, sondern jeweils auch die Burnout-Stichprobe analysiert wird, dann vor allem, um die Verallgemeinerungsfähigkeit der Befunde zu demonstrieren. Die Normstichprobe ist ja schon von ihrem Umfang her nicht über jeden Zweifel erhaben, zudem sind die Häufigkeitsverteilungen dort naturgemäß eher asymmetrisch. Dass sich Befunde in einer zweiten Stichprobe, die diese Nachteile weniger aufweist, replizieren lassen, sollte ihre Glaubwürdigkeit erhöhen. Wie sich später zeigen wird (vgl. u. Abschn. 4.3.3.2), gelingt eine solche Replikation sogar in noch wesentlich umfangreicheren Stichproben.
4.1.1.3 Ergänzende Variablen In fast allen Projekten mit dem HBI wurden weitere, bereits etablierte, Fragebögen eingesetzt, vor allem das Freiburger Persönlichkeitsinventar (FPI) und das Arbeitsbezogene Verhaltens- und Erlebensmuster (AVEM). Die entsprechenden Ergebnisse werden in einem späteren Abschnitt (vgl. Abschn. 4.3.1) dargestellt.
4.1.2 Faktorenanalysen Normstichprobe (N = 616) und Burnout-Stichprobe (N = 861), in beiden Fällen ohne das globale Item 40, wurden separaten Hauptkomponentenanalysen unterzogen; Abbruch jeweils nach Kaiser-Kriterium (Eigenwert >1), Rotation orthogonal nach Varimax. Die Eigenwert-Diagramme zeigen Abb. 4.1 und 4.2. Für die Normstichprobe fanden sich acht Faktoren mit Eigenwerten über 1,0, von denen der letzte aber dem sog. Scree-Test zum Opfer fiel. (Unmittelbar vor ihm zeigt die Kurve einen Knick abwärts.) Die rotierte 8-Faktoren-Lösung wich auch deutlich von der erwarteten Struktur ab. Vor allem die fünf Items der Skala EMOTIONALE ERSCHÖPFUNG verteilten sich auf drei verschiedene Faktoren. Wurden dagegen lediglich die ersten sieben Faktoren rotiert, ergab sich eine inhaltlich gut interpretierbare Struktur, die 57 % der Gesamtvarianz aufklärt. Diese wird im Folgenden dargestellt. In der Burnout-Stichprobe erfüllten von vornherein nur sieben Faktoren das Kaiser-Kriterium; sie klären 67 % der Gesamtvarianz auf. Die beiden rotierten Ladungsmatrizen finden sich in Tab. 4.1 und 4.2. Lesehilfe: Die Zeilenmarkierung (z. B. EE1 A06) kennzeichnet die Skalenzugehörigkeit (z. B. Item 1 der Skala EE = EMOTIONALE ERSCHÖPFUNG) und die Anordnung eines Items in der Druckversion des HBI (z. B. Item 06).
4.1 Binnenstruktur
13
Abb. 4.1 Eigenwert-Diagramm Normstichprobe
Passt man die inhaltlich ja bedeutungslosen Reihenfolgen der rotierten Faktoren 5 und 6 an, ergeben sich weitgehend identische Bilder. Lediglich in der Normstichprobe laden zwei Items, eines aus DEPRESSIVE REAKTION und eines aus INNERE LEERE, etwas höher auf einem „fremden“ Faktor als mit dem eigenen. Bei dem ersten abweichenden Item fällt auf, dass es sich um das einzige einzeln umgepolte handelt („Emotionale Belastungen stehe ich gut durch“). Dieses Item lädt auch in anderen Stichproben ziemlich durchgehend „falsch“. Wahrscheinlich zeigt sich hier ein Acquieszenz-Effekt. Im Einzelnen: Faktor 1 wird definiert durch die fünf Items der Skala EMOTIONALE ERSCHÖPFUNG, die vier Items von HILFLOSIGKEIT und die vier Items von INNERE LEERE. Dabei zeigt sich in der Normstichprobe die erwähnte zweite Anomalie: das HBI-Item 5 „Ich kann mich nur noch für weniges richtig begeistern“ aus INNERE LEERE lädt marginal höher auf dem Faktor 6 (DISTANZIERTHEIT; ,480) als auf Faktor 1 (,476). Faktor 2 wird in beiden Analysen durch die fünf Items von ÜBERDRUSS definiert; Faktor 3 durch die fünf Items von SELBSTÜBERFORDERUNG; Faktor 4 durch die drei Items von DEPRESSIVE REAKTION (mit der schon erwähnten Ausnahme von Item 19 „Emotionale Belastungen stehe ich gut durch“, das in der Normstichprobe höher auf dem Faktor 5 LEISTUNGS(UN)ZUFRIEDENHEIT lädt.).
14
4 Psychometrische Eigenschaften
Abb. 4.2 Eigenwert-Diagramm Burnout-Stichprobe
Faktor 5 der Normstichprobe und Faktor 6 der Burnout-Stichprobe entsprechen der Skala LEISTUNGS(UN)ZUFRIEDENHEIT. Die vier Items von DISTANZIERTHEIT definieren den Faktor 6 der Normstichprobe und den Faktor 5 der Burnout-Stichprobe. Faktor 7 entspricht in beiden Fällen UNFÄHIGKEIT ZUR ENTSPANNUNG. Die gerade berichteten Ergebnisse hätten es formal durchaus gerechtfertigt, die Skalen EMOTIONALE ERSCHÖPFUNG, HILFLOSIGKEIT und INNERE LEERE einerseits sowie DEPRESSIVE REAKTION und AGGRESSIVE REAKTION andererseits zusammenzufassen (und evtl. zu verkürzen). Die restlichen Skalen finden sich in je eigenen Faktoren wieder. Wie schon oben erwähnt, wurde auf eine solche Entdifferenzierung jedoch verzichtet.
4.1.3 Itemanalysen Für die zehn HBI-Skalen im unveränderten Auswertungsschlüssel geht es nun um die Eigen- und die Fremdtrennschärfen, d. h. die part-whole-korrigierten Korrelationen mit der eigenen und die unveränderten Korrelationen mit allen, jeweils neun, fremden Skalen. In den beiden folgenden Tab. 4.3 und 4.4 sind die Eigen-Trennschärfen fett gedruckt. Fremd-Trennschärfen, die die
4.1 Binnenstruktur
15
Tab. 4.1 Rotierte 7-Komponentenmatrix Normstichprobe (N = 616) Faktor:
1
2
3
EE1 A06
,544
,299
EE2 A11
,691
,174
EE3 A27
,686
,325
EE4 A37
,679
,207
EE5 A38
,665
,296
LU1 A04
,030
LU2 A18
−,155
LU3 A34 DI1 A02
−,084 ,151
−,232
−,069
−,106 ,181 −,053
DI4 A30
,007 ,378
DE2 A19
,251
DE3 A25
,461
,076
−,016
−,044 ,022
,059 ,030 ,137
,097
,753 ,841
,061
,823
,224
−,002
,147
,100
,122
−,071
−,036
,094
−,015 ,186
,496
,310 ,525
,158
,020
,322
−,024
,483
,040
IL1 A05
,476
,166
IL2 A08
,580
,144
IL3 A21
,578
,263
IL4 A33
,650
,205
ÜD1 A01
,254
,752
ÜD2 A10
,228
,721
ÜD3 A20
,245
,769
ÜD4 A26
,332
,714
ÜD5 A36
,295
,776
UE1 A13
,217
,001
UE2 A28
,223
−,025
UE3 A35
,152
SÜ1 A07
,008
SÜ2 A16
,079
SÜ3 A23
−,042
SÜ4 A29 SÜ5 A39
,019
,045
,025
,240
−,042
,414
,016
−,007 ,057
−,036
−,075
−,056 ,020
−,053
−,046
-,040 ,190 ,045 ,104 ,068 ,148 ,124 ,155 ,102
,138
,074
,116
,164
,039
,021
,267
−,098
,657
,096
,576
,101
,097
−,015
−,023
−,090
,805
,025
,741
−,017
,794
−,032
−,016
,158 ,135
,231
,024
,567 ,660
,222
−,114
−,062
,583 ,595
,112
,011
,012
HI1 A03 HI3 A17
,317 ,174
−,109
,064
HI2 A14 HI4 A31
,110 −,041
−,019
,069
,129
−,019
7
−,024
−,013
−,047
,038 ,130
6
−,211
,054
,102
DI2 A12
5
−,035
,083
DI3 A24 DE1 A15
4
,089
−,062
−,006 ,004
,643
,351 −,068
−,023
−,035 ,006
,700
,006
,711
,091
,018
,651
−,043
,192
−,029
−,030
−,026
−,589
−,132
−,107
−,105
−,174
−,182
−,065
−,034
−,107
,002 ,018 −,006 ,015
,001
−,045 ,050
−,085 ,029
,053
,046
,067
,045
,480
,012
,335
,112
,205
,022
,011
,272
,104
−,112
,129
−,065
−,106
−,044
−,083
−,113
−,017 ,002
,103
,080
,068
,047
,084
−,056
,072 −,016 ,037
,079
,745 ,729
,032
,635
,161
,008
,101
−,069
,004
,279
−,086
,000
,071 ,050
−,051 ,096
,001
,030 −,065 ,015
(Fortsetzung)
4 Psychometrische Eigenschaften
16 Tab. 4.1 (Fortsetzung) Faktor:
1
2
3
4
5
6
7
AG1 A09
,056
,246
,046
,579
,119
,144
,281
AG2 A22
−,007
,139
,022
,650
,085
,115
,286
,219
,024
,571
−,050
,205
,139
AG3 A32
,265
Legende: EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. Die gesamte Skala LEISTUNGSZUFRIEDENHEIT (Items 4, 18 und 34) sowie das Item 19 sind umgepolt.
korrigierte Eigen-Trennschärfe überschreiten, sind kursiv markiert. Die Zeilenbezeichnung (z. B. EE1 A06) kennzeichnet die Skalenzugehörigkeit (z. B. Skala EE = EMOTIONALE ERSCHÖPFUNG) und die Anordnung eines Items in der Druckversion des HBI (z. B. Item 06). Nicht wenige Fremd-Trennschärfen liegen relativ hoch und erreichen beinahe die jeweilige Eigen-Trennschärfe. Kursiv markierte Überschreitungen finden sich jedoch nur in drei bzw. zwei Fällen; die beiden letzteren betreffen je ein Item aus DEPRESSIVE REAKTION und aus AGGRESSIVE REAKTION. Angesichts der nicht unbeträchtlichen Skalen-Interkorrelationen (vgl. Abschn. 4.1.4) sind solche Schönheitsfehler jedoch nicht verwunderlich; eher ist es ihre Seltenheit. Zum Vergleich: In der Studie von Burisch (1978) korrelierte rund ein Viertel der 212 Items der inzwischen überholten Urform des Freiburger Persönlichkeitsinventars (FPI; Fahrenberg und Selg 1970), dessen neun Standardskalen maßgeblich auf orthogonal rotierten Hauptkomponentenlösungen basieren, mit einer „fremden“ Skala höher als mit der eigenen. Nicht einmal eine dezidiert „induktive“, datengesteuerte Konstruktionsweise, die eigentlich maximal unabhängige Skalen produzieren sollte, schützt also vor Überraschungen dieser Art.
4.1.4 Interkorrelationen der HBI-Skalen Wie bereits erwähnt, war statistische Unabhängigkeit für die HBI-Skalen nicht angestrebt und schon darum nicht zu erwarten. Tab. 4.5 zeigt die Korrelationsmatrizen aufgrund der Normstichprobe (obere Dreiecksmatrix) bzw. der Burnout-Stichprobe (untere Dreiecksmatrix). Erwartungsgemäß finden sich die höchsten Korrelationen zwischen den Skalen EMOTIONALE ERSCHÖPFUNG, HILFLOSIGKEIT und INNERE LEERE einerseits sowie DEPRESSIVE REAKTION und AGGRESSIVE REAKTION andererseits, deren Items ja auch die Faktoren 1 und 4 definierten. Die Korrelationen in der Normstichprobe erreichen ,65 (EMOTIONALE ERSCHÖPFUNG und INNERE LEERE), in der Burnout-Stichprobe wird ,76 erreicht (INNERE LEERE und HILFLOSIGKEIT). Wie schon oben erwähnt, ist
4.1 Binnenstruktur
17
Tab. 4.2 Rotierte 7-Komponentenmatrix Burnout-Stichprobe (N = 861) Faktor:
1
2
3
4
5
6
7
EE1 A06
,539
,483
,176
,047
,070
EE2 A11
,582
,307
,161
,211
−,004
−,068 ,056
,260
−,064
−,074
,351
EE3 A27
,699
,331
,139
,142
EE4 A37
,568
,327
,203
,141
EE5 A38
,670
,374
,195
,090
−,084
LU1 A04
,127
,279
LU2 A18
,202
,208
LU3 A34
,107
,156
DI1 A02
,027
,130
,005
−,089 ,128
,071
,006
,001
,142
,103
,063
−,010
−,060 ,624
,735
,034
,807
,044
,166
,184 −,005
,226
,135
,039
,114
,739
,015
,104
,139
,082
,792
,143
−,109
,001
,642
,517
,119
−,056
,178
,092 ,051
,166
,071
,730
,054 ,390
−,024
,086
DI2 A12 DI4 A30
,340
,172
DI3 A24 DE1 A15
,328 ,335
,298
,137
−,095 ,235
DE2 A19
,285
,001
,076
,527
,021
,301
,191
DE3 A25
,303
,129
,284
,513
,164
,221
,245
HI1 A03
,445
,305
,126
,378
,072
,313
,171
HI2 A14
,592
,208
,091
,348
,130
,337
,155
HI3 A17
,648
,260
,212
,253
,111
,216
,156
HI4 A31
,576
,197
,082
,413
,126
,315
,143
IL1 A05
,553
,222
,054
,120
,446
,211
,037
IL2 A08
,640
,201
,106
,243
,226
,220
,137
IL3 A21
,739
,140
,110
,195
,285
,186
,019
IL4 A33
,744
,158
,066
,207
,253
,209
,051
ÜD1 A01
,216
,754
,006
,160
,140
,232
,034
ÜD2 A10
,271
,727
,018
,245
,134
,218
,192
ÜD3 A20
,276
,801
,034
,129
,179
,187
,134
ÜD4 A26
,309
,721
,044
,204
,163
,234
,143
ÜD5 A36
,333
,780
,018
,099
,158
,196
,120
UE1 A13
,316
,181
,165
,132
,073
,044
,768
UE2 A28
,296
,219
,210
,144
,091
,044
,749
UE3 A35
,165
,098
,206
,292
,054
,121
,680
SÜ1 A07
,203
,710
−,041
,173
,135
−,011
,007
SÜ2 A16
−,007
SÜ3 A23
,033
SÜ4 A29
,126
SÜ5 A39
,097
,045
,719
,256
,004
,838
,175
,056
,072
,806
,108
,062
,044
,854
,078
,051
−,007
,034
−,059
−,015
−,019
,158 ,091 ,019 ,105 (Fortsetzung)
4 Psychometrische Eigenschaften
18 Tab. 4.2 (Fortsetzung) Faktor:
1
2
3
4
5
6
AG1 A09
,175
,291
,139
,722
,071
AG2 A22
,151
,203
,194
,757
,118
AG3 A32
,324
,140
,139
,614
,194
7
−,108
−,079 ,195
,129 −,006 ,229
Legende: s. vorige Tab. 4.1.
derlei bei Persönlichkeitstests nicht allzu ungewöhnlich. Zum Vergleich mag die Kurzform des Freiburger Persönlichkeitsinventars, das FPI-K, dienen (Fahrenberg et al. 1973, S. 38, Tab. 18), dessen Skalenlänge von je sieben Items am ehesten mit der des HBI vergleichbar ist. Auch diese, orthogonal konzipierten, Skalen korrelieren bis zu ,49. Inhaltlich noch deutlich näher am HBI liegt das Maslach Burnout Inventory (MBI). Dessen Skalen EMOTIONALE ERSCHÖPFUNG und DEPERSONALISATION korrelieren in der Normstichprobe zu r = ,52 (Maslach et al. 1996, S. 44). Und bei den Burnout-Screening-Skalen (BOSS) finden sich Skalen-Interkorrelationen bis ,75 bzw. ,87 (Hagemann und Geuenich 2009, S. 59 f.).
4.1.5 Reliabilität Die α-Koeffizienten der zehn HBI-Skalen in Norm- und Burnout-Stichprobe zeigt Tab. 4.6. Diese variieren von ,61 (für DEPRESSIVE REAKTION in der Normstichprobe) bis ,93 (für ÜBERDRUSS in der Burnout-Stichprobe). Mit einer Ausnahme (Skala LEISTUNGSUNZUFRIEDENHEIT) erreicht die Burnout-Stichprobe deutlich höhere Reliabilitätsschätzungen als die Normstichprobe. Das mag zumindest teilweise durch die Streuungen erklärbar sein, die, mit derselben Ausnahme, in der Burnout-Stichprobe ebenfalls höher liegen. Die Durchschnittswerte der Reliabilitäten (in der letzten Spalte; ,76 bzw. ,84) sind durchaus zufriedenstellend, vor allem angesichts der geringen Skalenlängen; s. unterste Zeile in Tab. 4.6. Weitere α-Koeffizienten aus drei sehr großen Stichproben finden sich in Tab. 4.10 (Abschn. 4.3.3.4), diese liegen überwiegend noch höher. Einige Überlegungen zu dem Ausreißer-Wert von lediglich ,61 (für DEPRESSIVE REAKTION in der Normstichprobe), der sich in einer der Groß-Stichproben wiederholt, ebenfalls in Abschn. 4.3.3.4. Die Retest-Reliabilität des HBI konnte bislang nur in der kleinen Stichprobe von Herders (2011; N = 33) geschätzt werden. Die Koeffizienten variierten bei einem Intervall von mehreren Wochen zwischen ,70 und ,89, der Durchschnitt lag bei ,80.
4.1 Binnenstruktur
19
Tab. 4.3 Trennschärfen Normstichprobe (N = 616) Item
EE
LU
DI
DE
HI
IL
UD
UE
SU
AG
EE1 A06
58
16
14
20
35
49
41
28
01
20
EE2 A11
66
13
16
42
56
46
39
32
09
29
EE3 A27
69
24
21
38
55
63
52
32
02
30
EE4 A37
68
11
09
35
54
44
39
33
10
27
EE5 A38
73
12
21
30
49
57
46
38
07
30
LU1 A04 LU2 A18 LU3 A34 DI1 A02
−12
−20
−16
19
56 68 70 03
−05
−05
−03
50
−18
−29
−20
24
−10
−28
−20
27
−12
−19
−12
36
−24
−21
−21
24
−03
−07
−02
13
DI2 A12
14
07
49
18
17
35
27
07
DI3 A24
17
02
55
23
19
31
13
15
DI4 A30
07
02
38
03
08
22
13
DE1 A15
32
05
28
46
45
36
24
−02
24
DE2 A19
20
43
07
29
36
27
17
12
DE3 A25
41
12
19
51
53
38
28
32
12
−00
07
−04
17
02
10
28
−02
11
−05
12
−03
18
26 21 13 34 19 39
HI1 A03
45
15
18
41
76
44
39
23
03
28
HI2 A14
50
16
20
51
81
52
42
30
02
44
HI3 A17
50
20
18
45
78
55
34
28
07
29
HI4 A31
53
22
24
53
80
50
42
29
01
39
IL1 A05
53
22
24
53
39
72
36
16
01
39
IL2 A08
52
12
36
40
54
79
39
28
05
37
IL3 A21
49
18
24
35
49
77
44
22
05
27
IL4 A33
56
10
32
34
55
81
43
27
01
36
ÜD1 A01
56
10
32
34
38
41
82
08
01
36
ÜD2 A10
41
21
23
26
40
41
81
20
ÜD3 A20
45
17
20
27
37
42
83
16
ÜD4 A26
46
22
21
27
45
47
82
11
ÜD5 A36
50
25
21
24
44
46
86
20
−06
−00
−07
−05
28 29 30 31
UE1 A13
36
03
07
21
26
21
13
83
20
24
UE2 A28
32
01
11
26
28
28
13
84
19
27
UE3 A35
30
07
11
28
30
24
17
76
10
32
SÜ1 A07
02
03
06
02
11
09
18
15
−10
51
21
−02
15
SÜ2 A16
−19
26
42
20
SÜ3 A23
−02
SÜ4 A29
02
SÜ5 A39
02
03
−09
−13
−12
−02
04
09
10
01
07
−00
−02
−00
11
−01
03 04
09
−08
−05
−12
12
64
06
07
54
03
12
63
05 (Fortsetzung)
4 Psychometrische Eigenschaften
20 Tab. 4.3 (Fortsetzung) Item
EE
AG1 A09
27
AG2 A22
20
AG3 A32
35
LU −03
−04
10
DI
DE
HI
IL
UD
UE
SU
AG
23
27
29
30
26
27
12
55
20
29
28
20
18
26
10
55
30
43
47
43
36
28
08
46
Legende: EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. Die gesamte Skala LEISTUNGSZUFRIEDENHEIT (Items 4, 18 und 34) sowie das Item 19 sind umgepolt. Fremd-Trennschärfen, die die jeweilige Eigen-Trennschärfe überschreiten, sind kursiv gedruckt. Ohne Dezimalpunkte.
4.2 Validität 4.2.1 Was ist Validität? Messen die HBI-Skalen, was sie zu messen vorgeben? Dies ist, was traditionell unter der Validitäts-Frage verstanden wird, und offensichtlich ist damit die wichtigste Qualität eines Diagnostikums benannt. Freilich ist diese Qualität beinahe immer auch diejenige, deren Ermittlung den größten Aufwand erfordert – jedenfalls dann, wenn man die Frage ernsthaft angeht. Man braucht dafür nämlich Kriteriumsvariablen, mit denen man seine diagnostische Information in Beziehung setzen kann. Dabei handelt es sich um Informationen zu den selben Konstrukten, die aber von höherem Rang sind als das zu validierende Instrument (vgl. Burisch 1984a). Wonach bemisst sich dieser Rang? Als Faustregel mag gelten: Von zwei Diagnostika hat dasjenige den höheren Rang, auf das man sich im Zweifel verlassen würde, ginge es um das Fällen einer praktisch bedeutsamen Entscheidung. Selbstverständlich lässt diese Faustregel im Einzelfall Raum für Meinungsverschiedenheiten. Einigermaßen konsensfähig sollte aber sein, dass es sich nicht um Validierung handelt, wenn Selbstbeschreibungen, wie Fragebögen sie darstellen, verglichen werden mit anderen Selbstbeschreibungen derselben Probanden. Der häufigste Fall dieser Art besteht darin, Fragebogen-Scores mit anderen Scores oder mit direkten Selbstratings zu korrelieren. Zwischen Validität und Reliabilität besteht nämlich nicht, wie oft missverstanden wird, ein fundamentaler Unterschied. Vielmehr ist der Unterschied bloß graduell; er liegt auf der Ebene „Ähnlichkeit der Erhebungsbedingungen“. Und der Vergleich zweier Selbstbeschreibungen bloß unterschiedlicher Formate dürfte eindeutig ähnliche Bedingungen implizieren. Nur die Testwiederholung nach kurzem Intervall realisiert noch ähnlichere Erhebungssituationen; hier wird eindeutig die Retest-Reliabilität ermittelt. Das Gegenbeispiel: Liegen für die Probanden, die einen Test bearbeitet haben, auch Peer-Ratings vor, die sich auf dieselben Konstrukte beziehen wie der Test,
21
4.2 Validität Tab. 4.4 Trennschärfen Burnout-Stichprobe (N = 861) Item
EE
LU
DI
DE
HI
IL
UD
UE
SU
AG
EE1 A06
70
26
26
42
56
61
62
56
32
43
EE2 A11
76
21
24
49
60
50
49
,53
33
47
EE3 A27
77
31
29
52
67
67
58
54
31
48
EE4 A37
76
19
19
45
58
47
48
52
35
41
EE5 A38
84
23
24
48
60
61
56
57
35
46
LU1 A04 LU2 A18 LU3 A34 DI1 A02
−21
−30
−19
25
51 62 68 24
−24
−23
−18
61
−24
−38
−30
34
−35
−45
−37
35
−33
-41
−32
40
−40
−43
−36
34
−13
−24
−15
27
07 −05
06 20
−18
−28
−21
33
DI2 A12
27
20
61
29
33
46
34
20
13
30
DI3 A24
24
23
67
29
32
38
31
22
19
27
DI4 A30
14
14
43
11
17
28
21
05
-03
14
DE1 A15
48
31
30
68
65
55
43
48
33
53
DE2 A19
39
31
21
54
49
42
33
36
23
47
DE3 A25
50
29
33
60
61
51
44
50
42
58
HI1 A03
57
41
30
59
71
59
58
47
27
51
HI2 A14
59
43
34
64
79
69
57
49
25
51
HI3 A17
68
36
33
57
75
69
58
51
36
51
HI4 A31
60
42
35
65
76
66
56
47
25
57
IL1 A05
51
37
52
46
58
67
52
35
18
41
IL2 A08
61
38
38
55
68
74
54
48
27
51
IL3 A21
59
35
42
52
68
79
51
42
26
47
IL4 A33
61
37
40
54
69
79
54
44
23
48
ÜD1 A01
49
41
32
39
53
48
76
31
10
37
ÜD2 A10
59
43
33
47
61
56
81
47
15
48
ÜD3 A20
58
41
36
40
59
54
86
42
15
41
ÜD4 A26
59
44
36
47
62
57
83
44
17
46
ÜD5 A36
60
43
35
40
59
57
85
42
13
40
UE1 A13
60
18
22
47
49
45
42
75
35
41
UE2 A28
61
20
24
47
51
45
44
76
38
44
UE3 A35
45
17
19
48
47
38
35
61
37
44
SÜ1 A07
32
09
25
25
24
11
36
61
25
SÜ2 A16
38
−05
15
42
34
26
18
39
66
39
SÜ3 A23
26
SÜ4 A29
31
SÜ5 A39
31
05
−07
−02
−03
13
30
21
17
07
32
76
32
16
31
28
22
15
30
70
30
14
31
26
21
13
35
77
28 (Fortsetzung)
4 Psychometrische Eigenschaften
22 Tab. 4.4 (Fortsetzung) Item
EE
LU
DI
DE
HI
IL
UD
UE
SU
AG
AG1 A09
46
17
24
47
47
41
40
41
31
68
AG2 A22
38
17
26
47
43
39
33
33
33
67
AG3 A32
49
31
35
66
63
56
47
50
32
56
Legende: s. o. Legende zu Tab. 4.3. Tab. 4.5 Interkorrelationen der HBI-Skalen (oben: Norm-, unten: Burnout-Stichprobe) EE EE
LU
DI
DE
HI
IL
ÜD
UE
SÜ
AG
19
20
42
63
65
54
41
07
34
05
26
23
17
26
05
25
43
27
12
−14
01
25
06
31
60
45
31
31
13
41
64
49
34
04
44
53
30
05
39
18
−07
34
LU
28
DI
29
27
DE
55
37
34
HI
71
47
38
70
IL
67
43
50
60
76
ÜD
64
48
39
48
66
61
UE
64
21
24
54
56
49
47
SÜ
39
-03
17
39
33
27
16
42
AG
53
26
34
64
61
55
48
50
20
34 13
38
Legende: Norm-Stichprobe N = 616, Burnout-Stichprobe N = 861. EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. Ohne Dezimalpunkte.
Tab. 4.6 α-Koeffizienten in Norm- und Burnout-Stichprobe EE
LU
DI
DE
HI
IL
ÜD
UE
SÜ
AG
Norm
85
80
70
61
79
77
88
73
77
70
76
Burnout
91
77
77
77
89
88
93
84
87
79
84
m
5
3
4
3
4
4
5
3
5
3
3,9
Legende: EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. MW = Mittelwerte. Norm = Normstichprobe; N = 616. Burnout = Burnout-Stichprobe; N = 861. m = Skalenlänge. Ohne Dezimalpunkte.
dann können die entsprechenden Korrelationen im Allgemeinen als Validitätskoeffizienten bezeichnet werden. Dies umso zweifelsfreier, je aussagekräftiger die Ratings sind; selbstverständlich müssen sie selbst hohe methodische Ansprüche erfüllen.
4.2 Validität
23
Tab. 4.7 Validitätskoeffizienten des HBI in vier Stichproben StPr:
S m
rk
H rtc
rtc-corr
rk
T rtc
rtc-corr rk
M rtc
rtc-corr
rtc
EE
5
61
46
59
60
39
50
37
36
59
49
LU
3
54
30
41
35
27
46
64
25
31
45
DI
4
60
42
54
74
47
55
62
38
48
40
DE
3
63
35
44
68
23
28
59
50
65
46
HI
4
55
40
53
64
39
49
51
51
71
34
IL
4
65
22
27
69
09
11
37
32
53
58
ÜD
5
67
46
56
73
33
39
26
39
76
26
UE
3
61
23
30
68
39
47
55
28
38
39
SÜ
5
61
38
49
50
28
40
63
28
35
33
AG
3
50
28
40
29
17
32
40
30
47
50
Mittel
3,9
60
35
46
61
30
40
46
36
54
42
Legende: StPr = Stichprobe; S = Steinhoff (N = 182), H = Hagge (N = 77), T = Tolke (N = 70), M = Mielke (N = 16). m = Skalenlänge. rk = Inter-Rater-Übereinstimmung. rtc = Validitätskoeffizient. rtc-corr = minderungskorrigierter Validitätskoeffizient. EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. Ohne Dezimalpunkte.
Diese Ansprüche wiederum beziehen sich u. a. auf die Anzahl der Rater, deren Einschätzungen man zwecks Fehlerausgleich mitteln konnte, auf Dauer und Intensität der Bekanntschaft zwischen Ratern und Ratees, auf die Kompetenz der Rater, die man evtl. durch Trainings erhöhen kann, u. s. w. Offensichtlich sind auch Peer-Ratings von eingeschränktem Wert, wo es um sehr selten auftretende Verhaltenstendenzen geht, insbesondere solche mit extremer Sozialer (Un-) Erwünschtheit, wie allen Komponenten des Konstrukts Aggressivität. Prinzipiell wären in solchen Fällen auch Verhaltensbeobachtungen in kontrollierten Situationen denkbar, doch sind solchen aus offensichtlichen Gründen enge Grenzen gesetzt. Man kann in derartigen Fällen die Ansprüche an die Peers erhöhen, indem man intime Grade von Vertrautheit mit dem Ratee fordert, doch stößt man so rasch an Grenzen der Machbarkeit. Keine der im nächsten Abschnitt vorgestellten Studien ist im Lichte dieser Vorüberlegungen über jeden Zweifel erhaben. Aber es geht eindeutig um Validität.
4.2.2 Validierung des HBI Für das HBI liegen vorläufig vier Validitäts-Studien vor, deren Ergebnisse in Tab. 4.7 zusammengefasst sind.
24
4 Psychometrische Eigenschaften
• Steinhoff (1990) sammelte HBI-Daten von N = 182 Proband(inn)en zwischen 21 und 67 Jr. (69 % weiblich; Durchschnittsalter 35,9 Jr.) und ließ diese mittels Ratingskalen von jeweils drei Bekannten beurteilen. Außer dem HBI bearbeiteten die Pbn auch die Kurzform des Freiburger Persönlichkeits-Inventars (FPI-K; Fahrenberg et al. 1984). • Hagge (2005) sammelte HBI-Protokolle von 77 Pbn über 18 J. (53 % weiblich; Durchschnittsalter 39,7 Jr., s = 10,7 J.) und wiederum Ratings von je zwei Bekannten (56 % weiblich, Durchschnittsalter 38,2 Jr., s = 10,2 J.; alle über 18 J.). Die Vergleichs-Instrumente waren hier das NEO-Five-Factor Inventory (Neo FFI; Borkenau und Ostendorf 1993) und das Oldenburg Burnout Inventory (OLBI; Ebbinghaus 1996; Demerouti 1999). • Bei Tolke (2013) waren es 70 Pbn über 18 Jahre (69 % weiblich; mittleres Alter 39,0 Jr.) unter Ausschluss von Schülern und Studenten, und wieder Ratings von je zwei Peers. • Mielke (2014) konnte nur wenige Psychotherapeuten innerhalb einer großen Hamburger Tagesklinik überreden, 16 Patientinnen bzw. Patienten (63 % weiblich, Durchschnittsalter 44 Jahre), die das HBI unmittelbar vor der ersten Sitzung ausgefüllt hatten, ohne Kenntnis der HBI-Ergebnisse zu beurteilen. Alle Proband(inn)en hatten die Diagnose „Burnout“. Wenn auch der Umfang bescheiden blieb, kam so die vorläufig einzige klinische Validitäts-Studie zustande. Tab. 4.7 enthält außer den Validitätskoeffizienten rtc auch noch rk, die Inter-RaterReliabilitäten, und die nach Winer (1962, S. 124) minderungskorrigierten Validitäten rtc-corr, die abschätzen lassen, wie hoch die Validitäten ausgefallen wären, hätte man die Kriteriumsvariablen fehlerfrei erheben können. Diese Korrektur geht von einigen unüberprüfbaren Annahmen aus und ist darum mit Vorsicht zu betrachten. – Da es bei Mielke (2014) jeweils nur einen Rater gab, war dort die Korrektur nicht möglich. Tab. 4.7 zeigt einige auffallende Inkonsistenzen. Die Skala ÜBERDRUSS, die in den ersten drei Studien zu den validesten gehört, bildet in der vierten das Schlusslicht. Ziemlich genau umgekehrt geht es den Skalen INNERE LEERE und AGGRESSIVE REAKTION. Durchgängig relativ gut schneidet nur EMOTIONALE ERSCHÖPFUNG ab. Wie sind diese Koeffizienten zu beurteilen? Sie liegen auf oder über dem Niveau von ,30, das Mischel (1968) als charakteristisch für Persönlichkeitstests identifiziert hat (was seinerzeit eine Art Krise der Persönlichkeitspsychologie auslöste). Damit könnte man sich begnügen, in Erinnerung daran, dass Verhalten und Erleben, speziell emotionales, von vornherein stark situationsabhängig sind. Es ist aber weiter zu berücksichtigen, dass die HBI-Konstrukte ausnahmslos niedrige Soziale Erwünschtheit aufweisen, was sie schlechter beobachtbar macht; Betroffene neigen dazu, sich zu „tarnen“. Wirklich guten Bekannten oder gar Freunden wird man da nicht so leicht etwas vormachen können, aber die Rater in den zitierten Studien dürften nicht durchgehend in diese Kategorien gehört haben. Die Kriterien sind also nicht über jeden Zweifel erhaben.
4.3 Ergänzende Informationen
25
Immerhin ist so ein prinzipiell gangbarer Weg zu höheren Validitätskoeffizienten angedeutet: Man beschränke sich bei den Ratern auf wirklich nahestehende Menschen, die die Ratees in möglichst unterschiedlichen Situationen beobachten konnten. Wenn dieser Weg selten beschritten wird, dann wahrscheinlich wegen des ohnehin hohen Aufwands. Ein wenig Rater-Training obendrein wird sicher nicht schaden; dagegen ist von sog. „verankerten“ Ratingskalen wenig zu erwarten (Burisch 1976). Eine weitere Möglichkeit bestünde darin, den Ratern dieselben FragebogenItems vorzulegen wie den Ratees, nur halt in der 3. Person Singular formuliert. Ein solcher Versuch bescherte dem Tedium-Measure in einer kleinen, unveröffentlichten Studie (Burisch 1984b; N = 51) einen einmaligen Validitätskoeffizienten von ,76, was auch ein wenig glücklicher Zufall gewesen sein dürfte. Immerhin, auf diese Weise ließe sich ein Teil des „Signal-Rauschens“ beseitigen, mit dem unweigerlich zu rechnen ist, wenn die Ratees in Fragebögen relativ spezifische Verhaltens- oder Erlebensneigungen einschätzen, die Rater dagegen abstrakte Substantive oder Adjektive benutzen müssen, deren Zuordnungen zu denselben Neigungen (d. h. den Testitems) immer Ermessenssache bleibt (Burisch 1985). Auch diese Option – Selbst- und Fremdbeschreibung mittels identischer Instrumente erheben – wird so gut wie nie gewählt, wahrscheinlich auch des Aufwands wegen. Vor allem ist sie nicht für alle Item-Arten elegant zu realisieren. So weit zu einigen Möglichkeiten zukünftiger Forschung mit dem HBI. Freilich: Selbstbild und Fremdbild werden selbst unter optimalen Umständen nie zur Deckung kommen. Auch ist die Validierung eines Testinstruments ohnehin nie abgeschlossen. Der folgende Abschn. 4.3.1 wird einige Informationen liefern, die die in Tab. 4.7 genannten Kennwerte in einen Vergleichsrahmen stellen.
4.3 Ergänzende Informationen 4.3.1 Validitätsvergleiche mit anderen Instrumenten In zweien der bereits zitierten HBI-Studien wurden zu Zwecken des „Benchmarking“ nicht nur zusätzliche, bereits m.o.w. etablierte Fragebögen eingesetzt, sondern auch entsprechende Kriteriums-Ratings erhoben. Der wesentliche Einflussfaktor solcher Vergleiche, Motivation und Fähigkeiten der Teilnehmenden, war so kontrolliert. • In dem schon oben erwähnten Datensatz von Steinhoff (1991; unveröff.) erreichte das HBI Validitätskoeffizienten für das mittlere Rating je dreier Bekannter zwischen ,22 und ,46; das Mittel lag bei ,35 (vgl. Tab. 4.7). Dieselben Probanden bearbeiteten auch die Kurzform des Freiburger Persönlichkeitsinventars (FPI-K), dieselben Rater lieferten auch Einschätzungen für die ersten acht FPI-K-Konstrukte. (Die Skala 9 ist eine Kontrollskala, die Skalen 10–12 sind übergeordnete Skalen, die mit den ersten acht überlappen.)
26
4 Psychometrische Eigenschaften
Die Validitäten reichten hier von ,15 (DOMINANZSTREBEN) bis ,40 (GESELLIGKEIT), mit einem Mittelwert von ,28. • Ebenfalls schon unter Abschn. 4.2.2 erwähnt wurde die Studie von Hagge (2005). Dort lagen die Validitäten des HBI zwischen ,09 und ,47, bei einem Mittel von ,30. (Für den Ausreißer mit ric = ,09 bot sich keine plausible Erklärung an.) Zum Vergleich: Das NEO-Five-Factor Inventory (Neo FFI) erreichte hier Werte zwischen ,24 und ,53, bei einem Mittel von ,40; die beiden Skalen des Oldenburg Burnout Inventory (OLBI) landeten bei ,46 (DISTANZIERUNG VON DER ARBEIT) bzw. 29 (ERSCHÖPFUNG); Mittelwert ,38.
4.3.2 Zusammenhänge mit anderen Instrumenten Für die Etablierung eines „nomologischen Netzwerks“ (Cronbach & Meehl 1955) kann es informativ sein, die Korrelationen von Messwerten unterschiedlicher Tests zu betrachten. Allerdings sollte man sich dabei vor Reifizierung von differentialpsychologischen Konstrukten hüten. Wenn zwei Fragebogenskalen A und B korrelieren, bedeutet das nicht mehr, als dass, „wer A über sich sagt, tendenziell auch B über sich sagt“. Es ist dann jedenfalls immer ratsam, auf die Item-Ebene hinunterzusteigen, bevor man allzu tiefgründige Spekulationen anstellt. Einige illustrative Korrelationen des HBI mit anderen Fragebogen-Skalen finden sich in Tab. 4.8a und 4.8b.
4.3.2.1 Korrelationen mit dem Tedium Measure (TM) Schon in der Arbeit von Frühauf (1990) kamen neben der Vorform des HBI zwei weitere Instrumente zum Einsatz: Das Tedium Measure (TM; deutsche Version aus der Übersetzung von Aronson et al. 1983, geringfügig modifiziert) und das Freiburger Persönlichkeitsinventar, Form R (FPI-R; Fahrenberg et al. 1984). Wie Tab. 4.8a zeigt, bestehen für das Tedium Measure besonders hohe Korrelationen mit den HBI-Skalen HILFLOSIGKEIT, EMOTIONALE ERSCHÖPFUNG und INNERE LEERE (in dieser Reihenfolge), die auf Item-Ebene den HBI-Faktor 1 definierten (vgl. Abschn. 4.1.2). Das verwundert nicht; enthält das TM doch Gefühlslagen wie „sich schwach und hilflos fühlen“, „emotional erschöpft“ sein oder „sich hoffnungslos fühlen“, die nach Häufigkeit beurteilt werden müssen. Die semantische Nähe zu den genannten HBI-Skalen ist offensichtlich. 4.3.2.2 Korrelationen mit dem Freiburger Persönlichkeitsinventar, Form R (FPI-R) Auch die Zusammenhänge mit den FPI-R-Skalen in Tab. 4.8a liefern wenig Überraschendes. Allerdings überschreiten hier nur drei Korrelationen den Wert von ,60. Man hätte erwarten können, dass die FPI-Skala 7 BEANSPRUCHUNG die engsten Beziehungen zum HBI aufweist; dies gilt jedoch, mit wenigen Ausnahmen, für die Skala 1 LEBENSZUFRIEDENHEIT. Eine Erklärungsmöglichkeit, zugegebenermaßen post hoc, liegt in der stärker ausgeprägten
4.3 Ergänzende Informationen
27
Tab. 4.8a Korrelate der HBI-Skalen: TM, FPI und AVEK EE
LU
DI
DE
HI
IL
ÜD
UE
SÜ
AG
Tedium FPI-R-Skalen1
73
44
32
65
78
72
56
43
01
39
Lebenszufriedenheit
−55
43
−29
−51
−67
−62
−51
−31
01
01
08
−36
−19
43
−12
−31
−37
−19
−24
−04
36
23
01
−11
22
52
54
38
30
36
12
58
−00
20
14
25
25
30
11
42
−03
19
35
46
41
28
46
−06 30
33
−16
21
48
54
45
24
35
05
36
M.1
Soziale Orientierung Leistungsorientierung Gehemmtheit
02
28
−06 −25
−30 32
10
40
08
40
−13 28
−14 26
−13
−09 20
Erregbarkeit
39
Aggressivität
22
Beanspruchung
64
Körperliche Beschwerden
46
Gesundheitssorgen FPI-K-Skalen2
11
04
20
17
12
15
09
09
09
16
Nervosität
46
05
22
35
39
41
37
26
09
31
Aggressivität
05
03
24
05
17
12
04
38
17
15
40
56
45
46
28
−11
23
Depressivität
−01
13
43
Erregbarkeit
24
05
29
22
16
17
17
02
54
Geselligkeit
−15
−12
−00
−39
−32
−19
−09
−08
−20
14
−06
30
−51
−28
03
−12
16
07
25
17
08
07
Gelassenheit Dominanzstreben
−30
Gehemmtheit AVEK-Skalen3
22
Subjektive Bedeutsamkeit der Arbeit
31 20
Beruflicher Ehrgeiz
02 12
Verausgabungsbereitschaft
56 53
Perfektionsstreben
15 34
Distanzierungsfähigkeit
−61 −58
−15
−46
−27
−32
−35 29
08
35
38
25
19
17
01
,32
42 −05
17 13
30 18
32 18
36 23
36 34
27 32
30 17
−08 −23
−12 05
−19 03
−03 03
33 37
−01 05
−09 10
29 31
46 33
38 36
−17 −03
10 23
13 −02
04 −01
25 −04
15 19
62 52
34 49
30 26
04 01
16 17
04 33
09 30
22 30
10 16
18 37
59 68
23 29
−16 −19
−03 −23
−34 −46
−49 −51
−42 −47
−21 −41
−82 −83
03 −41
−37 −43
05 −06
23 16
−12 −19
35 45
38 36
36 31
66 66
48 59
49 50
57 44
Offensive Problembewältigung
−05 −12
−20 −37
−11 −12
−33 −28
−17 −24
−18 −18
−23 −25
−16 −41
−19
12
Resignationstendenz
Innere Ruhe, Ausgeglichenheit
−21
−25 −27
16 −13
−35 −56
−23 −43
−10 −33
−39 −33
26 46
−13 −42
05 35
04 −29
49 53
−54 −56
(Fortsetzung)
4 Psychometrische Eigenschaften
28 Tab. 4.8a (Fortsetzung) Erfolgserleben im Beruf Lebenszufriedenheit
EE
LU
DI
DE
HI
IL
ÜD
UE
SÜ
AG
−04 −15
−22 −53
−25 −21
−20 −26
−32 −31
−33 −27
−30 −30
04 −11
21 11
−25 −21
−20 −24
−39 −20
−35 −27
−39 −25
−35 −31
−32 −37
−35 −23
−09 −18
10 −06
−37 −44
Erleben Sozialer Unterstützung
−25 −49
−11 −38
−55 −52
−56 −60
−51 −61
−39 −49
−20 −37
−08 −11
−37 −40
−25 −17
Legende: 1TM = Tedium Measure. 1FPI-R = Freiburger Persönlichkeitsinventar, Form R. 1Aus Frühauf (1990). 2FPI-K = Freiburger Persönlichkeitsinventar, Form K. 2Daten von Steinhoff (1991). 3AVEK-Skalen = Allgemeines Verhaltens- und Erlebensmuster, Kurzform. Jeweils obere Korrelation: von Herder (2011); untere: Weber (2014). EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. Ohne Dezimalpunkte.
Tab. 4.8b Korrelate der HBI-Skalen: NEO FFI und OLBI (Hagge (2005) EE
LU
DI
DE
HI
IL
ÜD
UE
SÜ
AG
Neurotizismus
55
30
16
57
63
52
44
42
16
46
Extraversion
−15
−38
−47
−25
−27
−21
−12
−02
10
−05
−02
14
−40
−01
00
−22
−12
−08
−17
01
−21
01
41
−09
−47
−44
−51
−64
−33
−08
NEO
FFI1
Offenheit Verträglichkeit
04
−06
Gewissenhaftigkeit −13 OLBI2
−32
Erschöpfung
−22
Distanz Arbeit
−79
−33
−36
−19
−12
−20
12
−23
−02
−43
02
−09
−42
00
−12
−53
09
00
−01
13
13
−25
−13
−31
−28
Legende: 1NEO FFI = NEO-Fünf-Faktoren Inventar (Borkenau und Ostendorf 1993). 2OLBI = Oldenburg Burnout Inventory (Ebbinghaus 1996). EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. Ohne Dezimalpunkte.
Stimmungs-Komponente der letzteren Skala; die Rede ist dort eher von „alles gründlich satt haben“, „oft unzufrieden“ bzw. „ausgesprochen zufrieden“ sein mit dem Leben und seinen Bedingungen. In der Skala BEANSPRUCHUNG werden etwas stärker die Belastungen von außen, etwa „stark eingespannt sein“ oder „unter Zeitdruck arbeiten“, thematisiert.
4.3 Ergänzende Informationen
29
4.3.2.3 Korrelationen mit dem Freiburger Persönlichkeitsinventar, Form K (FPI-K) Der Vergleich mit dem (älteren) FPI-K, den die Daten von Steinhoff (1991) ermöglichen, liefert insofern neue Informationen, als die beiden FPI-Versionen teils unterschiedliche Konstrukte abdecken (vgl. Tab. 4.8a). Bei der Betrachtung der überwiegend etwas schwächeren Zusammenhänge ist zu berücksichtigen, dass die FPI-K-Skalen nur je sieben dichotome Items enthalten; die Punktwerte können also nur zwischen 0 und 7 streuen. Relativ die meisten engeren Beziehungen finden sich erwartungsgemäß mit FPI 3 Depressivität; die Hälfte der HBI-Skalen weist hier Korrelationen ≥,40 auf. Ähnliches gilt für FPI 1 Nervosität, was eine alltagssprachliche Umbenennung von „Neurotizismus“ darstellt. Auf den ersten Blick mag verwundern, dass die HBI-Skala AGGRESSIVE REAKTION deutlich höher mit FPI-Erregbarkeit (r = ,54) korreliert als mit FPI-Aggressivität (r = ,23). Dies erklärt sich aber zwanglos durch die Iteminhalte: Während die ersteren beiden Skalen reaktive Aggressivität erfassen, beinhaltet letztere vor allem spontane Aggressivität. 4.3.2.4 Korrelationen mit dem Allgemeinen Verhaltens- und Erlebensmuster (AVEK) Die Kurzform des Allgemeinen Verhaltens- und Erlebensmusters (AVEK; Schaarschmidt und Fischer 2008) kam in den Projekten von Weber (2014; N = 861) und von Herder (2011; N = 43/44) zum Einsatz. Die Korrelationen zwischen HBI- und AVEK-Skalen finden sich im untersten Teil von Tab. 4.8a. Der jeweils obere Wert jedes Zellen-Paares der Matrix stammt von von Herder, der jeweils untere von Weber. Da Webers Stichprobe rund zwanzigmal so groß war wie die von Herders, werden wir uns nur auf erstere beziehen. Die Werte sind aber, mit einer einzigen, wahrscheinlich zufälligen, Ausnahme, sehr ähnlich. Das AVEK ist sowohl von seiner inhaltlichen Ausrichtung als von seiner Skalenlänge (je vier Items) dem HBI am engsten verwandt. Dementsprechend finden sich zahlreiche hohe Korrelationen (bis zu r = −,83; letztere, zwischen „Distanzierungsfähigkeit“ und UNFÄHIGKEIT ZUR ENTSPANNUNG, allerdings wohl ein Ausreißer). Die AVEK-Skalen „Subjektive Bedeutsamkeit der Arbeit“, „Beruflicher Ehrgeiz“, „Offensive Problembewältigung“ und „Erleben sozialer Unterstützung“ erreichen nur im Einzelfall Korrelationen bis r = ,37 mit HBI-Skalen, erfassen also anscheinend unabhängige Facetten des Themenfeldes. 4.3.2.5 Korrelationen mit dem NEO-Fünf-Faktoren Inventar (NEOFFI) Das NEO-Fünf-Faktoren Inventar (NEO-FFI; deutsche Version von Borkenau und Ostendorf 1993) ist eines der gebräuchlichsten Instrumente zur Erfassung der sog. Big Five, also der fünf Faktoren, die sich mit einiger Regelmäßigkeit immer wieder ergeben, wenn größere, repräsentative Itempools der Persönlichkeitspsychologie ebenfalls größeren Probanden-Stichproben vorgegeben werden. Diese Faktoren
30
4 Psychometrische Eigenschaften
bzw. die Skalen des Fragebogens sind hier mit Neurotizismus, Extraversion, Offenheit für Erfahrungen, Verträglichkeit und Gewissenhaftigkeit benannt. Wie schon oben unter Abschn. 4.3.1 berichtet, erhob Hagge (2005) auch zu diesem Inventar Selbst- und Fremd-Ratings. Die Korrelationen zeigt Tab. 4.8b im oberen Bereich. A priori ließen sich einige Querverbindungen zu HBI-Konstrukten erwarten. So sollten die Skalen, die den HBI-Faktor 1 (s. o. Abschn. 4.1.2) definieren, nämlich EMOTIONALE ERSCHÖPFUNG, HILFLOSIGKEIT und INNERE LEERE, mit der Skala Neurotizismus des NEO-FFI zusammenhängen; in der Tat zeigen sich hier hohe Korrelationen (,55, ,63 und ,52). Auch die Korrelationen dieser Skala mit DEPRESSIVE REAKTION (,57), ÜBERDRUSS (,44) und UNFÄHIGKEIT ZUR ENTSPANNUNG (,42) des HBI passen ins Bild. Weniger zu erwarten, aber a posteriori sinnvoll, ist der Zusammenhang mit AGGRESSIVE REAKTION AUF EMOTIONALE BELASTUNG (,46). Ebenfalls plausibel sind die Korrelationen zwischen DISTANZIERTHEIT und Extraversion (−,47), sowie SELBSTÜBERFORDERUNG und Gewissenhaftigkeit (,41).
4.3.2.6 Korrelationen mit dem Oldenburg Burnout Inventory (OLBI) Wie schon oben in Abschn. 4.3.1 berichtet, gab Hagge (2005) ihrer Stichprobe von 77 Proband(inn)en neben dem HBI und dem NEO FFI auch das Oldenburg Burnout Inventory (OLBI) vor. Erwartungsgemäß korrelieren dessen beide Skalen, Erschöpfung und Distanz von der Arbeit, betragsmäßig hoch mit einzelnen HBI-Skalen (s. Tab. 4.8b, unterer Teil). Die Korrelationen sind negativ, weil die Antwortskala des OLBI gegenläufig zum HBI ist. Mit Erschöpfung korrelieren am höchsten die HBI-Skalen EMOTIONALE ERSCHÖPFUNG (−,79), ÜBERDRUSS (−,64) und INNERE LEERE (−,51). Wenig überraschend korreliert Distanz von der Arbeit am höchsten mit ÜBERDRUSS (−,53). Allenfalls hätte man erwarten können, dass diese Korrelation noch höher ausfällt als die von Erschöpfung.
4.3.3 Einige große internationale HBI-Stichproben In den letzten Jahren wurde das HBI für unterschiedliche Zwecke bei mehreren umfangreichen Stichproben in Deutschland, Österreich und der Schweiz eingesetzt. Einige illustrative Befunde folgen in den nächsten Abschn. 4.3.3.1 bis 4.3.3.3, eine Zusammenschau in Abschn. 4.3.3.4.
4.3.3.1 Eine deutschsprachige Online-Stichprobe aus den DACHLändern Zwischen 2006 und 2013 war das HBI auf der Schweizer Website SwissBurnout (SWB) zur Gratis-Nutzung verfügbar. Ab Ende 2006 wurden alle eingehenden Fragebögen sofort vollautomatisch ausgewertet, die Ergebnisse kostenlos und
4.3 Ergänzende Informationen
31
anonym zurückgemeldet. Dieser Service wurde bis 2013 angeboten; bis dahin hatten ihn mehr als 300.000 Nutzer in Anspruch genommen. Zwischen Ende 2006 und April 2007 waren fast 16.000 vollständige HBI-Protokolle eingegangen, davon 14123 deutschsprachig, die übrigen englisch oder französisch. Von den deutschsprachigen stammten 67 % aus Deutschland, 7 % aus Österreich und 26 % aus der Schweiz. Davon waren 45 % weiblich und 55 % männlich; das Durchschnittsalter betrug 40,6 Jahre. Die SWB-Stichprobe war mit Sicherheit nicht repräsentativ. Das schon, weil die Nutzung des Internets zum Zeitpunkt der Datenerhebung deutlich weniger allgemein verbreitet war als sie es heute ist. Dies zeigte sich bereits in einem gehobenen Berufs- und Bildungs-Niveau der Nutzer. Vor allem aber waren in den Verteilungen der meisten HBI-Skalen markante Decken-Effekte zu beobachten. Um diese zu beseitigen, hätte man den Fragebogen mit einer Anzahl drastisch formulierter Items ergänzen müssen. Es ist also anzunehmen, dass die Nutzer über eine Suchmaschine und das Suchwort Burnout auf die Site gelangt waren. Abb. 4.3 zeigt als Beispiel die Häufigkeitsverteilungen der Skala EMOTIONALE ERSCHÖPFUNG für die SWB- und die Normstichprobe. Während in letzterer auf den maximal möglichen Score von 35 nur noch 0,2 % entfallen, springt die SWB-Verteilung an dieser Stelle noch einmal auf fast 7 %; 35 ist sogar der Modalwert. Die zu vermutende Selbstselektion mindert natürlich die Verallgemeinerungsfähigkeit aller Befunde. Dennoch seien zwei Faktoren erwähnt, für die man einen stärkeren Einfluss vermutet hätte: Geschlecht und Alter.
Abb. 4.3 Verteilung von EMOTIONALE ERSCHÖPFUNG in der SWB- und in der Normstichprobe
32
4 Psychometrische Eigenschaften
Abb. 4.4 EMOTIONALE ERSCHÖPFUNG in Abhängigkeit von Alter und Geschlecht in der SWB-Gruppe
In der Tat liegt die Kurve der Frauen durchgängig etwas höher als die der Männer. Dieser Effekt zeigt sich auch bei sechs der anderen HBI-Skalen, nur bei drei der übrigen Skalen, nämlich LEISTUNGSUNZUFRIEDENHEIT, DISTANZIERTHEIT und ÜBERDRUSS, ist es umgekehrt, dort liegen die Männer höher. Die Abstände sind aber durchgängig gering. In der Abb. 4.4 für EMOTIONALE ERSCHÖPFUNG gehen die Kurven erst bei den letzten Alters-Gruppen (60–69 und 70–80 Jahre) deutlicher auseinander. Dort sind aber auch die Teilstichproben sehr viel kleiner, sodass Zufallseffekte eine stärkere Rolle spielen. Die Verteilungskennwerte für die gesamte SWB-Stichprobe und alle HBI-Skalen finden sich unten in Tab. 4.10 in Abschn. 4.3.3.4.
4.3.3.2 Drei österreichische Akademiker-Stichproben Eine unerwartet deutliche Bestätigung der HBI-Grundstruktur (s. o. Abschn. 4.1.2) liefern drei große Stichproben, die Erich Hotter (2009; 2014; 2016) zu verdanken sind. Diese unterscheiden sich von der Norm- und der Burnout-Stichprobe (vgl. o. Abschn. 4.1.1) in mehrerlei Hinsicht: Es handelt sich ausschließlich um Akademiker(innen), die das HBI online bearbeiteten, nämlich um 774 Richterinnen und Richter, 6249 Ärztinnen und Ärzte, sowie 10674 Lehrerinnen und Lehrer, und zwar aus Österreich. Zusätzlich sind dies insofern selegierte Samples, als bei der Rekrutierung der Burnout-Kontext ausdrücklich erwähnt wurde. Letzteres schlug sich in freien Kommentaren nieder, die in vielen Fällen die Berufsrealität beklagten.
4.3 Ergänzende Informationen
33
Auch die Mittelwerte für EMOTIONALE ERSCHÖPFUNG waren erhöht. Bei fünf HBI-Skalen lagen sie allerdings niedriger als in der Normstichprobe (vgl. u. Tab. 4.10 in Abschn. 4.3.2.4). Dennoch stimmten die 7-Faktoren-Lösungen der drei Teilstichproben fast vollständig überein, und zwar nicht nur untereinander, sondern auch mit den Lösungen aus der Norm- und der Burnout-Stichprobe (s. o. Abschn. 4.1.2 und 4.1.3). Es erschien darum gerechtfertigt, die drei österreichischen Stichproben zu einer einzigen mit N = 17.697 zusammenzuführen, deren Varimax-rotierte Ladungsmatrix Tab. 4.9 wiedergibt. Wie sich zeigt, wird der 1. Faktor auch hier durch die HBI-Skalen EMOTIONALE ERSCHÖPFUNG, HILFLOSIGKEIT und INNERE LEERE definiert, der 2. Faktor durch ARBEITSÜBERDRUSS, der 3. Faktor durch SELBSTÜBERFORDERUNG und der 5. Faktor durch DISTANZIERTHEIT. Was in Norm- und Burnout-Stichprobe den 4. Faktor ausmacht, DEPRESSIVE REAKTION AUF EMOTIONALE BELASTUNGEN und AGGRESSIVE REAKTION AUF EMOTIONALE BELASTUNGEN, wird hier zu Faktor 6. Faktor 6 (LEISTUNGSUNZUFRIEDENHEIT) wird zu Faktor 7, Faktor 7 (UNFÄHIGKEIT ZUR ENTSPANNUNG) zu Faktor 4. Die Anomalie, dass das umzupolende Item 19 auf einem „fremden“ Faktor etwas höher lädt als auf dem eigenen, die schon in der Normstichprobe (aber nicht in der Burnout-Stichprobe) auftrat, zeigt sich auch hier (Kursivdruck); es bleibt die einzige Normabweichung. Insgesamt also hochgradige Invarianz.
4.3.3.3 Eine Stichprobe deutscher Psychotherapie-Suchender Eine weitere umfangreiche HBI-Stichprobe stammt aus einer großen psychotherapeutischen Tagesklinik, wo das Instrument seit Jahren in der Erstuntersuchung eingesetzt wird, wenn aufgrund von zwei Screening-Fragen der Verdacht besteht, dass Burnout Teil der Problematik sein könnte. Die Aufnahmedaten stammen aus der Zeit zwischen Frühjahr 2015 und Frühjahr 2019. Tab. 4.10 zeigt u. a. die Kennwerte von 4956 Probandinnen (63 %) und Probanden (37 %) der Tagesklinik, die das HBI vollständig ausgefüllt hatten. Die Effektstärke des Geschlechts erreicht auch hier nur bei drei Skalen die konventionelle Mindestgrenze für einen bloß „schwachen“ Effekt von eta2 = ,01, nämlich bei DISTANZIERTHEIT (,014; Männer höher), DEPRESSIVE REAKTION (,011; Frauen höher) und SELBSTÜBERFORDERUNG (,014; Frauen höher). Darum wurde auch hier nicht nach Geschlechtern differenziert. Bei den sehr hohen Mittelwerten ist zunächst zu berücksichtigen, dass die Probanden zum Messzeitpunkt noch nicht wissen konnten, ob die Tagesklinik für sie einen Therapieplatz bereitstellen würde. Es ist also damit zu rechnen, dass eine gewisse Fake-Bad-Motivation bestand. Außerdem bestand ja eine Vorselektion durch die beiden Screening-Fragen.
4 Psychometrische Eigenschaften
34
Tab. 4.9 Rotierte 7-Komponentenmatrix Österreichische Akademiker (N = 17697) Faktor:
1
2
3
4
5
6
7
EE1 A06
,603
,452
,101
,294
,043
,108
EE2 A11
,632
,391
,114
,292
,015
,188
−,037 ,002
EE3 A27
,725
,325
,098
,256
,084
,171
,073
EE4 A37
,632
,344
,129
,353
,183
EE5 A38
,694
,353
,127
,314
−,038
−,021
−,102
−,015
LU1 A04
,110
,167
LU2 A18
,142
,133
LU3 A34
,146
,091
DI1 A02
,081
,276
DI2 A12
,356
,120
DI3 A24
,141
,134
DI4 A30
,189
,088
DE1 A15
,402
,026
−,072
,022
,032
,161
,037
−,043
,058
,075
−,005 ,661
,771
,018
,086
,059
,740
,072
,121
,677
,060
,009
−,009
−,019
−,086
−,103
−,138
,061
,213
,128
,349
,647
,125
,090
,761
,094
,113
,624
,143
,014
,186
,417
,224
DE2 A19
,275
,040
,009
,281
,033
,372
,459
DE3 A25
,346
,081
,305
,334
,165
,402
,215
HI1 A03
,484
,342
,055
,265
,098
,171
,169
HI2 A14
,627
,227
,085
,306
,159
,224
,218
HI3 A17
,685
,226
,159
,188
,170
,197
,162
HI4 A31
,624
,152
,076
,258
,178
,282
,245
IL1 A05
,574
,327
,006
,052
,314
,081
,153
IL2 A08
,706
,213
,095
,127
,244
,157
,147
IL3 A21
,750
,133
,092
,020
,285
,098
,184
IL4 A33
,752
,103
,070
,032
,302
,131
,213
ÜD1 A01
,292
,726
,001
,047
,229
,125
,163
ÜD2 A10
,397
,657
,038
,110
,215
,182
,191
ÜD3 A20
,381
,718
,002
,069
,209
,138
,173
ÜD4 A26
,439
,630
,035
,110
,249
,157
,218
ÜD5 A36
,446
,683
−,004
,112
,197
,158
,146
UE1 A13
,317
,104
UE2 A28
,291
,112
,193
,768
,052
,063
,019
,200
,789
,031
,102
,024
UE3 A35
,188
,090
,207
,756
,007
,132
,022
SÜ1 A07
,119
,016
,661
,158
SÜ2 A16
,133
,009
,716
,173
−,033
−,012
−,189
−,034
SÜ3 A23
,031
SÜ4 A29
,054
SÜ5 A39
,098
,037
,189
,835
,033
,005
,051
,050
,808
,112
,017
,058
,053
,819
,099
,019
,041
,079
−,063
−,069
−,079
(Fortsetzung)
4.3 Ergänzende Informationen
35
Tab. 4.9 (Fortsetzung) Faktor:
1
2
3
4
5
6
7
AG1 A09
,305
,273
,079
,127
,151
,697
AG2 A22
,216
,194
,118
,027
,167
,776
AG3 A32
,383
,176
,147
,265
,211
,540
−,035 ,034
,161
Legende: EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. Die gesamte Skala LEISTUNGSZUFRIEDENHEIT (Items 4, 18 und 34) sowie das Item 19 sind umgepolt. Tab. 4.10 HBI-Kennwerte in drei Groß-Stichproben und in der Norm-Stichprobe StPr
EE
LU
DI
DE
HI
IL
ÜD
UE
SÜ
AG
SwissBurnout M
24,97
10,3
14,7
13,2
18,1
17,2
21,1
14,7
25,8
13,9
s
7,47
3,92
5,35
3,98
6,10
6,51
8,18
4,74
6,31
4,42
α ,91 ,71 ,75 Österrreische Akademiker
,70
,87
,87
,92
,85
,85
,79
M
19,93
8,16
11,4
10,5
12,6
10,6
13,8
13,0
24,8
10,6
s
8,20
3,38
4,83
4,22
6,01
6,08
7,54
5,01
6,32
4,42
α ,93 Tagesklinik
,69
,74
,75
,87
,88
,92
,86
,85
,79
M
27,95
12,1
13,8
15,4
21,4
18,6
22,3
15,5
26,6
15,1
s
5,18
4,07
5,17
3,46
4,30
5,61
8,0
4,18
6,42
4,18
α Norm
,82
,73
,70
,58
,74
,80
,91
,73
,87
,75
M
15,49
9,8
11,7
10,9
12,2
9,7
14,0
11,6
24,5
11,2
s
6,46
4,0
4,55
3,70
5,15
4,9
6,78
4,36
5,76
4,19
α
,85
,80
,70
,61
,79
,77
,88
,73
,77
,70
Legende: EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. SWB = SwissBurnout (s. Abschn. 4.3.3.1; N = 14.123). Österreichische Akademiker (s. Abschn. 4.3.3.2; N = 17.697). Tagesklinik (s. Abschn. 4.3.3.3; N = 4956). Norm = Normstichprobe (s. Abschn. 4.1.1.1; N = 616). M = Mittelwert, s = Standardabweichung
4.3.3.4 Vergleich der drei Großstichproben mit der Normstichprobe Tab. 4.10 enthält zunächst die Kennwerte für die internationale SWB-Stichprobe, die Österreichische Akademiker-Stichprobe und die Stichprobe aus der Tagesklinik, die soeben (in Abschn. 4.3.2.1–4.3.2.3) vorgestellt wurden. Darunter zum Vergleich die Statistiken der Norm-Stichprobe.
36
4 Psychometrische Eigenschaften
Mit Ausnahme der Skala DISTANZIERTHEIT, die wahrscheinlich am schwächsten den persönlichen Leidensdruck abbildet, liegen die Mittelwerte der Psychotherapie-Bewerber der Tagesklinik überall am höchsten; diese waren auch die einzigen Untersuchungsteilnehmer, die von ihren Fragebogenantworten gewisse praktische Konsequenzen erwartet haben könnten. Das andere Extrem (mit Ausnahme der Skala SELBSTÜBERFORDERUNG) bilden die Österreichischen Akademiker (Ärzte, Anwälte und Lehrer beiderlei Geschlechts), bei denen auch kaum Motivation zur Akzentuierung von Beschwerden zu vermuten ist. Ihre Skalen-Mittelwerte liegen bei fünf Skalen sogar unter denen der Norm-Stichprobe. Die Inneren Konsistenzen (α-Werte) der HBI-Skalen bewegen sich mit drei Ausnahmen zwischen ,70 und ,93. Zwei dieser Ausnahmen betreffen die Skala DEPRESSIVE REAKTION. Das dürfte kein Zufall sein, enthält doch diese Skala als einzige ein „positiv“ formuliertes Item („Emotionale Belastungen stehe ich gut durch“), das bei der Auswertung umzupolen ist (Die Skala LEISTUNGSUNZUFRIEDENHEIT besteht nur aus drei solchen Items.). Dieses Item weist in beinahe allen Stichproben auch die geringste Trennschärfe auf; beinah überall verbesserten sich die α-Werte, würde man darauf verzichten. Schon aus inhaltlichen Gründen (das Thema „Resilienz“ wäre sonst nicht vertreten) sollte es aber beibehalten werden.
4.3.3.5 Ein klinisches Anwendungsbeispiel Die folgenden Abb. 4.5 und 4.6 demonstrieren den Einsatz des HBI in einem besonderen Anwendungsfall: als Messinstrument der subjektiven T herapiewirkung.
Abb. 4.5 EMOTIONALE ERSCHÖPFUNG vor/nach Therapie
Literatur
37
Abb. 4.6 Item 40 vor/nach Therapie. (Legende: N = 237. Text von Item 40: „Ich stecke in einer Krise, aus der ich momentan keinen Ausweg finde“)
Vollständige Vorher-Nachher-Daten lagen für 237 Klient(inn)en der in Abschn. 4.3.3.3 erwähnten Tagesklinik vor. Exemplarisch gezeigt werden hier die Veränderung der Verteilungen in Bezug auf die Skala EMOTIONALE ERSCHÖPFUNG und auf das Item 40 („Ich stecke in einer Krise, aus der ich momentan keinen Ausweg finde“). Im ersteren Fall beträgt die Effektstärke (Cohens d) 0,84, im letzteren 1,11; es handelt sich nach der üblichen Klassifikation somit in beiden Fällen um „starke“ Effekte. In diese Werte gingen selbstverständlich auch die Fälle ein, in denen der Fragebogen subjektive Verschlechterungen meldete. Bei EMOTIONALE ERSCHÖPFUNG waren dies 16 %, bei Item 40 8 % der Klient(inn)en. Dass nach Therapien auch Symptomsteigerungen auftreten, dürfte normal sein; es wird allerdings selten thematisiert, geschweige denn dokumentiert.
Literatur Aronson, E., Pines, A. M., & Kafry, D. (1983). Ausgebrannt. Stuttgart: Klett-Cotta. Borkenau, P., & Ostendorf, F. (1993). NEO-Fünf-Faktoren Inventar (NEO-FFI) nach Costa und McCrae. Göttingen: Hogrefe. Burisch, M. (1976). Konstruktionsstrategien für multidimensionale Persönlichkeitsfragebögen. Unveröff. Dissertation, Universität Hamburg. Burisch, M. (1978). Construction strategies for multiscale personality inventories. Appl Psychol Measur, 2, 97–111. Burisch, M. (1984a). Approaches to personality test construction: A comparison of merits. American Psychologist, 39, 214–227. Burisch, M. (1984b). The Maslach Burnout Inventory and the Tedium Measure: Reliability and validity in a German sample. Unveröff. Ms.
38
4 Psychometrische Eigenschaften
Burisch, M. (1985). I wish it were true: Confessions of a secret deductivist. Journal of Research in Personality, 19, 343–347. Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281–302. Demerouti, E. (1999). Burnout. Eine Folge konkreter Arbeitsbedingungen bei Dienstleistungsund Produktionstätigkeiten. Berlin: Lang. Ebbinghaus, M. (1996). Erfassung von Burnout. Entwicklung und Überprüfung eines Meßinstrumentes für die Anwendung in verschiedenen Berufsbereichen. Unveröff. Abschlussarb. U. Oldenburg. Fahrenberg, J., & Selg, H. (1970). Das Freiburger Persönlichkeitsinventar. Göttingen: Hogrefe. Fahrenberg, J., Selg, H., & Hampel, R. (1973). Das Freiburger Persönlichkeitsinventar (2. Aufl.). Göttingen: Hogrefe. Fahrenberg, J., Hampel, R. & Selg, H. (1984). Das Freiburger Persönlichkeitsinventar FPI. Revidierte Form FPI-R und teilweise geänderte Fassung FPI-A1. Göttingen: Hogrefe. Frühauf, F. (1990). Entwicklung eines deutschen Burnout-Inventars. Unveröff. Abschlussarb. Universität Hamburg. Hagemann, W., & Geuenich, K. (2009). Burnout-Screening-Skalen. Göttingen: Hogrefe. Hagge, M. (2005). Vergleich zweier deutscher Burnout-Inventare. Unveröff. Abschlussarb. Universität Hamburg. Maslach, C., & Jackson, S. E. (1986). Maslach Burnout Inventory Manual (2. Aufl.). Palo Alto: Consulting Psychologists Press. Maslach, C., Jackson, S. E., & Leiter, M. P. (1996). Maslach Burnout Inventory Manual (3. Aufl.). Palo Alto: Consulting Psychologists Press. Mielke, M. (2014). Die Validität des Hamburger Burnout-Inventars im Klinischen Kontext. Unveröff. Abschlussarb. Universität Hamburg. Mischel, W. (1968). Personality and assessment. New York: Wiley. Schaarschmidt, U. & Fischer, A.W. (2008). AVEM. Arbeitsbezogenes Verhaltens- und Erlebensmuster. London: Pearson. Steinhoff, K. (1991). Unveröff. Datensatz. Tolke, A.-M. (2013). Erweiterung eines bestehenden Burnout-Inventars. Effekte auf Reliabilität und Validität. Unveröff. Abschlussarb. Universität Kiel. von Herder, F. (2011). Das Hamburger Burnout-Inventar (HBI). Eine Studie zu Retestreliabilität und Korrelaten. Unveröff. Abschlussarb. Universität Hamburg. Weber, U. (2014). Burnout-Prävention im Internet. Konzeption und Evaluation eines Online-Präventionsprogramms. Unveröff. Dissertation, Universität Hamburg. Winer, B. J. (1962). Statistical principles in experimental design. New York: McGraw-Hill.
5
Auswertung und Normierung
Inhaltsverzeichnis 5.1 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2 Normierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Mittelwerte und Streuungen der Skalen-Rohscores des HBI in der Normstichprobe wurden bereits im untersten Teil von Tab. 4.10 (s. Abschn. 4.3.3.3) mitgeteilt. Rohwerte sollten jedoch nonlinear in Stanines mit Mittelwert ~5 und Standardabweichung ~2 transformiert werden. Die Auswertung und der Ergebnisbericht werden automatisch über die SpringerTests-Plattform erstellt. Sind die Fragebögen von Hand ausgefüllt worden, dann können die HBI-Daten in die SpringerTests-Plattform eingetragen und automatisch ausgewertet werden. Falls ein Auswertungsschlüssel oder die Normtabelle benötigt wird, wenden Sie sich bitte mit ihrer Anfrage an info@ springertests.de.
5.1 Auswertung Es muss nicht betont werden, dass eine reine Hand-Auswertung gründlich kontrolliert werden sollte. Bei sehr auffälligen Testwerten darf man sich nicht scheuen, gezielt nachzufragen. Im Gegenteil, es gehört zu den Anwendungszwecken des HBI in der therapeutischen Praxis, rascher zu den zentralen Themen von Klient(inn)en zu gelangen. So wird ein erster Blick dem Item 40 („Ich stecke in einer Krise, aus der ich momentan keinen Ausweg finde“) gelten. In der Normstichprobe entfallen 54 % auf die Antwort „1 = völlig unzutreffend“, weitere 17 % auf die Antwort © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Burisch, HBI – Hamburger Burnout-Inventar, SpringerTests, https://doi.org/10.1007/978-3-662-61690-1_5
39
40
5 Auswertung und Normierung
„2 = weitgehend unzutreffend“. Bereits Antworten zwischen „3“ und „7“ fallen dort also in die oberen 29 %.
5.2 Normierung Die Normtabelle basiert auf den Daten von Frühauf (1990; N = 313), Steinhoff (1991; N = 182), Hagge (2005; N = 77) und von Herder (2011; N = 44), kombiniert also auf N = 616 Probandinnen und Probanden. Im Falle von Item 40 basiert die Tabelle nur auf den 303 Pbn (65 % weiblich) der letztgenannten drei Stichproben, da das Item erst nach der Erhebung von Frühauf eingeführt wurde. Die so zusammengefügte Normstichprobe setzt sich aus den genannten vier quasi-zufälligen Samples zusammen, die allerdings überwiegend aus dem weiteren Bekanntenkreis von Psychologie-Studierenden rekrutiert und in Norddeutschland erhoben wurden. Gemeinsam ist ihnen, dass bei der Datenerhebung das Wort Burnout nicht erwähnt wurde, um einerseits Selektionseffekte, andererseits eine gezielte Sensibilisierung für das Generalthema „seelische Gesundheit“ zu vermeiden. Die geschlechtsspezifischen Unterschiede sind nirgends, auch nicht bei Item 40, signifikant und numerisch so gering, dass eine separate Normierung nicht sachgerecht erschien. Auch das Alter scheint auf HBI-Punktwerte kaum einen Einfluss auszuüben.
Literatur Frühauf, F. (1990). Entwicklung eines deutschen Burnout-Inventars. Unveröff. Abschlussarb. Universität Hamburg. Hagge, M. (2005). Vergleich zweier deutscher Burnout-Inventare. Unveröff. Abschlussarb. Universität Hamburg. Steinhoff, K. (1991). Unveröff. Datensatz. von Herder, F. (2011). Das Hamburger Burnout-Inventar (HBI). Eine Studie zu Retestreliabilität und Korrelaten. Unveröff. Abschlussarb. Universität Hamburg.
6
Einsatz und Durchführung
Mögliche Einsatzzwecke für das HBI wurden schon in Abschn. 2.2 diskutiert. Alle Daten der Norm-Stichprobe wurden im jeweiligen persönlichen Lebensoder Arbeitsumfeld der Proband(inn)en erhoben, jedenfalls ohne Anwesenheit von Testleitern und zu einem selbstgewählten Zeitpunkt, wahrscheinlich einem günstigen. So dürfte kein Zeitdruck bestanden haben, was Flüchtigkeitsfehler beim Verständnis von Item-Formulierungen eher unwahrscheinlicher machen sollte. Solche Bedingungen sind nicht immer zu realisieren. Wo man die Wahl hat, ist es aber vermutlich vorzuziehen, den Fragebogen zu Hause ausfüllen zu lassen. Im klinischen Kontext, aber natürlich ebenso für Forschungszwecke, ist es wichtig, etwaige Item-Auslassungen zumindest zu bemerken, besser zu verhindern. Ein einziges übersprungenes Item macht den Rohscore der entsprechenden Skala uninterpretierbar bzw. grob irreführend, manuelle Korrekturen wären zumindest umständlich. Am sichersten dürfte es sein, die Daten über ein Aufnahmegerät zu erheben, das auf missing data unmittelbar bei der Testung reagiert. Wo das nicht möglich ist, sollte man einen manuell ausgefüllten Fragebogen wenigstens grob auf Auslassungen durchsehen. Ansonsten ist es sicher empfehlenswert, das HBI nicht sofort in Gegenwart von Klienten bzw. Patienten auszuwerten, schon um eigene Flüchtigkeitsfehler zu vermeiden. Eine ausführliche Beschreibung zur Durchführung und Auswertung des HBI auf der SpringerTests-Plattform finden Sie nach dem Kauf des Testverfahrens im Bereich des HBI in ihrem Testcenter.
© Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Burisch, HBI – Hamburger Burnout-Inventar, SpringerTests, https://doi.org/10.1007/978-3-662-61690-1_6
41
7
Interpretation
Inhaltsverzeichnis Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Psychologische Messwerte sind bekanntlich fehlerbehaftet, so auch die des HBI. Würde man den Fragebogen einige Tage oder gar Wochen später ein zweites Mal vorgeben, dann würden sich mit einiger Wahrscheinlichkeit selbst dann nicht überall dieselben Scores ergeben, wenn die Motivationslage unverändert geblieben wäre. Es ist aber plausibel, dass gerade Konstrukte aus dem depressions-nahen Inhaltsbereich nicht frei von Tagesschwankungen zu messen sind. Tab. 7.1 gibt eine Orientierungshilfe für die Frage, ab wann spätestens ein Punktwert des HBI als „erhöht“ betrachtet werden sollte (Die umgekehrte Frage nach „auffallend niedrigen“ Werten dürfte sich in der klinischen Praxis nicht stellen.). Aufgrund der bekannten Formel des Standard-Messfehlers (z. B. Lienert und Raatz 1994, S. 365) wurden 95 %-Konfidenzintervalle berechnet. In diese Berechnungen gingen die genauen Mittelwerte und Standardabweichungen der Rohwerte bzw. der Quasi-Stanines ein. Letztere liegen ja wegen des beschränkten Umfangs der Normstichprobe nicht exakt bei 5,00 und 2,00. Für sieben der zehn Skalen dürfen Stanines ab 7 als „überzufällig erhöht“ interpretiert werden, für die übrigen drei Skalen beginnt dieser Bereich erst ab einem Stanine von 8. Ablesebeispiel: Für die Skala Emotionale Erschöpfung (EE) kann ein Rohwert ab 20,3 (praktisch also ab 21) als signifikant überdurchschnittlich interpretiert werden, bei derselben Skala und Normierung in Stanines liegt die Grenze bei 6,4 (praktisch also bei 7). Das gerade Gesagte sollte als Anhaltspunkt und bloße „Faustregel“ verstanden werden. Zum einen darum, weil in die Berechnung der Kritischen Werte nicht Retest-Reliabilitäten eingingen, wie es sachgerecht gewesen wäre, sondern α-Koeffizienten. (Die vorhandenen Informationen zur Zeitstabilität der HBI-Werte © Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature 2020 M. Burisch, HBI – Hamburger Burnout-Inventar, SpringerTests, https://doi.org/10.1007/978-3-662-61690-1_7
43
7 Interpretation
44 Tab. 7.1 Kritische Werte (95 %; zweiseitig) für Rohwerte und Stanines EE
LU
DI
DE
HI
IL
ÜD
UE
SÜ
AG
Rohwerte
20,3
13,2
16,6
15,4
16,8
14,3
18,5
16,03
29,9
15,7
Stanines
6,4
6,6
7,1
7,5
6,6
6,8
6,2
6,95
6,8
7,2
Legende: EE = Emotionale Erschöpfung, LU = Leistungsunzufriedenheit, DI = Distanziertheit, DE = Depressive Reaktion auf emotionale Belastungen, HI = Hilflosigkeit, IL = Innere Leere, ÜD = Überdruss, UE = Unfähigkeit zur Entspannung, SÜ = Selbstüberforderung, AG = Aggressive Reaktion auf emotionale Belastungen. Basis: Normstichprobe mit N = 616.
basieren einstweilen nur auf einer einzigen kleinen Stichprobe.) Zum anderen hätte man, da ja praktisch nur „auffallend hohe“ Testwerte interessieren (und „auffallend niedrige“ kaum), auch die obersten 5 % statt der extremen 5 % (und somit der obersten 2.5 %) abtrennen können; das hätte zu weniger konservativen Intervallgrenzen geführt. Auch ist die Bevorzugung des 95 %-Intervalls eine bloße Konvention; im Einzelfall können ganz andere Irrtumswahrscheinlichkeiten sachgerechter sein. Und schließlich gelten die angegebenen Kritischen Werte strenggenommen nur für den Fall einer je einzigen Testwert-Betrachtung. Tatsächlich interessiert man sich aber in der Regel für alle Auffälligkeiten, u. U. also für bis zu zehn Normabweichungen. Es bedarf schließlich kaum der Erwähnung, dass sich das HBI nicht für Begutachtungssituationen eignet, in denen ein besonders auffälliges Ergebnis im Interesse des Probanden liegt (klassisches Beispiel: Berentung). Das Instrument wurde mit dem Ziel bestmöglicher Verständlichkeit konzipiert, was unvermeidlich auch maximale Verfälschbarkeit mit sich bringt. Man sollte sich klar darüber sein, dass solche Anwendungszwecke prinzipiell außerhalb der Reichweite von Fragebögen liegen.
Literatur Lienert, G. A., & Raatz, U. (1994). Testaufbau und Testanalyse (5. Aufl.). Weinheim: Beltz.