Texte als Daten: Dynamische Analyse textueller Daten im Unternehmenskontext 3658429720, 9783658429720, 9783658429737

In diesem Buch werden Texte als Datengrundlage für Analysen in drei empirischen Studien untersucht. Die erste Studie fok

162 55

German Pages 193 Year 2023

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Texte als Daten: Dynamische Analyse textueller Daten im Unternehmenskontext
 3658429720, 9783658429720, 9783658429737

Table of contents :
Geleitwort
Vorwort
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
1 Einleitung
1.1 Relevanz der Arbeit
1.2 Aufbau der Arbeit
1.3 Ko-Autorenschaft
2 Texte als Daten in der Literatur
2.1 Klassifikation von Texten als akademische Datenquelle
2.2 Computerlinguistik zur Analyse von Texten
2.2.1 Definition von Computerlinguistik
2.2.2 Datenaufbereitung textueller Daten
2.2.3 Überwachtes und unüberwachtes Lernen
2.2.4 Neuste Entwicklungen im Bereich NLP
2.3 Nutzergenerierte Inhalte und e-Mundpropaganda
2.3.1 Definition und Einordnung
2.3.2 Bestandsaufnahme von nutzergenerierten Inhalten und elektronischer Mundpropaganda in der Literatur
2.4 Journalistische Texte
2.4.1 Definition journalistischer Texte
2.4.2 Bestandsaufnahme von journalistischen Texten in der Literatur
2.5 Staatliche und institutionelle Texte
2.5.1 Definition staatlicher und institutioneller Texte
2.5.2 Bestandsaufnahme staatlicher und institutioneller Texte in der Literatur
2.6 Forschungsschwerpunkte der Promotionsarbeit
3 Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen
3.1 Einleitung
3.1.1 Zeitreihen-Clustering von Online-Produktbewertungen im Bereich Konsumgüter
3.1.2 Herausforderungen bei der Vorhersage zukünftiger Bewertungen
3.2 Übersicht der Literatur zu Bewertungsdynamiken
3.3 Zeitreihen-Clustering von Produktbewertungen
3.3.1 Schritt 1: Datenbasis
3.3.2 Schritt 2: Datenaufbereitung und -filterung
3.3.3 Schritt 3: Dynamic Time Warping
3.3.4 Schritt 4: Clustering
3.3.5 Schritt 5: Analyse der Dynamiken
3.4 Beschreibung der Meinungslebenszyklen
3.4.1 Cluster III: Technische Veralterung
3.4.2 Cluster IV: Wendepunkt
3.4.3 Cluster V: Hockeyschläger
3.4.4 Cluster I: Rückgang in der zweiten Hälfte
3.4.5 Cluster II: Stabilität
3.5 Diskussion der Ergebnisse
3.5.1 Implikationen für die Forschung
3.5.2 Implikationen für die Praxis
4 Vorschläge zur Produktentwicklung und -verbesserung in Produktbewertungen
4.1 Konzeptioneller Hintergrund von Vorschlägen
4.1.1 Vorschläge in Texten
4.1.2 Theoretischer Forschungsrahmen
4.2 Extraktion von Vorschlägen
4.2.1 Schritt 1: Sammlung von Daten
4.2.2 Schritt 2: Annotation
4.2.3 Schritt 3: Modellierung
4.2.4 Schritt 4: Evaluation
4.2.5 Schritt 5: Zusammenfassung
4.3 Einholung von Vorschlägen
4.3.1 Datengrundlage
4.3.2 Erhebungen
4.3.3 Empirisches Vorgehen
4.3.4 Ergebnisse
4.3.5 Stabilität der Regressionsanalyse
4.3.6 Kausale Inferenz: Zweistufiger Einbezug von Residuen für das kostenlose Vine-Produkt
4.4 Diskussion
4.4.1 Auf dem Weg zu einer Theorie für Vorschläge
4.4.2 Auf dem Weg zu einer Methode zur Erfassung von Vorschlägen
5 Index für energiepolitische Unsicherheit auf der Grundlage von öffentlichen Textdaten
5.1 Einleitung
5.2 Messung der politischen Unsicherheit
5.2.1 Definition politischer Unsicherheit
5.2.2 Approximation durch Dokumentenhäufigkeit
5.3 Entwicklung eines Index für energiepolitische Unsicherheit
5.3.1 Datenerhebung und -aufbereitung
5.3.2 Halbautomatische Identifikation von Suchbegriffen
5.3.3 Annotation
5.3.4 Klassifikation
5.4 Validierung des EPU Index
5.4.1 Qualitative Validierung
5.4.2 Vergleich mit wirtschaftspolitischer Unsicherheit
5.4.3 Vergleich mit reiner Energiepolitik
5.5 Diskussion
6 Schlussbetrachtung
Literaturverzeichnis

Citation preview

Beiträge zur empirischen Marketingund Vertriebsforschung

Ingo Lange

Texte als Daten Dynamische Analyse textueller Daten im Unternehmenskontext

Beiträge zur empirischen Marketingund Vertriebsforschung Reihe herausgegeben von Torsten Bornemann, Lehrstuhl für ABWL & Marketing, Universität Stuttgart, Stuttgart, Deutschland Martin Klarmann, Karlsruhe Institute of Technology, Karlsruhe, Deutschland Dirk Totzek, LS für Marketing und Services, Universität Passau, Passau, Bayern, Deutschland

Auch heute werden Marketing und Vertrieb von vielen als Domäne von „Bauchentscheidungen“ angesehen. Die vorliegende Schriftenreihe umfasst Beiträge, die einen anderen Weg gehen. Wichtige Fragestellungen, zum Beispiel aus den Bereichen Business-to-Business Marketing, Innovationsmarketing, Konsumentenverhalten, Preismanagement und Marketing Analytics, werden mit aktuellen wissenschaftlichen Verfahren empirisch untersucht. Zielsetzung der Beiträge ist es, für akademische und praktische Probleme in Marketing und Vertrieb eine faktenbasierte Grundlage zu schaffen.

Ingo Lange

Texte als Daten Dynamische Analyse textueller Daten im Unternehmenskontext

Ingo Lange Michelfeld, Deutschland Das vorliegende Buch wurde von der Fakultät für Wirtschaftswissenschaften des Karlsruher Instituts für Technologie (KIT) als Dissertationsschrift genehmigt. Die Disputation fand am 20. Dezember 2022 statt. Mitglieder des Prüfungskollegiums waren Herr Prof. Dr. Martin Klarmann (Referent), Frau Prof. Dr. Marliese Uhrig-Homburg (Korreferentin), Frau Prof. Dr. Ann-Kristin Kupfer (Prüferin) sowie Frau Prof. Dr. Petra Nieken (Vorsitzende).

ISSN 2567-6210 ISSN 2567-6415 (electronic) Beiträge zur empirischen Marketing- und Vertriebsforschung ISBN 978-3-658-42972-0 ISBN 978-3-658-42973-7 (eBook) https://doi.org/10.1007/978-3-658-42973-7 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert an Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2023 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: Marija Kojic Springer Gabler ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany Das Papier dieses Produkts ist recyclebar.

Geleitwort

Texte haben sich in den letzten Jahren zu einer neuen und sehr lebendigen Datenquelle für die Marketingforschung entwickelt. Dies liegt zum einen daran, dass Texte in immer größerer Menge als Rohdaten auch digital verfügbar sind. Dies gilt gerade auch für Texte von Konsumentinnen und Konsumenten, die sich zunehmend selbst in schriftlicher Form zu Produkten, Dienstleistungen und Unternehmen im Netz äußern. Somit können auf ganz neue Daten für die Marktforschung zugegriffen werden. Zum anderen haben Wissenschaftler in den vergangenen Jahren gewaltige Fortschritte im Hinblick auf die Analyse von Textdaten gemacht. Gerade in den letzten Jahren haben sich – ausgehend von dem wegweisenden Paper zu Transformern von Vaswani et al. (2017) die Möglichkeiten zur Textanalyse (und auch zum automatisierten Verfassen von Texten) substanziell erweitert. Darüber hinaus sind gerade im letzten Jahr immer stärker auch neue generative Textmodelle zugänglich gemacht worden. Sie erlauben es Anwenderinnen und Anwendern wirklich brauchbare Texte automatisiert zu generieren. (Ganz bewusst vermeide ich den vielleicht inflationär gebrauchten Begriff der künstlichen Intelligenz.) In diesem spannenden methodischen Umfeld ist die von Ingo Lange vorgelegte Dissertationsschrift anzusiedeln. Es handelt sich um eine Zusammenstellung von drei wissenschaftlichen Arbeiten, bei denen Texte eine wesentliche Datenquelle darstellen, die im Hinblick auf mögliche Unternehmensentscheidungen und -aktivitäten ausgewertet werden. Die erste dieser Studien analysiert die zeitliche Entwicklung von Kundenbewertungen. Sie beschäftigt sich mit der Frage, ob sich in der Entwicklung von durchschnittlichen Kundenbewertungen von Produkten im Zeitverlauf systematische Muster identifizieren lassen. Solche Analysen sind auf aggregierter Ebene

V

VI

Geleitwort

bereits in der Vergangenheit durchgeführt worden – in der Regel (aber nicht immer) mit dem Ergebnis, dass bei Produkten im Zeitverlauf die durchschnittliche Bewertung abnimmt. Diese Gesetzmäßigkeit ist ein Stück weit überraschend. Unterstellt man, dass Bewertungen durch andere Kunden Konsumentinnen und Konsumenten helfen, bessere Entscheidungen zu treffen, sollte man erwarten, dass Fehlkäufe im Zeitverlauf seltener werden. Dann müsste die durchschnittliche Bewertung ansteigen. Gleichzeitig ist aber vorstellbar, dass Produkte im Zeitverlauf technisch veralten und deshalb schlechter bewertet werden. Zusammengenommen – und dies ist die zentrale konzeptionelle Idee der vorgestellten Studie – gibt es vermutlich Unterschiede in der Bewertungsentwicklung zwischen Produkten. Methodisch wendet Ingo Lange deshalb clusteranalytische Techniken an, um verschiedene Verlaufsmuster zu identifizieren. Es ergibt sich eine Lösung mit fünf Clustern. Während es zum Beispiel ein Segment gibt, bei dem sich die Bewertungen tatsächlich im Zeitverlauf deutlich verschlechtern, sehen wir in einem anderen auch einen umgedrehten Effekt. In einer weiteren Studie befasst sich Ingo Lange mit der Identifikation von Verbesserungsvorschlägen für Produkte über die textliche Analyse von Kundenreviews. Dies ist eine Herausforderung, da Kundenrezensionen in erster Linie von Kunden für andere (potenzielle) Kunden geschrieben werden. Es mag deshalb gar nicht in erster Linie in ihrem Interesse sein, konkrete Vorschläge zur Verbesserung der Produkte zu machen. Gleichzeitig stellen solche Rezensionen aber natürlich einen großen Fundus an Kundenerfahrungen dar, auf dessen Grundlage man Vorschläge zur Produktentwicklung herleiten könnte. Ingo Lange entwickelt deshalb einen mehrschrittigen Ansatz, der in Kundenrezensionen Satzelemente identifiziert, die Vorschläge enthalten. Auf dieser Grundlage nutzt er dann generative Modelle (GPT), um eine tatsächliche Liste mit Verbesserungsvorschlägen zu erzeugen. Bemerkenswert ist dabei, dass es sich um einen kategorie-agnostischen Ansatz handelt. Das heißt, er hängt nicht von den sprachlichen Besonderheiten einer Produktkategorie ab. Stattdessen funktioniert die Identifikation von Verbesserungsvorschlägen auch sehr gut für Produktkategorien, die beim Training des Ansatzes gar nicht berücksichtigt wurden. Die dritte und letzte der Studien nutzt textanalytische Ansätze dann zur Untersuchung gesellschaftspolitischer Zusammenhänge. Konkret entwickelt Ingo Lange einen Index zur Messung energiepolitischer Unsicherheit auf Grundlage von journalistischen Texten und Parlamentsprotokollen vor. Hintergrund ist, dass Investitionen in erneuerbare Energie oder darauf aufbauenden Technologien (wie zum Beispiel Elektromobilität) oft hinter den Erwartungen zurückbleiben – auch

Geleitwort

VII

wenn ihr ökonomischer Sinn eigentlich unumstritten klar sein sollte. Eine mögliche Ursache für ein solches Verhalten könnte Unsicherheit über die politischen Rahmenbedingungen sein. In Summe hat Ingo Lange hier drei beeindruckende Studien durchgeführt. Sie sind nicht nur aus Forschungssicht hochrelevant und methodisch anspruchsvoll, sondern haben auch klare Implikationen für Praxis. Am deutlichsten wird dies vielleicht bei der zweiten Studie, die im Grunde direkt To Do-Listen für Entwicklungsabteilungen liefert. Auf jeden Fall ist dieser Dissertationsschrift eine sehr breite Rezeption in Forschung und Praxis sehr zu wünschen. Martin Klarmann

Vorwort

Die zunehmende Verfügbarkeit von Textdaten und die beachtlichen Fortschritte der Datenanalyse haben in den letzten Jahren den Text als wertvolle Datenquelle in den Vordergrund der Marketingforschung gerückt. Auch meine Promotion, in der ich durch die systematische Analyse von Textdaten neue Erkenntnisse für unternehmerische Entscheidungen und Aktivitäten gewinnen konnte, nutzt diese rasant wachsende Quelle an Informationen. Die drei zentralen Studien meiner Arbeit eröffnen einen neuen Blick auf die zeitliche Entwicklung von Kundenbewertungen, die Identifikation von Verbesserungsvorschlägen sowie die Untersuchung energiepolitischer Zusammenhänge. Ich möchte zuerst meinem Doktorvater Prof. Dr. Martin Klarmann meine tiefe Dankbarkeit aussprechen. Als externer Doktorand schätzte ich besonders sein großzügiges Zeitinvestment und die enge Zusammenarbeit. Durch seine offene und begeisternde Art sowie seine herausragende Fähigkeit komplexe Zusammenhänge in verständliche Sprache zu übersetzen, brachte jedes Treffen meine Arbeit nicht nur voran, sondern war bereichernd und ermutigend. Einen herzlichen Dank auch an Prof. Marliese Uhrig-Homburg, deren treffende Analysen und scharfsinnige Erkenntnisse entscheidend für das Gelingen unserer gemeinsamen Arbeit „Index for Energy Policy Uncertainty based on Public Text Data“ waren. Ebenso danke ich Prof. Johannes Habel, durch dessen ausgezeichnetes Fachwissen und seine analytischen Fähigkeiten die Arbeit „Extracting and Eliciting Suggestions for Product Development from Online Customer Reviews“ entstand. Ferner bedanke ich mich bei Prof. Dr. Ann-Kristin Kupfer für die Übernahme der Prüferfunktion und Prof. Dr. Petra Nieken für die Leitung des Prüfungsausschusses. Zudem möchte ich dem gesamten Lehrstuhlteam für deren fortwährende Unterstützung und die freundliche Atmosphäre danken. Insbesondere danken

IX

X

Vorwort

möchte ich Anika Honold, mit der ich gemeinsam den Weg der Promotion gegangen bin und die immer für Fragen zur Verfügung stand. Auch Juliane Bayer, die mir hilfsbereit zur Seite stand und mich stets bei administrativen Aufgaben unterstützt hat, gilt mein Dank. Des Weiteren möchte ich den Bogen zu meinem beruflichen Umfeld spannen und den Mitgründern meines Start-ups Tobias Roelen-Blasberg und Maximilian Lüders danken. Ihr Vertrauen, die moralische Unterstützung und die Freiheit, die sie mir eingeräumt haben, waren von unschätzbarem Wert. Darüber hinaus hat mich jedes Gespräch mit ihnen, ob strategisch oder inhaltlich, vorangebracht und inspiriert. Schließlich möchte ich meine Familie und Freunde nicht unerwähnt lassen. Ihre stetige Unterstützung hat maßgeblich zum Gelingen beigetragen. Insbesondere durch die tatkräftige Unterstützung und die aufbauenden Worte von Helen Dümmig wurde der Erfolg meiner Promotion ermöglicht. Besonderer Dank gebührt auch meiner Mutter Martina Lange, deren achtsames Auge und Verständnis für sprachlichen Stil und Syntax meine Arbeit enorm verbessert haben. Ingo Lange

Inhaltsverzeichnis

1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Relevanz der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Ko-Autorenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1 1 3 5

2 Texte als Daten in der Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Klassifikation von Texten als akademische Datenquelle . . . . . . . . 2.2 Computerlinguistik zur Analyse von Texten . . . . . . . . . . . . . . . . . . 2.2.1 Definition von Computerlinguistik . . . . . . . . . . . . . . . . . . . . 2.2.2 Datenaufbereitung textueller Daten . . . . . . . . . . . . . . . . . . . 2.2.3 Überwachtes und unüberwachtes Lernen . . . . . . . . . . . . . . 2.2.4 Neuste Entwicklungen im Bereich NLP . . . . . . . . . . . . . . . 2.3 Nutzergenerierte Inhalte und e-Mundpropaganda . . . . . . . . . . . . . . 2.3.1 Definition und Einordnung . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Bestandsaufnahme von nutzergenerierten Inhalten und elektronischer Mundpropaganda in der Literatur . . . . 2.4 Journalistische Texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Definition journalistischer Texte . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Bestandsaufnahme von journalistischen Texten in der Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Staatliche und institutionelle Texte . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Definition staatlicher und institutioneller Texte . . . . . . . . . 2.5.2 Bestandsaufnahme staatlicher und institutioneller Texte in der Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Forschungsschwerpunkte der Promotionsarbeit . . . . . . . . . . . . . . . .

7 7 10 10 11 13 14 17 17 19 25 26 26 28 29 29 31

XI

XII

Inhaltsverzeichnis

3 Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Zeitreihen-Clustering von Online-Produktbewertungen im Bereich Konsumgüter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Herausforderungen bei der Vorhersage zukünftiger Bewertungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Übersicht der Literatur zu Bewertungsdynamiken . . . . . . . . . . . . . 3.3 Zeitreihen-Clustering von Produktbewertungen . . . . . . . . . . . . . . . 3.3.1 Schritt 1: Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Schritt 2: Datenaufbereitung und -filterung . . . . . . . . . . . . 3.3.3 Schritt 3: Dynamic Time Warping . . . . . . . . . . . . . . . . . . . . 3.3.4 Schritt 4: Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.5 Schritt 5: Analyse der Dynamiken . . . . . . . . . . . . . . . . . . . . 3.4 Beschreibung der Meinungslebenszyklen . . . . . . . . . . . . . . . . . . . . . 3.4.1 Cluster III: Technische Veralterung . . . . . . . . . . . . . . . . . . . 3.4.2 Cluster IV: Wendepunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Cluster V: Hockeyschläger . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.4 Cluster I: Rückgang in der zweiten Hälfte . . . . . . . . . . . . . 3.4.5 Cluster II: Stabilität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Diskussion der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Implikationen für die Forschung . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Implikationen für die Praxis . . . . . . . . . . . . . . . . . . . . . . . . .

38 41 45 46 47 48 51 53 56 57 61 64 66 67 69 69 70

4 Vorschläge zur Produktentwicklung und -verbesserung in Produktbewertungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Konzeptioneller Hintergrund von Vorschlägen . . . . . . . . . . . . . . . . 4.1.1 Vorschläge in Texten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Theoretischer Forschungsrahmen . . . . . . . . . . . . . . . . . . . . . 4.2 Extraktion von Vorschlägen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Schritt 1: Sammlung von Daten . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Schritt 2: Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Schritt 3: Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Schritt 4: Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.5 Schritt 5: Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Einholung von Vorschlägen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Datengrundlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Erhebungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73 75 75 77 81 82 85 85 88 91 93 93 94

35 35

35

Inhaltsverzeichnis

4.3.3 4.3.4 4.3.5 4.3.6

XIII

Empirisches Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stabilität der Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . Kausale Inferenz: Zweistufiger Einbezug von Residuen für das kostenlose Vine-Produkt . . . . . . . . . . . . . 4.4 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Auf dem Weg zu einer Theorie für Vorschläge . . . . . . . . . 4.4.2 Auf dem Weg zu einer Methode zur Erfassung von Vorschlägen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94 97 103

112

5 Index für energiepolitische Unsicherheit auf der Grundlage von öffentlichen Textdaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Messung der politischen Unsicherheit . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Definition politischer Unsicherheit . . . . . . . . . . . . . . . . . . . . 5.2.2 Approximation durch Dokumentenhäufigkeit . . . . . . . . . . . 5.3 Entwicklung eines Index für energiepolitische Unsicherheit . . . . 5.3.1 Datenerhebung und -aufbereitung . . . . . . . . . . . . . . . . . . . . . 5.3.2 Halbautomatische Identifikation von Suchbegriffen . . . . . 5.3.3 Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.4 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Validierung des EPU Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Qualitative Validierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.2 Vergleich mit wirtschaftspolitischer Unsicherheit . . . . . . . 5.4.3 Vergleich mit reiner Energiepolitik . . . . . . . . . . . . . . . . . . . 5.5 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

115 115 118 118 119 122 124 125 129 130 138 138 141 142 143

6 Schlussbetrachtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

147

Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

155

103 109 109

Abbildungsverzeichnis

Abbildung 2.1 Abbildung 2.2 Abbildung 2.3 Abbildung 3.1

Abbildung 3.2

Abbildung 3.3

Abbildung 3.4 Abbildung 3.5 Abbildung 3.6 Abbildung 3.7 Abbildung 3.8

Beispiel einer Dependenzanalyse mit der Bibliothek SpaCy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anzahl der Parameter (logarithmiert) ausgewählter NLP-Modelle von 2018 bis 2022 . . . . . . . . . . . . . . . . . . Zusammenhang zwischen Web 2.0, sozialen Medien, UGC und eWom . . . . . . . . . . . . . . . . . . . . . . . . Kerndichteschätzung der Differenz zwischen der durchschnittlichen Produktbewertung nach vier Wochen und nach einem Jahr (Mittelwert = 0.13) . . . . Histogramm der Differenz zwischen der durchschnittlichen Produktbewertung nach einer, vier und zwölf Wochen und nach einem Jahr (Mittelwert = 0.13) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mittlerer absoluter Fehler der Bewertungsvorhersage nach dem ersten Jahr in Abhängigkeit der Datenverfügbarkeit . . . . . . . . Zuordnungspfad (alignment path) für die beiden betrachteten Schuh-Modelle . . . . . . . . . . . . . . . . . . . . . . Zuordungspfad der zeitversetzten Bewertungsdynamiken von zwei Schuh-Modellen . . . . Sankey-Diagramm bei Änderung der Clusteranzahl k zwischen 4, 5 und 6 . . . . . . . . . . . . . . . Die Prototypen der fünf Cluster als Meinungslebenszyklen . . . . . . . . . . . . . . . . . . . . . . . . . . . Empirische Verteilungsfunktionen der Bewertungen nach Cluster . . . . . . . . . . . . . . . . . . . . . . . .

12 16 17

36

38

40 49 50 52 53 56

XV

XVI

Abbildungsverzeichnis

Abbildung 3.9 Abbildung 3.10 Abbildung 3.11 Abbildung 3.12 Abbildung 3.13 Abbildung 3.14 Abbildung 3.15 Abbildung 3.16 Abbildung Abbildung Abbildung Abbildung

3.17 3.18 4.1 4.2

Abbildung 4.3 Abbildung 4.4 Abbildung 4.5 Abbildung 4.6

Abbildung 4.7 Abbildung 5.1 Abbildung 5.2 Abbildung 5.3 Abbildung 5.4

Prototyp Cluster III: Technische Veralterung . . . . . . . . . Geglätteter Bewertungsverlauf für Motorola Droid Razr M – Verizon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Geglätteter Bewertungsverlauf für Skiva StrongMount M1 Universal Autohalterung . . . . . . . . . . Prototyp Cluster IV: Wendepunkt . . . . . . . . . . . . . . . . . . Geglätteter Bewertungsverlauf für eine Damensandale von Montrail . . . . . . . . . . . . . . . . . . . . . . Geglätteter Bewertungsverlauf für das SteamVac Dual V mit SpinScrub Handgerät . . . . . . . . . . . . . . . . . . Prototyp Cluster V: Hockeyschläger . . . . . . . . . . . . . . . . Geglätteter Bewertungsverlauf für den Film End of Days . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prototyp Cluster I: Rückgang in der zweiten Hälfte . . . Prototyp Cluster II: Stabilität . . . . . . . . . . . . . . . . . . . . . Theoretischer Forschungsrahmen . . . . . . . . . . . . . . . . . . Schematische Darstellung des Ansatzes der Leave-One-Category-Out Kreuzvalidierung . . . . . . . . . Receiver Operating Characteristic (ROC)-Kurve des RoBERTa und LSTM-Modells . . . . . . . . . . . . . . . . F1 Wert und AUC für RoBERTa-Modell je Kategorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . F1 Wert des RoBERTa-Modells und LSTM abhängig von der Menge an Trainingsdaten . . . . . . . . . Vollautomatisierte Generierung von expliziten Vorschlägen auf Basis von Bewertungen für Stirnund Augenfaltenpflastern (ASIN: B00027DMSI) . . . . . Partielle Abhängigkeit der Wechselwirkungen der Treiber für Vorschläge . . . . . . . . . . . . . . . . . . . . . . . . . . . Prozess zur halbautomatisierten Identifikation von Suchbegriffen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . t-SNE Darstellung der Wortvektoren . . . . . . . . . . . . . . . Leistung und Komplexität des Ansatzes der Suchbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . F1 Wert für die Transformer Modelle und den Suchbegriff-Ansatz auf dem Testdatensatz für die vier Klassifikationsaufgaben . . . . . . . . . . . . . . . . . . . . . .

58 59 60 61 62 63 65 66 67 68 78 88 89 90 91

92 102 127 129 131

134

Abbildungsverzeichnis

Abbildung 5.5

Abbildung 5.6

Abbildung 5.7

Abbildung 5.8

EPU Index für Deutschland von 2000 bis 2020 basierend auf Zeitungen (oben) und Plenarprotokollen (unten) . . . . . . . . . . . . . . . . . . . . . . . . . EPU Index basierend auf Zeitungen in Deutschland zusammen mit ausgewählten energiepolitischen Ereignissen . . . . . . . . . . . . . . . . . . . . . Vergleich des EPU Index (Zeitungen) mit wirtschaftspolitischer Unsicherheit nach Baker et al. (2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Darstellung der Differenz zwischen EPU Index (Zeitungen) und dem Index für Energiepolitik . . . . . . .

XVII

137

138

142 143

Tabellenverzeichnis

Tabelle 2.1 Tabelle 2.2 Tabelle 3.1 Tabelle 3.2 Tabelle 3.3 Tabelle 3.4 Tabelle 3.5 Tabelle 4.1

Tabelle 4.2 Tabelle 4.3 Tabelle 4.4 Tabelle 4.5 Tabelle 4.6 Tabelle 4.7

Klassifizierung von Texten mit Beispielen nach Berger et al. (2020) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Strukturierung der Forschungsrichtungen im Bereich UGC und eWOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Deskriptive Statistiken der berücksichtigten Bewertungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Übersicht der bestehenden Literatur zu Dynamik von Produktbewertungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Übersicht der Schritte zur Generierung der Meinungslebenszyklen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ausgewählte Cluster-Validitäts-Indizes (CVIs) für eine verschiedene Clusteranzahlen . . . . . . . . . . . . . . . . . . . . . . . . . Ergebnis des Ordered-Logit Modells für Reihenfolge und Zeit nach Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wichtigste Schritte für das Training und die Auswertung eines kategorieunabhängigen Modells zur Erkennung von Vorschlägen . . . . . . . . . . . . . . . . . . . . . . . . . . Übersicht über Produktinvolvement und Anzahl Sätze je nach Kategorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verteilung der annotierten Vorschläge nach Kategorien . . . . Beschreibung der Variablen für Bewertung i, Bewerter j und Produkt k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Korrelation der Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analyse der Vorschläge in Bewertungssätzen . . . . . . . . . . . . Ergebnisse des Kontrollfunktionansatzes . . . . . . . . . . . . . . . .

9 21 39 42 46 51 55

82 84 86 95 96 98 106

XIX

XX

Tabelle 5.1 Tabelle 5.2 Tabelle 5.3 Tabelle 5.4

Tabellenverzeichnis

Übersicht der bestehenden Literatur zur Bestimmung von Unsicherheit mithilfe von Dokumentenhäufigkeit . . . . . Übersicht der Schritte zur Bildung des EPU Index . . . . . . . Übersicht über die Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . Konfusionsmatrix für das Thema „Energiepolitik“ mit Suchbegriffen für n max = 15 . . . . . . . . . . . . . . . . . . . . . . . . .

120 123 125 132

1

Einleitung

1.1

Relevanz der Arbeit

Das primäre Ziel aller Marketing-Maßnahmen ist das Generieren von organischem Wachstum des Unternehmens (Du et al., 2021). Um dieses Ziel zu erreichen, muss aus den vorhandenen Datenquellen eine kohärente und effektive Wachstumsstrategie abgeleitet werden. Durch die fortschreitende Digitalisierung stehen dabei immer mehr Daten aus einer Vielzahl von Quellen zur Verfügung (Y. Kang et al., 2020). Zum einen können strukturierte Daten genutzt werden, wie beispielsweise Preise, Absatzmengen im Zeitverlauf oder die Meinung von Befragten auf einer LikertSkala. Bis zu 95 % der verfügbaren Daten sind jedoch unstrukturiert, wobei Texte den größten Anteil ausmachen (Gandomi & Haider, 2015). So haben Unternehmen beispielsweise Zugang zu Verbraucherdiskussionen in den sozialen Medien, Produktbewertungen oder Nachrichtenartikeln (Humphreys & Wang, 2017). Dies erlaubt es Unternehmen mithilfe von Texten ein besseres Verständnis über Verbraucher, Märkte und die Gesellschaft zu entwickeln (Berger et al., 2020). Daneben können Texte auch zur Vorhersage zukünftiger Entwicklungen genutzt werden. Neben dem großen Maß an enthaltenen Informationen ist ein weiterer Vorteil textueller Daten, dass Textdaten in der Regel aktiv erzeugt werden. Im Unterschied zu reaktiven Primärdaten, wie Umfragen, gibt es keine Einschränkungen durch die Fragestellung oder Verzerrungen aufgrund der Umfragesituation. Neben den vielen Vorteilen weist diese Datenart jedoch auch einige Herausforderungen auf (Adnan & Akbar, 2019). Neben dem sehr großen Datenumfang erschwert das häufig in den Daten vorkommende Rauschen und die hohe Heterogenität die Analyse und Handlungsableitung (Gandomi & Haider, 2015). Darüber hinaus sind nicht-triviale Zusammenhänge in den Texten häufig ausschlaggebend für deren Interpretation. Bei der Untersuchung von Medikamentenbewertungen ist es © Der/die Autor(en), exklusiv lizenziert an Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2023 I. Lange, Texte als Daten, Beiträge zur empirischen Marketing- und Vertriebsforschung, https://doi.org/10.1007/978-3-658-42973-7_1

1

2

1

Einleitung

beispielsweise entscheidend, ob ein Medikament gegen eine Beschwerde geholfen hat oder diese als Nebenwirkung verursacht hat (Feldman et al., 2015; Netzer et al., 2012). Das bedeutet, dass ungeeignete Analyseansätze, wie das einfache Zählen von Schlüsselworten für Beschwerden, zu verzerrten Ergebnissen führen können. Aus diesen Gründen ist die Analyse im Vergleich zu strukturierten Daten deutlich komplexer und zeitaufwendiger. Als Folge dessen bleiben unstrukturierte Daten trotz des großen Potenzials in vielen Firmen bisher weitgehend ungenutzt (Balducci & Marinova, 2018). In diesem Straßenlaterneneffekt (streetlight effect) – der übermäßigen Nutzung leicht verfügbarer Daten aufgrund der einfachen Messung und Anwendung – sehen Du et al. (2021) eine zentrale Ursache für die Diskrepanz zwischen dem Wachstum von Marketingdaten und dem Wachstum von Unternehmen. Die Herausforderung der Analyse stellt gleichzeitig eine große Wachstumschance für Unternehmen dar, denen es gelingt, die textuellen Daten als Teil ihrer holistischen Marketinganalysen zu nutzen. Der Schlüssel, um eine große Menge an Texten effizient und effektiv zu analysieren, stellt die automatisierte Textanalyse und insbesondere die Computerlinguistik (Natural Language Processing, NLP) dar (Berger et al., 2020; Y. Kang et al., 2020). Mit der Verbesserung der Rechenleistung, dem Anstieg der Datenverfügbarkeit und den Weiterentwicklungen im Bereich künstlicher Intelligenz (KI) hat auch NLP in den vergangenen Jahren vermehrt an Bedeutung gewonnen (Hirschberg & Manning, 2015; Lu, 2019). Insbesondere in der jüngsten Vergangenheit kam es immer wieder zu großen Durchbrüchen in diesem Bereich. Zentral waren dafür neue Architekturen von neuronalen Netzen, wie die Transformer-Lerner (Oh et al., 2021; Vaswani et al., 2017). Gleichzeitig wurde damit begonnen, Sprachmodelle auf riesigen Datenmengen zu trainieren, bevor sie für spezielle Aufgaben genutzt werden. So wurde beispielsweise das Sprachmodell BERT, ein Transformer-Lerner von Google auf 3,3 Milliarden Wörtern (Devlin et al., 2019) trainiert und es wurden dabei 340 Millionen Parameter optimiert. So führten die Neuerungen zu immer besseren akademischen Resultaten. Gleichzeitig wurden durch Tools wie der automatischen Übersetzung und Spracherkennung die Neuerungen im Bereich NLP auch der breiten Gesellschaft zugänglich gemacht (Y. Kang et al., 2020). In der Marketingliteratur und der Praxis beruhen jedoch viele Analysen noch auf Bag-of-Words-Ansätzen. Echte linguistische Beziehungen werden dabei nur sehr begrenzt berücksichtigt (Berger et al., 2020). Neuste Ansätze im Bereich NLP stellen somit eine große Chance für das Marketing dar, um die in Texten enthaltenen Informationen zu nutzen. Diese Arbeit zeigt auf, wie Texte als Datenquelle genutzt werden können, indem NLP-Ansätze verwendet werden. Im Rahmen von drei wissenschaftlichen Forschungsprojekten werden moderne NLP-Methoden eingesetzt, um neue inhaltliche Fragen zu beantworten und Erkenntnisse über Verbraucher und die Gesellschaft zu

1.2 Aufbau der Arbeit

3

gewinnen. Die Arbeiten zeigen dabei nicht nur, wie Textdaten akademisch genutzt werden können, sondern weisen aufgrund der dort verwendeten Methodiken auch eine hohe praktische Relevanz auf.

1.2

Aufbau der Arbeit

Die Dissertation ist in sechs Kapitel unterteilt. Kapitel 1 begründet die Relevanz des Themenfelds und gibt einen Überblick über die drei Forschungsarbeiten. Anschließend werden die konzeptionellen Grundlagen in Kapitel 2 erarbeitet. Im Rahmen dessen wird aufgezeigt, dass sich textuelle Daten nicht nur durch ihre Vielfältigkeit von Inhalt und Form, sondern auch durch das breite Spektrum an Verfassern und Rezipienten auszeichnen. Deshalb werden Textdaten zunächst in Unterkapitel 2.1 systematisiert. Im Anschluss daran werden die für die Promotionsarbeit relevanten Textgruppen näher betrachtet. Neben der Einführung zentraler Definitionen wird ein Überblick zu wichtigen Arbeiten in der Literatur gegeben. Dabei werden zentrale Forschungsfragen bezüglich der spezifischen Textform zusammengefasst und die Relevanz der Textgruppe herausgearbeitet. Die methodischen Grundlagen im Bereich NLP werden in Abschnitt 2.2 eingeführt. Darüber hinaus werden auch kurz die neusten Entwicklungen in diesem Bereich erläutert. Basierend auf den eingeführten Grundlagen stellen drei Forschungsarbeiten den Kern der Dissertation dar. Kapitel 3 behandelt die erste Arbeit, bei welcher die Dynamik von Produktbewertungen untersucht wird. Produktbewertungen haben in den vergangenen Jahren für Unternehmen immer weiter an Bedeutung gewonnen (vgl. Decker & Trusov, 2010; Karimi & Wang, 2017). So finden sie inzwischen Einsatz bei der Entwicklung neuer Produkte (Decker & Trusov, 2010; Qi et al., 2016), der Prognose zukünftiger Absätze (Karimi & Wang, 2017; K. Li et al., 2020) oder der Entwicklung von Aktienkursen (H. Nguyen et al., 2020; Tirunillai & Tellis, 2014). Dabei ist es für Manager bei der Entwicklung von Handlungsalternativen nicht ausreichend, die aktuelle Durchschnittsbewertung zu kennen. Stattdessen benötigen sie auch Informationen über die zukünftige Entwicklung der Bewertungen. Im Rahmen der Studie wird aufgezeigt, dass es selbst mit maschinellem Lernen schwierig ist, künftige Bewertungen vorherzusagen, da die Bewertungsdynamik je nach Produkt sehr unterschiedlich sein kann. Da die Heterogenität der Bewertungsentwicklung in der Literatur bisher nicht gut untersucht ist, stellt ihre Untersuchung den Schwerpunkt der ersten Arbeit dar. Mittels Zeitreihenclustering auf Basis von Dynamic Time Warping werden 23,7 Millionen Bewertungen von Amazon.com analysiert. Auf Grundlage der Analyse werden fünf charakteristische Dynamiken für die Bewertungen von Konsumgütern abgeleitet. Die beobachteten

4

1

Einleitung

Meinungslebenszyklen weisen nicht nur spezifische Dynamiken, sondern auch bedeutsame Veränderungen im Zeitverlauf auf. Mit weiteren dynamischen Analysen wurden darüber hinaus die unterschiedlichen Treiber der Cluster ermittelt. Nach der Untersuchung der Dynamik von Produktbewertungen beschäftigt sich Kapitel 4 mit dem Inhalt der Produktbewertungen. Produktbewertungen können eine wichtige Feedbackquelle für Unternehmen darstellen. Angesichts der großen Textmengen, die den Unternehmen zur Verfügung stehen, sind wirksame Analysewerkzeuge dabei von entscheidender Bedeutung. Daher finden sich in der Literatur verschiedene NLP-Ansätze, um relevante Informationen wie Wünsche, Bedürfnisse oder Beschwerden zu extrahieren (vgl. Brun & Hagège, 2013; Goldberg et al., 2009; Ramanand et al., 2010). In der zweiten Forschungsarbeit wird untersucht, wie solche Modelle verallgemeinert werden können. Es wird gezeigt, wie man ein kategorienunabhängiges Modell trainiert, um Vorschläge in Produktbewertungen zu erkennen. Die Generalisierungsfähigkeit wurde mithilfe eines Leave-One-CategoryOut-Ansatzes auf der Grundlage von 10.000 Sätzen aus zehn High-Involvementund zehn Low-Involvement-Kategorien bestimmt. Es zeigt sich, dass das kategorienunabhängige Modell mit einem F1 -Wert von 0,83 fast genauso gut abschneidet wie ein speziell trainiertes Modell. Darüber hinaus wird ersichtlich, dass Transformer Modelle den klassischen Deep-Learning Modellen deutlich überlegen sind. Sie erzielen selbst bei einer geringen Datenmenge sehr gute Ergebnisse. Mithilfe des kategorienunabhängigen Modells werden dann zwei inhaltliche Fragestellungen untersucht. Zum einen wird betrachtet, welche Auswirkung monetäre Anreize auf den Inhalt von Bewertungen haben. Zum anderen wird gezeigt, wie mit Textgenerierung vollautomatisch Vorschläge für Konsumprodukte generiert werden können. Nachdem die zwei ersten Arbeiten individuell erstellte Bewertungen betrachtet haben, geht Kapitel 5 auf Texte zur Messung gesellschaftlicher Kenngrößen ein. Deutschland ist aufgrund der Energiewende ein Land, dessen Energiepolitik von einem hohen Maß an Unsicherheit geprägt ist (Goldthau et al., 2018; Selk et al., 2019). Diese Unsicherheit in der Energiepolitik wird häufig als eine der Hauptursachen für die Energieeffizienzlücke diskutiert (Jaffe & Stavins, 1994). Dennoch gibt es für die deutsche Energiepolitik kein quantitatives Maß für diese Unsicherheit im Zeitverlauf. Die dritte Forschungsarbeit schließt diese Lücke. Zu diesem Zweck wurde ein Index zur Messung der energiepolitischen Unsicherheit von 2000 bis 2020 entwickelt. Artikel aus neun deutschen Zeitungen und Plenarprotokolle des Deutschen Bundestags wurden verwendet, um die Dynamik im Zeitverlauf zu analysieren. Der Index wird als normalisierte Häufigkeit relevanter Dokumente im Zeitverlauf berechnet. Zur Einstufung, ob ein Dokument relevant ist, werden neue NLP-Methoden verwendet und mit aktuellen Ansätzen aus der Literatur verglichen. Der resultierende Index wird sowohl qualitativ durch einen Vergleich mit

1.3 Ko-Autorenschaft

5

historischen Ereignissen hoher energiepolitischer Unsicherheit als auch quantitativ durch einen Vergleich mit anderen Indexen validiert. Kapitel 6 fasst abschließend die zentralen Erkenntnisse und den Beitrag dieser Promotionsarbeit zusammen. Darüber hinaus wird ein Ausblick für weitere Forschung bei der Nutzung von Text als Datenquelle gegeben.

1.3

Ko-Autorenschaft

Die vorgestellten Studien basieren auf drei wissenschaftlichen Arbeiten, welche im Rahmen der Promotion entstanden sind. Diese befinden sich aktuell in verschiedenen Phasen des Veröffentlichungsprozesses. Die in Kapitel 3 beschriebene Studie wurde gemeinsam mit Prof. Martin Klarmann verfasst. Die Arbeit wurde bereits unter dem Titel „The opinion life cycles: Time series clustering of online product ratings for consumer goods“ im Journal of the Academy of Marketing Science eingereicht. Gemeinsam mit Prof. Martin Klarmann und Prof. Johannes Habel wurde die Arbeit „Extracting and Eliciting Suggestions for Product Development from Online Customer Reviews“ verfasst und beim Journal of Marketing Research eingereicht, welches in Kapitel 4 vorgestellt wird. Die dritte Studie (Kapitel 5), bei der sowohl journalistische Texte als auch Regierungsdokumente analysiert wurden, erfolgte in Zusammenarbeit mit Prof. Martin Klarmann und Prof. Marliese Uhrig-Homburg. Unter dem Titel „Index for Energy Policy Uncertainty based on Public Text Data“ ist auch für dieses Projekt eine wissenschaftliche Arbeit entstanden.

2

Texte als Daten in der Literatur

Während in der Praxis Texte als Daten bisher selten genutzt werden (Balducci & Marinova, 2018), hat in den vergangenen Jahren die Analyse von Texten in der empirischen Wirtschaftsforschung stark zugenommen (Gentzkow et al., 2019). So stellen Texte mittlerweile eine wertvolle Ergänzung zu traditionell verwendeten strukturierten Daten dar. Dieses Kapitel gibt einen Überblick über die Verwendung von Text als akademische Datenquelle. Unterkapitel 2.1 strukturiert zunächst die Vielzahl an verschiedenen Textarten. Für die vorliegende Promotionsarbeit sind dabei insbesondere drei Textgruppen von Bedeutung: Nutzergenerierte Inhalte und elektronische Mundpropaganda, journalistische sowie staatliche und institutionelle Texte. So beschäftigt sich das Unterkapitel 2.3 mit elektronischer Mundpropaganda. Diese Datenquelle wird in Form von Kundenbewertungen in den ersten beiden Forschungsarbeiten verwendet. Für die Entwicklung des Unsicherheitsindex für Energiepolitik in Kapitel 5 werden Zeitungsartikel und Protokolle des Bundestags analysiert. Unterkapitel 2.4 thematisiert journalistische Texte und Unterkapitel 2.5 staatliche und institutionelle Texte. Die methodischen Grundlagen des NLP-Bereichs werden in Unterkapitel 2.2 eingeführt.

2.1

Klassifikation von Texten als akademische Datenquelle

In der Literatur werden im Kontext der Analyse von Text zwei zentrale Fragestellungen untersucht. Zum einen wird betrachtet, wie Texte auf ihre Rezipienten wirken. Dabei kann die individuelle Auswirkung untersucht werden, zum Beispiel wie die Reaktionen von Unternehmen auf Online-Produktbewertungen die

© Der/die Autor(en), exklusiv lizenziert an Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2023 I. Lange, Texte als Daten, Beiträge zur empirischen Marketing- und Vertriebsforschung, https://doi.org/10.1007/978-3-658-42973-7_2

7

8

2 Texte als Daten in der Literatur

Kundenzufriedenheit beeinflusst (Y. Zhao et al., 2020). Daneben wird auch der aggregierte Einfluss von Text analysiert, wie beispielsweise der Zusammenhang zwischen Kundenbewertungen und der Verkaufsmenge (Rosario et al., 2016). Zum anderen ist von Interesse, welche Rückschlüsse auf die Urheber alleine auf Basis des Textes möglich sind. So liefert die Sprache einzigartige psychologische Einblicke in die Emotionen, Persönlichkeit, Kreativität und den Glauben der Urheber (Jackson et al., 2022). Darüber hinaus werden die Beziehungen zu Einstellungsobjekten deutlich. So kann mithilfe von Texten beispielsweise die Meinung gegenüber Produkten (Roelen-Blasberg et al., 2022), Dienstleistungen (Guerrero-Rodriguez et al., 2021), Marken (T. Y. Lee & Bradlow, 2011) oder dem Arbeitgeber (Luo et al., 2016) untersucht werden. Neben Individuen können auch Rückschlüsse auf die Gesellschaft gezogen werden. So haben beispielsweise Fiss und Hirsch (2005) den Globalisierungsdiskurs mithilfe von Text untersucht. Auch der Kontext der Urheber, wie deren vorherrschende Normen (Kulkarni, 2014) oder deren technologische Gegebenheiten (Melumad et al., 2019) können basierend auf Text beleuchtet werden. Basierend auf diesen beiden Perspektiven schlagen Berger et al. (2020) eine Strukturierung von Textdaten je nach der Art des Urhebers und des Rezipienten vor. Für jede der beiden Dimensionen werden Verbraucher, Unternehmen, Investoren, sowie Institutionen und die Gesellschaft betrachtet. Die daraus resultierende Gruppierung wird in Tabelle 2.1 dargestellt. Die drei Textgruppen, welche im Rahmen dieser Promotion untersucht werden, sind in der Tabelle grau hinterlegt: Produktbewertungen, journalistische Texte sowie Regierungsdokumente. Im Rahmen der ersten beiden Forschungsarbeiten werden Online-Produktbewertungen und damit Informationen von Konsumenten für Konsumenten untersucht. Die Bewertungen stammen dabei in beiden Fällen von der Handelsplattform Amazon.com. Neben den Bewertungstexten werden auch die zugehörigen numerischen Sternebewertungen analysiert, um in Kapitel 3 die Dynamik von Konsumentenmeinungen zu untersuchen. Am Beispiel von Online-Produktbewertungen wird sichtbar, dass die Klassifizierung nach Berger et al. (2020) häufig nicht eindeutig ist. So sind diese Bewertungen primär an andere Konsumenten gerichtet. Sie sind aber auch für Unternehmen interessant. Zusätzlich werden Unternehmen teilweise von den Urhebern in den Bewertungen direkt adressiert. Zum anderen werden für die Entwicklung des Index für Unsicherheit im Bereich Energiepolitik Zeitungsartikel sowie Protokolle des Deutschen Bundestags analysiert. Bei beiden Datenquellen handelt es sich um institutionelle Texte. Die Textarten werden im Folgenden im Detail erläutert. Zuerst wird im nächsten Kapitel jedoch der Bereich der Computerlinguistik, der die Grundlage aller durchgeführten Analysen bildet, vorgestellt.

Tabelle 2.1 Klassifizierung von Texten mit Beispielen nach Berger et al. (2020)

2.1 Klassifikation von Texten als akademische Datenquelle 9

10

2.2

2 Texte als Daten in der Literatur

Computerlinguistik zur Analyse von Texten

Die Zunahme der Verfügbarkeit von Text bringt nicht nur Vorteile mit sich, sondern stellt gleichermaßen Forschende und Unternehmen vor neue Herausforderungen (Berger et al., 2020). Denn ohne geeignete Analysemöglichkeiten können die enthaltenen Informationen weder analysiert noch genutzt werden. Aus diesem Grund gibt es mit der fortschreitenden Digitalisierung auch ein wachsendes Interesse daran, die unstrukturierten Texte mithilfe von NLP-Ansätzen zu strukturieren (Yzaguirre et al., 2016). In der Regel ist das Ziel dieser Methoden zeitaufwändige, manuelle Textkodierung, wie beispielsweise das Erkennen von Themen in Artikeln, durch Methoden der Computerlinguistik (Natural Language Processing, NLP) zu automatisieren (Y. Kang et al., 2020). So können auch große Textmengen objektiv und skalierbar analysiert werden. In diesem Kapitel werden die Grundlagen des Bereichs NLP eingeführt. Nach der Definition der Fachrichtung in Unterkapitel 2.2.1 werden zentrale Ansätze der Datenaufbereitung in Unterkapitel 2.2.2 dargestellt. Danach wird im Abschnitt 2.2.3 der Unterschied zwischen überwachtem und unüberwachtem Lernen erläutert und mit zwei Beispielen illustriert. Abschließend wird in Unterkapitel 2.2.4 kurz die historische Entwicklung in diesem Bereich zusammengefasst.

2.2.1

Definition von Computerlinguistik

Bei der Computerlinguistik (NLP) handelt es sich um einen interdisziplinären Teilbereich der Linguistik sowie der künstlichen Intelligenz (Linckels & Meinel, 2011). Die Fachrichtung verfolgt dabei das Ziel, die menschliche Sprache inklusive grammatikalischer und semantischer Aspekte computergestützt zu verstehen. Seinen Ursprung hat NLP bereits in der Mitte des 20. Jahrhunderts (Nadkarni et al., 2011). Zu Beginn gab es eine starke Unterscheidung von NLP zu anderen computergestützten Methoden der Textanalyse, wie beispielsweise dem Information Retrieval, bei dem der Fokus auf dem Wiederauffinden von Information liegt. Heutzutage greift die Fachrichtung dagegen auf Methoden vieler verschiedener Bereiche zurück und ist eng mit diesen verknüpft. Diese Vielfalt sorgt dafür, dass NLP mittlerweile für eine Bandbreite an Aufgaben verwendet werden kann, beispielsweise maschinelle Übersetzung, Zusammenfassungen von Texten oder Spracherkennung (Jain et al., 2018). Grundsätzlich lässt sich bei NLP unterscheiden, ob Text verstanden oder generiert werden soll (Dale et al., 1998). Während sich der erste Teilbereich auf die Analyse von Sprache zur Gewinnung sinnvoller Informationen bezieht, beschreibt letzteres die Erstellung neuer textueller Daten basierend auf bestehenden Informationen. Im Rahmen der Analyse von Vorschlägen wird Textgenerierung verwendet,

2.2 Computerlinguistik zur Analyse von Texten

11

um die identifizierten Verbesserungsvorschläge für Produkte zusammenzufassen. Darüber hinaus liegt Fokus der vorliegenden Arbeit auf dem Verständnis von Texten und der Ableitung relevanter Informationen aus bereits vorhandenem Text. Im Folgenden werden ausgewählte NLP-Methoden, welche zentral für die verschiedenen Forschungsarbeiten sind, eingeführt.

2.2.2

Datenaufbereitung textueller Daten

Unabhängig der Zielsetzung und des verwendeten Modells stellt die Aufbereitung der zu analysierenden Texte in der Regel den ersten Schritt im NLP-Prozess dar (Camacho-Collados & Pilehvar, 2018; Vijayarani et al., 2015). Die Datenaufbereitung ist elementar für die folgenden Analyseschritte und umfasst Aktivitäten, bei welchen die Textdokumente vorverarbeitet werden (Tabassum & Patil, 2020). Dabei werden die Texte in ein Format gebracht, welches für die nachfolgenden Modelle verwertbar ist oder die Leistung der nachfolgenden Schritte verbessert. Die Datenaufbereitung ist dabei ein gut untersuchter Bereich und es gibt eine Vielzahl von Bibliotheken, um diese durchzuführen, wie zum Beispiel das Stanford CoreNLP NLP-Toolkit (C. Manning et al., 2014). Zerlegung in Tokens und Sätze Ein essenzieller Schritt für fast alle NLP-Analysen ist die Zerlegung der Texte in Tokens. Token stellen logisch zusammengehörige Einheiten dar (Solangi et al., 2018). In der Regel erfolgt dabei die Zerlegung in Worte als Grundbestandteile von Texten (Camacho-Collados & Pilehvar, 2017). Es gibt jedoch auch Ansätze, in welchen Zeichenfolgen (Y. Kim et al., 2016, z. B.) oder Wortsinne (Pilehvar et al., 2017, z. B.) Token darstellen. Das Erkennen von Sätzen basierend auf den Tokens ist vor allem für nachfolgende grammatikalische Analysen wichtig. Obwohl eine einfache Erkennung von Satzgrenzen mit Satzzeichen wie ., ? oder ! häufig funktioniert, gibt es viele Ausnahmen, wie beispielsweise „Wir feiern heute ihren 50. Geburtstag.“, bei welchem einfache Regeln nicht genügen. Deshalb kommen für die Erkennung von Sätzen in der Regel deutlich komplexere Methoden zum Einsatz, wie Modelle des maschinellen Lernens (Read et al., 2012). Dependenzanalyse Basierend auf den identifizierten Worten und Sätzen kann der Text in einem nachgelagerten Schritt um weitere Informationen angereichert werden. Man spricht bei diesem Vorgehen von einer Dependenzanalyse. Häufig werden hier NLP-Ansätze verwenden, um die Wortart sowie die Abhängigkeitsbeziehungen zwischen den

12

2 Texte als Daten in der Literatur

Worten zu erkennen. Beim Part-of-Speech (POS) Tagging wird jedes Wort automatisiert mit seiner entsprechenden Wortart annotiert, zum Beispiel Substantiv, Verb oder Adjektiv. Das Penn-Treebank-Tagset, ein englischer Textkorpus mit mehr als 7 Millionen Worten, für welche die syntaktische Struktur annotiert wurde, kennt dabei 36 verschiedene Wortarten (Taylor et al., 2003). Neben der Wortart wird auch die Satzstruktur durch die grammatikalischen Beziehungen der Worte untersucht. Dependency Parsing, also automatische Ansätze zur Erkennung dieser Beziehungen, ist dabei eine der wichtigsten und meist untersuchten NLP-Methoden, da sie einer der Hauptbausteine für viele weitere Analysen ist (Zewdu & Yitagesu, 2022). Abbildung 2.1 zeigt eine automatische Dependenzanalyse mithilfe der Bibliothek SpaCy. Die Kürzel für die Wortarten sind dabei unter den Worten aufgeführt. Bei dem Wort „sind“ handelt sich es beispielsweise um ein Auxiliarverb (AUX). Die Wortbeziehungen sind als Pfeile dargestellt und zwischen „sind“ sowie „Nachteile“ besteht eine Prädikat-Beziehung (pd).

Abbildung 2.1 Beispiel einer Dependenzanalyse mit der Bibliothek SpaCy

Stammreduktion und Lemmatization Möchte man nicht nur identische Worte zusammenfassen, sondern auch morphologische Varianten mit gleicher Bedeutung, spricht man von einer Stammreduktion. Ein Beispiel sind die Sätze „Das Gewicht ist der Grund für den Abzug eines Sterns.“ und „Aufgrund des Gewichts ziehe ich einen Stern ab.“. Obwohl „Gewicht“ und „Gewichts“ zwei verschiedene Worte sind, ergibt es für viele Anwendungen Sinn diese zusammenzufassen. Die Stammreduktion bezeichnet dabei Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden. In diesem Beispiel auf den Wortstamm „Gewicht“. Dafür können unter anderem Heuristiken verwendet werden, welche gewisse Endungen abschneiden („ing“ oder „ed“ im Englischen). Da diese Verfahren jedoch beispielsweise Schwächen bei unregelmäßigen Verben wie „sein“ haben (Jivani, 2011), kommt häufig Lemmatisierung zum Einsatz. Dabei werden die Worte mit NLP-Verfahren auf das Lemma, als die Grundform zurückgeführt. So kann sowohl „ist“ als auch „war“ auf die Grundform „sein“ zurückgeführt und

2.2 Computerlinguistik zur Analyse von Texten

13

damit zusammengefasst werden. Dabei gibt es vielfältige Implementierungen von regelbasierten Techniken, die von einfachen statistischen Methoden hin zu modernen Deep-Learning-Ansätzen reichen (Akhmetov et al., 2020). Entfernen von Stoppworten Um den Fokus der nachfolgend angewandten Modelle auf die relevanten Informationen zu lenken, können Stoppworte entfernt werden. Dabei handelt es sich um häufig auftretende Worte ohne Relevanz für den Kontext, wie beispielsweise Artikel. Bei klassischen Machine-Learning-Ansätzen wie Support-Vektor-Maschinen ergibt sich dadurch in der Regel eine bessere algorithmische Leistung sowie geringere Speicheranforderungen und Laufzeit (Silva & Ribeiro, 2003). Für modernere DeepLearning-Ansätze führt das Entfernen von Stoppwörtern häufig nicht zu einer Verbesserung der Qualität, weshalb die Sinnhaftigkeit von den nachfolgenden Modellen abhängt (z. B. Y. Qiao et al., 2019).

2.2.3

Überwachtes und unüberwachtes Lernen

Basierend auf den aufbereiteten Daten wird in der Regel ein NLP-Modell eingesetzt, um die eigentliche Aufgabenstellung zu lösen. Für das maschinelle Lernen und damit auch für NLP gibt es verschiedene Arten der Modellierungen, abhängig von den Trainingsdaten, deren Verarbeitung und der Evaluation (Mohri et al., 2018). Zentral ist dabei die Unterscheidung von überwachten und unüberwachten Ansätzen. Beim überwachten Lernen stehen eine Reihe an Beispielen zur Verfügung, welche neben den Eingabewerten auch die optimalen Ausgabewerte enthalten. Ziel des Modells ist es, basierend auf den Beispielen eine Funktion zu schätzen, welche für weitere Eingabewerte die richtigen Ausgabewerte vorhersagt (Russell & Norvig, 2010). Typische Beispiele für überwachtes Lernen sind Klassifizierungs-, Regressions- und Ranking-Probleme. Als konkretes Beispiel wird die Sentimentanalyse im Folgenden kurz dargestellt. Auch beim unüberwachten Lernen stehen Eingabedaten zur Verfügung, jedoch gibt es keine Ausgabedaten (Mohri et al., 2018). Das erschwert in der Regel die Bewertung der Performance der Modelle. Klassische Beispiele sind Dimensionsreduktion oder Clustering. Als konkretes NLP-Beispiel wird nachfolgend die Themenmodellierung betrachtet. Sentimentanalyse als Beispiel des überwachten Lernens Ziel der Sentimentanalyse ist die computergestützte Untersuchung von Meinungen, Gefühlen, Emotionen, Einschätzungen und Einstellungen von Menschen (J. Zhao et al., 2016). Die klassische Sentimentanalyse unterscheidet zwischen zwei

14

2 Texte als Daten in der Literatur

(positiv und negativ) oder drei (positiv, neutral und negativ) Polaritäten. Die Meinung wird dabei gegenüber Entitäten, beispielsweise gegenüber Produkten oder Dienstleistungen, Personen, Ereignissen, Themen und einzelnen Aspekten ausgedrückt. Eingabewerte des überwachten Szenarios sind einzelne Texte, zum Beispiel „Leider hält der Akku keinen kompletten Tag.“. Die Ausgabewerte sind die Valenz, in diesem Beispiel „negativ“ für die Entität des Akkus. Durch die Verwendung neuer Sprachmodelle, wie Transformer Modellen, ist mittlerweile auch eine Erkennung von implizit ausgedrückter Valenz sehr gut möglich (Hamborg & Donnay, 2021). Derartige Modelle werden auch im Rahmen dieser Arbeit, zum Beispiel für die Klassifikation von Vorschlägen, verwendet. Themenmodellierung als Beispiel des unüberwachten Lernens Unter Themenmodellierung (Topic Modeling) im NLP-Bereich versteht man Techniken, mit welchen latente Themen in einer Sammlung von Dokumenten identifiziert werden können (Alghamdi & Alfalqi, 2015). Die abstrakten Themen sind dabei wiederkehrende Wortmuster. Im Unterschied zur Sentimentanalyse gibt es bei diesen unüberwachten Modellen zwar Dokumente als Eingabewerte, jedoch keine Ausgabewerte für eine Optimierung. Besonders für große Sammlungen an Dokumenten ist die leistungsstarke Technik geeignet, um zugrundeliegende Strukturen zu ermitteln (Barde & Bainwad, 2017). Themenmodellierung findet dabei eine breite Anwendung für eine Vielzahl von Fragestellungen und Datenquellen (Jelodar et al., 2017). Typische Beispiele sind die Analyse von Nachrichten (z. B. Ianina et al., 2018; Marjanen et al., 2020; Yamada, 2017), sozialen Medien (z. B. Jeong et al., 2019; Tirunillai & Tellis, 2014; Zhong & Schweidel, 2020) oder politischen Texten (z. B. Greene & Cross, 2017; Prabhakaran et al., 2014; Schaal et al., 2022). Auch verschiedene Problemstellungen dieser Arbeit hätten mit Themenmodellierung bearbeitet werden können. Die Herausforderung dieses unüberwachten Ansatzes ist es jedoch, dass die Evaluation schwierig ist, da keine Ausgangswerte vorliegen. Aus diesem Grund wurden in der vorliegenden Arbeit stattdessen meist überwachte Modelle verwendet.

2.2.4

Neuste Entwicklungen im Bereich NLP

Obwohl NLP bereits seit rund 70 Jahren erforscht, verbessert und genutzt wird (vgl. Nadkarni et al., 2011), sind insbesondere in den letzten Jahren enorme Entwicklungen zu beobachten (M. Zhou et al., 2020). Neben der wachsenden Nachfrage danach, die großen textuellen Datenmengen auszuwerten, ist diese Entwicklung insbesondere auf größere Rechenleistungen, neue Modellarchitekturen und auf den

2.2 Computerlinguistik zur Analyse von Texten

15

erfolgreichen Einsatz in sozialen Situationen zurückzuführen (Hirschberg & Manning, 2015). So sind Sprachmodelle mit Anwendungen wie Apples Siri, Amazons Alexa oder Googles Cortana in der breiten Gesellschaft angekommen und haben dadurch eine hohe wirtschaftliche und akademische Relevanz (Hirschberg & Manning, 2015; Wolf et al., 2020). Beim traditionellem Ansatz, bei dem neuronale Netze trainiert werden, werden die initialen Parameter des Modells zuerst zufällig gewählt und dann im Rahmen des Modelltrainings optimiert. Dies führt dazu, dass eine sehr große Menge an Trainingsdaten benötigt wird und das Training extrem rechenintensiv ist (Alyafeai et al., 2020). Eine Lösung dafür stellt das Transfer-Learning dar. Die Grundidee dabei ist, dass Parameter und damit das Wissen des Modells von einem allgemeinen Training auf spezifische Anforderungen übertragen werden. So wurde beispielsweise das Modell BERT (Bidirectional Encoder Representations from Transformers, large) von Google mit 340 Millionen Parametern auf 3,3 Milliarden Wörter aus Büchern und Wikipedia-Artikeln trainiert (Devlin et al., 2019). Durch die Verwendung von Self-Supervised Learning erfolgt dieses Training ohne manuell annotierte Daten. Beim Self-Supervised Learning handelt es sich um ein Paradigma, bei welchem die Labels für die Daten automatisch generiert werden (Kalyan et al., 2021). Ein Beispiel dafür sind Masked-Language Modelle, welche auch bei BERT verwendet wurden. Dafür werden Worte zufällig ausgewählt, unkenntlich gemacht und vom Modell vorhergesagt. Ein Beispiel dafür ist der Satz „Die Katze jagt die [MASK].“. Durch derartige Aufgaben gelingt es, Modelle vorzutrainieren, welche bereits ein enormes Sprachverständnis haben. Diese vortrainierten Modelle können nun für spezifische Aufgaben weitertrainiert werden, wie für das Erkennen von Vorschlägen im zweiten Forschungsprojekt. Im Gegensatz zur üblichen zufälligen Initialisierung von Modellparametern führt das Transfer-Learning zu schnellerer Konvergenz und geringeren Anforderungen und damit zu besseren Ergebnissen bei weniger benötigten Daten (Ruder et al., 2019). Neben dem prototypischen Vorgehen hat sich auch die Architektur der verwendeten neuronalen Netze in der jüngsten Vergangenheit weiterentwickelt. Einen großen Beitrag zur Verbesserung der Verarbeitung menschlicher Sprache lieferte die Einführung der Transformer-Architektur (Wolf et al., 2020). Diese Architektur ermöglicht im Vergleich zu klassischeren neuronalen Netzen wie RNNs eine stärkere Parallelisierung. Zusätzlich können langfristige Zusammenhänge modelliert werden, da jedes Token alle Token in der Eingabesequenz berücksichtigt (Vaswani et al., 2017). In Kombination mit dem Transfer-Learning führte die Verwendung von Transformern zu immer neuen NLP-Bestmarken. Beispiele dafür sind maschinelle Übersetzung (Imamura & Sumita, 2019), Fragebeantwortung (Devlin et al., 2019; S. Garg et al., 2020) oder Sentimentanalyse (Hoang et al., 2019).

16

2 Texte als Daten in der Literatur Switch

Wu Dao 2.0

Number of parameters (millions, log)

1e+06 Megatron−Turing

GPT−3

OPT

1e+05

Turing−NLG

1e+04

T5

MegatronLM

GPT−2

1e+03 Transformer ELMo RoBERTa

BERT

1e+02

ELMo

XLM−R XLM BART

GPT−1 DistilBERT

2018

2019

2020

2021

2022

year

Abbildung 2.2 Anzahl der Parameter (logarithmiert) ausgewählter NLP-Modelle von 2018 bis 2022

Aufgrund des großen Erfolgs des Transfer-Learnings sind nicht nur die Datenmengen für das Vortrainieren der Modelle umfassender geworden, sondern vor allem auch die Größe der Modelle (S. Smith et al., 2022). Abbildung 2.2 zeigt die Größe ausgewählter Modelle im Zeitverlauf. Die Anzahl der Parameter ist dabei logarithmisch skaliert. Ein exponentieller Wachstumstrend moderner Sprachmodelle wird beispielsweise auch an der Entwicklung der GPT-Modelle von OpenAI deutlich. Während die erste Generation GPT-1 117 Millionen Parameter umfasst, ist die zweitere Generation mit 1,5 Milliarden Parametern bereits mehr als zehnmal so groß. Das Nachfolgemodell GPT-3, welches auch im Rahmen dieser Arbeit verwendet wird, fällt mit 175 Milliarden Parametern bereits mehr als 100 Mal so groß aus (E. Clark et al., 2021). Gleichzeitig gibt es auch Bestrebungen, die Sprachmodelle kleiner und effizienter zu gestalten. Ein Beispiel dafür ist DistilBERT, eine kleinere Version des BERT Modells. Durch einen effizienteren Trainingsprozess gelang es, das BERT Modell 40 % kleiner und 60 % schneller zu machen, während noch immer 97 % der Leistung erreicht wurde (Sanh et al., 2019). Ein weiteres Beispiel liefern S. Zhang et al. (2022), welche ein mit GPT-3 vergleichbares Modell trainierten. Dabei sparten sie jedoch mehr als 85 % des CO2 -Fußabdrucks beim Modelltraining durch die Methodik und Infrastruktur ihres Modells OPT (Open Pre-trained Transformer) ein. Generell lässt sich festhalten, dass insbesondere in der jüngsten Vergangenheit ein Wettlauf um die größten und besten Sprachmodelle begonnen hat. In der

2.3 Nutzergenerierte Inhalte und e-Mundpropaganda

17

Marketingliteratur finden diese Modelle trotz der extremen Leistungsfähigkeit kaum Anwendung. Einer der Beiträge dieser Promotion ist es deshalb, zu illustrieren, welchen Wert derartige Modelle für die Beantwortung von Fragestellungen des Marketings mit sich bringen.

2.3

Nutzergenerierte Inhalte und e-Mundpropaganda

Nachdem nun die Grundlagen von NLP eingeführt wurden, liegt der Fokus der folgenden Kapitel auf den für diese Promotionsarbeit relevanten Arten textueller Daten. Im nächsten Abschnitt werden nutzergenerierte Inhalte und elektronische Mundpropaganda vorgestellt, die insbesondere in Form von Produktbewertungen untersucht werden.

2.3.1

Definition und Einordnung

Die Definition von nutzergenerierten Inhalten (englisch: user-generated content, UGC) und elektronischer Mundpropaganda (englisch: electronic Word-of-Mouth; eWOM) ist stark mit den Begriffen des Web 2.0 und der sozialen Medien verknüpft. Dieser Zusammenhang wird in Abbildung 2.3 dargestellt.

eWOM

UGC

UGC, der sowohl konsumbezogen ist und sich in erster Linie an andere Verbraucher richtet

Öffentlich zugängliche Inhalte, welche von Nutzern im privaten Kontext im Rahmen eines kreativen Schaffensprozesses entstanden sind

Soziale Medien

Konkrete internet-basierte Anwendungen zur Schöpfung und Verbreitung von UGC

Web 2.0

Sammlung ideologischer Gedanken und technischer Werkzeuge zur Partizipation im Internet (read-write web)

Abbildung 2.3 Zusammenhang zwischen Web 2.0, sozialen Medien, UGC und eWom

18

2 Texte als Daten in der Literatur

Grundlage all dessen stellt dabei das Web 2.0 dar. Der Begriff wurde 2004 eingeführt, um eine Nutzung des Internets zu beschreiben, bei der Inhalte von allen Nutzern partizipativ und gemeinschaftlich erstellt und verändert werden (Kaplan & Haenlein, 2010). So werden beispielsweise in sozialen Netzwerken, wie Facebook oder Twitter, die Inhalte nicht zentral kreiert, sondern von den Anwendern dezentral geschaffen und verändert. Durch die zusätzlichen Schreibrechte der Nutzer grenzt sich das Web 2.0 (read-write web) dabei vom Web 1.0 (read-only web) ab, bei dem die Internetnutzer primär Leserechte haben (Hiremath & Kenchakkanavar, 2016). Auch technisch gibt es Unterschiede zum Web 1.0, bei dem der Fokus auf statischen HTML-Seiten liegt, welche sich nur selten ändern (Singh et al., 2011). Im Web 2.0 wird dagegen das Schaffen von interaktiven Applikationen durch technische Ansätze wie Ajax, API, RSS oder XML ermöglicht. Das Web 2.0 ist damit eine Sammlung von ideologischen Gedanken und technologischen Werkzeugen zur Partizipation im Internet. Darauf aufbauend sind sozialen Medien konkrete internet-basierte Anwendungen, welche Nutzern die Erstellung und Verbreitung von Inhalten erlauben (Kaplan & Haenlein, 2010). In den USA beispielsweise stellten im Jahr 2021 Youtube (81 % der Bevölkerung als Nutzer) und Facebook (69 % der Bevölkerung als Nutzer) die beiden beliebtesten sozialen Medien dar (Auxier & Anderson, 2021). Die Präferenz der sozialen Medien unterscheidet sich dabei stark zwischen den Altersgruppen. So nutzen beispielsweise 65 % der unter 30-Jährigen Snapchat, während es weniger als ein Viertel bei den 30- bis 49-Jährigen sind. Die Gründe für die Nutzung sozialer Medien sind vielfältig und umfassen beispielsweise den Kontakt mit Freunden und Bekannten, das Knüpfen neuer Bekanntschaften oder Beziehungen (Boyd & Ellison, 2007; Ellison & Boyd, 2013). Darüber hinaus geht es um den Austausch zu Hobbys, Interessen oder Nachrichten sowie das Ausdrücken von Gefühlen, Identität und persönlichen Ereignissen. Durch die steigende Verbreitung von Web 2.0 und den sozialen Medien wächst auch die Bedeutung von UGC. Dennoch gibt es in der Literatur keine einheitliche Definition für das Konstrukt. Eine häufig zitierte Beschreibung der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) umfasst drei Bedingungen, welche UGC erfüllen muss (Vickery & Wunsch-Vincent, 2007): 1. Öffentlichkeit: Die Inhalte müssen öffentlich zugänglich sein, also zum Beispiel auf einer Website oder auf einem sozialen Netzwerk. Dies schließt Inhalte wie E-Mails aus, welche nur einer ausgewählten Gruppe von Personen zugänglich sind.

2.3 Nutzergenerierte Inhalte und e-Mundpropaganda

19

2. Kreativität: Es muss eine gewisse kreative Anstrengung vorliegen. Somit handelt es sich bei einfachem Kopieren von bestehenden Inhalten ohne Veränderung nicht um UGC. 3. Private Erstellung: UGC muss außerhalb der beruflichen Routinen und Praktiken entstehen. Dies schließt insbesondere kommerziellen Inhalte wie Werbung oder Nachrichten aus. Eine spezifische Art von UGC ist eWOM. Der Begriff stellt dabei eine Abwandlung der klassischen Mundpropaganda dar, welche den informellen Austausch privater Parteien über Produkte und Dienstleistungen beschreibt (E. W. Anderson, 1998). Bei eWOM handelt es sich um UGC, der konsumbezogen ist und sich in erster Linie an andere Verbraucher richtet (Babi´c Rosario et al., 2020). So ist das Teilen der eigenen Stimmung über Twitter UGC, aber nicht eWOM, während eine Bewertung zu einem Konsumprodukt in den sozialen Medien beiden Gruppen zuzuordnen ist. Datenquelle für zwei Projekte dieser Promotion sind Online-Produktbewertungen von Amazon.com. Obwohl es nicht die primäre Funktion der Handelsplattform ist, stellt Amazon.com ein soziales Medium dar, welche das Teilen von Bewertungen, Interaktion durch Liken von anderen Bewertungen oder Konversationen ermöglicht (P.-Y. Chen et al., 2007). Die Plattform baut dabei auf einer Vielzahl von Web 2.0 Technologien, wie XML, Ajax oder APIs, auf. Die Bewertungen sind UGC, da sie öffentlich sichtbar für andere Nutzer sind, im privaten Kontext und kreativ entstehen. Da es sich um konsumbezogene Meinungen für andere Konsumenten handelt, sind die Bewertungen darüber hinaus auch eWOM.

2.3.2

Bestandsaufnahme von nutzergenerierten Inhalten und elektronischer Mundpropaganda in der Literatur

Aufgrund der Zunahme von UGC und eWOM durch die stärkere Entwicklung vom Web 2.0, gibt es auch in der Literatur ein breites Feld von Untersuchungen des Phänomens. Tabelle 2.2 strukturiert die verschiedenen Forschungsrichtungen und es werden exemplarische Arbeiten aus der Literatur aufgeführt. Grundlegend kann man die Literatur in zwei Bereiche unterteilen. Zum einen werden die Urheber und Rezipienten betrachtet. Dabei wird bei den Urhebern neben der Motivation auch untersucht, wie das Schaffen von UGC durch deren Interaktion und ihre Rahmenbedingungen beeinflusst wird. Für die Rezipienten steht die Frage, welchen Einfluss UGC auf ihre Meinung und ihre Handlungen hat, im Mittelpunkt. Der zweite wichtige Bereich betrachtet UGC als Datenquelle und Proxy für die Einstellung der Nutzer. Berger et al. (2020) ordnen diesen Bereich ebenfalls der Untersuchung der

20

2 Texte als Daten in der Literatur

Urheber zu. Im Bereich eWOM handelt es sich jedoch um eine große, eigenständige Strömung, weshalb diese separat betrachtet wird. In diesem Kontext werden Fragestellungen auf der Mikroebene mit dem Fokus auf einzelnen Entitäten, wie Produkten oder Dienstleistungen, untersucht. Dabei sind sowohl konkrete Aspekte bestehender Leistungen und Produkte Forschungsgegenstand, als auch abstrakte Konzepte wie Bedürfnisse. Auf der Makroebene werden Sachverhalte umfassender betrachtet, indem beispielsweise Marken oder Märkte untersucht werden. Im Folgenden werden die Bereiche zusammengefasst, welche für die vorliegende Arbeit von hoher Relevanz sind. Zusätzlich sind diese Bereiche in der Tabelle 2.2 hervorgehoben. Die Motivation der Urheber sowie deren Interaktion sind dabei Grundlage für die Forschungsarbeit zur Dynamik von Produktbewertungen. Daneben wird insbesondere Forschung zu UGC als Datenquelle zur Erkenntnisgewinnung auf der Mikroebene vorgestellt. Hier besteht eine enge Verbindung zur Untersuchung von Vorschlägen in Produktbewertungen. Verständnis von UGC-Urhebern und -Rezipienten Motivation und Interaktion Als zentralen Motive für das Erstellen von UGC und eWOM werden in der Literatur Altruismus (Yadav et al., 2013), Befriedigung des Bedürfnisses nach sozialer Interaktion durch die Online-Gemeinschaft (R. V. Kozinets, 1999; Peters et al., 2013), hedonische Nutzenaspekte (R. Kozinets, 2016; McGraw et al., 2014; Motyka et al., 2018), sowie Selbstverständnis und Identitätsbildung (Belk, 2013; Z. Chen & Berger, 2013; Moe & Schweidel, 2012) angeführt. Auch das Bestrafen oder Belohnen von Unternehmen, mit welchen Konsumenten schlechte beziehungsweise gute Erfahrungen gemacht haben, sowie das Bedürfnis ungerechte Bewertungen zu korrigieren (E. T. Anderson & Simester, 2014; HennigThurau et al., 2004), können Konsumenten zur Erstellung von UGC motivieren. Neben der internen Motivation gibt es auch externe Anreize durch Unternehmen und die Plattformen. Dies umfasst sowohl monetäre als auch nicht-monetäre Aspekte, wie beispielsweise Amazons Badge „Top Reviewer“ (Ahrens et al., 2013; Godes & Mayzlin, 2009; Y. Liu & Feng, 2021). Babi´c Rosario et al. (2020) zeigen darüber hinaus auf, dass sich die Motivation der Konsumenten durch die technologischen und sozialen Entwicklungen im Zeitverlauf verändert hat. In den frühen 1980er Jahren war das zentrale Motiv der Wunsch nach Zugehörigkeit zu spezifischen Onlinegemeinschaften für beispielsweise ausgewählte Hobbys (R. V. Kozinets, 1999). Mit dem Aufkommen des Web 2.0 wurden soziale Medien für das Erstellen und Verbreiten von eWOM immer bedeutender und es entstanden weniger themenspezifische Gemeinschaften. Gleichzeitig wurden die Motive mit monetärem Eigennutz, der Sorge um andere Verbraucher, Altruismus gegenüber Verbrauchern und Unternehmen, sowie Mischformen vielfältiger (Hennig-Thurau et al., 2004).

Datenquelle für Nutzermeinung

Verständnis von Urheber und Rezipient

Makroebene

Mikroebene

Rezipient

Urheber

Marken Märkte

Bedürfnisse

Attribute

Kollektiv

Individuell

Rahmenbedingungen

Motivation & Interaktion

Altruismus (Yadav et al., 2013), Bedürfnis nach sozialer Interaktion (R. V. Kozinets, 1999; Peters et al., 2013), hedonische Nutzenaspekte (R. Kozinets, 2016; McGraw et al., 2014; Motyka et al., 2018), Selbstverständnis/Identitätsbildung (Belk, 2013; Z. Chen & Berger, 2013; Moe & Schweidel, 2012); soziale Dynamiken (Moe & Schweidel, 2012; Schlosser, 2005) Endgerät (Grewal & Stephen, 2019; Melumad et al., 2019), Plattform (Shang et al., 2017; A. Smith et al., 2012) Erlebnisorientierte vs. materielle Käufe (Dai et al., 2019), Konsumabsicht (Yi et al., 2019), Verbraucherstimmung (Homburg et al., 2015) Umsatz (Dhar & Chang, 2009; Rosario et al., 2016; Ye et al., 2009), Aktienmarkt (Deng et al., 2018; Gomez-Carrasco & Michelon, 2017) Kosmetikartikel (S. G. Kim & Kang, 2018), Unterhaltungsprodukte (Toubia et al., 2019), Autos (Ma et al., 2019), Elektronikprodukte, (Archak et al., 2011; Decker & Trusov, 2010), Serviceleistungen (Büschken & Allenby, 2016; Y. Guo et al., 2017; Hu et al., 2019; Jia, 2018), Mängel/Defekte (Abrahams et al., 2014; K. B. Park & Ha, 2016; Z. Qiao et al., 2017; B. Sun et al., 2022; Zheng et al., 2020) Online-Produktbewertungen (Timoshenko & Hauser, 2019; Y. Wang et al., 2018), Soziale Medien (Kühl et al., 2019) Markenassoziationen (Klostermann et al., 2018; Volkmann et al., 2019) Restaurants (Büschken & Allenby, 2016), Elektronik (Qi et al., 2016)

Tabelle 2.2 Strukturierung der Forschungsrichtungen im Bereich UGC und eWOM

2.3 Nutzergenerierte Inhalte und e-Mundpropaganda 21

22

2 Texte als Daten in der Literatur

In der jüngeren Literatur wird außerdem verstärkt diskutiert, inwiefern tatsächlich altruistische Motive vorliegen. So sieht beispielsweise Berger (2014) Eigeninteresse, wie das Stärken des sozialen Status und Selbstbestätigung, als die zentrale Motivation. Babi´c Rosario et al. (2020) arbeiteten heraus, dass die Motivationen heutzutage zwar noch immer vielfältig sind, jedoch im Zeitverlauf weniger sozial und altruistisch wurden. Neben den motivationalen Ursachen, die Konsumenten dazu bringen UGC zu Produkten zu verfassen, wird in der Literatur auch häufig die Rolle von sozialen Interaktionen im Kontext von Produktbewertungen untersucht. Dabei wird in der Regel betrachtet, ob und in welchem Ausmaß Konsumenten beim Verfassen von Produktbewertungen durch die bereits veröffentlichten Produktbewertungen anderer Konsumenten beeinflusst werden. Laut Moe und Schweidel (2012) spiegeln Produktbewertungen neben der Meinung von Konsumenten auch immer einen Einfluss anderer Bewertungen wider. Ihre Ergebnisse zeigen, dass die Richtung des Effektes von der Erfahrung mit dem Verfassen von Produktbewertungen abhängig ist. Konsumenten, die regelmäßig Produktbewertungen veröffentlichen, zeigen vermehrt ein Differenzierungsverhalten und korrigieren bei hohen Durchschnittsbewertungen ihre Produktbewertung eher nach unten. Im Gegensatz dazu wurde für unerfahrene Verfasser ein Bandwagon-Effekt beobachtet, der sich in der Anpassung der eigenen Bewertung an die aktuelle Durchschnittsbewertung anderer Konsumenten äußerte. Die Wirkung sozialer Dynamiken im Kontext von Produktbewertungen wurde ebenfalls von Schlosser (2005) nachgewiesen. Im Rahmen der Studie sollten Studierende einen Kurzfilm bewerten. Vor der erneuten Bewertung des Films lasen sie anschließend entweder eine positive oder negative Bewertung einer anderen Person. Studierende, die eine negative Bewertung präsentiert bekamen, bewerteten den Film im zweiten Durchgang schlechter, wenn angekündigt wurde, dass ihre Bewertung im Anschluss veröffentlicht werden würde. Bei Teilnehmenden, deren Bewertung nicht veröffentlicht werden sollte, konnte keine Einstellungsänderung beobachtet werden. Im Rahmen der Forschungsarbeit zur Untersuchung der Bewertungsdynamik in Kapitel 3 wird weitere relevante Literatur zu verschiedenen beobachteten Dynamiken bei Produktbewertungen vorgestellt. Kollektive Folgen auf Rezipienten Neben dem Einfluss von Produktbewertungen auf Individuen wird in der Literatur auch untersucht, ob Produktbewertungen Auswirkungen auf aggregierte Kerngrößen haben. Viele Arbeiten in der Literatur beschäftigen sich in diesem Rahmen mit dem Einfluss von UGC auf den Umsatz. Dabei werden vielfältige Kontexte untersucht, wie beispielsweise die Auswirkungen von positivem UGC auf Konsumgüter (Rosario et al., 2016), Dienstleistungen (Ye et al., 2009) oder Musik (Dhar & Chang, 2009). Während in der Regel ein

2.3 Nutzergenerierte Inhalte und e-Mundpropaganda

23

negativer Zusammenhang zwischen negativer UGC und Umsatz gefunden wird, gibt es auch Konstellationen, in welchen negativer UGC positiven Einfluss auf den Umsatz nehmen kann. Dies tritt unter anderem dann auf, wenn das Produkt sehr unbekannt ist und der Effekt der öffentlichen Aufmerksamkeit den Effekt des negativen Inhaltes überwiegt (Berger et al., 2010). Auch für Konsumenten, welche sich eng mit einer Marke verbunden fühlen, können negative Meinungen zur Verteidigung der Marke und damit zu stärkerer Verbundenheit führen (Wilson et al., 2017). Tang et al. (2014) zeigen darüber hinaus auf, dass nicht nur positiver und negativer UGC in diesem Kontext berücksichtigt werden sollte, sondern sich auch neutrale Beiträge auf den Umsatz auswirken können. Dabei verstärkt eine ausgewogene Mischung aus positiven und negativen Punkten in einer Bewertung die vorherrschende Meinung, wobei gänzlich neutrale Bewertungen den Effekt abschwächen. Daneben untersuchten Autoren auch, wie man die Auswirkung von UGC auf den Umsatz optimieren kann. Ein Beispiel dafür sind X. Liu et al. (2019), welche bei einer Simulation basierend auf der Analyse von 500.000 Produktbewertungen feststellten, dass eine Optimierung durch Umsortieren der Bewertungen den gleichen Effekt hat wie eine 1,6 % Preissenkung. Auch für den Kapitalmarkt gibt es viele Arbeiten, welche einen Einfluss von UGC validieren. Ein Beispiel dafür ist die Analyse von 1,5 Millionen Tweets durch Gomez-Carrasco und Michelon (2017), welche sich auf börsennotierte spanische Banken beziehen. Die Autoren untersuchten mithilfe der Tweets die Auswirkungen von Aktivismus auf abnormalen Kursund Handelsvolumenschwankungen. Die Ergebnisse liefern Evidenz dafür, dass der Twitter-Aktivismus wichtiger Interessengruppen einen erheblichen Einfluss auf die Entscheidungen der Anleger hat. Generell ist eine Kausalität schwer nachzuweisen, da UGC immer auch ein Proxy für die gesellschaftliche Erwartung und Meinung ist und die Gefahr von Verzerrung durch ausgelassene Variablen hoch ist. Zusammenfassend gibt es jedoch eine große Anzahl an Arbeiten, welche einen Zusammenhang zwischen UGC und aggregierten Kenngrößen feststellen (vgl. Brandon et al., 2015; Deng et al., 2018; Tirunillai & Tellis, 2012). UGC als Datenquelle für Nutzermeinungen Zusätzlich zur Untersuchung des Einflusses von UGC auf Individuen sowie das Kollektiv, kann UGC auch als Datenquelle verwendet werden, um die Meinung von Konsumenten zu approximieren. Dazu werden in der Regel NLP-Verfahren genutzt, um die Einstellungen und Präferenzen zu verschiedenen Aspekten zu analysieren. Diese Analyse der öffentlich verfügbaren Daten stellt eine Alternative zu klassischen Erhebungsmethoden dar, welche kostengünstiger, automatisierter und schneller ist als traditionelle Primärdatenerhebung (Roelen-Blasberg, 2019). Bei der Analyse von

24

2 Texte als Daten in der Literatur

UGC liegt der Fokus meist auf zwei Aspekten: Der Bewertung genannter konkreter Attribute sowie der Identifikation abstrakter Kundenbedürfnisse. Attribute Die Analyse von Produkt- oder Dienstleistungsattributen umfasst in der Regel drei Hauptschritte (Rana & Cheah, 2015). Erstens werden die Aspekte, zu denen die Nutzer ihre Meinung äußern, extrahiert. Ein häufig verwendeter Ansatz ist dafür die Themenmodellierung, welche in Unterkapitel 2.2.3 eingeführt wird. Eine typische Methode in diesem Bereich ist die Latent Dirichlet Allocation. Dabei handelt es sich um ein generatives, statistisches Wahrscheinlichkeitsmodell, mit welchem Themen automatisch in Texten identifiziert werden können (Blei et al., 2003). Daneben gibt es Arbeiten, die Regeln basierend auf dem Dependency Parsing, welches in Unterkapitel 2.2.2 beschrieben ist, verwenden, um relevante Aspekte zu identifizieren (Y. Kang & Zhou, 2017; Poria et al., 2014; Rana & Cheah, 2017). Als Nächstes wird meist für die identifizierten Aspekte eine Sentimentanalyse durchgeführt, um zu bestimmen, ob eine positive oder negative Meinung vorliegt (Rana & Cheah, 2015). Abschließend werden die Meinungen und deren Polarität aggregiert, um eine Gesamtzusammenfassung zu erhalten. Neben dem durchschnittlichen Sentiment pro Attribut ermitteln viele Autoren ebenfalls die Wichtigkeit des Attributes. Dafür wird in der Regel die Häufigkeit erfasst, mit der Attribute genannt werden. Es gibt auch komplexere Ansätze, wie zum Beispiel von Chakraborty et al. (2022), die neuronale Netze nutzen und auch nicht genannte Attribute in einer Bewertung berücksichtigen. Grundsätzlich können mit diesem Ansatz jegliche Produkte und Dienstleistungen untersucht werden, sobald genügend Meinungen verfügbar sind. Dadurch gibt es eine Vielzahl von Untersuchungsobjekten in der Literatur. Beispiele sind die Untersuchung von Kosmetikartikeln (S. G. Kim & Kang, 2018), Unterhaltungsprodukten (Toubia et al., 2019), Autos (Ma et al., 2019) oder Elektronikprodukten wie Kameras (Archak et al., 2011) und Mobiltelefone (Decker & Trusov, 2010). Auch Mängel und Defekte werden in der Literatur mithilfe von UGC analysiert (Abrahams et al., 2014; K. B. Park & Ha, 2016; Z. Qiao et al., 2017; B. Sun et al., 2022; Zheng et al., 2020). Die automatisierten und kontinuierlichen Analysen ermöglichen dabei die frühzeitige Reaktion auf Mängel. Neben der Betrachtung von Produkten werden auch Dienstleistungen, wie beispielsweise Tourismus, Hotels oder Restaurants untersucht (Büschken & Allenby, 2016; Y. Guo et al., 2017; Hu et al., 2019; Jia, 2018). Konsumentenbedürfnisse Attribute sind konkrete Aspekte, auf denen Produkte bewertet werden können. Kundenbedürfnisse stellen dagegen abstrakte, kontextabhängige Nutzen dar, die der Kunde sich von einem Produkt oder einer Dienstleistung

2.4 Journalistische Texte

25

erhofft (S. L. Brown & Eisenhardt, 1995; Griffin et al., 2009; Timoshenko & Hauser, 2019). Diese Kundenbedürfnisse können dabei durch Aspekte des Produkts oder der Leistung befriedigt werden. Beispielsweise beschreibt der Wunsch, auch bei schlechten Wetterbedingungen die Straße gut erkennen zu können, ein Kundenbedürfnis, welches mithilfe der Scheinwerfer des Autos als Produktattribut erfüllt werden kann (Timoshenko & Hauser, 2019). Wie Produktattribute können auch Bedürfnisse mithilfe von UGC analysiert werden. Timoshenko und Hauser (2019) verglichen die Extraktion von Kundenbedürfnissen für Zahnpflegeprodukte mithilfe von UGC sowie mit traditionellen Kundeninterviews. Dabei zeigte sich, dass in UGC nicht nur alle Bedürfnisse der Interviews vorkamen, sondern darüber hinaus weitere Kundenbedürfnisse identifiziert werden konnten. Gleichzeitig erlaubt die Verwendung von UGC eine gesteigerte Effizienz bei der Identifikation von Kundenbedürfnissen, sowohl hinsichtlich der Kosten als auch der benötigten Zeit. Auch Y. Wang et al. (2018) beobachten eine Verbesserung der Effektivität und Effizienz bei der Extraktion von Konsumentenbedürfnissen basierend auf Produktbewertungen verschiedener E-Commerce-Webseiten. Im Gegensatz zu den vorangegangenen beiden Arbeiten nutzten Kühl et al. (2019) keine Online-Produktbewertungen, sondern Tweets, um Konsumentenbedürfnisse bezüglich E-Autos mithilfe eines überwachten Machine Learning Ansatzes zu identifizieren und zu quantifizieren. Aufbauend auf dieser Evidenz zur erfolgreichen Nutzung von UGC zur automatischen Extraktion von Bedürfnissen wurde im Rahmen der Forschungsarbeit in Kapitel 4 ein überwachter Ansatz zur Identifikation von Vorschlägen entwickelt. Im Unterschied zur bestehenden Literatur zur Erkennung von Bedürfnissen, welche immer nur für eine Domäne funktioniert, ist das Modell jedoch kategorienunabhängig.

2.4

Journalistische Texte

Während die Datenverfügbarkeit von UGC und eWom erst in der jüngsten Vergangenheit deutlich angestiegen ist, stellen journalistische Texte und insbesondere Zeitungen bereits sehr lange eine umfangreiche Datenquelle dar. Somit erlauben journalistische Texte die Beantwortung von Fragestellungen, welche sich mit Veränderungen über die Zeit beschäftigen. Das macht sie besonders geeignet für die Entwicklung des Index der dritten Studie, welcher die Entwicklung der energiepolitischen Unsicherheit über zwanzig Jahre misst. Im Folgenden wird diese Datenquelle kurz definiert und anschließend wird die bestehende Literatur in diesem Bereich strukturiert.

26

2.4.1

2 Texte als Daten in der Literatur

Definition journalistischer Texte

Journalismus ist ein sehr vielschichtiges und kontextabhängiges Phänomen, das in vielerlei Hinsicht betrachtet werden kann. So definiert beispielsweise Košir (1988) Journalismus aus elf verschiedenen Perspektiven, unter anderem als Dienstleistung, als Beruf, als Institution, als Geschichte oder als Text. Für diese Promotionsarbeit steht jedoch Journalismus als Text im Mittelpunkt. Dabei handelt es sich um eine Textform mit Individuen als Empfänger und Nachrichten-Redaktionen als Urheber (Berger et al., 2020). Die Redaktionen setzen sich in der Regel aus Journalisten zusammen, die mit der Veröffentlichung ihrer Arbeit keine persönliche Meinung verbreiten, sondern die Gesellschaft über aktuelle und relevante Entwicklungen informieren möchten (De Zúñiga, 2015).

2.4.2

Bestandsaufnahme von journalistischen Texten in der Literatur

Es gibt eine breite Literatur, welche journalistische Texte als Datenquelle verwendet. Generell lässt sich dieses Literaturfeld dabei in die Untersuchung von Inhalt und Form unterteilen. Auch wenn in der vorliegenden Promotion der Fokus auf der Analyse des Inhaltes journalistischer Texte liegt, werden beide Bereiche im Folgenden anhand einiger exemplarischer Arbeiten beleuchtet. Untersuchung des Inhalts journalistischer Texte Die Literatur, welche sich mit dem Inhalt von journalistischen Texten beschäftigt, kann in deskriptive und prädiktive Betrachtungen unterteilt werden, welche im Folgenden kurz zusammengefasst werden. Deskriptive Untersuchung des Inhalts journalistischer Texte Bei deskriptiven Untersuchungen des Inhalts werden die vorliegenden Texte beschreibend analysiert. Für journalistische Texte wird dabei häufig untersucht, welche Themen in welchem Umfang in den Texten behandelt werden. Ein Beispiel dafür sind Manchaiah et al. (2018), welche mithilfe von Clusteranalysen untersucht haben, wie häufig in USZeitschriften über Tinnitus, also die Wahrnehmung eines Höreindrucks ohne die Wirkung eines äußeren Reizes (Baguley et al., 2013), berichtet wird. Dabei zeigte sich eine kontinuierliche Zunahme an Zeitungsartikeln über die Zeit, die sich der chronischen Krankheit widmen. Diesen Trend begründeten die Autoren mit einem

2.4 Journalistische Texte

27

gestiegenen Interesse an Tinnitus in der Bevölkerung. Dieser Erklärung liegt die Annahme zugrunde, dass die Häufigkeit von Themen in journalistischen Texten ein Proxy für die gesellschaftliche Relevanz ist (vgl. De Zúñiga, 2015). Ein weiteres Beispiel für die Nutzung dieses Proxys sind Baker et al. (2016), welche einen Index zur Erfassung der wirtschaftspolitischen Unsicherheit in den USA basierend auf Zeitungsartikeln entwickelt haben. Der Index für wirtschaftspolitische Unsicherheit wurde durch die Häufigkeit relevanter Artikel über die Zeit bestimmt. Relevante Artikel wurden dabei über Suchbegriffe der drei Bereiche Wirtschaft, Politik und Unsicherheit identifiziert. Den so entwickelten Index validierten die Autoren qualitativ durch den Vergleich mit gesellschaftlich bedeutsamen Ereignissen. So steigt der Index unter anderem während der beiden Golfkriege, nach dem Terroranschlag am 11. September 2001 und als Folge der Finanzkrise 2007. Zusätzlich wurde der Index quantitativ, beispielsweise durch den Vergleich mit verschiedenen Kennzahlen für Kapitalmärkte, validiert. Es zeigte sich mehr Volatilität der Aktienkurse bei großer wirtschaftspolitischer Unsicherheit. Basierend auf dem Ansatz von Baker et al. (2016) wurden eine ganze Reihe weiterer Phänomene gemessen. Beispielsweise wurden Indexe für geopolitisches Risiko (Caldara & Iacoviello, 2022), den Einfluss von Pandemien auf den Aktienmarkt (Baker et al., 2020) oder klimapolitisches Risiko (Gavriilidis, 2021) basierend auf Zeitungen entwickelt. Prädiktive Untersuchung des Inhalts journalistischer Texte Statt wie bei der deskriptiven Untersuchung nur beschreibende Aussagen über Sachverhalte zu machen, ist es auch möglich mithilfe von journalistischen Texten Vorhersagen über das Eintreten bestimmter Ereignisse in der Zukunft zu treffen. H. Müller und Rauh (2018) nutzten Zeitungsartikel, um Konflikte innerhalb eines Landes bis zu zwei Jahre im Vorhinein vorherzusagen. In einem ersten Schritt ermittelten sie in den Texten behandelte Themen mithilfe maschinellen Lernens. Im zweiten Analyseschritt wurden diese Themen und die Häufigkeit der Nennungen über die Zeit in einer PanelRegression genutzt, um politische Konflikte innerhalb von Ländern vorherzusagen. Bouri und Gupta (2021) nutzten einen Index zur Messung von Unsicherheit, welcher auf dem Ansatz von Baker et al. (2016) zur Identifikation relevanter Dokumente basierte, zur Vorhersage der Entwicklung des Bitcoin-Kurses. Dadurch konnten sie Bitcoin-Renditen vorhersagen und Handelsstrategien ableiten. Es gibt eine ganze Reihe weiterer Autoren, welche mithilfe von Klassifikation (Luss & D’Aspremont, 2015, z. B.), identifizierten Events (Ding et al., 2015, z. B.) oder Sentimentextraktion (Luss & D’Aspremont, 2015, z. B.) basierend auf Zeitungen Finanzmarktentwicklungen vorhersagen. Statt aus den Texten durch Suchbegriffe, Events oder Sentimentscores einen Index abzuleiten, welcher die Grundlage für die Vorhersage ist, gibt es auch Ansätze, die kompletten Texte mithilfe ihrer Wortvektoren

28

2 Texte als Daten in der Literatur

zu verwenden. So nutzten beispielsweise Akita et al. (2016) Paragraf-EmbeddingVektoren als direkten Input für Long short-term memory (LSTM) neuronale Netzwerke, um Aktienkurse vorherzusagen. Im Rahmen einer Simulationsstudie über mehrere Industrien zeigten sie, dass die Verwendung der Zeitungsinformationen durch Paragraf-Vektoren zu höheren Renditen ihrer Algorithmen führt. Neben der Vorhersage von Finanzmarktdaten gibt es auch Autoren wie Kalamara et al. (2022), welche den Einfluss von Zeitungsartikeln für die Vorhersage etablierter makroökonomischer Variablen untersuchten. Dabei nutzten sie die Anzahl der Begriffe im Zeitverlauf als Input für maschinelles Lernen. Sie zeigten, dass beispielsweise die Vorhersage des BIPs, der Arbeitslosenquote oder der Inflation durch die Hinzunahme von Texten aus drei britischen Zeitungen verbessert wird. Insbesondere in Zeiten hoher wirtschaftlicher Unsicherheit fielen die Prognosen nach der Hinzunahme von Informationen aus Zeitungsartikeln besser aus. Untersuchung der Form journalistischer Texte Zeitungsartikel sind nicht nur ein Proxy für die Relevanz einzelner Themen in der Gesellschaft, sondern liefern zusätzlich Informationen über den Kontext, in dem der journalistische Text verfasst wurde (Berger et al., 2020). So spiegeln sich kulturelle Unterschiede zwischen Regionen auch anhand der verwendeten Sprache in Zeitungsartikeln wider (Tsai, 2007). Auch Veränderungen über die Zeit hinsichtlich gesellschaftlicher Normen und Einstellungen können durch die Analyse journalistischer Texte aufgezeigt werden (N. Garg et al., 2018; Humphreys, 2010; Nicolas et al., 2020). N. Garg et al. (2018) nutzten beispielsweise Wortvektoren, um mithilfe maschinellen Lernens durch Veränderungen im Sprachgebrauch die Entwicklung von Stereotypen über die letzten 100 Jahre zu untersuchen. Dadurch identifizierten sie basierend auf Zeitungsartikeln bedeutsame gesellschaftliche Veränderungen wie beispielsweise das Aufkommen der Frauenbewegung in den sechziger Jahren.

2.5

Staatliche und institutionelle Texte

Wie journalistische Texte weisen auch staatliche und institutionelle Texte häufig eine hohe historische Datenverfügbarkeit auf. In Form von Plenarprotokollen des Deutschen Bundestags wird diese Textart neben den Zeitungsartikeln als Datenquelle für den Index für energiepolitische Unsicherheit verwendet. Nachdem diese Datenquelle definiert wird, folgt eine kurze Übersicht des Literaturfelds.

2.5 Staatliche und institutionelle Texte

2.5.1

29

Definition staatlicher und institutioneller Texte

Nach der Klassifikation von Berger et al. (2020) sind sowohl die Urheber als auch die Rezipienten staatlicher und institutioneller Texte Institutionen und die Gesellschaft. Beispiele für diese Textart sind Protokolle, politischer Anhörungen und Debatten, Memoranden oder Dialoge zwischen verschiedenen beteiligten Parteien. Charakteristisch für diese Texte ist dabei, dass sie Details und tagesaktuelle Entwicklungen beinhalten, statt nur eine zusammenfassende Darstellung von Geschehnissen (Ortiz et al., 2005; Tanev et al., 2008).

2.5.2

Bestandsaufnahme staatlicher und institutioneller Texte in der Literatur

Journalistische Texte werden häufig von subjektiven Meinungen der Berichtenden, der Zugänglichkeit der Informationen für die Reporter, den Interessen der Zielgruppe sowie den Geschäftszielen der veröffentlichenden Zeitungen beeinflusst (Althaus et al., 2011; Kepplinger, 2002; Weidmann, 2015). Im Unterschied dazu enthalten Regierungsdokumente Informationen, welche ursprünglicher und weniger verarbeitet sind. Dieser Vorteil macht staatliche und institutionelle Texte zu einer attraktiven Datenquelle für akademische Untersuchungen. Im Folgenden wird ein kurzer Überblick zur Verwendung in der Literatur gegeben. Untersuchung des Inhalts staatlicher und institutioneller Texte in der Literatur Da es verhältnismäßig wenig Arbeiten gibt, welche sich mit der Vorhersage basierend auf staatlichen und institutionellen Texten beschäftigen, spielt die prädiktive Analyse nur eine untergeordnete Rolle. So handelt es sich beim Großteil der Arbeiten um deskriptive Analysen des Inhalts, welche im Folgenden zusammengefasst werden. Methoden des maschinellen Lernens und insbesondere die Neuerungen im Bereich NLP ermöglichen auch für diese Datenquelle die tiefgehende Analyse von diskutierten Themen (Biesbroek et al., 2020). So gibt es eine Vielzahl von Arbeiten, welche insbesondere Themenmodellierung verwenden, um diese Textart zu analysieren. Beispielsweise haben Nguyen et al. (2015) untersucht, wie sich die Themen zwischen den Tea-Party-Republikanern und den etablierten Republikanern im USRepräsentantenhaus unterscheiden. Greene und Cross (2017) analysieren hingegen die Themen des Europäischen Parlaments. Durch Verwendung von dynamischen Modellen der Themenmodellierung analysierten sie darüber hinaus auch, wie sich

30

2 Texte als Daten in der Literatur

die Relevanz einzelner Themen über die Zeit verändert. Dabei stellen die Autoren fest, dass sich die politische Agenda des Europäischen Parlaments nicht nur deutlich im Zeitverlauf ändert, sondern diese auch auf exogene Ereignisse wie die Referenden zum EU-Vertrag oder das Aufkommen der Eurokrise reagiert. Es gibt auch Arbeiten, welche politische Texte und ihre Inhalte zwischen verschiedenen Ländern vergleichen. Miok et al. (2022) haben beispielsweise Themen in den sechs nationalen Parlamenten von Bulgarien, Tschechien, Frankreich, Slowenien, Spanien und dem Vereinigten Königreich verglichen. Es zeigt sich, dass es gemeinsame Themen, wie Gesundheitspolitik, bedingt durch die COVID19-Pandemien, oder jährliche wiederkehrende Debatten zu Haushalt und der Wirtschaft gibt, welche in allen Ländern vergleichbar sind. Andere Themen sind dagegen spezifisch für einzelne Parlamente, wie z. B. die Unabhängigkeit Kataloniens in Spanien, Handel und Brexit im Vereinigten Königreich, Finanzüberwachung in Bulgarien, Sonntagsarbeit in Slowenien oder Fiskalpakt und Wahlen in der Tschechischen Republik. Neben der explorativen Analyse von Themen gibt es auch die gezielte Untersuchung vorgegebener Themen in der Literatur. Ein Beispiel dafür ist die Untersuchung des Themas Kohle in Protokollen des Deutschen Bundestags zwischen 1949 und 2019 durch Müller-Hansen e al. (2021). In einem ersten Schritt identifizierten die Autoren alle Redebeiträge, in denen das Thema Kohle aufgegriffen wurde. Mithilfe dynamischer Themenmodellierung ermittelten sie anschließend, welche Aspekte im Zeitverlauf im Kontext von Kohle im Bundestag diskutiert wurden. Darüber hinaus untersuchten sie, wie häufig die verschiedenen Parteien Kohle thematisierten. Untersuchung der Form staatlicher und institutioneller Texte in der Literatur Neben dem Inhalt gibt es auch Literatur, welche sich mit der Form staatlicher und institutioneller Texte auseinandersetzt. Dabei liegt der Fokus weniger darauf, ob ein Thema genannt wird, sondern vielmehr wie darüber geschrieben wird. So untersuchten beispielsweise Navarretta et al. (2022) wie sieben dänische Parteien in ihren Manifesten und Reden im dänischen Parlament das Thema Einwanderung behandelt haben. Dabei nutzten sie eine Sentimentanalyse, um die Stimmung zu untersuchen und Themenanalysen, um die einzelnen Aspekte besser zu verstehen. Auch Wyss et al. (2015) beschäftigten sich mit dem Thema Einwanderung in ihrer Analyse des Schweizer Parlaments. Dabei betrachteten sie jedoch die kognitive Komplexität, ein psychologisches Konstrukt, das sowohl epistemische als auch akkommodative Dimensionen der politischen Argumentation erfasst. So zeigten sie, dass die kognitive Komplexität in den Schweizer parlamentarischen Einwanderungsdebatten im Laufe der Zeit abgenommen hat, wobei dieser Rückgang auf den Aufstieg der Schweizerischen Volkspartei zurückzuführen ist. Es gibt auch Arbeiten, welche ihre Untersuchung der Form nicht auf einzelne Themen beschränken. So haben

2.6 Forschungsschwerpunkte der Promotionsarbeit

31

beispielsweise Rheault et al. (2016) die emotionale Polarität im britischen Parlament gemessen. Dabei stellten die Autoren fest, dass die Schwankungen in der emotionalen Polarität durch den Zustand der Volkswirtschaft vorhergesagt werden kann und die Stimmung der Politiker in den letzten Jahrzehnten positiver geworden ist. Ein Vertreter für die Untersuchung einer konkreten Emotion ist die Arbeit vonRheault (2016), welcher die Emotion Angst in kanadischen Parlamentsdebatten untersuchte. Dafür nutzte er Wortvektoren, um zu bestimmen, ob ein Abschnitt der politischen Debatte von Angst geprägt ist.

2.6

Forschungsschwerpunkte der Promotionsarbeit

Durch die Zunahme der Verfügbarkeit von Daten und die Entwicklungen im Bereich NLP haben textuelle Datenquellen das Potenzial, das Verständnis von Verbrauchern, Märkten und der Gesellschaft grundlegend zu verbessern (Berger et al., 2020). In den vorangegangenen Kapiteln wurden verschiedene relevante Arbeiten zu verschiedenen Arten textueller Daten eingeführt und strukturiert. Trotz dieser bestehenden Literatur wird das Potenzial textueller Daten bisher bei weitem nicht ausgeschöpft (Berger et al., 2020; Du et al., 2021; Y. Kang et al., 2020). Zentrale Gründe dafür sind die Komplexität der Textanalyse und das fehlende Verständnis für unstrukturierte Datenquellen. Die vorliegende Promotionsarbeit widmet sich diesen Herausforderungen und zeigt auf, wie relevante Forschungsfragen durch neue Ansätze im Bereich NLP adressiert werden können. Darüber hinaus werden die Eigenschaften verschiedener textueller Datenquellen untersucht. Für die Untersuchung wichtiger Fragestellungen im Marketing, wie Marktanalysen (T. Y. Lee & Bradlow, 2011; Netzer et al., 2012; Ringel & Skiera, 2016), Produktentwicklungen (Jhamtani et al., 2015; Timoshenko & Hauser, 2019; F. Zhou et al., 2019) oder Untersuchungen des Einflusses von eWom auf den Umsatz (Chevalier & Mayzlin, 2006; G. Cui et al., 2012; Hu et al., 2008), wird Amazon bereits als primäre Datenquelle genutzt. Trotz der akademischen Bedeutung von Amazon Produktbewertungen, stellt die Dynamik dieser Bewertungen einen wichtigen Aspekt dar, welcher in der Literatur nicht ausreichend untersucht ist. Die Dynamik der Bewertungen ist dabei von hoher Relevanz, da diese zu systematischen Verzerrungen von Analysen führen kann. Darüber hinaus wird in Kapitel 3 demonstriert, dass die Vorhersage zukünftiger Bewertungen selbst mit maschinellem Lernen noch sehr ungenau ist. Dies kann auf Heterogenität bei der Dynamik von Produktbewertungen zurückgeführt werden. Derartige Heterogenität wird in der Literatur bisher jedoch noch nicht betrachtet, weshalb sich die erste Forschungsarbeit damit

32

2 Texte als Daten in der Literatur

auseinandersetzt. Zentrale Fragestellungen des ersten Forschungsprojekts sind dabei die folgenden: • Welche Heterogenität weist die Dynamik von eWom im Bereich Konsumgüter auf? • Welche prototypischen Muster gibt es für die Dynamiken der Bewertungen? • Was sind mögliche Treiber für die unterschiedlichen dynamischen Prototypen? Nachdem in der ersten Forschungsarbeit die Eigenschaften von Amazon Produktbewertungen näher untersucht wurden, wird die Datenquelle in der zweiten Forschungsarbeit inhaltlich genutzt. Der Erfolg oder Misserfolg vieler Unternehmen wird durch die Entwicklung neuer Produkte und deren Markteinführung bestimmt (R. Cooper & Kleinschmidt, 2003). Trotz hoher Investitionen in diesem Bereich erreichen nur 13 % der Unternehmen ihre Umsatz- und Gewinnziele für die Einführung neuer Produkte (R. G. Cooper & Edgett, 2012) und etwa 40 % der neuen Produkte scheitern (Barczak et al., 2009; R. G. Cooper et al., 2004; Markham & Lee, 2013; Victory et al., 2021). Einer der wirksamsten Ansätze zur Verringerung dieses großen Risikos von Produktfehlschlägen ist die Berücksichtigung von Kundenvorschlägen und -feedback während der Produktentwicklung (Chang & Taylor, 2016; R. G. Cooper, 2019; Ulrich & Eppinger, 2016). Mit den Fortschritten bei der Verarbeitung natürlicher Sprache (NLP) und dem rasanten Wachstum von nutzergenerierten Inhalten (UGC) in Online-Umgebungen ergeben sich für das Marketing neue Möglichkeiten, aus Kundenvorschlägen zu lernen (Berger et al., 2020; Humphreys & Wang, 2018; Y. Kang et al., 2020). Der Ansatz eWom für die Extraktion von Vorschlägen zu nutzen ist dabei eine effektive und effiziente Alternative zu traditioneller Marktforschung (Timoshenko & Hauser, 2019). Die zweite Arbeit behandelt sowohl die Identifikation der Vorschläge, als auch die Untersuchung, wie diese durch Anreize von Unternehmen generiert werden können. Die drei konkreten Fragestellungen der zweiten Forschungsfrage lauten: • Wie können Konsumentenvorschläge in eWom automatisch erkannt werden? • Wie können die Konsumentenvorschläge so zusammengefasst werden, dass sie effizient in der Wissenschaft und Wirtschaft genutzt werden können? • Was sind die Treiber von Konsumentenvorschlägen in eWom und wie können Unternehmen gezielt Anreize für diese setzen? Während der Fokus der beiden ersten Arbeiten auf Konsumenten und damit Individuen liegt, wird in der dritten Arbeit die Gesellschaft gesamtheitlich betrachtet.

2.6 Forschungsschwerpunkte der Promotionsarbeit

33

Dabei wird basierend auf textuellen Daten analysiert, wie sich die Unsicherheit im Bereich Energiepolitik über die Zeit verändert. Datengrundlage zur Bildung eines Index für die Messung dieser spezifischen Unsicherheit sind dabei Zeitungen sowie Protokolle des Deutschen Bundestags. Konkret werden in der dritten Forschungsarbeit die folgenden Fragen untersucht: • Wie kann politische Unsicherheit in einem Teilbereich wie Energie automatisch basierend auf textuellen Daten gemessen werden? • Wie können neuste Ansätze im Bereich NLP genutzt werden, um politische Unsicherheit zu messen? • Wie hat sich die Unsicherheit im Bereich Energiepolitik über 20 Jahre zwischen 2000 und 2020 in Deutschland entwickelt? In den nachfolgenden drei Forschungsarbeiten wird tiefer auf die Forschungsfragen, sowie den wissenschaftlichen Beitrag der einzelnen Arbeiten eingegangen.

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

3.1

Einleitung

3.1.1

Zeitreihen-Clustering von Online-Produktbewertungen im Bereich Konsumgüter

In den letzten zwei Jahrzehnten haben sich Produktbewertungen zu einer wertvollen Informationsquelle für Einzelhändler und Hersteller entwickelt. Die so gewonnenen Einblicke werden beispielsweise zur Entwicklung neuer Produkte genutzt (z. B. Decker & Trusov, 2010; Qi et al., 2016). Aber auch das Erstellen von Absatzprognosen (z. B. Karimi & Wang, 2017; K. Li et al., 2020) oder die Vorhersage von Aktienkursentwicklungen (z. B. H. Nguyen et al., 2020; Tirunillai & Tellis, 2012) sind mithilfe von Produktbewertungen möglich. Aus diesem Grund ist es für Manager von großer Bedeutung, nicht nur die aktuellen Bewertungen der Produkte in ihrem Portfolio zu kennen, sondern auch die zukünftige Entwicklung dieser Bewertungen zu verstehen. Verschiedene Faktoren wie soziale Dynamiken (Moe et al., 2011), motivationale Dynamiken (Wu & Huberman, 2008) und sich verändernde Bewertungsumgebungen (Godes & Silva, 2012) erschweren jedoch die Vorhersage zukünftiger Bewertungen auf Grundlage der vorhandenen Bewertungen. Abbildung 3.1 zeigt die Verteilung der Differenz zwischen der durchschnittlichen Bewertung nach vier Wochen und nach dem ersten Jahr. Hierfür wurden 21 Millionen Bewertungen von mehr als 65.000 Produkten analysiert. Dabei wird deutlich, dass nach vier Wochen mehr als jedes vierte Produkt auf Amazon.com mehr als einen halben Stern von Ergänzende Information Die elektronische Version dieses Kapitels enthält Zusatzmaterial, auf das über folgenden Link zugegriffen werden kann https://doi.org/10.1007/978-3-658-42973-7_3.

© Der/die Autor(en), exklusiv lizenziert an Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2023 I. Lange, Texte als Daten, Beiträge zur empirischen Marketing- und Vertriebsforschung, https://doi.org/10.1007/978-3-658-42973-7_3

35

36

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

seiner durchschnittlichen Bewertung am Ende des ersten Jahres entfernt ist. Diese Abweichung kann sowohl positiv (8,87 %) als auch negativ (20 %) sein, was die Vorhersagen zusätzlich erschwert.

Abbildung 3.1 Kerndichteschätzung der Differenz zwischen der durchschnittlichen Produktbewertung nach vier Wochen und nach einem Jahr (Mittelwert = 0.13)

Diese Heterogenität in der Entwicklung der Bewertungen im Zeitverlauf wird in der Literatur bisher nicht ausreichend berücksichtigt. Stattdessen wurde versucht, homogene Trends für Bewertungen zu identifizieren. So beobachteten die meisten Autoren einen Rückgang der Bewertungen im Zeitverlauf (Godes & Silva, 2012; X. Li & Hitt, 2008; Moe et al., 2011; Wu & Huberman, 2008). Einige Autoren fanden jedoch auch Belege für einen positiven Trend (F. Wang et al., 2018) oder eine Konvergenz zu einem stabilen Zustand (Wan et al., 2018). Neben dieser empirischen Diskrepanz ist auch aus theoretischer Sicht unklar, ob die Bewertungen im Laufe der Zeit besser oder schlechter werden sollten. Einerseits führen mehr Bewertungen zu einer Verbesserung der wahrgenommenen Informationsdiagnostik (Filieri, 2015). Daher ist es plausibel anzunehmen, dass Kunden bei einer größeren Anzahl von Bewertungen bessere Kaufentscheidungen treffen. Dies wiederum sollte über die Zeit zu besseren Bewertungen führen. Andererseits könnten die Kunden mit zunehmender Anzahl von Bewertungen von der Menge an Informationen oder der Vielfalt an Meinungen überwältigt werden (Godes & Silva, 2012). Dies könnte zu schlechteren Bewertungen führen, da Kunden überfordert sind und damit schlechtere Kaufentscheidungen treffen. Vor diesem Hintergrund ist ein wesentlicher Aspekt dieser Arbeit, die Heterogenität in der Entwicklung von

3.1 Einleitung

37

Kundenbewertungen im Zeitverlauf aufzuzeigen. Anstelle der vorherrschenden Ansicht, dass Bewertungen einem homogenen Trend folgen, werden Unterschiede zwischen Produkten und Produktkategorien erwartet. Dies steht im Einklang mit den Beobachtungen, dass trotz durchschnittlich fallender Bewertungen über die Zeit, ein großer Anteil an Produkten einen steigenden oder konstanten Trend aufweist (Godes & Silva, 2012; X. Li & Hitt, 2008; Wu & Huberman, 2008). Dementsprechend ist die zentrale Forschungshypothese, dass es verschiedene prototypische Entwicklungen von Bewertungen über die Zeit gibt (z. B. Rückgang, Anstieg, U-Formen). Dies würde auch die oben beschriebenen widersprüchlichen Belege für negative oder positive Trends in Einklang bringen. Zur Identifikation dieser Prototypen wurde Zeitreihen-Clustering für 23,7 Millionen Bewertungen von mehr als 47.000 Produkten auf Amazon.com verwendet. Um auch bei leichten zeitlichen Verschiebungen wiederkehrende Muster zu erkennen, wurde Dynamic Time Warping (Bellman & Kalaba, 1958) zur Analyse der Bewertungsdynamik angewandt. Anstatt Punkte desselben Zeitpunktes zu vergleichen, lässt diese Methode eine gewisse zeitliche Variation zu. Das hat den Vorteil, dass Dynamiken gruppiert werden können, selbst wenn es eine leichte zeitliche Verschiebung gibt. Die Studie liefert somit mindestens vier wichtige Beiträge zur Literatur. Erstens wird methodisch zur Erforschung der Bewertungsdynamik beigetragen, indem Dynamic Time Warping als Analyseansatz in diesem Bereich eingeführt wird. Im Rahmen dessen wurde das Dynamic Time Warping so angepasst, dass es effektiv mit Bewertungsdaten umgehen kann. Zweitens wird die bisherige Forschung auf diesem Gebiet erweitert, indem ein Datensatz analysiert wird, der hinsichtlich der Bewertungsmenge sowie der Produktkategorien deutlich umfangreicher ist als bisher verwendete Datensätze. Drittens wird gezeigt, dass es eine beträchtliche Heterogenität bei der Entwicklung von Bewertungen im Laufe der Zeit gibt. Es werden fünf prototypische Muster für die Entwicklung der Kundenbewertung identifiziert: • • • • •

Starker Rückgang im Laufe der Zeit Leichter Rückgang Konstanter Trend U-Form Steigender Trend

Die ermittelten Muster unterscheiden sich erheblich voneinander und sind aufgrund ihrer starken Veränderungen der durchschnittlichen Bewertung im Zeitverlauf von großer Bedeutung. Die identifizierte Heterogenität integriert die verschiedenen

38

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Erkenntnisse und Erklärungen in der Literatur. Viertens werden auf Grundlage qualitativer und quantitativer Analysen potenzielle Mechanismen hinter diesen fünf Prototypen vorgeschlagen. So sind beispielsweise die Motivation, eine Meinung zu äußern, wenn die eigenen Erfahrungen nicht mit den veröffentlichten Bewertungen übereinstimmen, oder die Veränderung der Produktwahrnehmung über die Zeit Erklärungen für die Entwicklungen. Die explorativen Untersuchungen sind Ausgangspunkt für künftige Forschung, in denen spezifische Hypothesen über die Dynamiken von Bewertungen getestet werden sollten.

3.1.2

Herausforderungen bei der Vorhersage zukünftiger Bewertungen

Für Unternehmen ist es von großer Bedeutung, die zukünftige Bewertung ihrer Produkte genau vorherzusagen. Die Analyse von 22 Millionen Bewertungen, die innerhalb eines Jahres auf Amazon.com veröffentlicht wurden, veranschaulicht jedoch, wie schwer dies zu realisieren ist. In Abbildung 3.2 wird die Bewertung nach einer, vier und zwölf Wochen mit der durchschnittlichen Bewertung nach dem ersten Jahr verglichen. Insgesamt ändert sich die durchschnittliche Bewertung im ersten Jahr

Abbildung 3.2 Histogramm der Differenz zwischen der durchschnittlichen Produktbewertung nach einer, vier und zwölf Wochen und nach einem Jahr (Mittelwert = 0.13)

3.1 Einleitung

39

stark und aufgrund der Schwankungsbreite gibt es keine allgemeine Aussage über den Umfang oder die Richtung dieser Änderung. Bei fast einem Drittel der Produkte ist die durchschnittliche Bewertung nach einem Jahr um mindestens einen halben Stern schlechter als nach einer Woche. Gleichzeitig verbessert sich die Bewertung bei etwa 12 % der Produkte um mindestens einen halben Stern. Auch nach 12 Wochen sind 10 % der Produkte um mindestens einen halben Stern schlechter und 4 % der Produkte verbessern sich um mindestens einen halben Stern. Der Vergleich mit dem Interquartilsabstand in Tabelle 3.1 zeigt die Relevanz einer Differenz von einem halben Stern. Dieser Abstand misst den Unterschied in der durchschnittlichen Bewertung zwischen den 25 % bestbewerteten und den 25 % schlechtestbewerteten Produkten und beträgt insgesamt nur 0,61 Sterne. Die hohe Varianz der Veränderung erschwert es, zuverlässige Aussagen über die Bewertung von Produkten in der Zukunft zu machen. Die naive Annahme, dass die durchschnittliche Bewertung nach den ersten Wochen konstant bleibt, führt zu einem mittleren absoluten Fehler von 0,59 Sternen nach einer Woche. Nach zwölf Wochen liegt der Fehler immer noch bei 0,25 Sternen. Wie Abbildung 3.2 zeigt, führt diese Methode sowohl zu einer Unter- als auch zu einer Überschätzung, da die Produkte sowohl im positiven als auch im negativen Bereich stark streuen. Ein präziserer Weg

Tabelle 3.1 Deskriptive Statistiken der berücksichtigten Bewertungen Kategorie

Produktanzahl øAnzahl Produktbewertung Länge1 (relativ) Bewertungen ø ø Vari- Interquartilsanz abstand

Bücher

12,616 (26,71 %) 7,336 (15,53 %) 4,628 (9,8 %) 3,977 (8,42 %) 2,985 (6,32 %) 47,240 (100 %)

Elektronische Produkte Kleidung, Schuhe & Schmuck Smartphones & Zubehör Haushalts-produkte Gesamt 1

501

4,32

0,15

0,45

6.65

549

3,98

0,23

0,65

5.69

393

4,15

0,17

0,46

4.80

487

3,90

0,26

0,65

3.62

455

4,08

0,25

0,66

6.23

502

4,14

0,24

0,61

6.13

Länge des Produktlebenszykluses in Jahren

40

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

besteht darin, die durchschnittliche Veränderung für das erste Jahr anzunehmen, d. h. eine Abnahme von 0,19 Sternen nach einer Woche. Dieser Ansatz führt immer noch zu einem Fehler von 0,52 Sternen für eine Woche und einem Fehler von 0,23 Sternen nach 12 Wochen. Alternativ wurde in dieser Arbeit das maschinelle Lernen verwendet, um die Bewertungen für das erste Jahr vorherzusagen. Zusätzlich zur durchschnittlichen Bewertung und der Anzahl der Bewertungen wurden statistische Maße wie Varianz oder Schiefe, Trendvariablen und Kategorieinformationen als Prädiktoren verwendet. Für die Vorhersage wurden verschiedene Modelle wie Support Vector Machines, Bayesian Regularization Neural Networks oder multivariate adaptive Regression Splines verwendet. Mithilfe von Stacking wurden die verschiedenen Modelle auch kombiniert, um genauere Vorhersagen zu erhalten. Tabelle A.1 im Anhang des elektronischen Zusatzmaterials fasst die Ergebnisse der verschiedenen Modelle zusammen. Abbildung 3.3 veranschaulicht die durchschnittlichen Fehler der Ansätze für verschiedene Wochen an Datenverfügbarkeit. Es wird deutlich, dass selbst bei der Verwendung komplexer maschineller Lernansätze der Fehler nach einer Woche immer noch 0.30 Sterne beträgt. Selbst nach 12 Wochen liegt der mittlere absolute Fehler noch bei 0.21 Sternen. Damit verringert das maschinelle

Abbildung 3.3 Mittlerer absoluter Fehler der Bewertungsvorhersage nach dem ersten Jahr in Abhängigkeit der Datenverfügbarkeit

3.2 Übersicht der Literatur zu Bewertungsdynamiken

41

Lernen die Unsicherheit bei der Bewertungsvorhersage zwar erheblich, dennoch ist die verbleibende Unsicherheit immer noch groß. Darüber hinaus zeigt der große Vorhersagefehler, dass kein systematischer Trend in der Entwicklung erkennbar ist. Das Fehlen einer einheitlichen Dynamik für alle Produkte bildet die Grundlage für diese Arbeit. Gleichzeitig stützen diese Befunde die Annahme der Heterogenität der Bewertungsdynamik und die Idee verschiedener Prototypen.

3.2

Übersicht der Literatur zu Bewertungsdynamiken

Es gibt mehrere Studien, welche die Dynamik von Bewertungen im Kontext von Konsumgütern analysieren. Diese Studien liefern nicht nur unterschiedliche Erklärungen für die verschiedenen Dynamiken, sondern auch teilweise widersprüchliche Aussagen über deren Entwicklung im Zeitverlauf. Die Tabelle 3.2 gibt einen Überblick über die vorhandenen Ergebnisse zur Bewertungsdynamik. Die meisten Autoren kommen zu dem Schluss, dass die Bewertungen im Laufe der Zeit abnehmen und führen dies auf unterschiedliche Effekte zurück. X. Li & Hitt (2008) argumentieren, dass der zeitliche Rückgang, den sie bei Bestseller-Büchern auf Amazon.com beobachteten, auf die Selbstselektion der Verbraucher zurückzuführen ist. Diese Hypothese wird durch die Beobachtung gestützt, dass der Rückgang bei populären Autoren stärker ausfällt, da sie eine größere Fangemeinde haben, die das Buch meist zu Beginn des Verkaufszeitraums kauft und bewertet. Während diese Erklärung auf der Tatsache beruht, dass verschiedene Kundensegmente in unterschiedlichen Phasen des Produktlebenszyklus auftreten (Rogers, 2003), argumentieren Wu und Huberman (2008) für motivationale Ursachen. Sie fanden einen negativen Einfluss der Bewertungsreihenfolge bei der Untersuchung von Bewertungen der meistverkauften Bücher unter anderem auf Amazon.com. Als Erklärung führen sie an, dass Kaufende umso motivierter sind, eine Bewertung abzugeben, je mehr sie die durchschnittliche Bewertung beeinflussen können. Das heißt, je mehr Bewertungen bereits vorhanden sind, desto mehr muss die Erfahrung von der vorherrschenden Durchschnittsbewertung abweichen, um eine neue Bewertung zu motivieren. Aufgrund der hohen Durchschnittsbewertung ist dies in der Regel bei negativen Meinungen der Fall. Moe et al. (2011), deren Fokus auf dem Einfluss von Bewertungen auf nachfolgende Bewertungen lag, bestätigen diesen negativen Einfluss der Reihenfolge. Anstatt Zeit und Reihenfolge getrennt zu analysieren, untersuchten Godes und Silva (2012) die beiden Einflussfaktoren zusammen in einem gemeinsamen Modell für Amazon.com Bücher. Dabei fanden sie einen positiven Einfluss der Zeit und einen negativen Einfluss der Reihenfolge, den die Autoren mit der Hypothese der Diagnostizität von Bewertungen erklären. Wenn die Anzahl der

Godes & Silva (2012)

Moe et al. (2011)

Moon et al. (2010)

Zeit

Dynamische Variable

99

8

1.659

Zeit und Reihenfolge

Reihenfolge

Reihenfolge

37,5 (Amazon) Reihenfolge

62

Bew. pro Produkt

Erklärung

Abnahme über – die Reihenfolge Abnahme über Selbstselektion die Reihenfolge

Abnahme über Motivation zur die Beeinflussung Reihenfolge der Bewertung

Abnahme über Selbstselektion die Zeit beim Kauf

Erkenntnis

(Fortsetzung)

Ordered-Logit- Zunahme über Beurteilung der Modell die Zeit, Diagnostik Abnahme über die Reihenfolge

Schrittweise lineare Regression HazardsModell

Lineare Regression

Negatives exponentielles Modell

Methode

3

Wu & Huberman (2008)

Amazon.com (Bücher)

X. Li & Hitt (2008)

Primäre Daten Charakteristiken

163k Bewertungen von 2.500 BestsellerBüchern Amazon.com, 1,8 Millionen Essembly.com, Bewertungen Jyte.com von 48k meistverkauften Büchern auf Amazon.com Rotten 403k Tomatoes, Bewertungen Yahoo Filme von 246 Filmen US4k Einzelhändler Bewertungen für Bad-, Duft- von 500 und SchönProdukten heitsprodukte innerhalb eines Jahres Amazon.com 77k (Bücher) Bewertungen von 350 BestsellerBüchern

Primäre Datenquelle

Studie

Tabelle 3.2 Übersicht der bestehenden Literatur zu Dynamik von Produktbewertungen

42 Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Primäre Datenquelle

Landsend.com (Kleidung)

Amazon.com

Studie

F. Wang et al. (2018)

Wan et al. (2018)

Tabelle 3.2 (Fortsetzung)

331k Bewertungen von 100 BestsellerProdukten

3k Bewertungen von 14 Kleidungsstücken

Primäre Daten Charakteristiken

3.310

172

Bew. pro Produkt

Zeit

Zeit und Reihenfolge

Dynamische Variable

Erkenntnis

Ordered-Logit- Zunahme über Modell die Reihenfolge, kein Einfluss der Zeit MovingKonvergenz zu Average Stabilität Simulation

Methode

Beeinflussung durch bestehende Meinungen

Beurteilung der Diagnostik

Erklärung

3.2 Übersicht der Literatur zu Bewertungsdynamiken 43

44

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Bewertungen zunimmt, wird es für Neukunden schwieriger, die Menge an Informationen sinnvoll zu aggregieren. Daher steigt die Wahrscheinlichkeit von Fehlkäufen und damit auch die Wahrscheinlichkeit von schlechten Bewertungen. Dementsprechend ist die Abnahme über die Zeit stärker, wenn die Bewertungen sehr heterogen sind. Obwohl in diesen Studien überwiegend negative Trends berichtet wurden, zeigen die Ergebnisse auch, dass es sich dabei lediglich um Durchschnittswerte für alle Produkte handelt. So stellten Wu und Huberman (2008) fest, dass etwa ein Viertel der Bücher auf Amazon.com einen positiven anstatt einen negativen Trend aufweisen. Auch X. Li und Hitt (2008) kamen zu dem Ergebnis, dass etwa 18 % der Produkte einen positiven Trend aufweisen und etwa 11 % keinen signifikanten Trend haben. Außerdem beobachteten Godes und Silva (2012), dass ihre Ergebnisse für die Grundgesamtheit der Bücher zwar signifikant sind, die Koeffizienten für Zeit und Anzahl jedoch starke Schwankungen auf Buchebene aufweisen. Im Gegensatz zu den vorangegangenen Studien fanden F. Wang et al. (2018) auf Basis der Analyse von Bekleidung steigende Bewertungen im Zeitverlauf. Ihnen zufolge hängt der Einfluss anderer Bewertungen auf spätere Bewertungen von der Heterogenität dieser Bewertungen sowie der Informationsverarbeitungsfähigkeit des Rezipienten ab. Diese Hypothese wurde durch ihre Analyse von Landsend.com und Amazon.com Bewertungen unter Einbeziehung dieser beiden Mediatoren gestützt. Neben Konsumgütern wurden solche positiven Trends auch in anderen Kategorie berichtet, wie zum Beispiel bei Bewertungen für Restaurants (Y. Zhang et al., 2014). Auch Wan et al. (2018) beobachteten kein Absinken der Bewertungen, sondern eine Konvergenz der Bewertungen im Laufe der Zeit auf der Grundlage von Computersimulationsstudien. Ihre Simulationen beruhen dabei auf einer Erweiterung von Meinungsdynamikmodellen wie dem Deffuant-Modell (Deffuant et al., 2000) und dem Hegselmann-Krause-Modell (Hegselmann & Krause, 2002). Demnach ist die Konvergenz darauf zurückzuführen, dass die Verbraucher zwar ihre eigene Meinung haben, diese aber durch die vorhandenen Meinungen in den Bewertungen beeinflusst wird. Eine erste Validierung der in der Simulation postulierten Konvergenz zu einem stationären Zustand erfolgte durch die Analyse von 100 der meistverkauften Amazon.com Produkten. Zusammenfassend ist festzustellen, dass es in der Literatur widersprüchliche Aussagen zu Bewertungsdynamiken von Konsumgütern gibt. Einerseits herrscht Uneinigkeit über die vorherrschende Bewertungsdynamik und es wird sowohl von abnehmenden, steigenden als auch konvergierenden Bewertungstrends berichtet.

3.3 Zeitreihen-Clustering von Produktbewertungen

45

Zum anderen treten auch innerhalb einzelner Arbeiten unterschiedliche Dynamiken auf, wenn Analysen auf Produkt-Ebene und nicht für die Gesamtheit der Produkte durchgeführt werden. Darüber hinaus präsentieren die Autoren unterschiedliche theoretische Erklärungen für die Treiber der von ihnen identifizierten Dynamiken. Diese Tatsachen liefern erste Hinweise auf die Existenz von Heterogenität, die in dieser Arbeit untersucht wird. Außerdem ist zu beachten, dass die meisten Studien sehr spezifische Kategorien wie Bücher, Badeartikel oder Bekleidung analysierten und es ist möglich, dass die unterschiedlichen Dynamiken auch auf Unterschiede in der Datengrundlage zurückzuführen sind. Aus diesem Grund wird in dieser Arbeit eine umfassende Menge an Kategorien analysiert, um die Generalisierbarkeit der Ergebnisse zu gewährleisten.

3.3

Zeitreihen-Clustering von Produktbewertungen

Ziel des Zeitreihen-Clusterings ist die Untersuchung der Dynamik von Produktbewertungen. Statt wie in der bisherigen Literatur von einer gemeinsamen Dynamik auszugehen, welche allen Produkten zugrunde liegt, wird die Hypothese unterschiedlicher charakteristischer Bewertungsmuster geprüft. Datengrundlage der Analyse sind numerische Bewertungen von Produkten mit einem abgeschlossenen Lebenszyklus. Diese Bewertungen wurden auf der E-Commerce-Plattform Amazon.com verfasst. Um Produkte mit ähnlicher Dynamik zu gruppieren, auch wenn deren Bewertungsmuster zeitlich leicht verschoben sind, wurde Dynamic Time Warping zur Bestimmung der Abstände zwischen den Zeitreihen eingesetzt. Unter Verwendung von partitionierendem Clustering ergeben sich fünf Bewertungsdynamiken. Diese Dynamiken beschreiben verschiedene Zeitreihenprototypen und veranschaulichen signifikant unterschiedliche Meinungslebenszyklen. Die Prototypen weisen deutlich abweichende Dynamiken und relevante Veränderungen im Zeitverlauf auf. Um zu prüfen, ob die Unterschiede zwischen den Clustern durch die in der Literatur beschriebenen Effekte von Bewertungszeit und -reihenfolge verursacht werden, wurde zusätzlich die Dynamik der fünf Prototypen analysiert. Ein Ordered-LogitModell zeigt, dass sich die Effekte zwischen den Clustern deutlich unterscheiden. Somit ist das Vorkommen der prototypischen Muster eine neue Beobachtung in der dynamischen Untersuchung von Bewertungen. Tabelle 3.3 fasst die Schritte der Analysen zusammen, die in den folgenden Abschnitten beschrieben werden.

46

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Tabelle 3.3 Übersicht der Schritte zur Generierung der Meinungslebenszyklen Schritt

Beschreibung

Schritt 1: Datenbasis

• Ca. 230 Millionen Bewertungen von der E-Commerce-Plattform Amazon.com aus dem Zeitraum Mai 1996 bis Oktober 2018 • Produktinformationen für mehr als 15 Millionen Produkte und IDs der Autoren • Berücksichtigung von Produkten mit mindestens 200 Bewertungen und abgeschlossenen Produktlebenszyklen • Filtern von zeitlichen Ausreißern • Normalisierung der Länge der Zeitreihe auf 1 und Verwendung der Abweichung zur durchschnittliche Produktbewertung • Bestimmung der Abstände zwischen den Bewertungszeitreihen • Verwendung von Dynamic Time Warping zum Vergleich von Verläufen auch bei geringen zeitlichen Verschiebungen • Sakoe-Chiba-Fenster und Stufenmuster zur Vermeidung von Singularitäten • Partitionierende Clusterverfahren auf der Grundlage der Abstände aus Schritt 3 • Verwendung von k = 5 Clustern auf der Grundlage von Clustergültige und Übergangsverhalten • Repräsentation der Cluster durch Clusterprototypen in Form von punktweisen Mittelwerten • Analyse der Dynamik mit Schwerpunkt auf Reihenfolge und Zeit • Verwendung eines nach Clustern aufgeteilten Ordered-Logit-Modells • Ergebnisse zeigen unterschiedliche dynamische Einflüsse zwischen den Clustern

Schritt 2: Datenaufbereitung und -filterung

Schritt 3: Dynamic Time Warping

Schritt 4: Clustering

Schritt 5: Analyse der Dynamiken

3.3.1

Schritt 1: Datenbasis

Die Datengrundlage dieser Arbeit bilden mehr als 230 Millionen Bewertungen, die auf der E-Commerce-Plattform Amazon.com von Konsumenten verschiedener Produkte verfasst wurden. Bei dem verwendeten Datensatz handelt es sich um Sekundärdaten, welche im Rahmen der Forschung zur Generierung synthetischer Bewertungen und zur Analyse von Modetrends auf Basis von Bilddaten erhoben wurden (He & McAuley, 2016; Ni et al., 2019). Der Fokus der vorliegenden Analyse liegt auf numerischen Bewertungen, welche mithilfe einer Skala von 1 bis 5 Sternen erfasst wurden. Durch die Verwendung dieses Datensatzes konnten Bewertungen aus über 20 Jahren, die zwischen Mai 1996 und Oktober 2018 veröffentlicht wurden, analysiert werden. Zusätzlich liegen für die mehr als 15 Millionen Produkte Metadaten vor. So ist beispielsweise für jedes Produkt hinterlegt, welcher Produktkategorie das Produkt zugeordnet werden kann. Außerdem liegen die IDs der Verfasser der

3.3 Zeitreihen-Clustering von Produktbewertungen

47

Bewertungen vor, die es ermöglichen, verschiedene Bewertungen einem gemeinsamen Autor zuzuordnen. Neben dem großen Umfang dieses Datensatzes ist der lange Zeitraum, über den die Daten erhoben wurden, eine große Stärke dieser Arbeit. Dies ermöglicht die Betrachtung kompletter Produktlebenszyklen und nicht nur kurzer Verkaufsperioden.

3.3.2

Schritt 2: Datenaufbereitung und -filterung

Um eine fundierte Analyse der Bewertungen im Zeitverlauf durchführen zu können, wurden ausschließlich Produkte mit mindestens 200 Bewertungen berücksichtigt. Da der Schwerpunkt der Studie auf der Dynamik über den gesamten Produktlebenszyklus liegt, wurden Produkte, die in den letzten sechs Monaten des betrachteten Zeitraumes bewertet wurden, ausgeschlossen. Bei diesen Produkten kann angenommen werden, dass der Produktlebenszyklus noch nicht abgeschlossen ist. Da die verschiedenen Produkte und Kategorien starke Unterschiede in der Länge ihrer Lebenszyklen aufweisen (siehe Tabelle 3.1), wurde der Zeitraum für jedes Produkt auf die Länge 1 normiert, um eine Vergleichbarkeit herzustellen. Um eine sinnvolle Normalisierung zu gewährleisten, wurden zeitliche Ausreißer entfernt. Zeitliche Ausreißer treten beispielsweise auf, wenn Produkte, die seit Jahren nicht mehr bewertet wurden, plötzlich neue Bewertungen erhalten. Dies verzerrt die Länge des jeweiligen Produktlebenszyklus. Deshalb wurden Bewertungen ausgeschlossen, die mehr als 90 Tage vor dem 0,01-Quantil oder nach dem 0,99-Quantil veröffentlicht wurden. Um die Dynamik von Produkten mit unterschiedlicher Qualität im Sinne einer unterschiedlichen Durchschnittsbewertung zu vergleichen, wurde darüber hinaus die Differenz zur mittleren Produktbewertung anstelle der Bewertung selbst betrachtet. Tabelle 3.1 zeigt zentrale Statistiken der aufbereiteten Daten für die fünf größten Kategorien sowie für den gesamten Datensatz. Insgesamt wurden etwa 47 Tausend Produkte berücksichtigt. Etwa die Hälfte davon entfällt auf die drei größten Kategorien Bücher, Elektronik sowie Kleidung, Schuhe und Schmuck. Mit rund 500 Bewertungen pro Produkt konnten in den nächsten Schritten insgesamt 23,7 Millionen Bewertungen ausgewertet werden. Im Gegensatz zu bisherigen Studien wurde somit ein umfassenderer und vielfältigerer Datensatz verwendet. Die bisherige Literatur betrachtete in der Regel nur einen Ausschnitt der Bewertungshistorie, indem beispielsweise die Bewertungen der meistverkauften Artikel zu einem einzelnen Zeitpunkt ausgewertet werden. Im Gegensatz dazu konzentriert sich diese Studie auf Bewertungen über den gesamten Lebenszyklus. Dies spiegelt sich nicht nur in der hohen durchschnittlichen Anzahl der Bewertungen wider, sondern auch in einer durchschnittlichen Länge des Produktlebenszyklus von mehr als sechs Jahren.

48

3.3.3

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Schritt 3: Dynamic Time Warping

Bevor mittels Clustering ähnliche Dynamiken identifiziert werden können, müssen die Abstände zwischen den Bewertungszeitreihen der einzelnen Produkte bestimmt werden. Ziel ist es dabei, dass Bewertungsverläufe mit ähnlichen Charakteristika einen geringen Abstand aufweisen, auch wenn sie leicht zeitversetzt auftreten. Abbildung 3.4 veranschaulicht diese Situation der zeitlich verschobenen Verläufe. Für die beiden Schuhe Stride Rite Christopher Running Shoe (ASIN: B00I4VPF84) und Brooks Adrenaline GTS 15 Women Running Sport Shoes Trainer (ASIN: B00KLMBGD2) ist die Bewertungsdifferenz zur Durchschnittsbewertung für die Perzentile des Produktlebenszyklus dargestellt. Beide Bewertungsverläufe zeigen eine ähnliche Dynamik, mit einem Rückgang im ersten Drittel des Produktlebenszyklus, einem leichten Höhepunkt im zweiten Drittel, gefolgt von einem starken Anstieg der Bewertungen. Obwohl die allgemeinen Verläufe sehr ähnlich sind, sind die Bewertungskurven der Schuhe im Zeitverlauf leicht verschoben. Betrachtet man die Minima der beiden Reihen (Punkte A und C) vor dem Anstieg am Ende, so tritt das erste Minimum A bei 62 % des Produktlebenszyklus auf, während der zweite Punkt C eine zeitliche Verschiebung von 11 % aufweist. Ein weit verbreiteter Ansatz zur Bestimmung des Abstands beim Zeitreihen-Clustering ist der euklidische Abstand, bei welchem die Zeitreihen punktweise zu jedem Zeitpunkt verglichen werden (Aghabozorgi et al., 2015). Bei der Verwendung eines punktweisen Abstandsmaßes wird in Abbildung 3.4 der Punkt A mit dem Punkt B verglichen. Dies führt zu dem relativ großen Abstand, der durch den Pfeil i in der Abbildung veranschaulicht wird. Das Dynamic Time Warping (DTW) bietet eine Lösung für die Herausforderung verschobener Zeitreihen. In der Zeitreihenanalyse ist DTW ein Algorithmus zur Messung der Ähnlichkeit zwischen zwei Zeitreihen, die sich in ihrer Geschwindigkeit unterscheiden können. Der DTW-Algorithmus basiert auf dem Konzept der dynamischen Programmierung, das von Bellman und Kalaba (1958) eingeführt wurde. Neben der Zeitreihenanalyse wird er in vielen Bereichen angewandt, etwa beim Vergleich von Handschriften (Efrat et al., 2007), beim Abgleich von Proteinsequenzen (Vial et al., 2009) oder bei der Gestenerkennung (Kuzmani´c & Zanchi, 2007). Im Bereich Wirtschaft wird der Algorithmus vor allem für Nachfrageprognosen (Pane et al., 2018; Teeraratkul et al., 2016; Y. Zhang et al., 2020) und Finanzanalysen (Bai et al., 2020; D’Urso et al., 2021; Y. Li & Hu, 2020) im Zusammenhang mit Zeitreihen-Clustering verwendet. Anstatt Punkte derselben Zeit zu vergleichen, erlaubt der Ansatz eine gewisse zeitliche Verschiebung, um ähnliche Verläufe zu vergleichen. In Abbildung 3.4 wird zum Beispiel Punkt A mit Punkt C, dem Minimum der zweiten Zeitreihe, verglichen. Dies ergibt einen deutlich geringeren Abstand

3.3 Zeitreihen-Clustering von Produktbewertungen

49

Abbildung 3.4 Zuordnungspfad (alignment path) für die beiden betrachteten SchuhModelle

(Pfeil ii) als bei einem punktweisen Vergleich. Die Zuordnung der übrigen Punkte mithilfe von DTW ist durch die grauen Verbindungslinien dargestellt. Grundlage für die Abstandsberechnung durch DTW sind die Zeitreihen der beiden Produkte, die in Abbildung 3.5 blau und rot eingefärbt sind. Ziel des DTW-Algorithmus ist es, einen Zuordnungspfad zu bestimmen, der für jeden Punkt der einen Zeitreihe angibt, mit welchem Punkt der anderen Zeitreihe er verglichen werden soll. Der Lösungsraum für den Pfad ist der zweidimensionale Raum, der von den beiden Indexe der Zeitreihen aufgespannt wird. Er ist als grauer Hauptbereich in der Abbildung dargestellt. Der Zuordnungspfad, im Allgemeinen eine Folge p = ( p1 , ..., p K ) mit pl ∈ ( pl1 , pl2 ) ∈ [1 : 100] ∈ [1 : 100] für l ∈ [1 : K ], K ∈ N , ist als schwarze Linie abgebildet. Dieser Pfad bestimmt beispielsweise, dass der Punkt A mit dem Punkt C verglichen wird. Um den optimalen Pfad zu bestimmen, müssen drei Bedingungen erfüllt sein (M. Müller, 2007): 1. Randbedingung: Die beiden Start- und Endpunkte der Zeitreihe müssen jeweils miteinander verglichen werden. Daraus ergibt sich der Startpunkt p1 = (1, 1) und der Endpunkt p K = (100, 100). 2. Monotoniebedingung: In beiden Dimensionen dürfen keine Schritte rückwärts gemacht werden. Der Pfad muss also monoton ansteigend sein mit p11 ≤ p21 ≤ ... ≤ p 1K und p12 ≤ p22 ≤ ... ≤ p 2K .

50

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

3. Bedingung für die Schrittweite: Um Sprünge im Zuordnungspfad zu vermeiden, ist die Schrittlänge in jeder Achse auf 1 begrenzt und p(l+1) − pl ∈ (1, 1), (1, 0), (0, 1) muss gelten.

Abbildung 3.5 Zuordungspfad der zeitversetzten Bewertungsdynamiken von zwei SchuhModellen

Es ist möglich, dass im Zuordnungspfad Singularitäten auftreten. Dabei handelt es sich um unintuitive Pfade, bei denen ein einzelner Punkt der einen Zeitreihe einem langen Abschnitt der anderen Zeitreihe zugeordnet wird (Deriso & Boyd, 2019). Dies geschieht zum Beispiel, wenn der Anfang einer Zeitreihe mit dem Ende einer anderen Zeitreihe verglichen wird. Um ein solches Verhalten zu verhindern, wird das Sakoe-Chiba-Fenster (Sakoe & Chiba, 1978) als globale Nebenbedingung verwendet. Dieses Fenster begrenzt den möglichen Raum für den Zuordnungspfad auf 20 Einheiten um die Hauptdiagonale herum und ist in Abbildung 3.5 als grüne Fläche dargestellt. Darüber hinaus wird eine lokale Beschränkung mit einem Schrittmuster

3.3 Zeitreihen-Clustering von Produktbewertungen

51

verwendet. Somit wird die maximale Anzahl an Schritten, die in beide Richtungen erlaubt sind, bevor mindestens ein diagonaler Schritt abgeschlossen sein muss, limitiert. Dadurch wird vermieden, dass lange vertikale oder horizontale Wegabschnitte genommen werden. Für die Implementierung des DTW-Abstands sowie für das Clustering in Schritt 4 wurde die R-Implementierung von Sardá-Espinosa (2019) verwendet.

3.3.4

Schritt 4: Clustering

Um ähnliche Dynamiken in den Bewertungen im Zeitverlauf zu identifizieren, wird ein partitionierendes Clusterverfahren auf Grundlage der DTW-Distanzen verwendet. Die Auswahl der Clusteranzahl k basiert auf Cluster-Validitäts-Indizes (CVIs), welche die Homogenität innerhalb der Clustergruppen sowie die Heterogenität zwischen den Gruppen messen. Viele Arbeiten haben gezeigt, dass es keinen CVI gibt, der in allen Situationen die besten Ergebnisse liefert (Arbelaitz et al., 2013; Halkidi et al., 2001; Maulik & Bandyopadhyay, 2002; Milligan & Cooper, 1985). Aus diesem Grund folgt diese Arbeit Arbelaitz et al. (2013), die auf Grundlage verschiedener Simulationsstudien und Experimenten die Verwendung einer Kombination mehrerer Metriken empfehlen, um robuste Ergebnisse zu erzielen. Mit dem Silhouetten-Koeffizienten (Rousseeuw, 1987), dem Calinski-Harabasz-Index (Cali´nski & Harabasz, 1974), dem COP-Index (Gurrutxaga et al., 2010) sowie dem Dunn-Index (Dunn, 1973) werden vier weit verbreitete CVIs verwendet. Tabelle 3.4 zeigt die Rangfolge der vier CVIs für unterschiedliche Clusteranzahlen k. Beispielsweise schneidet beim Silhouetten-Koeffizienten k = 3 am besten, k = 4 am zweitbesten und k = 8 am schlechtesten ab. Auf der Grundlage des mittleren Rangs der vier Indizes zeigt k = 5 die besten Ergebnisse. Im Allgemeinen erzielen

Tabelle 3.4 Ausgewählte Cluster-Validitäts-Indizes (CVIs) für eine verschiedene Clusteranzahlen CVI

Anzahl der Cluster k 3 4 5

6

7

8

Silhouetten-Koeffizient Calinski-Harabasz-Index COP-Index Dunn-Index Gesamt

1 1 6 6 3,5

3 4 5 4 4

5 5 3 2 3,75

6 6 2 1 3,75

2 2 5 5 3,5

4 3 1 3 2,75

52

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

niedrige Clusteranzahlen bessere Ergebnisse für den Silhouetten-Koeffizienten und den Calinski-Harabasz-Index, während es beim COP- und beim Dunn-Index tendenziell umgekehrt ist. Dies könnte darauf zurückzuführen sein, dass die Berechnung der Clusterdichte bei den betrachteten Indizes unterschiedlich ist. Bei den ersten beiden Indizes wird der Abstand zwischen einem Datenpunkt und dem Cluster durch den durchschnittlichen Abstand zu allen Punkten im Cluster beziehungsweise durch den Abstand des Schwerpunkts berechnet. Beim COP- und beim Dunn-Index hingegen basiert sie auf dem Abstand zum nächsten Nachbarn im Cluster. Aufgrund der gegensätzlichen Tendenzen der CVIs wurde zusätzlich ein SankeyDiagramm erstellt. Das in Abbildung 3.6 dargestellte Diagramm untersucht die Stabilität der gebildeten Cluster bei einer Veränderung der Clusteranzahl. Das SankeyDiagramm in der Abbildung zeigt den Übergang von Produkten zwischen den Clustern, wenn statt fünf Clustern ein Cluster mehr oder weniger gebildet wird. Insbesondere Cluster III, Cluster V und Cluster IV zeigen eine hohe Clusterstabilität.

Abbildung 3.6 Sankey-Diagramm bei Änderung der Clusteranzahl k zwischen 4, 5 und 6

Die fünf Cluster werden jeweils durch ihren Prototypen, den punktweisen Mittelwert für jedes Perzentil, repräsentiert. Einer der Vorteile dieses Ansatzes ist die klare Interpretierbarkeit der Prototypen, die in Abbildung 3.7 dargestellt sind. Anstatt, wie in der Literatur bisher üblich, von einer einheitlichen Dynamik der Bewertungen auszugehen, ergeben sich aufgrund des Clusteransatzes fundamental unterschiedliche dynamische Muster. So gibt es einen sehr stark abfallenden Prototyp (Cluster III), einen leicht ansteigenden Prototyp (Cluster V), einen U-förmigen Prototyp

3.3 Zeitreihen-Clustering von Produktbewertungen

53

(Cluster IV) sowie zwei Cluster, die über die Zeit relativ stabil sind (Cluster I und II).

Abbildung 3.7 Die Prototypen der fünf Cluster als Meinungslebenszyklen

Die beobachteten Meinungslebenszyklen erweitern die gängigen Ergebnisse zu negativen Trends von Bewertungen im Zeitverlauf in der Literatur. Die Relevanz dieser Befunde ergibt sich zusätzlich aus dem Ausmaß der zeitlichen Veränderung. So sinkt beispielsweise die durchschnittliche Bewertung von Cluster III um mehr als 1,5 Sterne über die Zeit. Dies ist mehr als doppelt so viel wie der Interquartilsabstand der durchschnittlichen Produktbewertung, die Differenz zwischen dem 0,25 und dem 0,75 Perzentil, von 0,61 Sternen (siehe Tabelle 3.1).

3.3.5

Schritt 5: Analyse der Dynamiken

Obwohl die Prototypen deutlich unterschiedliche Dynamiken im Zeitverlauf aufweisen, ist es denkbar, dass diese ein Ausdruck der in der Literatur bereits berichteten dynamischen Effekte sind. So untersuchten bereits Godes und Silva (2012) die zeitlichen Effekte von Bewertungen anhand der meistverkauften Bücher auf Amazon.com. Sie beobachteten einen positiven Einfluss der Zeit und einen negativen Einfluss der Bewertungsreihenfolge im Sinne der Bewertungsanzahl auf die Bewertungen. Den negativen Effekt begründeten sie mit der abnehmenden Aussagekraft einzelner Bewertungen mit steigender Anzahl bereits verfasster Bewertungen. So

54

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

wird es für Kaufende bei mehr Bewertungen immer schwieriger, relevante Informationen aus der Vielzahl an Bewertungen zu extrahieren und sich eine Meinung zu bilden. Damit steigt die Wahrscheinlichkeit von Fehlkäufen. Auch im Falle der vorliegenden Arbeiten könnten die unterschiedlichen beobachteten Clusterprototypen auf die gegenläufigen Effekte von Zeit und Reihenfolge zurückzuführen sein. Demnach könnte ein Rückgang der Bewertungen im Laufe der Zeit durch eine große Anzahl von Bewertungen verursacht werden, wenn der negative Effekt der Reihenfolge den positiven Effekt der Zeit überwiegt (Cluster III). Gleichzeitig sollte es bei Produkten mit nur wenigen Bewertungen aufgrund des positiven Effekts der Zeit zu einem Anstieg der Durchschnittsbewertung kommen (beispielsweise Cluster V). Auch die beobachtete U-Form von Cluster IV könnte durch viele Bewertungen am Anfang und wenige Bewertungen am Ende erklärt werden. Ausgehend von der Frage, ob die vorliegenden Befunde lediglich ein Ausdruck der unterschiedlichen Verteilung der Bewertungen im Zeitverlauf sind, werden die dynamischen Effekte von Zeit und Reihenfolge in jedem der fünf Cluster analysiert und verglichen. Basierend auf der Annahme eines einheitlichen dynamischen Prozesses nach Godes und Silva (2012) wäre für alle Gruppen ein negativer Einfluss der Reihenfolge und ein positiver Einfluss über die Zeit zu erwarten. Dem Beispiel von Godes und Silva (2012) folgend, wurde ein Ordered-Logit Modell verwendet, da es sich für die geordnete, diskrete Sternebewertung eignet. Zusätzlich wird durch die Wahl des gleichen Modells die Vergleichbarkeit der Ergebnisse sichergestellt. Im Rahmen des Modells wird davon ausgegangen, dass der Bewerter i dem Produkt j eine Bewertung ST A Ri j ∈ 1, 2, 3, 4, 5 gibt. Diese Bewertung basiert auf der latenten Bewertung Ui j , die mit der folgenden Gleichung modelliert werden kann: Ui j = β1 AVGRATINGi j + β2 ORDERi j + β3 TIMEi j + β4 VAR_B Fi j + β5 INDEX_RATERi j + β6 RATING_USERi j + β7 REL_RATING_USERi j + β8 YEARi j + i j Die entscheidenden Variablen von Interesse sind O R D E Ri j , der Index der Bewertung und T I M E i j , die Anzahl der Tage seit der ersten Bewertung für das Produkt. Um für die Qualität des Produkts zu kontrollieren, wird AV G R AT I N G i j , die durchschnittliche Bewertung des Produkts ohne die Bewertung des Bewerters i, verwendet. Die Heterogenität des Bewertungsumfelds wird durch V A R_B Fi j , die Varianz aller bis zu diesem Zeitpunkt für das Produkt abgegebenen Bewertungen, berücksichtigt. Darüber hinaus werden Merkmale des Bewerters i eingebezogen. I N D E X _R AT E Ri j beschreibt, wie viele Bewertungen der Bewerter i bereits

3.3 Zeitreihen-Clustering von Produktbewertungen

55

geschrieben hat, bevor er das Produkt j bewertet hat. R AT I N G_U S E Ri j misst die durchschnittliche Bewertung des Bewerters i für alle Produkte außer Produkt j. Damit wird für die Bewertungscharakteristik des Bewerters kontrolliert. Die relative Bewertung für ein Produkt k des Nutzers i ist durch das Verhältnis der eigenen Bewertung zu allen Bewertungen für das Produkt gegeben. ST A Rik rik =  M k l=1 ST A Rlk Die Berechnung von R E L_R AT I N G_U S E Ri j entspricht der von R AT I N G_ U S E Ri j , mit dem Unterschied, dass der Mittelwert anhand der relativen statt der absoluten Bewertungen berechnet wird. Auf diese Weise wird berücksichtigt, ob der Bewerter kritischer ist als andere Bewerter desselben Produkts. R E L_R AT I N G_U S E Ri j =

1  Ni rik k=1;k = j Ni

Außerdem wird das Jahr Y E A Ri j der Bewertung berücksichtigt. Dies ist insbesondere wichtig, da die gegensätzlichen Effekte bei Godes und Silva (2012) erst bei der Kontrolle für das Kalenderjahr auftraten. Das Modell wird für jedes der fünf Cluster berechnet und die detaillierten Ergebnisse finden sich in Tabelle A.5 im Anhang des elektronischen Zusatzmaterials. Die Koeffizienten für Reihenfolge und Zeit sind darüber hinaus in Tabelle 3.5 dargestellt. In ihrer Studie beobachteten Godes und Silva (2012) einen positiven Effekt der Zeit und einen negativen Effekt der Reihenfolge. In der vorliegenden Studie gilt dies nur für Cluster V. Im Gegensatz dazu weisen Cluster I und III einen gegenteiligen Effekt auf. Bei den Clustern II und IV sind beide Effekte negativ, jedoch ist nur der Einfluss der Reihenfolge signifikant. Zusammenfassend finden sich unterschiedliche Effekte für die dynamischen Einflussfaktoren zwischen den Clustern. Die Unterschiede in den Dynamiken lassen sich damit nicht durch die gegenläufigen Effekte von Zeit und Reihenfolge erklären. Darüber hinaus verdeutlichen diese Ergebnisse, dass eine differenzierte Untersuchung der dynamischen Effekte für verschiedene Produktgruppen notwendig ist.

Tabelle 3.5 Ergebnis des Ordered-Logit Modells für Reihenfolge und Zeit nach Cluster Koeffizient

Cluster I

II

III

Reihenfolge

+1.48e-05***

−1.18e-05***

+1.92e-05 *** −6.82e-05 ***

Zeit

−1.96e-05***

−1.07e-07

−2.1e-04***

* p < 0.05; ** p < 0.01; *** p < 0.001

IV −3.78e-06

V −5.13e-06 *** 5.4e-05***

56

3.4

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Beschreibung der Meinungslebenszyklen

Im Folgenden werden die fünf identifizierten Dynamiken einzeln beschrieben. Neben der Beschreibung der dynamischen Cluster-Verläufe werden auch die in den Clustern enthaltenen Produkte analysiert. Es zeigt sich dabei, dass die durchschnittliche Cluster-Bewertung mit abnehmender Clustervarianz für alle fünf Cluster zunimmt. Der negative Zusammenhang zwischen Varianz und Bewertung wurde bereits von anderen Autoren auf Produktebene gefunden (Godes & Silva, 2012; B. Guo & Zhou, 2016; J. Lee & Lee, 2009). Die empirischen Verteilungsfunktionen der Bewertungen nach Clustern sind in Abbildung 3.8 dargestellt. Diese Funktion beschreibt den Anteil der Bewertungen, die nach einem bestimmten Abschnitt des Lebenszyklus geschrieben wurden. Für die Gesamtpopulation gilt beispielsweise, dass 32 % der Bewertungen nach 20 % des Lebenszyklus und 66 % nach 50 % des Lebenszyklus verfasst worden sind. Im Allgemeinen zeigt die Position der Kurven oberhalb der Winkelhalbierenden, dass zu Beginn des Lebenszyklus im Durchschnitt mehr Bewertungen veröffentlicht werden. Zusätzliche deskriptive

Abbildung 3.8 Empirische Verteilungsfunktionen der Bewertungen nach Cluster

3.4 Beschreibung der Meinungslebenszyklen

57

Statistiken für jedes Cluster finden sich in Tabelle A.6 im Anhang des elektronischen Zusatzmaterials. Um ein besseres Verständnis der Cluster zu erhalten, wurde auch ein möglicher Zusammenhang mit den enthaltenen Produktkategorien untersucht. Hierzu wurden die Metadaten des Datensatzes genutzt. Informationen zu den Produktkategorien der berücksichtigten Produkte waren mithilfe einer Baumstruktur für vier Ebenen verfügbar. Für den Zusammenhang zwischen Cluster und Kategorie konnte kein Chi-Quadrat-Test verwendet werden, da nicht alle erwarteten Werte mindestens 1 waren. Deshalb wurde alternativ ein Fisher-Test angewandt, um die Hypothese der Unabhängigkeit von Produktkategorie und Cluster zu testen (Yates et al., 1999). Für jede der vier Produktkategorien-Ebenen wurde eine eigene Teststatistik berechnet. Das Ergebnis war, dass die Hypothese der Unabhängigkeit für ein 1 %-Niveau abgelehnt werden kann (max. pi -Wert von 0,0005 für i ∈ {1, 2, 3, 4}). Anhand der Pearson-Residuen nach Agresti (2007) wurde die Beziehung zwischen den Clustern und den Produktkategorien weiter untersucht. Wie von Delucchi (1983) empfohlen, wurden Zellen mit den höchsten beziehungsweise niedrigsten Residuen betrachtet, um Häufigkeiten zu identifizieren, die signifikant über oder unter ihrem Erwartungswert liegen. Die Ergebnisse dieser Analysen werden in den folgenden Abschnitten für die ermittelten Cluster erläutert. Zusätzlich werden pro Cluster Beispielprodukte untersucht, um anhand der Produkte mögliche Faktoren zu illustrieren, welche die beobachtete Bewertungsdynamik im Cluster erklären können.

3.4.1

Cluster III: Technische Veralterung

Die Dynamik des Clusters III, auf das etwa 12 % aller Produkte entfallen, weist von allen Clustern die größte Veränderung im Zeitverlauf auf. Während des Lebenszyklus sinkt die durchschnittliche Produktbewertung um mehr als eineinhalb Sterne (Abbildung 3.9). Nach dem starken Rückgang der Bewertung kommt es in den letzten 6 % des Lebenszyklus zu einem erneuten Anstieg von 0,4 Sternen. Nicht nur nimmt die Bewertung im Laufe der Zeit stark ab, sondern das Cluster weist mit 3,88 Sternen auch die niedrigste durchschnittliche Bewertung über den gesamten Zeitraum auf. Gleichzeitig deutet die höchste durchschnittliche Varianz in den Bewertungen von 1,83 darauf hin, dass in dieser Produktgruppe die größte Uneinigkeit über die Produktqualität herrscht. Dies kann nicht allein auf eine Veränderung im Zeitverlauf zurückgeführt werden, da die Meinungen bereits in den ersten 30 Tagen mit einer durchschnittlichen Varianz von 1,19 stark streuen. Betrachtet man die empirische Verteilungsfunktion, die in Abbildung 3.8 dargestellt ist, so weisen

58

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Abbildung 3.9 Prototyp Cluster III: Technische Veralterung

die Produkte eine sehr starke Long-Tail-Periode auf. Nur ca. 5 % der Bewertungen fallen in die letzten 25 % des Lebenszyklus. Aus der Verteilung der Kategorien ergibt sich, dass vor allem technische Produkte häufiger vorkommen. So treten Produkte in der Kategorie „Handys und Zubehör“ um 83 % häufiger auf als unter der Annahme der Unabhängigkeit erwartet. Bei den „Büroprodukten“ gibt es 50 % mehr Produkte als erwartet. Dies wird insbesondere dadurch bedingt, dass in der Unterkategorie „Büroelektronik“ 100 % mehr Produkte vorhanden sind, als erwartet. Darüber hinaus werden die technischen Kategorien „Werkzeuge und Heimwerkerbedarf“ (+42 %) und „Terrasse, Rasen und Garten“ (+50 %) häufiger gefunden. In der Kategorie „Haus und Küche“ (+25 %) sind insbesondere Staubsauger stark überdurchschnittlich (+183 %) vertreten. Unterrepräsentiert sind dagegen Medien- und Unterhaltungsprodukte mit Kategorien wie „Filme und TV“ (−83 %), „Bücher“ (−50 %) oder „Spielzeug und Spiele“ (−17 %). Da bisher vor allem kurze Zeiträume und nicht komplette Lebenszyklen untersucht wurden, werden bis zum jetzigen Zeitpunkt in der Literatur ausschließlich Veränderungen des Bewertungsumfelds oder der Eigenschaften der bewerteten Konsumenten als mögliche Erklärungen für die Dynamiken in Bewertungen genannt (vgl.

3.4 Beschreibung der Meinungslebenszyklen

59

F. Wang et al., 2018). Da in der vorliegenden Arbeit jedoch Bewertungen über den gesamten Produktlebenszyklus berücksichtigt wurden, stellt die Veränderung der Wahrnehmung des Produktes über den Lebenszyklus eine weitere mögliche Erklärung dar. Für Cluster III beispielsweise ist es denkbar, dass es über den Zeitverlauf zu einer objektiven Abnahme der Produktleistung kommt. Das wird am Beispiel des Motorola Droid Razr M – Verizon (ASIN: B0096QX6GY) deutlich. Bei dem Produkt handelt es sich um ein Smartphone, das von Motorola zusammen mit dem Mobilfunkanbieter Verizon hergestellt wird. Abbildung 3.10 zeigt den für Cluster III typischen Abwärtstrend und insbesondere den Rückgang von mehr als zwei Sternen in den letzten 40 % des Produktlebenszyklus. Ursache hierfür ist eine Zunahme der Kundenbeschwerden über die nicht funktionierende Verizon-Verbindung gegen Ende des Lebenszyklus. Ein Kunde erklärt: „[...] Verizon said it must be a bad SIM card and sent me another one. After that one didn’t work they said the phone was probably rooted and wouldn’t work. [...] So now I’m stuck with a brick that lights up and tells me it needs a SIM card.“.

Abbildung 3.10 Geglätteter Bewertungsverlauf für Motorola Droid Razr M – Verizon

60

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Zusammenfassend lässt sich sagen, dass die Leistung des Produkts, einschließlich der Verizon-Verbindung, mit der Zeit abgenommen hat. Neben einem objektiven Leistungsrückgang ist es auch denkbar, dass sich die Wahrnehmung der Verbraucher im Laufe der Zeit ändert. Ein Beispiel für dieses Phänomen ist die Skiva StrongMount M1 Universal Autohalterung (ASIN: B005O5WSTW), deren Bewertungsabnahme von etwa 1,5 Sternen über den Produktlebenszyklus in Abbildung 3.11 dargestellt ist. Zu Beginn des Verkaufszeitraums wird das massive Design tendenziell als stabil und solide wahrgenommen. So wird das Design im Jahr 2011 noch gelobt: „If it looks like a tank and it feels like a tank then it must be a tank. Very rugged looking, feels really solid and has soft material to protect your GPS from scratches. [...]“. Fünf Jahre später wird dasselbe Produkt vor allem als sehr sperrig empfunden: „This mount works as advertised, but it is a little big and gangly.“. Der Grund für die Verschlechterung der Bewertung ist also eine veränderte Wahrnehmung, während das Produkt das Gleiche bleibt.

Abbildung 3.11 Geglätteter Bewertungsverlauf für Skiva StrongMount M1 Universal Autohalterung

3.4 Beschreibung der Meinungslebenszyklen

3.4.2

61

Cluster IV: Wendepunkt

Insgesamt ist Cluster IV durch die Erholung der Bewertung in der zweiten Hälfte des Lebenszyklus gekennzeichnet. Während in der ersten Hälfte die Bewertung kontinuierlich um etwa 0,6 Sterne abnimmt, ist in der zweiten Hälfte ein deutlicher Anstieg um 0,45 Sterne zu verzeichnen (Abbildung 3.12). Dieser prototypische Verlauf ist insbesondere interessant, weil er zeigt, dass sich die Dynamik im Laufe der Zeit erheblich verschieben und sich sogar der Gesamttrend vollständig ändern kann. Die durchschnittliche Bewertung des Clusters, das etwa jedes vierte Produkt ausmacht, liegt bei 4,1 Sternen. Dabei ist die Übereinstimmung in der Bewertung zu Beginn besonders hoch, wie die geringe Varianz in den ersten 30 Tagen (0,85) zeigt. Darüber hinaus ist die niedrigste durchschnittliche Anzahl von Bewertungen pro Produkt (rund 400) trotz der relativ langen durchschnittlichen Verkaufsdauer von 6,5 Jahren bemerkenswert. Die empirische Verteilung zeigt, dass die Bewertungen vergleichsweise gleichmäßig über den Lebenszyklus verteilt sind (Abbildung 3.8).

Abbildung 3.12 Prototyp Cluster IV: Wendepunkt

62

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Auch wenn die enthaltenen Produktkategorien relativ breit gefächert sind, finden sich insbesondere Modeprodukte überdurchschnittlich häufig. So kommen die Kategorien „All Beauty“ und „Luxury Beauty“ rund 30 % häufiger vor als vorhergesagt. Auch in der Kategorie „Sport und Outdoor“ (+26 %) sind vor allem Bekleidungsartikel gehäuft zu finden. Dagegen sind Medien und immaterielle Produkte unterdurchschnittlich oft vertreten. So fallen beispielsweise „Videospiele“ rund 30 % seltener als erwartet in Cluster IV. Für die Kategorie „Film und Fernsehen“ sind es in Cluster IV −17 % und für „Geschenkkarten“ sogar −48 % als mithilfe der Pearson-Residuen vorhergesagt. Für die charakteristische Wende kann es verschiedene Erklärungen geben. Beispielsweise ist es denkbar, dass Konsumenten ihre persönliche Meinung bezüglich des Produktes nicht in den bereits veröffentlichten Bewertungen wiederfinden. Die Damensandale von Montrail (ASIN: B000GF6XSW) veranschaulicht die Motivation durch die fehlende Repräsentation der eigenen Meinung. Die Sandale weist zuerst einen Bewertungsrückgang von mehr als 0,5 Sternen auf, gefolgt von einem Anstieg von etwa 0,7 Sternen im letzten Drittel des Lebenszyklus (Abbildung 3.13). In der ersten Hälfte des Lebenszyklus bringen Bewertungen im Zeitverlauf vermehrt

Abbildung 3.13 Geglätteter Bewertungsverlauf für eine Damensandale von Montrail

3.4 Beschreibung der Meinungslebenszyklen

63

zum Ausdruck, dass die Verbraucher andere Erfahrungen gemacht haben als die bis dorthin vorherrschende sehr positive Meinung. Bewertungen wie „Why the 5 stars? I saw all the 5 star ratings, so I figured this would be an excellent sandal but it didn’t meet my expectations. […]“ oder „After reading all the great reviews on Amazon I was so excited to get these shoes. […] I received the shoes and found them very painful. […]“ widersprechen explizit bereits veröffentlichten Bewertungen. Dies verdeutlicht die Motivation zur Veröffentlichung einer Bewertung und zum Teilen der eigenen Erfahrung, wenn die vorherrschende Meinung deutlich von der eigenen Meinung abweicht. Während Wu und Huberman (2008) einen Zusammenhang zwischen der Motivation und der Durchschnittsbewertung postulieren, deuten solche Bewertungen eher darauf hin, dass die Bewerter daran interessiert sind, dass ihre Meinungen überhaupt vertreten sind. Im Falle ausschließlich positiver Bewertungen könnte der Fokus solcher Konsumenten darauf liegen, auch negative Bewertungen zu veröffentlichen. Als Folge lässt sich statt eines kontinuierlichen Rückgangs in den Bewertungen eine U-Form beobachten.

Abbildung 3.14 Geglätteter Bewertungsverlauf für das SteamVac Dual V mit SpinScrub Handgerät

64

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Ein weiterer möglicher Grund für die vorliegende U-Form ist ein Zusammenhang zwischen Nutzungsdauer und Zufriedenheit, wie das Beispiel des F7425-900 SteamVac Dual V mit SpinScrub Handgerät (ASIN: B00006IIVB) zeigt. Die durchschnittliche Bewertung für den Nass-Trockensauger von Hoover sinkt in der ersten Hälfte seines Lebenszyklus um fast zweieinhalb Sterne (Abbildung 3.14). Mit der Zeit häufen sich die Beschwerden über Qualitätsprobleme mit dem Wassertank, die vor allem nach mehrmaligem Gebrauch des Geräts auftreten („What a MESS!!! It leaked water & dirt. [...]“). Gegen Ende des Lebenszyklus veröffentlichen vermehrt Nutzer, die das Produkt schon lange besitzen und immer noch zufrieden mit ihrem Kauf sind, Bewertungen („I bought this in March 2004 [...] It didn’t leak on me until September 2011 [...] it got me through 7 1/2 years of use“).

3.4.3

Cluster V: Hockeyschläger

Der Prototyp des Clusters V zeigt einen signifikanten Anstieg der Bewertungen um etwa 0,3 Sterne in den mittleren 80 % des Lebenszyklus. Dieser Verlauf ist vergleichbar mit den Ergebnissen von F. Wang et al. (2018), die einen positiven Trend über die Zeit feststellen. Zu Beginn des Lebenszyklus ist ein leichter Rückgang der Bewertungen zu beobachten, was zu der charakteristischen Hockeyschlägerform des Prototyps führt (Abbildung 3.15). Auch am Ende nimmt die Bewertung leicht ab. Mit einem Anteil von rund 41 % ist das Cluster das größte aller fünf Cluster. Zusätzlich weist es mit einer durchschnittlichen Bewertung von 4,22 Sternen die höchste durchschnittliche Bewertung sowie die geringste Varianz über den gesamten Lebenszyklus auf. Interessanterweise ist die Varianz in den ersten 30 und den folgenden 30 Tagen vergleichsweise hoch und nimmt im Unterschied zu den anderen Clustern über die Zeit stärker ab. Darüber hinaus hat das Cluster V zu Beginn die steilste empirische Verteilungsfunktion (Abbildung 3.8). Nach 5 % des Lebenszyklus sind bei Cluster V bereits rund 15 % der Bewertungen geschrieben. Bei den anderen vier Clustern liegt der Durchschnitt nur bei unter 10 %. Diese überdurchschnittlich hohe Zahl an Bewertungen zu Beginn des Lebenszyklus kann ein Hinweis auf eine große Zahl von Enthusiasten sein, die auf das Produkt gewartet haben. Dies ist zum Beispiel bei der Veröffentlichung eines Buches eines bekannten Autors gegeben. Im Einklang damit sind Medienkategorien wie „Filme und Fernsehen“ (+29 %), „Videospiele“ (+27 %) und „Bücher“ (+24 %) überdurchschnittlich häufig vertreten. Auch immaterielle Güter wie „Software“ (+37 %) und vor allem „Geschenkkarten“ (107 %) sind häufiger als erwartet zu finden. Dagegen sind die

3.4 Beschreibung der Meinungslebenszyklen

65

Abbildung 3.15 Prototyp Cluster V: Hockeyschläger

Kategorien „Haus und Küche“ (−29 %) und „Sport und Outdoor“ (−27 %) unterdurchschnittlich repräsentiert. Neben der diagnostischen Nutzenerklärung von F. Wang et al. (2018) ist auch eine Veränderung der bewertenden Population eine mögliche Erklärung für den positiven Trend. Beispielsweise können im Laufe der Zeit immer mehr Fans auftreten, die das Produkt als Kultobjekt bewerten. Ein Beispiel hierfür ist der Film End of Days (ASIN: 6305767866). Die Collector’s Edition mit Arnold Schwarzenegger in der Hauptrolle beispielsweise erlangte im Laufe der Zeit Kultstatus. Diese Entwicklung bedingt eine Verbesserung der Durchschnittsbewertung um 1,3 Sterne, wie in Abbildung 3.16 dargestellt. Zum Verkaufsstart beschweren sich Zuschauer über den Inhalt und die technischen Schwächen des Films, der nur eine durchschnittliche Bewertung von etwa 3,5 Sternen hat („1.0 out of 5 stars The embodiment of BAD […] But this film is just awful. The special effects were ok for awhile, but they actually got worse as the movie progressed. There are a couple of good shots, but they are buried among a heap of complete idiocy.“). Während zu Beginn des Lebenszyklus (10 %) bereits 55 % der Bewertungen veröffentlicht wurden, folgen in den restlichen 90 % des Lebenszyklus nur noch wenige neue Bewertungen.

66

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Abbildung 3.16 Geglätteter Bewertungsverlauf für den Film End of Days

Die wenigen Bewertungen scheinen jedoch insbesondere auf Schwarzenegger-Fans zurückzugehen. Diese schätzen den Film als Klassiker und vergeben meist fünf Sterne („Great action movie with Arnold Schwarzenegger Replacing all VHS tapes with DVD’s. If you are a fan of his this is a must have.“). Die Zunahme der positiven Bewertungen über die Zeit führt zu dem positive Trend und zur charakteristischen Form des Hockeyschlägers.

3.4.4

Cluster I: Rückgang in der zweiten Hälfte

Cluster I lässt sich in zwei bedeutsame Zeitabschnitte unterteilen. In der ersten Hälfte des Lebenszyklus zeigt der Bewertungsverlauf in Abbildung 3.17 eine relativ hohe Stabilität. Die Bewertung nimmt in dieser Phase nur leicht um etwa 0,2 Sterne ab. In der zweiten Hälfte hingegen sinkt die Bewertung vermehrt linear und deutlicher um etwa 0,4 Sterne. Mit einem Anteil von rund 13 % der Produkte handelt es sich um ein vergleichsweise kleines Cluster. Die durchschnittliche Produktvarianz von 0,82 in den ersten 30 Tagen und 0,92 in den folgenden 30 Tagen ist geringer als

3.4 Beschreibung der Meinungslebenszyklen

67

die der übrigen Cluster. Zusätzlich weist Cluster I eine hohe Durchschnittsbewertung von 4,21 auf. Die Bewertungen sind über die Zeit am stärksten gestreut. Dies wird anhand der empirischen Verteilungsfunktion (Abbildung 3.8) und der geringen durchschnittliche Schiefe von 0,08 deutlich. So tauchen beispielsweise Produkte aus den Kategorien „Haus und Küche“ (+38 %), „Sport und Outdoor“ (+46 %) und „Automobil“ (+77 %) häufiger als vorhergesagt auf. Technische Produkte und Bücher sind dagegen weniger stark vertreten und so kommen die Kategorien „Software“ (−54 %), „Handys und Zubehör“ (−38 %), „Bücher“ (−15 %), „Elektronik“ (−15 %) seltener als erwartet vor.

Abbildung 3.17 Prototyp Cluster I: Rückgang in der zweiten Hälfte

3.4.5

Cluster II: Stabilität

Im Vergleich zu den anderen Clustern zeichnet sich der Prototyp des Clusters II durch eine hohe Stabilität aus. Die in Abbildung 3.18 dargestellte durchschnittliche Bewertung sinkt über den gesamten Lebenszyklus nur um etwa 0,3 Sterne. In den ersten 5 % des Produktlebenszyklus sinkt die Bewertung um etwa 0,16 Sterne. Auf das Plateau während der nächsten 60 % des Lebenszyklus folgt ein relativ linearer

68

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

Abbildung 3.18 Prototyp Cluster II: Stabilität

Rückgang zum Ende hin. Das Cluster ist mit rund 10 % der Produkte das kleinste der fünf Cluster. Gleichzeitig stellt es mit durchschnittlich mehr als 680 Bewertungen pro Produkt die Gruppe mit den meisten Bewertungen pro Produkt dar. Betrachtet man die empirische Verteilungsfunktion (Abbildung 3.8), so sind die Bewertungen zu Beginn des Lebenszyklus weniger konzentriert als im Durchschnitt. Dies spiegelt sich auch in der niedrigen Kurtosis von 0,82 wider. Die Pearson-Residuen der Kategorien sind bei diesem Cluster relativ klein und es lässt sich kein klares Muster bei den Kategorien erkennen. Die Kategorien „Haus und Küche“ (+20 %), „Werkzeuge und Heimwerkerbedarf“ (+20 %) und „Kleidung, Schuhe und Schmuck“ (+10 %) treten häufiger als vorhergesagt auf. Dagegen sind vor allem Unterhaltungsprodukte und Software, wie die Kategorien „Software“ (−61 %), „Filme und Fernsehen“ (−23 %), „Spielzeug und Spiele“ (−23 %) und „Videospiele“ (−13 %) weniger häufig in diesem Cluster vertreten als erwartet.

3.5 Diskussion der Ergebnisse

3.5

69

Diskussion der Ergebnisse

Diese Arbeit zeigt die Heterogenität von Produktbewertungen über die Zeit. Damit liefert sie Belege gegen die in der Literatur angenommene homogene Dynamik von Bewertungen. Mittels Zeitreihen-Clustering auf Basis von Dynamic Time Warping wurden fünf prototypische Verläufe identifiziert. Diese Meinungslebenszyklen zeichnen sich durch individuelle dynamische Muster aus, die relevante Veränderungen im Zeitverlauf aufweisen.

3.5.1

Implikationen für die Forschung

Da sich die identifizierten Meinungslebenszyklen nicht auf eine einheitliche Dynamik zurückführen lassen, stellen sie ein neues und bisher in der Literatur nicht beobachtetes Phänomen dar. Anhand der Analyse exemplarischer Produkte und ihrer Bewertungen wurden mögliche Treiber für die verschiedenen Cluster aufgezeigt. So weist beispielsweise der starke Rückgang der Bewertungen eines technisch veralteten Handyhalters aus Cluster III einen anderen Treiber auf, als die Entwicklung eines Films aus Cluster V, der Kultstatus erreicht. Die Prototypen sind ein Nachweis für die Existenz von Heterogenität in der Produktbewertungsdynamik. Diese Heterogenität ist vermutlich der Grund, warum Autoren wie Godes und Silva (2012), X. Li und Hitt (2008) und Wu und Huberman (2008) fundamental unterschiedliche Ergebnisse berichten. Auch die häufig beobachtete Umkehrung der primär gefundenen Effekte bei Betrachtung einzelner Artikel statt der Gesamtheit der Produkte kann darauf zurückgeführt werden. Darüber hinaus erklärt die Existenz von stark unterschiedlichen dynamischen Mustern, warum die Vorhersage der Bewertungsentwicklung sehr schwierig ist. Daher sollten in Zukunft geeignete Prognosemodelle gewählt werden, welche die Heterogenität berücksichtigen. Im Gegensatz zu den meisten bestehenden Arbeiten in der Literatur liegt der Fokus dieser Arbeit auf dem gesamten Produktlebenszyklus. So analysierten beispielsweise X. Li und Hitt (2008) oder Wu und Huberman (2008) ausschließlich Bestseller-Bücher. Da neu erschienene Bücher eher in den Bestsellerlisten zu finden sind, wurden somit vor allem neue Produkte und kurze Zeiträume berücksichtigt. Dies spiegelt sich auch in der geringen durchschnittlichen Anzahl an Bewertungen von 62 beziehungsweise 38 Bewertungen wider. Aufgrund der Fokussierung auf die erste Phase des Lebenszyklus wurde vor allem die Anfangsdynamik analysiert. Betrachtet man die ersten 10 % des Lebenszyklus, so lässt sich bei allen fünf Clustern ein negativer Trend feststellen. Dies ist jedoch nur ein Ausschnitt, wie unter

70

3

Meinungslebenszyklen: Die Dynamik von Online-Produktbewertungen

anderem die U-Form von Cluster IV verdeutlicht, bei dem sich die Dynamik in der zweiten Hälfte vollständig umkehrt. Da es sich bei dieser Arbeit um die erste Studie handelt, die eine breite Palette verschiedener Konsumgüterkategorien betrachtet, konnte erstmals der Einfluss der analysierten Kategorie untersucht werden. Dabei zeigte sich ein signifikanter Zusammenhang zwischen der Kategorie und der prototypischen Dynamik. So sind beispielsweise technische Produkte eher in Cluster III zu finden, während in Cluster IV überdurchschnittlich viele Beauty-Produkte vertreten sind. Dies ist besonders relevant, da Autoren wie F. Wang et al. (2018), die im Gegensatz zur bisherigen Literatur einen überwiegend positiven Trend feststellten, ihre Analyse auf Bekleidung sowie Körperpflegeprodukte beschränkten. Zusammenfassend lässt sich sagen, dass die Resultate die widersprüchlichen Ergebnisse in der Literatur auf zwei Arten erklären können: Widersprüchliche Ergebnisse können auftreten, wenn Produkte aus verschiedenen Phasen des Meinungslebenszyklus oder aus verschiedenen Produktkategorien analysiert werden. Das beste Szenario, sowohl für Unternehmen als auch Kunden wäre, dass mehr Kundenbewertungen und der damit verbundene Informationszuwachs zu einer Selbstselektion hinsichtlich besser passender Produkte und somit zu einer Zunahme positiver Bewertungen führt. Diese Arbeit zeigt jedoch deutlich, dass dies für viele Produkte nicht der Fall ist. Weitere Forschungen sollten sich daher auf die Mechanismen konzentrieren, welche die Dynamik von Clustern und den Zusammenhang von Produkten und Prototypen bestimmen. Hierbei besteht die größte Herausforderung darin, umfassende Metadaten über die Produkte zu sammeln. Da sich Informationen wie Preis, Positionierung, Alternativen in der Kategorie oder Werbemaßnahmen im Laufe der Zeit ändern, ist es notwendig, diese dynamisch zu erfassen und zu analysieren.

3.5.2

Implikationen für die Praxis

Für Unternehmen sind Produktbewertungen ein wichtiger Erfolgsfaktor und eine zentrale Informationsquelle. Daher ist die Frage, ob ein Produkt mit einer höheren Durchschnittsbewertung beim Kunden tatsächlich besser ankommt relevant für Entscheidungsträger im Unternehmen. Eine wichtige Erkenntnis aus dieser Arbeit ist, dass Produktbewertungen stark zeitabhängig sind. Dies bedeutet, dass man vorsichtig sein muss, wenn man versucht, die durchschnittliche Bewertung zweier Produkte zu vergleichen, die seit unterschiedlichen Zeiträumen auf dem Markt sind. Daher sollte für den Vergleich derselbe Zeitraum herangezogen werden, indem beispielsweise nur die ersten Bewertungen des älteren Produkts berücksichtigt werden.

3.5 Diskussion der Ergebnisse

71

Darüber hinaus zeigt diese Arbeit, wie groß der Fehler ist, wenn man davon ausgeht, dass Produktbewertungen nach der ersten Zeit auf dem Markt konstant bleiben. Betrachtet man die erste Woche auf dem Markt, so ist bei fast jedem dritten Produkt die durchschnittliche Bewertung nach einem Jahr um mindestens einen halben Stern schlechter, während sie sich bei etwa 12 % der Produkte um mindestens einen halben Stern verbessert. Es hat sich gezeigt, dass mithilfe von maschinellem Lernen trotz der noch vorhandenen Unsicherheiten der Vorhersagefehler insbesondere kurz nach der Markteinführung halbiert werden kann. Auch in den darauf folgenden Wochen kann die Unsicherheit deutlich reduziert werden. Daher ist dieser Ansatz sehr gut geeignet, um die zukünftige Entwicklung der Bewertungen besser vorherzusagen. Darüber hinaus ist auch die Existenz prototypischer Gruppen in der Bewertungsdynamik und typischer Muster für Unternehmen relevant, um das diagnostische Verständnis von Bewertungen zu verbessern und Kundenfeedback besser einzuordnen. Da es einen Zusammenhang zwischen dem Verlauf und der Kategorie gibt, ist es besonders empfehlenswert, die dynamischen Muster des eigenen Portfolios zu untersuchen, um Ähnlichkeiten zu erkennen.

4

Vorschläge zur Produktentwicklung und -verbesserung in Produktbewertungen

Der Erfolg oder Misserfolg vieler Unternehmen wird durch die Entwicklung neuer Produkte und deren Markteinführung bestimmt (R. Cooper & Kleinschmidt, 2003). Trotz hoher Investitionen in diesem Bereich erreichen nur 13 % der Unternehmen ihre Umsatz- und Gewinnziele für die Einführung neuer Produkte (R. G. Cooper & Edgett, 2012). Gleichzeitig scheitern etwa 40 % der neuen Produkte (Barczak et al., 2009; R. G. Cooper et al., 2004; Markham & Lee, 2013; Victory et al., 2021). Einer der wirksamsten Ansätze zur Verringerung dieses großen Risikos von Produktfehlschlägen ist die Berücksichtigung von Kundenvorschlägen während der Produktentwicklung (Chang & Taylor, 2016; R. G. Cooper, 2019; Ulrich & Eppinger, 2016). Kundenvorschläge helfen Unternehmen, die Nachfrage zu verstehen und neue Produkte zu entwickeln (A. Cui & Wu, 2016; Homburg et al., 2015; Ulrich & Eppinger, 2016), Produktportfolios zu verwalten (Gök, 2009; Homburg et al., 2009; Stone et al., 2008) und bestehende Produkte und Dienstleistungen zu verbessern (Matzler & Hinterhuber, 1998). Mit den Fortschritten in der Verarbeitung natürlicher Sprache und dem rasanten Wachstum von nutzergenerierten Inhalten in Online-Umgebungen ergeben sich für das Marketing neue Möglichkeiten, von Kundenvorschlägen zu lernen (Berger et al., 2020; Humphreys & Wang, 2018; Y. Kang et al., 2020). Nutzergenerierte Inhalte in Form von Produktbewertungen wurden bereits als Alternative zu traditionellen Verbraucherstudien genutzt, zum Beispiel um Conjoint-Analysen durchzuführen (Roelen-Blasberg et al., 2022), Märkte zu verstehen (Netzer et al., 2012) oder Marken zu analysieren (T. Y. Lee & Bradlow, 2011). Es ist jedoch aus zwei Ergänzende Information Die elektronische Version dieses Kapitels enthält Zusatzmaterial, auf das über folgenden Link zugegriffen werden kann https://doi.org/10.1007/978-3-658-42973-7_4.

© Der/die Autor(en), exklusiv lizenziert an Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2023 I. Lange, Texte als Daten, Beiträge zur empirischen Marketing- und Vertriebsforschung, https://doi.org/10.1007/978-3-658-42973-7_4

73

74

4 Vorschläge zur Produktentwicklung und -verbesserung …

Gründen unklar, ob Produktbewertungen für Unternehmen bedeutsame Vorschläge beinhalten. Erstens richten sich Produktbewertungen in der Regel an andere Verbraucher und nicht an die Hersteller eines Produkts (Babi´c Rosario et al., 2020). So informieren beispielsweise Bewertungen auf Amazon.com die Verbraucher vor dem Kauf eines Produkts über die Erfahrungen anderer Verbraucher mit diesem Produkt (Roelen-Blasberg et al., 2022). Zweitens ist die Motivation, Unternehmen durch Verbesserungsvorschläge zu helfen, beim Verfassen von Produktbewertungen nur von untergeordneter Bedeutung (Hennig-Thurau et al., 2004). Stattdessen wollen Verbraucher, die Bewertungen schreiben, in erster Linie anderen Verbrauchern helfen (Dubois et al., 2016; Hennig-Thurau et al., 2004), einen sozialen Wert aus der Interaktion mit der Gemeinschaft ziehen (R. V. Kozinets, 1999; Peters et al., 2013) und hedonische Vorteile wie persönliche Freude und Befriedigung erhalten (McGraw et al., 2014; Motyka et al., 2018). Vor diesem Hintergrund stehen Unternehmen, die das Potenzial von OnlineProduktbewertungen für Produktvorschläge nutzen wollen, vor zwei Fragen: (1) Wie lassen sich Vorschläge aus Online-Produktbewertungen extrahieren? (2) Wie kann man den Verbraucher zu Vorschlägen animieren? Die vorliegende Arbeit geht auf beide Fragen ein, indem der Fokus auf Vorschläge in Bewertungen (Jhamtani et al., 2015; Moghaddam, 2015; Negi et al., 2018) gelegt wird. Es wird eine Methode zur Extraktion von Vorschlägen aus Online-Produktbewertungen vorgestellt und eine systematische empirische Analyse durchgeführt, um zu verstehen, wann Vorschläge mehr oder weniger häufig vorkommen. Zu diesem Zweck wird zunächst ein Modell zur Erkennung von Sätzen mit Vorschlägen in Produktbewertungen entwickelt. Das Modell wird auf 10.000 annotierten Bewertungssätzen für zehn High-Involvementund zehn Low-Involvement-Kategorien trainiert. Durch die Berücksichtigung einer Vielzahl von Produktkategorien wird ein Modell entwickelt, das kategorienunabhängig ist und somit eine hohe externe Validität aufweist. Für den VorschlagsKlassifikator wird gezeigt, dass Transformer Modelle, welche modernste NLPModelle darstellen, deutlich bessere, effizientere und stabilere Ergebnisse liefern als klassisches Deep Learning, wie es bisher in der Literatur Anwendung fand (Timoshenko & Hauser, 2019; F. Zhou et al., 2019). Um die Modellleistung für eine unbekannte Kategorie zu bewerten, wird ein Leave-One-Category-Out-Ansatz verwendet. Die Generalisierbarkeit des Ansatzes wird veranschaulicht, indem acht Produkte betrachtet werden, die nicht in den Trainingskategorien enthalten sind. Für diese Produkte werden automatisch hochspezifische und komplexe Vorschläge mit dem Vorschlags-Klassifikator und dem generativen Sprachmodell GPT-3 generiert. Um die Treiber von Vorschlägen zu untersuchen, werden rund 1 Million Amazon.com Bewertungen für Produkte in mehr als 500 Kategorien von 107.000 Konsumenten analysiert. Der Datensatz umfasst mehr als 1.200 Amazon Vine-Teilnehmer,

4.1 Konzeptioneller Hintergrund von Vorschlägen

75

die vom Hersteller kostenlose Produkte im Austausch für das Verfassen von OnlineProduktbewertungen (Garnefeld et al., 2021) erhalten haben. Für jede Bewertung wird die Anzahl der Vorschlags-Sätze mithilfe des kategorieunabhängigen Klassifikators bestimmt. Anschließend werden mithilfe von Regressionsanalysen die Faktoren untersucht, die Vorschlägen beeinflussen. Es zeigt sich, dass Verbraucher mit abnehmender Sternebewertung, abnehmender durchschnittlicher Produktbewertung und steigendem Preis mehr Sätze schreiben, die Vorschläge enthalten. Außerdem führen die Vine-Anreize zu signifikant mehr Vorschlägen. Dieser Anreizeffekt ist bei hohen Anreizbeträgen und niedrigen Sternebewertungen höher. Anschließend wird aus den Ergebnissen ein theoretisches Modell für Vorschläge zusammengestellt und mit bestehenden Ergebnissen aus der Literatur verglichen. Die vorliegende Arbeit leistet vier wesentliche Beiträge zur Literatur. Erstens wird das Konstrukt Vorschläge konzeptualisiert, wobei der Fokus im Gegensatz zur bestehenden Literatur auf dem Nutzen für Unternehmen und nicht für Verbraucher liegt. Zweitens werden die großen Vorteile der Verwendung modernster NLP-Methoden für die Marketingforschung aufgezeigt. So erzielen Transformer Modelle bei der Erkennung von Vorschlägen deutlich bessere Ergebnisse als klassische Deep-Learning Modelle. Drittens wird deutlich, dass durch die Kombination von GPT-3, einem Modell mit 175 Milliarden Parametern und dem VorschlagsKlassifikator vollautomatisch Vorschläge für beliebige Produkte extrahiert werden können. Viertens wird dazu beigetragen, die Treiber von Vorschlägen in nutzergenerierten Inhalten besser zu verstehen. Bei der vorliegenden Arbeit handelt es sich um die erste Arbeit, welche die Treiber von Vorschlägen in diesem Umfang untersucht und monetäre Anreize als Instrument der Feedback-Generierung für Unternehmen einbezieht. Aufgrund der Beiträge auf theoretischer und methodischer Ebene ist diese Arbeit auch für die Realwirtschaft von großer Bedeutung.

4.1

Konzeptioneller Hintergrund von Vorschlägen

In diesem Abschnitt werden zunächst Vorschläge definiert. Anschließend wird der Forschungsrahmen für die Untersuchung der Treiber von Vorschlägen vorgestellt.

4.1.1

Vorschläge in Texten

Ein Text gilt als Vorschlag, wenn der Autor explizit oder implizit Vorschläge für mögliche Verbesserungen des zu bewertenden Produkts macht (Jhamtani et al.,

76

4 Vorschläge zur Produktentwicklung und -verbesserung …

2015; Moghaddam, 2015; Negi et al., 2018). Typische Arten von Vorschlägen sind die folgenden: 1. Anregung (Brun & Hagège, 2013; Jhamtani et al., 2015; Moghaddam, 2015): Der Autor macht einen Vorschlag zu einem Aspekt des Produkts (z. B. „Könnte man bei diesem Waschmittel nicht auf die Dosierhilfen aus Plastik verzichten, um weniger Abfall zu produzieren?“ schlägt explizit den Verzicht auf die Dosierhilfen aus Plastik vor). 2. Beanstandung (Moghaddam, 2015; Pawar et al., 2015; Ramnani & Sengupta, 2021): Der Konsument beschwert sich über das Fehlen oder die schlechte Qualität eines Produktaspekts (z. B. „„Leider fehlt die Anleitung““ oder „„Das Kabel ist einfach zu kurz““ bedeutet implizit , dass eine Anleitung oder eine Verlängerung des Kabels vorgeschlagen wird). 3. Änderung (Alotaibi et al., 2021; Jhamtani et al., 2015; Moghaddam, 2015; Negiet al., 2019): Der Konsument äußert den Wunsch, einen bestimmten Aspekt des Produkts zu ändern oder hinzuzufügen (z. B. „„Ich wünschte, es gäbe eine Batterieanzeige.““ schlägt ausdrücklich vor, eine Batterieanzeige hinzuzufügen). 4. Vergleich (Jhamtani et al., 2015; Jin et al., 2016; Jindal & Liu, 2006): Der Konsument vergleicht einen Aspekt zweier ähnlicher Produkte so, dass daraus ein Vorschlag für das betrachtete Produkt abgeleitet werden kann (z. B. „Mein altes Shampoo trocknete meine Kopfhaut viel weniger aus.“ schlägt implizit vor, die feuchtigkeitsspendende Wirkung des Shampoos auf die Kopfhaut zu verbessern). 5. Bedürfnis (Timoshenko & Hauser, 2019; F. Zhou et al., 2019): Der Konsument drückt ein Kundenbedürfnis aus, das sich nicht unbedingt auf ein bestimmtes Produktmerkmal bezieht (z. B. „Es wäre toll, wenn ich mit diesem Fahrradhelm im Dunkeln besser gesehen werden könnte“ ist ein abstraktes Bedürfnis, das durch verschiedene Produktmerkmale wie Farbe, Reflektoren oder zusätzliche Lichter am Helm erfüllt werden kann). Wie bereits erwähnt, haben Online-Produktbewertungen zwei mögliche Empfänger: Unternehmen und andere Kunden. Dies beeinflusst auch die Definition von Vorschlägen (Negi, 2016). Die hier genutzte Definition bezieht sich auf Unternehmen als Empfänger. Daher handelt es sich bei dem Satz „Ich kann nicht empfehlen, das Produkt zu kaufen“ nicht um einen Vorschlag, da er nur eine Empfehlung für andere Verbraucher enthält. Die Konzeptualisierung in dieser Arbeit umfasst nicht nur konkrete Produktattribute, sondern auch Bedürfnisse, da die in ihnen enthaltenen Vorschläge für die Produktentwicklung von großem Interesse sind (Timoshenko

4.1 Konzeptioneller Hintergrund von Vorschlägen

77

& Hauser, 2019). Im Gegensatz zu konkreten Produktattributen sind Bedürfnisse abstrakte Aussagen, die den Nutzen beschreiben, den ein Kunde von einem Produkt oder einer Dienstleistung erwartet (Barczak et al., 2009; S. L. Brown & Eisenhardt, 1995). Obwohl Vorschläge oft mit einer negativen Einstellung gegenüber dem Produkt in Verbindung gebracht werden, können sie mit jeder Polarität auftreten. Zum Beispiel enthält der Satz „Es wäre auch eine tolle Idee, wenn man die wichtigsten Werte der Espressomaschine über eine App verfolgen könnte.“ einen Vorschlag ohne negative Polarität. Weitere Einzelheiten zur verwendeten Konzeptualisierung finden sich in den Annotationsrichtlinien im Anhang B.1 im elektronischen Zusatzmaterial.

4.1.2

Theoretischer Forschungsrahmen

Ein Ziel der vorliegenden Arbeit ist es, zu verstehen, wie Unternehmen Vorschläge von Kunden einholen können. Dies erfordert ein Verständnis der Treiber von Vorschlägen in Online-Produktbewertungen. In diesem Kapitel wird ein Forschungsrahmen zur Beantwortung dieser Frage entwickelt. Anhand der Analyse textueller Produktbewertungen auf Amazon.com sollen Treiber von Vorschlägen verstanden werden. Die Analyseeinheit ist eine einzelne Produktbewertung, die von einem Verbraucher geschrieben wurde. Die abhängige Variable ist die Anzahl der Sätze, die in dieser Produktbewertung Vorschläge aufweisen. Mit der Analyse von Vorschlägen auf Satzebene wird die gängige Praxis in der Literatur zu anderen Phänomenen wie Wünschen (Goldberg et al., 2009), Mängeln (Moghaddam, 2015) oder Bedürfnissen (Timoshenko & Hauser, 2019) befolgt. Die unabhängigen Variablen beziehen sich auf Produkteigenschaften, Eigenschaften des Bewerters sowie Eigenschaften der Bewertungen (Akbarabadi & Hosseini, 2020; Z. Chen & Berger, 2013; Hong et al., 2017; Mudambi & Schuff, 2010). Darüber hinaus wird die Wirkung von Bewertungsgegenleistung als Instrument für Unternehmen, um Anreize für Bewertungen zu schaffen, untersucht. Abbildung 4.1 zeigt den Forschungsrahmen einschließlich der Kontrollvariablen.

Produktmerkmale Die Produktmerkmale beziehen sich auf die Eigenschaften der Produkte, die in der Bewertung beurteilt werden. In dieser Arbeit werden zwei Produktmerkmale berücksichtigt. Erstens wird die durchschnittliche Sternebewertung eines Produkts (von 1 bis 5 Sterne) verwendet. Diese Sternebewertung ist ein Indikator für die subjektive Produktqualität und die Übereinstimmung des Produkts mit dem Geschmack der Verbraucher (T. J. Brown et al., 2005; Y.-J. Chen & Godes, 2012; S. Park e al.,

78

4 Vorschläge zur Produktentwicklung und -verbesserung …

Abbildung 4.1 Theoretischer Forschungsrahmen

2021). Da höhere Bewertungen eine höhere subjektive Qualität implizieren, werden weniger Vorschläge für Produkte mit höheren Bewertungen erwartet. Darüber hinaus beeinflusst die durchschnittliche Sternebewertung die Erwartungen der Verbraucher und ihr Bewertungsverhalten (Moe & Schweidel, 2012) und könnte somit das Ausmaß der geschriebenen Vorschläge beeinflussen. Zweitens zeigen Langhe et al. (2015), dass subjektive Bewertungen kaum mit der objektiven Produktqualität zusammenhängen, während der Preis stark mit den Ergebnissen von Produkttests

4.1 Konzeptioneller Hintergrund von Vorschlägen

79

durch Experten korreliert ist. Da angenommen wird, dass eine niedrige objektive Qualität zu mehr Vorschlägen führen sollte, wird auch der Preis des bewerteten Produkts als Proxy für seine Qualität innerhalb einer Produktkategorie einbezogen.

Bewertungsmerkmale Die Bewertungsmerkmale beziehen sich auf die Eigenschaften der einzelnen Bewertungen, die analysiert werden. Dabei liegt der Fokus insbesondere auf der Sternebewertung. Nicht nur die Bewertungen anderer, sondern auch die Bewertung eines Konsumenten als Ausdruck seiner Produktbeurteilung hat einen großen Einfluss auf den Bewertungsinhalt. So haben viele Studien einen Zusammenhang zwischen Bewertungen und der Hilfsbereitschaft gegenüber anderen Konsumenten festgestellt (S. Lee & Choeh, 2016; Schlosser, 2011).

Bewertungsanreize Aufgrund der Bedeutung von Bewertungen für Verkäufer und Verbraucher schaffen viele Unternehmen Anreize für ihre Kunden, ihre Einkäufe zu bewerten. Diese Anreize können monetäre (z. B. kostenlose oder vergünstigte Produkte, feste Zahlungen, Verlosungen) oder nicht-monetäre Anreize (z. B. Eintritt in Clubs, Abzeichen, soziale Bewertungssysteme) (Cabral & Li, 2015; Woolley & Sharif, 2021) sein. In mehreren Studien wurde ein Zusammenhang zwischen Bewertungsanreizen und dem Umfang und der Länge von Bewertungen festgestellt (Burtch et al., 2018; Khern-am-nuai et al., 2018; Y. Sun et al., 2017). Darüber hinaus gibt es Hinweise darauf, dass Anreize auch die relative Positivität und Freude am Schreiben von Bewertungen erhöhen (Woolley & Sharif, 2021). Vor diesem Hintergrund wird erwartet, dass Bewertungsanreize auch einen Einfluss auf Vorschläge haben. In dieser Studie wird das Amazon Vine-Programm untersucht, bei dem die Teilnehmer kostenlose Produkte im Austausch für ihre Bewertungen erhalten. Das Programm zielt darauf ab, die Verfügbarkeit von Kundenbewertungen für neu eingeführte Produkte zu erhöhen (amazon.com 2022). Dabei wird der Anreiz des kostenlosen Produkts für das Verfassen der Bewertung gegeben. Amazon.com nimmt keinen Einfluss auf den Inhalt und die Positivität der Bewertung. Das Vine-Programm wird in der vorliegenden Arbeit berücksichtigt, da es die wichtigste Art von incentivierten Bewertungen auf Amazon.com ist und die klare Kennzeichnung dafür sorgt, dass mögliche Messfehler sehr gering sind (D. Qiao & Rui, 2022).

Eigenschaften des Bewerters Die Eigenschaften der Bewerter beschreiben die Eigenschaften des Autors der Bewertung. Sie sind ein wichtiger Faktor für die Wahrnehmung anderer Verbraucher,

80

4 Vorschläge zur Produktentwicklung und -verbesserung …

z. B. bezüglich der Nützlichkeit (Chua & Banerjee, 2015; Einar et al., 2015; Schlosser, 2011) oder Glaubwürdigkeit (Lo & Yao, 2019; Thomas et al., 2019; Verma & Dewani, 2021). Da sie einen Einfluss auf den Inhalt der Bewertungen haben, könnten sie auch Vorschläge beeinflussen. Das erste betrachtete Merkmal des Bewerters ist der Bewertungsrang von Amazon. Amazon berechnet den Bewertungsrang auf der Grundlage von drei Hauptfaktoren: Die Anzahl der Bewertungen, die der Nutzer geschrieben hat, die Anzahl der zuvor erhaltenen hilfreichen Stimmen und die Aktualität der Bewertungen (amazon.com, 2018; Mathwick & Mosteller, 2017). Der Rang ist also ein Indikator für die Erfahrung des Bewerters, seine Produktivität und die wahrgenommene Nützlichkeit der Bewertung. Es gibt Belege dafür, dass der Rang eines Bewerters einen Einfluss auf die Anzahl der Hilfreich-Bewertungen durch andere Verbraucher hat (Baek et al., 2012; Kuan et al., 2015). Daher liegt die Vermutung nahe, dass der Rang eines Bewerters auch Vorschläge beeinflusst. Da der Bewertungsrang verschiedene Aspekte kombiniert und Amazon.com seine genaue Berechnung nicht offenlegt (Mathwick & Mosteller, 2017), werden auch die hilfreichen Stimmen und die Anzahl der Bewertungen als erklärende Variablen einbezogen. Als vierte Eigenschaft wird ein Indikator dafür, ob der Bewerter Teil des Amazon Vine-Programms ist, aufgenommen. Dies ist nicht gleichzusetzen mit der Variable free product, da ein Mitglied des Vine-Programms auch regelmäßig selbst ein Produkt kaufen und bewerten kann.

Kontrollvariablen Um mögliche Störfaktoren zu berücksichtigen, werden vier Kontrollvariablen einbezogen. Hong et al. (2017) stellen in ihrer Meta-Analyse der Einflussfaktoren für die Nützlichkeit von Bewertungen fest, dass der Produkttyp einer der Hauptgründe für heterogene Ergebnisse in der Literatur ist. Um für solche Effekte zu kontrollieren, umfasst der Forschungsrahmen erstens die Produktkategorie. Dies ist besonders wichtig, da es plausibel erscheint, dass es mehr Vorschläge für komplexe technische Produkte wie Staubsaugroboter geben könnte als für einfache Alltagsprodukte wie Zahnpasta. Zweitens wird für fixe Effekte der Bewerter kontrolliert, da es möglich ist, dass die Eigenschaften der Bewerter den Inhalt der Bewertungen beeinflussen (Baek et al., 2012; Kuan et al., 2015). Es ist zu beachten, dass die Kontrolle für die Bewerter besonders wirksam ist, um mögliche Heterogenität zwischen den Bewertern auszugleichen, aber sie schließt auch aus, dass der Effekt der zuvor eingeführten Variablen für die Eigenschaften der Bewerter geschätzt werden kann. Daher werden die Modelle für beide Spezifikationen berechnet, d. h. mit festen Effekten oder mit Merkmalen der Bewerter. Drittens werden Jahr und Monat der Bewertung als Kontrollvariablen einbezogen, um zeitliche Veränderungen im Schreibverhalten der Bewerter zu berücksichtigen. Ein möglicher Grund für zeitliche Veränderungen sind

4.2 Extraktion von Vorschlägen

81

strukturelle Veränderungen, wie z. B. die Tatsache, dass Vine-Teilnehmer seit Juli 2015 ihre Steuernummer angeben müssen, bevor sie die Produkte erhalten und Einkommenssteuer auf die kostenlosen Produkte zahlen müssen. Viertens wird für die Anzahl der Sätze der Bewertung kontrolliert. Auf diese Weise wird sichergestellt, dass mehr Vorschläge nicht einfach Ausdruck längerer Bewertungen sind, sondern dass auch relativ mehr Vorschläge geschrieben werden.

4.2

Extraktion von Vorschlägen

Angesichts der wachsenden Bedeutung von nutzergenerierten Inhalten als Datenquelle gibt es mehrere wissenschaftliche Studien zur Identifikation relevanter Aspekte in nutzergenerierten Inhalten, z. B. von Bedürfnissen (Negiet al., 2019; Timoshenko & Hauser, 2019; F. Zhou et al., 2019), Wünschen (Goldberg et al., 2009; Ramanand et al., 2010) oder Mängeln (Moghaddam, 2015). Die dabei verwendeten Klassifikatoren werden in der Regel für eine einzige Produktkategorie oder Domäne trainiert (siehe Anhang B.2 im elektronischen Zusatzmaterial). Dies ist problematisch, da jede weitere Kategorie eine neue Datenannotation und ein neues Modelltraining erfordert, was zu hohen Kosten und Ineffizienz führt. Agnostische Modelle sind eine attraktive Lösung für dieses Problem, da sie auf neue Kategorien angewendet werden können, ohne das Modell neu zu trainieren. Agnostische Modelle für die Analyse von nutzergenerierten Inhalten haben in der Literatur bisher jedoch nur wenig Beachtung gefunden. Daher helfen die folgenden Abschnitte, diese Lücke zu schließen, indem sie erklären, wie man agnostische Modelle für Kategorien trainiert. Tabelle 4.1 gibt einen Überblick über die wichtigsten Schritte zum Training und zur Evaluierung eines kategorienunabhängigen Modells zur Erkennung von Vorschlägen, die im Folgenden beschrieben werden. Als Datengrundlage dienen Bewertungen aus zehn High-Involvement- und zehn Low-Involvement-Kategorien von Amazon.com. Eine stratifizierte Stichprobe von 10.000 Bewertungssätzen wurde von einer professionellen Agentur annotiert, um die Modelle zu trainieren. Um eine höhere Generalisierbarkeit zu erreichen, wurden Ansätze zur Datenerweiterung angewandt, um zusätzliche synthetische Daten zu erzeugen. Mithilfe einer Leave-One-Category-Out-Kreuzvalidierung wurde der Generalisierungsfehler ermittelt. Um die trainierten Transformer Modelle mit klassischen Deep-Learning Ansätzen zu vergleichen, wurden zusätzlich Experimente durchgeführt. Außerdem wurden Vorschlagslisten für beliebige Verbraucherprodukte erstellt und der Klassifikator mit Ansätzen zur automatischen Texterstellung kombiniert, um die Effektivität des agnostischen Klassifikators weiter zu veranschaulichen.

82

4 Vorschläge zur Produktentwicklung und -verbesserung …

Tabelle 4.1 Wichtigste Schritte für das Training und die Auswertung eines kategorieunabhängigen Modells zur Erkennung von Vorschlägen Schritt

Beschreibung

1. Sammlung von Daten

– Scraping von rund 266.000 Kundenbewertungen von etwa 2.000 Produkten von Amazon.com für je zehn Kategorien mit hohem und niedrigem Involvement – Datenaufbereitung, z. B. Herausfiltern falscher Produkte oder nicht-englischer Bewertungen – Stratifizierte Stichprobe über die Sternebewertung, um das Problem der unausgewogenen Klassen zu lösen – Annotation von zwei Spezialisten einer professionellen NLP-Annotation-Agentur – Unabhängiger dritter Spezialist entscheidet bei Unstimmigkeiten – Datenerweiterung durch Rückübersetzung, Synonymersatz und Generierung von Rechtschreibfehlern – Leave-One-Category-Out-Kreuzvalidierungsansatz zur Bestimmung des Generalisierungsfehlers – Verwendung verschiedener Transformer Modelle und klassischer Deep-Learning Ansätze – Deskriptive Analysen für F1 Wert und AUC – Analyse der Beziehung zwischen Trainings- und Bewertungskategorie – Sensitivitätsanalyse für den Datensatz – Kombination von Vorschlags-Klassifikator und GTP-3 – Erstellung von vollautomatischen Vorschlagslisten für acht Produkte, die nicht in den Trainingskategorien enthalten waren

2. Annotation

3. Modellierung

4. Evaluation

5. Zusammenfassung

4.2.1

Schritt 1: Sammlung von Daten

Für die Analyse von Vorschlägen wurden Produktbewertungen von 20 Kategorien berücksichtigt. Die Auswahl der Kategorien erfolgte auf der Grundlage des Produktinvolvements. Das Produktinvolvement gibt an, wie wichtig eine bestimmte Produktkategorie für Konsumenten ist (Dong et al., 2013; Sheth et al., 1999). Generell können Produkte in High-Involvement- und Low-Involvement-Produkte unterteilt werden. Diese Einteilung basiert darauf, dass verschiedene Produktkategorien für Kunden, ihr Selbstbild und ihre Kommunikation mit anderen Kunden von unterschiedlicher Bedeutung sind. Produkte mit einer hohen persönlichen Bedeutung

4.2 Extraktion von Vorschlägen

83

werden als High-Involvement-Produkte eingestuft. Da die Kaufentscheidung für ein High-Involvement-Produkt mit einem hohen Risiko eines Fehlkaufs verbunden ist, investieren Konsumenten viel Zeit in die Suche und Verarbeitung relevanter Informationen (Te’eni-Harari & Hornik, 2010). In der Regel handelt es sich bei Low-Involvement-Produkten um alltägliche Gegenstände mit einem geringen Preis, sodass das Risiko eines Fehlkaufs geringer ist. Daher investieren die Kunden in der Regel weniger Zeit in ihre Kaufentscheidung. Da sich das Informationsund Kaufverhalten zwischen den beiden Produktgruppen unterscheidet (GröppelKlein & Kroeber-Riel, 2013), wird das Produktinvolvement berücksichtigt, um eine Reihe von heterogenen Produktkategorien zu erhalten. Dies ermöglicht eine bessere Beurteilung der Generalisierbarkeit der Ergebnisse. Involvement wird in der vorliegenden Arbeit mit dem multidimensionalen Consumers Involvement Profile (Laurent & Kapferer, 1985) erfasst. Die fünf Subskalen umfassen das Interesse an dem Produkt, das Vergnügen, das das Produkt verursacht, die symbolische Bedeutung des Produkts, das wahrgenommene Risiko eines Fehlkaufs und die Wahrscheinlichkeit eines solchen Fehlkaufs (Kapferer & Laurent, 1993). Zur Ableitung des Produktinvolvements für verschiedene Produktkategorien wurde eine große, nahezu repräsentative Stichprobe von US-Kunden (N = 3.237) von Roelen-Blasberg et al. (2022) herangezogen. Tabelle 4.2 zeigt die fünf Dimensionen des Produktinvolvements und einen Gesamtindex als Summe der z-standardisierten Subskalen für die ausgewählten Kategorien. Während die Low-Involvement-Kategorien ausschließlich negative Summenindizes aufweisen (M = −4, 62), sind die Werte für alle High-Involvement-Kategorien ausschließlich positiv (M = 3, 53). Für die ausgewählten 20 Kategorien mit hohem und niedrigem Produktinvolvement wurden alle Produkte der ersten 25 Ergebnisseiten auf Amazon.com gescraped. Neben gesponserten Artikeln wurden Produkte, die nicht zur Kategorie gehören, auf der Grundlage einer manuellen Überprüfung ausgeschlossen. In der Kategorie Laptop wurden beispielsweise Laptoptaschen oder Computermäuse nicht weiter berücksichtigt. Für die verbleibenden Produkte wurden bis zu 500 der neusten nationalen Bewertungen gescraped, was zu mehr als 266.000 Bewertungen von 2.075 Produkten führte. Tabelle B.6 im Anhang des elektronischen Zusatzmaterials enthält Statistiken und die Suchanfragen für die ausgewerteten Produkte und Bewertungen. Die Sterneverteilung der gesammelten Bewertungen war mit 73 % Vier- oder FünfSterne-Bewertungen extrem verzerrt. Dies ist besonders problematisch, da in der Literatur davon ausgegangen wird, dass Vorschläge häufiger in Bewertungen mit niedriger Anzahl an Sternen vorkommen (Jhamtani et al., 2015). Außerdem sind unausgewogene Klassen eine der größten Herausforderungen beim Training eines Klassifikators für relevante Inhalte (Negiet al., 2019). Aus diesem Grund wurde für das Training des Modells eine stratifizierte Stichprobe über die Sternebewertung

0.94

0.88 0.43

-0.53 0.46 1.40 -1.01 0.38 0.98

Kaffeemaschine

Mountainbike

Noise-Cancelling-Kopfhörer

Laufschuhe für Frauen

Spielkonsole

Smartphone

1.23

0.12

1.95

1.37

0.61

0.25

0.51

1.77

1.20

-0.24

0.52

0.62

-0.68

0.55

Laptop

TV

Fitness-Tracker

-0.95

0.06

0.13

Olivenöl

0.76

-1.53

-0.96

1.17

-2.17

Windeln

0.00

-0.39

VR-Headset

-0.20

Smartphone-Ladegerät

-0.37

0.10

-0.87

Batterien

-1.37

1.14

1.72

1.11

0.84

0.68

0.74

0.80

0.67

0.26

0.80

-0.38

-2.06

-1.12

-0.96

-0.71

-1.30

-1.43

-0.28

-0.39

1.23

-2.25

Waschmittel

-1.50

-0.88

0.37

-1.22

Zahnpasta

-1.64

0.25

1.03

-0.17

Körperpeeling

-1.04

-0.77

2.62

0.50

1.55

1.38

5.40

5.36

5.13

3.76

0.39 1.89

3.05

0.54

3.04

2.53

0.01 1.36

2.22

2.19

1.20 0.38

-2.50

-3.09

-3.69 -0.43

1.33

-0.85

-3.78

-3.97

0.73 -0.61

-4.06

-4.93

-5.45

-6.55

-8.19

0.24

-2.06

-2.72

-1.91

-1.38

Annotierte

521

487

501

495

512

506

503

503

510

520

495

496

496

483

507

492

491

499

496

492

-1.31

-1.77

Summe

-1.65

-0.27

-0.31

Krawatte

-1.98

-1.16

-0.60

-0.59

Interesse

Sätze

Vergnügen

Bedeutung

Symbolische

-1.21

-2.23

Backpapier

Fehlkauf

Fehlkauf

Glühbirne

Kategorie

Wahrscheinlichkeit

Risiko

Subskalen des Produktinvolvements

Tabelle 4.2 Übersicht über Produktinvolvement und Anzahl Sätze je nach Kategorie

Low-Involvement

High-Involvement

84 4 Vorschläge zur Produktentwicklung und -verbesserung …

4.2 Extraktion von Vorschlägen

85

verwendet. Dementsprechend wurde für jede Sternebewertung die gleiche Anzahl von Sätzen ausgewählt. Darüber hinaus wurden nicht-englische Bewertungen auf der Grundlage einer automatischen Spracherkennung herausgefiltert. Die endgültige Liste für die Annotation umfasste rund 10.000 Sätze mit etwa 2.000 Sätzen pro Sternebewertung.

4.2.2

Schritt 2: Annotation

Eine professionelle NLP-Annotation-Agentur labelte den endgültigen Datensatz von Bewertungssätzen mit der Open-Source-Software Label Studio (Tkachenko et al., 2021). Aufgabe war es, zu entscheiden, ob in einem Satz ein Vorschlag enthalten ist oder nicht. Jeder Satz wurde von zwei Spezialisten annotiert. Der Cohen’s Kappa-Koeffizient von 0, 80 sowie die Übereinstimmung der Annotationen in 91,28 % der Fälle zeigen eine sehr hohe Übereinstimmung (Landis & Koch, 1977; McHugh, 2012). Im Falle von Uneinigkeit zwischen den beiden Spezialisten wurde die endgültige Entscheidung von einer dritten unabhängigen Person getroffen. Die Verteilung von Vorschlägen nach Kategorien ist in Tabelle 4.3 zu finden. Der Gesamtanteil von Vorschlägen liegt bei 34,87 %, wobei für Produkte mit hohem Involvement etwas mehr Vorschläge vorliegen. Wird der Anteil der Vorschläge nach der Verteilung der Sterne gewichtet (entspricht einer nicht stratifizierten Stichprobe), enthalten nur 18,76 % der Sätze Vorschläge. Dies deckt sich mit den Ergebnissen anderer Autoren, wie Jhamtani et al. (z. B. 2015), die einen Anteil von 18 % von Vorschlägen für Mobiltelefone und Digitalkameras ermittelten. Damit führt die stratifizierte Stichprobe fast zu einer Verdoppelung von Vorschlägen und ist ein äußerst effektiver Ansatz, um den sehr unausgewogenen Klassen entgegenzuwirken. Außerdem unterscheidet sich dieser Ansatz der Stichprobenziehung vor der Annotation grundlegend von Stichprobenstrategien, wie sie beispielsweise Leekha et al. (2020) einsetzen, bei denen die Stichprobenziehung nach der Annotation erfolgt und somit der ursprüngliche Anteil der positiven Klasse nicht beeinflusst werden kann.

4.2.3

Schritt 3: Modellierung

Seit ihrer Einführung (Vaswani et al., 2017) dominieren transformer-basierte Sprachmodelle das Feld des NLP (Oh et al., 2021) und führen zu immer neuen Bestmarken, z. B. für maschinelle Übersetzung (Imamura & Sumita, 2019), Fragebeantwortung (Devlin et al., 2019; S. Garg et al., 2020) oder Sentimentanalyse (Hoang et al., 2019).

86

4 Vorschläge zur Produktentwicklung und -verbesserung …

Tabelle 4.3 Verteilung der annotierten Vorschläge nach Kategorien Gruppe

Kategorie

Anteil Vorschläge

Sterne-gewichteter Anteil Vorschläge

Gesamt High-Involvement

Gesamt Gesamt Kaffeemaschine Fitness-Tracker Spielkonsole Laptop Mountainbike Noise-CancellingKopfhörer Smartphone TV VR-Headset Laufschuhe für Frauen Gesamt Backpapier Batterien Körperpeelings Waschmittel Windeln Glühbirne Olivenöl SmartphoneLadegerät Krawatte Zahnpasta

34.87 % 34.96 % 36.76 % 34.81 % 31.42 % 34.51 % 39.26 % 32.53 %

18.76 % 22.80 % 23.41 % 20.71 % 18.42 % 21.62 % 32.85 % 18.36 %

31.29 % 39.56 % 36.58 % 32.93 %

25.91 % 24.24 % 25.45 % 17.05 %

34.77 % 35,28 % 34.37 % 37.47 % 33.93 % 31.65 % 38.82 % 31.31 % 35.89 %

14.71 % 10,13 % 14.52 % 16.48 % 12.53 % 18.56 % 22.56 % 10.45 % 16.77 %

37.88 % 31.10 %

12.58 % 12.54 %

Low-Involvement

Der Erfolg dieser Modelle ist unter anderem auf ihre Architektur zurückzuführen, die durch hohe Parallelisierung ein effizientes Training von sehr großen Modellen auf riesigen Datensätzen ermöglicht (Minaee et al., 2021). Bei traditionellen DeepLearning Ansätzen werden die Anfangsparameter des Modells zufällig gewählt und dann während des Modelltrainings optimiert, was eine Menge Trainingsdaten und Rechenressourcen erfordert (Alyafeai et al., 2020). Eine Lösung hierfür ist das Transfer-Learning, bei dem die Grundidee darin besteht, dass Parameter

4.2 Extraktion von Vorschlägen

87

und damit das Wissen des Modells aus einem allgemeinen Training auf spezifische Aufgaben übertragen werden. So wurden beispielsweise die 340 Millionen Parameter des BERT-Modells (Bidirectional Encoder Representations from Transformers) von Google mit 3,3 Milliarden Wörtern aus Büchern und Wikipedia-Artikeln trainiert (Devlin et al., 2019). Ein solches Training führt dazu, dass die vor-trainierten Modelle bereits über ein enormes Sprachverständnis verfügen. Später können die vor-trainierten Modelle für spezifische Aufgaben, wie die Klassifizierung von Vorschlägen, weiter verfeinert werden. Dies führt zu einer schnelleren Konvergenz und geringeren Anforderungen, d. h. besseren Ergebnissen mit weniger Daten (Ruder et al., 2019). Ein detaillierter Überblick über Transformer ist im Abschnitt B.3 im Anhang des elektronischen Zusatzmaterials zu finden. Obwohl dieser Ansatz in der Marketingliteratur noch nicht viel Anwendung findet, wird in der vorliegenden Arbeit die Kombination aus Transformer Modellen und Transfer-Learning für die Klassifikation von Vorschlägen verwendet, da sie in einer Vielzahl von Sprachaufgaben, einschließlich der Klassifikation, überlegen ist (Howard & Ruder, 2018). Insgesamt wurden sieben verschiedene Modelle mit unterschiedlichen Hyperparametern evaluiert. Die Implementierung des Modelltrainings basiert auf dem Framework flair (Akbik et al., 2019) und dem Modellregister von HuggingFace (Wolf et al., 2020). Um die Leistung der Transformer Modelle bewerten zu können, wurden auch klassische Deep-Learning Ansätze, die auf vortrainierten Wortvektoren basieren, trainiert und evaluiert. Drei gängige Architekturen wurde für die Klassifizierungsaufgabe betrachtet: Ein CNN, ein LSTM sowie eine gated recurrent unit (GRU). Die Eingabe für die Modelle waren GloVe-Vektoren (Pennington et al., 2014). Darüber hinaus wurden zwei verschiedene fastText-Vektoren (Bojanowski et al., 2016) getestet. Eine Variante wird durch eine Kombination aus Nachrichten und Wikipedia-Artikeln trainiert, während die zweite auf Website-Texten basiert. Dieser Ansatz ähnelt bestehenden Deep-Learning Modellen in der Literatur, wie z. B. die Verwendung von CNNs und LSTMs auf der Grundlage selbst trainierter Vektoren von Timoshenko und Hauser (2019) oder die Klassifikation von Bedürfnissen von F. Zhou et al. (2019) unter Verwendung von fastText-Vektoren und einer Softmax-Schicht. Durch das Training eines agnostischen Klassifikators kann das Modell Vorschläge für Kategorien erkennen, die das Modell beim Training nicht gesehen hat. Anschließend kann der Generalisierungsfehler, ein Maß für die Vorhersagefähigkeit bei unabhängigen Daten, d. h. bei Beispielen einer unabhängigen Kategorie, ermittelt werden. Zur Schätzung dieses Fehlers wurde ein spezifischer Kreuzvalidierungsansatz verwendet, der in Abbildung 4.2 schematisch dargestellt ist. Die Vorhersagequalität für eine Kategorie, z. B. Laptops, basiert auf einem Modell,

88

4 Vorschläge zur Produktentwicklung und -verbesserung …

Abbildung 4.2 Schematische Darstellung des Ansatzes der Leave-One-Category-Out Kreuzvalidierung

das auf den verbleibenden 19 der 20 betrachteten Kategorien trainiert wurde. Dieses Verfahren wurde für alle Kategorien angewandt, um eine Gesamtleistung zu ermitteln. Geras und Sutton (2013) sowie Afendras und Markatou (2017) berichten, dass dieser Kreuzvalidierungsansatz mit Auslassung einer Kategorie im Gegensatz zu Standardverfahren zu einer unverzerrten Schätzung der Leistung für eine neue Quelle führt, die in den Trainingsdaten nicht vorhanden war. Um die Generalisierbarkeit der Modelle weiter zu verbessern, wurden durch Datenerweiterung synthetische Trainingsdaten erzeugt. Die Einzelheiten dieses Ansatzes sind im Anhang B.4 im elektronischen Zusatzmaterial zu finden.

4.2.4

Schritt 4: Evaluation

Zum Vergleich der verschiedenen Modelle wurde der F1 Wert verwendet, der für unausgewogene Daten besser zur Evaluation geeignet ist als die Genauigkeit der Modelle (C. D. Manning et al., 2008). Auch in vergleichbarer Literatur zur Erkennung relevanter Inhalte in Texten wird in der Regel der F1 Wert betrachtet (Leekha et al., 2020; Moghaddam, 2015; Timoshenko & Hauser, 2019). Tabelle B.7 im Anhang des elektronischen Zusatzmaterials fasst die Ergebnisse der verschiedenen Modelle zusammen. Die beste Leistung für die klassischen Deep-Learning-Ansätze erzielt das LSTM (F1 = 0,64; SD=0,05) mit den fastText-Vektoren. Generell schneiden alle Transformer Modelle besser ab als dieses LSTM, wie das Histogramm B.1 im Anhang des elektronischen Zusatzmaterials zeigt, wobei RoBERTa die besten

4.2 Extraktion von Vorschlägen

89

Ergebnisse für die Transformer liefert. Der F1 Wert von 0,82 (SD =0,03) war etwa 28 % höher als der des besten klassischen Deep-Learning Modells. Für verschiedene Sätze ergibt die Klassifizierung des Modells unterschiedliche Konfidenzwerte, je nachdem, wie sicher die Vorhersage ist. Dies führt zu einem gewissen Kompromiss zwischen True-Positive- und False-Positve-Rate. Dieser Kompromiss kann in der Receiver Operating Characteristic (ROC)-Kurve grafisch dargestellt werden. Abbildung 4.3 zeigt diese ROC-Kurve für das RoBERTaund das LSTM-Modell. Der Kompromiss kann auch durch die Fläche unter der Kurve (Area Under the Curve, AUC) quantifiziert werden, die für eine zufällige Vorhersage (orange) 0,5 beträgt. Das auf fastText-Vektoren basierende LSTM-Modell hat eine AUC von 0,85 und schneidet damit besser ab als das Zufallsmodell. Das RoBERTa-Modell, dessen ROC-Kurve in Grün dargestellt ist, zeigt mit einem AUC von 0,93 eine deutliche Verbesserung des Trade-offs im Vergleich zum LSTM.

Abbildung 4.3 Receiver Operating Characteristic (ROC)-Kurve des RoBERTa und LSTMModells

90

4 Vorschläge zur Produktentwicklung und -verbesserung …

Das beste Transformer Modell RoBERTa erzielt in allen Kategorien sehr gute Ergebnisse, wie Abbildung 4.4 zeigt. Das Balkendiagramm enthält den F1 Wert und die AUC für die 20 Kategorien. Der niedrigste F1 Wert wird für die LowInvolvement-Kategorie Zahnpasta erreicht (0,79), während die High-InvolvementKategorie Mountainbikes den höchsten F1 Wert aufweist (0,87). Es gibt jedoch keinen signifikanten Unterschied zwischen den Kategorien mit hohem (M = 0, 82, S D = 0, 025) und niedrigem Involvement (M = 0, 83, S D = 0, 024) im Allgemeinen (t(18) = 0, 15, p = 0, 88), wenn man die stratifizierte Stichprobe betrachtet. Es besteht eine positive Korrelation zwischen dem F1 Wert und dem Anteil an Vorschlägen einer Kategorie (r = 0, 44).

Abbildung 4.4 F1 Wert und AUC für RoBERTa-Modell je Kategorie

Außerdem wurde eine Sensitivittsanalyse durchgeführt, um zu untersuchen, wie stark die Klassifizierung von Vorschlägen auf die Menge der verfügbaren Trainingsdaten reagiert. Zu diesem Zweck wurde das RoBERTa-Modell für verschiedene Stichprobengrößen trainiert. Für die Auswertung wurden alle Daten berücksichtigt, um die Qualität der Modelle für die Stichprobe so genau wie möglich zu bestimmen. Zusätzlich wurde das LSTM auf Basis der fastText-Vektoren (Web Crawl) als bestes klassisches Modell eingesetzt. Abbildung 4.5 zeigt den F1 Wert nach Anteil der Trainingsdaten. Das RoBERTa-Modell erzielt bereits bei sehr wenigen

4.2 Extraktion von Vorschlägen

91

Trainingsdaten sehr gute Klassifizierungsergebnisse für unbekannte Kategorien. Für 4 % der Daten, d. h. etwa 380 Sätze, erreicht das Modell bereits einen F1 Wert von 0,77. Bei der Untersuchung von 18 % (1.710 Sätze) der Daten liegt der Wert über 0,8. Diese Ergebnisse ähneln den Ergebnissen bei der Betrachtung des gesamten Datensatzes. Im Gegensatz dazu benötigt das LSTM deutlich mehr Daten. So erzielt es bei 10 % (950 Sätze) nur einen F1 Wert von 0,27 und erreicht erst bei 45 % der Sätze (4.275) einen F1 Wert von 0,65. Auch wenn mehr Daten berücksichtigt werden, verbessern sich die Ergebnisse des LSTM nicht wesentlich.

Abbildung 4.5 F1 Wert des RoBERTa-Modells und LSTM abhängig von der Menge an Trainingsdaten

4.2.5

Schritt 5: Zusammenfassung

Ziel des letzten Analyseschrittes, der Zusammenfassung, war es, durch die Kombination des agnostischen Vorschlags-Modells und des generativen Sprachmodells GPT-3 Vorschlagslisten für beliebige Produkte zu erstellen. Da jeder fünfte Bewertungssatz Vorschläge enthält (siehe Tabelle 4.3), führt die gerade beschriebene Klassifizierung immer noch zu einer riesigen Anzahl von Sätzen mit Vorschlägen. Das bedeutet einen hohen manuellen Aufwand für das Lesen aller Sätze. Gleichzeitig besteht die Gefahr, dass neue Informationen übersehen werden (Timoshenko & Hauser, 2019). Daher ist es sowohl für wissenschaftliche als auch für kommerzielle Anwendungen notwendig, den Inhalt zusammenzufassen.

92

4 Vorschläge zur Produktentwicklung und -verbesserung …

Die vollautomatische Erstellung von Vorschlagslisten umfasst vier Hauptschritte. Zunächst wurden alle Bewertungen für die acht Produkte gescraped. Im Anschluss wurde der Vorschlags-Klassifikator verwendet, um alle Vorschläge zu erkennen. Mithilfe von GTP-3, einem Sprachmodell mit 175 Milliarden Parametern, wurden sechs Sammlungen von jeweils 33 Sätzen gebildet. Im dritten Schritt wurden fünf Vorschläge pro Sammlung extrahiert. Abschließend wurde GTP-3 erneut eingesetzt, um die 30 Vorschläge zu zehn eindeutigen Vorschlägen zu kombinieren. Der Prozess und die detaillierten Beschreibungen der Textgenerierungsbefehle sind in Tabelle B.8 im Anhang des elektronischen Zusatzmaterials zu finden. Für die Faltenpads (ASIN: B00027DMSI), die als Gesichtspflaster aus Papier auf die Haut aufgeklebt werden, um Falten zwischen den Augen und horizontale Stirnfalten zu behandeln, ergab dies die in Abbildung 4.6 dargestellten expliziten Vorschläge.

Abbildung 4.6 Vollautomatisierte Generierung von expliziten Vorschlägen auf Basis von Bewertungen für Stirn- und Augenfaltenpflastern (ASIN: B00027DMSI)

4.3 Einholung von Vorschlägen

93

Obwohl die Faltenpads nicht in die Trainingskategorie fallen, ergeben sich zehn sehr spezifische Vorschläge zur Verbesserung des Produkts. Dazu gehören zum einen Änderungen am bestehenden Produkt, z. B. an der Größe, dem Geruch oder dem Klebstoff. Andererseits gibt es auch kreative Verbesserungsvorschläge, wie z. B. Vorschlag 3, der sich auf das Bedürfnis nach dem Aussehen des Produkts bezieht (z. B. „Ich mag es, aber es könnte besser sein, wenn die Streifen durchsichtig wären, es ist nicht sehr warm, wenn mein Mann das trägt :-/“). Die sieben zusätzlichen Vorschlagslisten für die Hersteller finden sich in Tabelle B.9 im Anhang des elektronischen Zusatzmaterials.

4.3

Einholung von Vorschlägen

Im Folgenden wird beschrieben, wie die Treiber von Vorschlägen in Produktbewertungen untersucht wurden. Hierzu wurde ein Datensatz von mehr als 1 Million Bewertungen analysiert, um zu verstehen, wie verschiedene Variablen wie Sternebewertung, Preis oder Vine-Anreize die Anzahl der Sätze mit Vorschlägen beeinflussen. Außerdem werden die Interaktion dieser Effekte und die Stabilität der Modelle untersucht.

4.3.1

Datengrundlage

Zur Untersuchung der Treiber von Vorschlägen in Bewertungen wurde ein Datensatz von Amazon.com Produktbewertungen ausgewertet, in dem die Daten einer Vielzahl verschiedener Bewerter enthalten waren. Dieser Stichprobenansatz wird von Boegershausen et al. (2022) empfohlen, um eine vielfältige Stichprobe von Bewertungen zu erhalten. Darüber hinaus wird so eine bestimmte Anzahl von Bewertungen pro Bewerter sichergestellt, was bei der Analyse der Bewertungen eine bessere Kontrolle für fixe Effekte der Bewerter ermöglicht. Für jeden Bewerter wurden die Profil-Metadaten, wie z. B. die Gesamtzahl der Bewertungen oder der Bewertungsrang gesammelt. Darüber hinaus wurden Teilnehmende des VineProgramms von Amazon.com anhand des Abzeichens „VINE VOICE“ auf der Profilseite identifiziert. Auf diese Weise konnten Informationen über 1.220 Teilnehmer des Vine-Programms und 106.103 Nicht-Vine-Teilnehmer gesammelt werden. Für jede bewertende Person wurden zusätzlich die letzten Bewertungen abgefragt, sodass bis zu 10 Bewertungen pro Person gesammelt werden konnten. Da in der Stichprobe weniger als 1 % Vine-Teilnehmer enthalten waren, wurden mehr Bewertungen pro Vine-Teilnehmer erhoben, um mehr Daten für diese Subgruppe zu

94

4 Vorschläge zur Produktentwicklung und -verbesserung …

erhalten. Dies ergab einen Datensatz von 1.040.005 Bewertungen, die zwischen Januar 1998 und März 2022 verfasst wurden. Mehr als 84 % der Bewertungen wurden 2020 oder später veröffentlicht. Die Bewertungen verteilen sich auf 563 Amazon-Kategorien der zweiten Ebene. Eine Übersicht über die häufigsten Kategorien sowie deren deskriptive Statistiken findet sich in der Tabelle B.3 im Anhang des elektronischen Zusatzmaterials.

4.3.2

Erhebungen

Tabelle 4.4 gibt einen Überblick über die Variablen, die für die folgenden Analysen verwendet wurden. Die Korrelationen der Variablen sind in Tabelle 4.5 dargestellt.

4.3.3

Empirisches Vorgehen

Um die Treiber von Vorschlägen zu untersuchen, werden drei Modelle mit unterschiedlichen Schwerpunkten betrachtet. Das erste Modell beinhaltet eine Projektion auf die Bewerter-ID, um eine mögliche Endogenität zu minimieren. Darauf aufbauend werden Interaktionen einbezogen, um das Zusammenspiel der Einflussfaktoren zu untersuchen. Drittens werden anstelle der Projektion auf die Bewerter-ID individuelle Merkmale des Bewerters berücksichtigt, um deren Einfluss zu untersuchen. Um die große Kardinalität der multiplen fixen Effekte (siehe Tabelle 4.6) zu handhaben, wird der Ansatz der alternierenden Projektionen (Cameron et al., 2011; Kolesár et al., 2015) unter Verwendung der R-Implementierung lfe (Gaure, 2013) angewandt. Im ersten Modell wird die Anzahl der Sätze mit Vorschlägen [suggestion sentencesi ] in einer Bewertung i für ein Produkt k durch den Bewerter j geschätzt. Als mögliche Einflussfaktoren werden die Sternebewertung ratingi , die durchschnittliche Bewertung des Produkts avg. ratingk und der Preis des Produkts pricek betrachtet. Außerdem wird mit der Variablen free producti berücksichtigt, ob das Produkt im Rahmen des Vine-Programms kostenlos war, um einen Anreiz für die Bewertung zu schaffen. Neben der Kontrollvariablen Anzahl der Sätze sentencesi werden Projektionen für den Bewerter [reviewer id j ], die Kategorie [categoryk ] sowie Jahr und Monat der Bewertung [year-monthi ] verwendet. (1) suggestion sentencesi = β0 + β1 ratingi + β2 avg. ratingk + β3 pricek + β4 free producti + β5 sentencesi + [reviewer id j ] + [categoryk ] + [year-monthi ] + i

Name

Sätze mit Vorschlägen

Amazon Preis

Durchschn. Produktbewertung

Sternebewertung

Kostenloses Vine-Produkt

Vine-Teilnehmer

Relativer Anteil nützliche Bewertung

Log des AmazonBewertungsrankings

Log der Anzahl der Bewertungen des Bewerters

Bewerter-ID

Produktkategorie

Monat und Jahr der Bewertung

Anzahl der Sätze

Variable

suggestion sentencesi

pricek

avg. ratingk

ratingi

free producti

vine reviewer j

rel. helpful j

log(rank j )

log(reviews j )

reviewer id j

categoryk

year-monthi

sentencesi

Kontrollvariablen

Eigenschaften des Bewerters

Bewertungsanreiz

Eigenschaften der Bewertung

Produkteigenschaften

Abhängige Variable

Variablenart

Gesamtzahl der Sätze der Bewertung

Gemeinsame Berücksichtigung von Monat und Jahr der Überprüfung, z. B. „2022-01“.

Amazon-Kategorie der Stufe 2, z. B. „Haustierbedarf >Kleintiere“.

Eindeutige Amazon-ID des Bewerters, z. B. „AF3BF35XGFZMHB2XFDROPJTJUFVA“

Protokoll der Anzahl der Bewertungen des Bewerters; basierend auf der Gesamtzahl der Bewertungen auf dem Bewerter-Profil

Protokoll des Amazon-Bewertungsrangs; basierend auf dem Bewertungsrang auf dem Bewerter-Profil

Durchschnittliche Anzahl hilfreicher Stimmen pro Bewertung; basierend auf der Gesamtzahl der Bewertungen und der Gesamtzahl der hilfreichen Stimmen auf dem Bewerter-Profil

Flagge für Mitglieder des Vine-Programms von Amazon; Kennzeichnung durch das „VINE VOICE“-Badge auf dem Bewerter-Profil

Kennzeichnung, ob der Kunde das Produkt im Rahmen des Vine-Programms kostenlos erhalten hat; Kennzeichnung durch das Bewertungsabzeichen „Vine Customer Review of Free Product“.

Bewertungen von 1 bis 5 Sternen

Durchschnittliche Produktbewertung, die auf der Amazon-Produktseite angezeigt wird

Amazon-Produktpreis (angezeigter Preis in der Kaufbox)

Anzahl der Sätze, die vom kategorieunabhängigen Klassifikator als Vorschlag eingestuft wurden

Beschreibung

Tabelle 4.4 Beschreibung der Variablen für Bewertung i, Bewerter j und Produkt k

4.3 Einholung von Vorschlägen 95

log(reviews j )

−0.932 ∗ ∗∗ 0.340***

0.866***

0.795***

0.400***

0.003**

avg. ratingk

0.107***

−0.110 ∗ ∗∗

0.089***

suggestion sentencesi

0.031*** −0.153 ∗ ∗∗ −0.048 ∗ ∗∗

0.139***

0.015***

0.219***

−0.268 ∗ ∗∗

0.251***

0.262***

−0.141 ∗ ∗∗ −0.024 ∗ ∗∗

0.647*** 0.226***

0.079***

−0.017 ∗ ∗∗ −0.343 ∗ ∗∗

0.009***

pricek

−0.148 ∗ ∗∗ −0.007 ∗ ∗∗

−0.023 ∗ ∗∗ −0.050 ∗ ∗∗

0.094***

0.093***

−0.018 ∗ ∗∗ −0.086 ∗ ∗∗

ratingi

−0.462 ∗ ∗∗ −0.903 ∗ ∗∗ −0.818 ∗ ∗∗ −0.461 ∗ ∗∗ −0.095 ∗ ∗∗

0.382***

0.239***

rel. helpful j

log(rank j )

0.460***

sentencesi

0.881***

free producti

vine reviewer j 0.371***

vine reviewer j

0.339***

rel. helpful j

free producti

sentencesi

ratingi

avg. ratingk

pricek

log(rank j )

Tabelle 4.5 Korrelation der Variablen

96 4 Vorschläge zur Produktentwicklung und -verbesserung …

4.3 Einholung von Vorschlägen

97

Zusätzlich werden Wechselwirkungen zwischen den Variablen von Modell (1) angenommen. Beispielsweise ist die Kombination aus kostenlosem Produkt und Preis der Anreiz für das Verfassen einer Bewertung und es wird ein direkter Effekt dieses Betrags erwartet. Außerdem könnte der Anreiz je nach Sternebewertung eine unterschiedliche Wirkung haben. Aus diesem Grund werden alle möglichen Interaktionseffekte der Hauptvariablen in das nächste Modell mitaufgenommen. (2) suggestion sentencesi = β0 + β1 ratingi + β2 avg. ratingk + β3 pricek + β4 free producti + β5 ratingi · avg. ratingk + β6 ratingi · pricek + β7 ratingi · free producti + β8 avg. ratingi · pricek + β9 avg. ratingi · free producti + β10 pricek · free producti + β11 ratingi · avg. ratingk · pricek + β12 ratingi · avg. ratingk · free producti + β13 ratingi · pricek · free producti + β14 avg. ratingi · pricek · free producti + β15 ratingi · avg. ratingk · pricek · free producti + β16 sentencesi + [reviewer id j ] + [categoryk ] + [year-monthi ] + i Die Projektion auf die ID des Bewerters in Modell (1) reduziert die potenzielle Endogenität, gleichzeitig können keine Rückschlüsse auf den Einfluss bestimmter Merkmale des Bewerters gezogen werden. Daher werden die Vine-Mitgliedschaft vine reviewer j , die relative Anzahl hilfreicher Stimmen rel. helpful j , der Rang des Bewerters log(rank j ) und die Anzahl der Bewertungen des Bewerters log(reviews j ) anstelle der Projektion der Bewerter-ID im nächsten Modell mit einbezogen. Da die Variablen vine reviewer j , log(rank j ) und log(reviews j ) eine hohe Korrelation zwischen 0,87 und 0,93 aufweisen, werden auch Modelle mit nur einer der drei Variablen geschätzt. (3) suggestion sentencesi = β0 + β1 ratingi + β2 avg. ratingk + β3 pricek + β4 free producti + β5 sentencesi + β6 vine reviewer j + β7 rel. helpful j + β8 log(rank j ) + β9 log(reviews j ) + [categoryk ] + [year-monthi ] + i

4.3.4

Ergebnisse

Die Ergebnisse der drei Modelle sind in Tabelle 4.6 dargestellt. Für Modell (1) sind alle Effekte zu einem Niveau von 0,001 signifikant. Die durchschnittliche Bewertung des Produkts und die Sternebewertung haben einen negativen Einfluss auf die Anzahl der Sätze mit Vorschlägen. Im Gegensatz dazu haben der Preis des Produkts, die Anzahl der Sätze und die Tatsache, dass es sich um ein kostenloses Vine-Produkt handelt, einen positiven Effekt. Diese Effekte bleiben stabil, wenn die Variablen

Kostenloses Produkt Kostenloses Produkt · Durchschn. Bewertung Kostenloses Produkt · Preis Durchschn. Bewertung · Preis

Sätze

Bewertung

Prädiktoren avg. Bewertung Preis

Schätzungen −0.2163 ∗ ∗∗ (0.0032) 0.0002*** (0.0000) −0.4144 ∗ ∗∗ (0.0010) 0.1967*** (0.0003) 0.1752*** (0.0067)

(1) Basis Modell

−0.0006 ∗ ∗∗ (0.0001)

−0.0056 ∗ ∗∗ (0.0017)

Schätzungen −0.0556 ∗ ∗∗ (0.0090) 0.0039*** (0.0003) −0.2844 ∗ ∗∗ (0.0108) 0.1949*** (0.0003) 1.2411*** (0.1165) 0.1462*** (0.0275)

(2) Interaktionen

Tabelle 4.6 Analyse der Vorschläge in Bewertungssätzen

Schätzungen −0.1981 ∗ ∗∗ (0.0029) 0.0002*** (0.0000) −0.4134 ∗ ∗∗ (0.0008) 0.1806*** (0.0002) 0.2948*** (0.0055)

(3A) Bewerter Schätzungen −0.1960 ∗ ∗∗ (0.0029) 0.0002*** (0.0000) −0.4136 ∗ ∗∗ (0.0008) 0.1807*** (0.0002) 0.2922*** (0.0054)

(3B) Eigenschaften Bewerter – Vine Schätzungen −0.1991 ∗ ∗∗ (0.0029) 0.0002*** (0.0000) −0.4138 ∗ ∗∗ (0.0008) 0.1798*** (0.0002) 0.1620*** (0.0043)

(3C) Eigenschaften Bewerter – Rang

(Fortsetzung)

Schätzungen −0.2021 ∗ ∗∗ (0.0029) 0.0002*** (0.0000) −0.4137 ∗ ∗∗ (0.0008) 0.1793*** (0.0002) 0.1505*** (0.0040)

(3D) Eigenschaften Bewerter – Bewertungen

98 4 Vorschläge zur Produktentwicklung und -verbesserung …

Prädiktoren Kostenloses Produkt · Bewertung Durchschn. Bewertung · Bewertung Preis · Bewertung Kostenloses Produkt · Durschn. Bewertung · Bewertung Kostenloses Produkt · Preis · Bewertung Durchschn. Bewertung · Preis · Bewertung

Schätzungen

(1) Basis Modell

Tabelle 4.6 (Fortsetzung)

0.0001*** (0.0000)

0.0013*** (0.0004)

−0.0009 ∗ ∗∗ (0.0001) −0.0619 ∗ ∗∗ (0.0064)

−0.0085 ∗ ∗∗ (0.0024)

Schätzungen −0.1199 ∗ ∗∗ (0.0272)

(2) Interaktionen Schätzungen

(3A) Bewerter Schätzungen

(3B) Eigenschaften Bewerter – Vine Schätzungen

(3C) Eigenschaften Bewerter – Rang

(Fortsetzung)

Schätzungen

(3D) Eigenschaften Bewerter – Bewertungen

4.3 Einholung von Vorschlägen 99

Bewer ter _I D

1040005

* p