Künstliche Intelligenz für Business Analytics: Algorithmen, Plattformen und Anwendungsszenarien [1. Aufl.] 9783658297725, 9783658297732

Waren Methoden der Künstlichen Intelligenz (KI) bis vor wenigen Jahren noch ausschließlich ein Thema von wissenschaftlic

708 79 4MB

German Pages XI, 157 [166] Year 2020

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Algorithmen: Algorithmen und Datenstrukturen 3868941843, 9783868941845

609 59 47MB Read more

Ada und die Algorithmen: Wahre Geschichten aus der Welt der künstlichen Intelligenz 3406775632, 9783406775635

WAHRE GESCHICHTEN AUS DER WELT DER KÜNSTLICHEN INTELLIGENZ - DAS NEUE BUCH DES WUNDERKINDS STEFAN BUIJSMAN Ist künstlic

117 7 Read more

Ada und die Algorithmen: Wahre Geschichten aus der Welt der künstlichen Intelligenz 9783406775642

Ist künstliche Intelligenz eine existenzielle Bedrohung für die Menschheit? In vielen unterhaltsamen Geschichten klärt d

121 50 Read more

Algorithmen und Datenstrukturen 9783486594089

Der Autor bietet eine systematische und umfassende Einführung in das Thema Datenstrukturen und Algorithmen. Aus dem Inha

231 12 16MB Read more

Digitalisierung im Recruiting: Wie sich Recruiting durch künstliche Intelligenz, Algorithmen und Bots verändert [1. Aufl. 2020] 978-3-658-25884-9, 978-3-658-25885-6

Dieses Buch bietet einen umfassenden Überblick über die relevanten Trendthemen des Digital Recruiting. Es beleuchtet in

2,579 125 5MB Read more

Intelligenz und Rasse: Franz Boas' psychologischer Antirassismus zwischen Amerika und Deutschland, 1920-1942 [1. Aufl.] 9783839425602

The psychological testing work of the German-American anthropologist Franz Boas and his school are fundamentally examine

270 92 1MB Read more

Digitalisierung und Künstliche Intelligenz: Kooperation von Menschen und Maschinen aktiv gestalten [1. Aufl.] 9783658317942, 9783658317959

Für jeden von uns ist heute die Frage wichtig, wie in Zukunft Menschen und Maschinen zum Wohle des Menschen zusammenarbe

952 131 865KB Read more

Digitale Bildung und Künstliche Intelligenz in Deutschland: Nachhaltige Wettbewerbsfähigkeit und Zukunftsagenda [1. Aufl.] 9783658305246, 9783658305253

Dieses Buch fokussiert die in der Corona-Pandemie besonders deutlich gewordene Notwendigkeit der digitalen Bildung und N

2,406 160 9MB Read more

Algorithmen und Datenstrukturen 3898643859, 9783898643856

632 146 76MB Read more

Statistische Hypothesentests: Bausteine der Künstlichen Intelligenz [1. Aufl.] 9783658305901, 9783658305918

Dieses Essential führt über die formale Methode des statistischen Entscheidens hinaus und klärt die Frage, mit welcher G

443 124 3MB Read more

Künstliche Intelligenz für Business Analytics: Algorithmen, Plattformen und Anwendungsszenarien [1. Aufl.]
9783658297725, 9783658297732

Author / Uploaded
Felix Weber

Table of contents :
Front Matter ....Pages I-XI
Business Analytics und Analytics (Felix Weber)....Pages 1-36
Künstliche Intelligenz (Felix Weber)....Pages 37-72
KI- und BA-Plattformen (Felix Weber)....Pages 73-125
Fallstudien zum Einsatz von KI-basierter Business Analytics (Felix Weber)....Pages 127-153
Back Matter ....Pages 155-158

Citation preview

Felix Weber

Künstliche Intelligenz für Business Analytics Algorithmen, Plattformen und Anwendungsszenarien

Künstliche Intelligenz für Business Analytics

Felix Weber

Künstliche Intelligenz für Business Analytics Algorithmen, Plattformen und Anwendungsszenarien

Felix Weber Lehrstuhl für Wirtschaftsinformatik Universität Duisburg-Essen Essen, Deutschland

ISBN 978-3-658-29772-5 ISBN 978-3-658-29773-2 (eBook) https://doi.org/10.1007/978-3-658-29773-2 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer Vieweg © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung: Sybille Thelen Springer Vieweg ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany

Vorwort

Mit einem rein akademischen Hintergrund überrascht es doch viele Neueinsteiger, was die Leute in der Praxis Business Intelligence (BI) und Business Analytics (BA) nennen. Der erste naive Gedanke von Hochschulabsolventen ist sicherlich, dass wirklich komplexe Künstliche Intelligenz (KI) und fortschrittliche Modelle des Maschinellen Lernens in den international aufgestellten deutschen Unternehmen angewandt werden. Wie sonst sollte man auch konkurrenzfähig bleiben, wenn man nicht schon vor dem Konsumenten weiß, welche Farbe des Neuwagens oder Handymodells in der Zukunft gewünscht wird und dies dann situationsabhängig über alle denkmöglichen Werbekanäle ausspielt. Aber nach kurzer Untersuchung war ich sehr überrascht, als ich feststellte, dass das meiste davon nur einfache deskriptive Statistiken sind.1 Einer der größten deutschen Einzelhändler erfasst die Umsatzberichte nur wöchentlich und aggregiert diese nicht einmal aus dem eingesetzten ERP-System, sondern veranlasst vielmehr die einzelnen Händler, die Zahlen manuell zusammenzustellen und ins hauseigene Informationssystem einzutragen. Ein anderer beschäftigt sich gerade jetzt erst mit grundlegenden Analysen des Geschäft’s basierend auf einfachen Kennzahlen wie beispielsweise der Zusammensetzung der Kassenbons und des Werbeanteils, also der Anzahl der beworbenen Produkte in Relation zu nicht beworbenen, je Bon. Wahrscheinlich ist dieses plötzliche Interesse auf die aufkommende Konkurrenz durch Onlinehändler wie Amazon, der erst 2017 mit Amazon Fresh in den deutschen Lebensmittelhandel eingestiegen ist, zurückzuführen.2 Ein Großteil der Analysen im Geschäftsumfeld sind deskriptive Analysen. Sie berechnen deskriptive Statistiken (d. h. Zähler, Summen, Durchschnitte, Prozentsätze, Minimum,

Diese Feststellung gilt allerdings für viele der aus der idealisierten Welt der Forschung stammenden Ideen, Konzepte und Handlungsempfehlungen. Die Systemarchitekturen sind monolithischen Mainframe-Architekturen ähnlicher als dem State of the Art von verteilten Service-orientierten Architekturen – oder die Planung und Durchführung von Projekten ignoriert die letzten Jahrzehnte der Forschung im Bereich Projektmanagement und nutzt stattdessen, wenn überhaupt, eine Microsoft Excel-basierte „Planung“. 2 Ehrlicherweise muss man auch sagen, dass der Erfolg der deutschen Einzelhändler in der Vergangenheit bisher auch keine tiefergehende Auseinandersetzung mit diesen Themen erforderlich gemacht hätte. 1

V

VI

Vorwort

Maximum und einfache Arithmetik), welche bestimmte Gruppierungen oder gefilterte Versionen der Daten zusammenfassen, die typischerweise einfache Zählungen einiger Ereignisse sind. Diese Analysen basieren meist auf Standard-Aggregatfunktionen in Datenbanken, die nichts anderes erfordern als Mathematik in der Grundschule. Selbst grundlegende Statistiken (z. B. Standardabweichungen, Varianz, p-Wert etc.) sind recht selten. Der Zweck der deskriptiven Analytik ist es, einfach zusammenzufassen und Ihnen zu sagen, was passiert ist: Zum Beispiel den Umsatz, die Anzahl der Kunden, der Anteil der beworbenen Produkte vom Gesamtumsatz, Seitenaufrufe etc. Es gibt buchstäblich Tausende dieser Metriken – es ist sinnlos, sie aufzulisten –, aber sie sind alle nur einfache Ereigniszähler. Andere deskriptive Analysen können Ergebnisse einfacher arithmetischer Operationen sein, wie z. B. Stimmanteil, durchschnittliche Antwortzeit, %-Index, durchschnittliche Anzahl der Antworten pro Beitrag etc. Dies alles findet heute in einem Großteil der Unternehmen statt und wird zumeist als Business Intelligence bezeichnet. Meistens wird unter dem Stichwort Advanced Analytics die Erweiterung dieses Reporting um einige Filter auf den Daten, bevor die deskriptiven Statistiken berechnet werden, verstanden. Wenn Sie beispielsweise für Social-Media-Analysen zuerst einen Geofilter anwenden, können Sie Kennzahlen wie den durchschnittlichen Post pro Woche aus Deutschland und den durchschnittlichen Post pro Woche aus den Niederlanden erhalten. Und Sie können diese Daten auf einer schicken Karte für alle Länder, in denen Sie aktiv sind, anzeigen. Dann erhalten Sie plötzlich eine erweiterte Analytik, benutzen aber eigentlich auch nur Mathematik für die Grundschule. Für einen Wettbewerbsvorteil gegenüber den Wettbewerbern reicht diese rudimentäre Analytik allerdings nicht. Vor allem, wenn Sie plötzlich mit Digital Natives wie Google, Amazon oder Alibaba konkurrieren müssen. Im Zeitalter der Digitalisierung ist dies aber plötzlich die Herausforderung für viele Branchen. Amazon hat den Bücherhandel und danach den Handel an sich umgekrempelt. Google steigt plötzlich mit selbstfahrenden Autos in den Automobilmarkt ein, Uber degradiert Branchengrößen in der Automobilindustrie (Volvo und Toyota) zu reinen Zulieferern und Airbnb übernimmt ohne eigene Immobilien einen großen Marktanteil in der Hotelindustrie. So unterschiedlich diese Beispiele auch sind, so basieren diese nicht nur auf Software und Plattformen, sondern vor allem einer ausgereiften Analytik. Uber hat eine riesige Datenbank von Fahrern, sodass, sobald Sie ein Auto anfordern, Ubers Algorithmus sofort einsatzbereit ist – in 15 Sekunden oder weniger passt er Sie mit dem Fahrer in Ihrer Nähe zusammen. Im Hintergrund speichert Uber Daten über jede Fahrt – auch wenn der Fahrer keine Fahrgäste hat. Alle diese Daten werden gespeichert und genutzt, um Angebot und Nachfrage vorherzusagen und die Tarife festzulegen. Uber untersucht auch, wie der Transport zwischen den Städten abgewickelt wird, und versucht, sich auf Engpässe und andere häufige Probleme einzustellen. Zum Ziel des Buchs Das Ziel dieses Buches soll nicht die Ausbildung zum Data Scientist oder Data Analyst sein, auch wird sich niemand nach der Lektüre als Experte für Künstliche Intelligenz oder

Vorwort

VII

Maschinelles Lernen bezeichnen können – auch wenn das der eine oder andere Unternehmensberater tun wird. Vielmehr führt das Buch in komprimierter Form in die essenziellen Aspekte der Business Analytics und den Einsatz von Methoden der Künstlichen Intelligenz dort ein. Zunächst einmal werden die grundlegenden Begriffe und Denkmuster der Analytics der deskriptiven, prädiktiven bis zur präskriptiven Analytik vorgestellt Abschn. 1.3. Es folgt mit dem Business Analytics Model for Artificial Intelligence (BAM. AI) ein Vorgehensmodell zur Umsetzung von Business-Analytics-Projekten Abschn. 1.5 und ein Technologieframework inklusive der Vorstellung der wichtigsten Frameworks, Programmiersprachen und Architekturen Kap. 3. Nach einer Einführung in die Künstliche Intelligenz Kap. 2 und vor allem den Teilbereich des Maschinellen Lernens werden die wichtigsten Problemkategorien beschrieben und die einsetzbaren Algorithmen grob, aber in verständlicher Form vorgestellt Abschn. 2.2. Danach folgt eine detaillierte Übersicht über die gängigen Cloud-Plattformen Abschn. 3.2, die eine schnelle Umsetzung eines BA-Projektes ermöglichen. Hier wird dem Leser ein Leitfaden an die Hand gegeben, der ihm eine Übersicht über das umfangreiche Angebot der großen Anbieter ermöglicht. Abschließend zeigen mehrere Anwendungsszenarien aus verschiedenen Perspektiven die Einsatzmöglichkeit von KI und BA in verschiedenen Branchen als Fallstudien auf Abschn. 3.3. Da sich das Buch definitiv als Einstiegs- und Übersichtswerk für Entscheider und Umsetzer in der IT und den Einsatzdomänen sieht, wird an vielen Stellen auf tiefergehende Literatur verweisen. Essen, Deutschland

Felix Weber

Inhaltsverzeichnis

1 Business Analytics und Analytics�� 1 1.1 Notwendigkeit einer zunehmenden analytischen Entscheidungsunterstützung�� 1 1.2 Abgrenzung zwischen Business Intelligence und Business Analytics�� 6 1.3 Kategorisierung von analytischen Methoden und Modellen�� 8 1.3.1 Deskriptive Analytik �� 8 1.3.2 Prädiktive Analytik �� 9 1.3.3 Präskriptive Analytik�� 11 1.4 Business Analytics Technologieframework (BA.TF)�� 12 1.4.1 Datenquellen �� 14 1.4.2 Data Preparation �� 15 1.4.3 Datenspeicherung �� 16 1.4.4 Analyse �� 18 1.4.5 Zugriff und Nutzung �� 19 1.4.6 (Big)-Data Management and Governance�� 20 1.5 Vorgehensmodell: Business Analytics Model for Artificial Intelligence (BAM.AI)�� 22 1.5.1 Development Cycle�� 24 1.5.1.1 Business Understanding�� 24 1.5.1.2 Data Discovery �� 26 1.5.1.3 Data Wrangling�� 26 1.5.1.4 Analyse �� 27 1.5.1.5 Validierung�� 28 1.5.1.6 New Data Aquisition�� 29 1.5.2 Deployment Cycle�� 29 1.5.2.1 Publish�� 30 1.5.2.2 Analytic Deployment�� 31 1.5.2.3 Application Integration �� 33

IX

X

Inhaltsverzeichnis

1.5.2.4 Test�� 34 1.5.2.5 Production/Operations�� 34 1.5.2.6 Continuous Improvement �� 35 Literatur�� 35 2 Künstliche Intelligenz�� 37 2.1 Maschinelles Lernen �� 39 2.1.1 Überwachtes Lernen/Supervised Learning�� 40 2.1.2 Unüberwachtes Lernen/Unsupervised Learning�� 42 2.1.3 Bestärkendes Lernen/Reinforcement Learning�� 43 2.1.4 Übersicht über die Arten des Maschinellen Lernens�� 44 2.1.5 Neuronale Netze �� 44 2.2 Problemtypen der Künstlichen Intelligenz und deren Algorithmen�� 47 2.2.1 Klassifizierung�� 47 2.2.2 Abhängigkeiten und Assoziationen�� 50 2.2.3 Clustering�� 54 2.2.4 Regression, Prediction oder Vorhersage �� 56 2.2.5 Optimierung�� 59 2.2.6 Erkennung von Anomalien (Outliner)�� 61 2.2.7 Empfehlung oder Recommender-Systems�� 63 2.2.8 Wann welchen Algorithmus nutzen?�� 66 Literatur�� 71 3 KI- und BA-Plattformen�� 73 3.1 Grundbegriffe und Softwareframeworks�� 73 3.1.1 Datenhaltung�� 73 3.1.1.1 Datawarehouse�� 73 3.1.1.2 Data Lake�� 74 3.1.1.3 Data Streaming und Message Queuing�� 76 3.1.1.4 Datenbankmanagementsystem �� 78 3.1.1.5 Apache Hadoop�� 79 3.1.2 Datenanalyse und Programmiersprachen �� 82 3.1.2.1 Python �� 82 3.1.2.2 R�� 83 3.1.2.3 SQL�� 84 3.1.2.4 Scala�� 85 3.1.2.5 Julia�� 85 3.1.3 KI-Frameworks�� 86 3.1.3.1 Tensorflow�� 87 3.1.3.2 Theano�� 88 3.1.3.3 Torch �� 88 3.1.3.4 Scikit-learn�� 89 3.1.3.5 Jupyter Notebook�� 90

Inhaltsverzeichnis

XI

3.2 Business Analytics und Machine Learning as a Service (Cloud-Plattformen)�� 91 3.2.1 Amazon AWS �� 92 3.2.1.1 Data-Services von Amazon AWS �� 93 3.2.1.2 ML-Services von Amazon AWS�� 98 3.2.2 Google Cloud Platform�� 103 3.2.2.1 Data-Services von Google�� 104 3.2.2.2 ML-Services von Google�� 107 3.2.3 IBM Watson�� 108 3.2.4 Microsoft Azure�� 109 3.2.4.1 Data-Services von Microsoft Azure�� 109 3.2.4.2 ML-Services von Microsoft Azure �� 111 3.2.4.3 Weitere Services von Microsoft Azure in der Übersicht�� 112 3.2.5 SAP Services und SAP HANA Cloud Plattform (SCP) �� 112 3.2.5.1 Data-Services von SAP�� 115 3.2.5.2 ML-Services von SAP�� 118 3.2.5.3 SAP-HANA-Datenbankplattform�� 122 3.3 Build or Buy?�� 123 Literatur�� 125 4 Fallstudien zum Einsatz von KI-basierter Business Analytics�� 127 4.1 Fallstudie: Kundenstimmung in Echtzeit analysieren mit Streaming Analytics �� 127 4.1.1 Kundenzufriedenheit im Einzelhandel�� 127 4.1.2 Mit Technologieakzeptanz und Omnichannel zu mehr Daten�� 128 4.1.3 Customer Satisfaction Streaming Index (CSSI) �� 130 4.1.4 Implementierung in einer Retail-Architektur �� 131 4.1.5 Ergebnisse�� 133 4.2 Fallstudie: Marktsegmentierung und -automatisierung im Einzelhandel mit neuronalen Netzen�� 136 4.2.1 Die Standortentscheidung im stationären Handel�� 137 4.2.2 Marketing-Segmentierung und Einzugsgebiet�� 138 4.2.3 Klassische Clustering-Ansätze und Growing Neural Gas�� 139 4.2.4 Projektaufbau�� 142 4.2.5 Die Daten und Quellen �� 143 4.2.6 Implementierung�� 147 4.3 Ergebnisse �� 148 Literatur�� 151 Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

1

Business Analytics und Analytics

1.1

otwendigkeit einer zunehmenden N analytischen Entscheidungsunterstützung

Die Globalisierung, eine möglicherweise entstehende Ressourcenknappheit, deutlich erhöhte Komplexität der Märkte und der Aufstieg der BRICS-Länder sind die größten He rausforderungen für die führenden Industrieländer der letzten Jahre. Für diese Nationen und die dort beheimateten Unternehmen besteht die Hauptaufgabe für die nächsten Dekaden darin, die vorhandenen Produktionskapazitäten wesentlich effizienter auszunutzen und ein Umfeld für hoch entwickelte Industrieprodukte zu gewährleisten. Um diesen Herausforderungen gerecht zu werden, konzentriert man sich vornehmlich auf Subventionspolitik und Forschungsaktivitäten zu komplexen Konzepten wie der „Digitalen Fabrik“ [1], „Industrie 4.0“ [2] oder generell „Intelligente Produktionssysteme“ [3]. Neben dieser großen Veränderung liegt ein weiterer Fokus auf der Einführung einer Vielzahl von Systemen zur Steuerung, Optimierung und Kontrolle der bestehenden Betriebsprozesse. Das Hauptziel dieser Maßnahmen ist dabei, die vollständige Digitalisierung1 und Integration aller Prozesse des Produktlebenszyklus inklusive der Lieferketten anzustreben. Die Analytik ist dabei zum Technologietreiber dieses Jahrzehnts geworden. Unternehmen wie IBM, Oracle, Microsoft und andere haben ganze Organisationseinheiten geschaffen, die sich nur auf Analytik konzentrieren und die zu beratenden Unternehmen dabei unterstützen, effektiver und effizienter zu arbeiten. Entscheidungsträger nutzen mehr computergestützte Tools, um ihre Arbeit zu unterstützen. Ganze Bereiche im operativen Management und der Verwaltung könnten durch automatisierte analytische Systeme ersetzt werden. Und selbst die Verbraucher nutzen Analysetools direkt oder indirekt, um Entscheidungen über Routineaktivitäten wie Einkaufsentscheidungen (Stichwort:

1

Im Sinne einer digitalen Abbildung der Realität (Stichwort „Digital Twin“).

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 F. Weber, Künstliche Intelligenz für Business Analytics, https://doi.org/10.1007/978-3-658-29773-2_1

1

2

1 Business Analytics und Analytics

reisvergleichstools), Gesundheitswesen (Stichwort Health Apps) und Unterhaltung (das P angesprochene Beispiel von Netflix) zu treffen. Business Analytics entwickelt sich rasant weiter und konzentriert sich zunehmend auf innovative Anwendungen von Daten, die vor einiger Zeit noch nicht einmal erfasst, geschweige denn signifikant analysiert wurden. Was Unternehmen in diesem Zusammenhang brauchen, ist eine Möglichkeit, dass die richtigen Personen die richtigen Daten und Informationen zur richtigen Zeit verfügbar haben und somit eine Grundlage für rationale Entscheidungsfindung gewinnen, die den strategischen und operativen Marktbedingungen entspricht. Und das ist genau der Teil der Anforderungen und Leitlinien an Analytik in diesem Buch: cc

Anforderung: Die richtigen Daten für die richtigen Personen zur richtigen Zeit zur Entscheidungsunterstützung bereitstellen.

In dieser Anforderung wurde bewusst der Begriff Entscheidungsunterstützung gewählt, da dem Anwender Daten, Informationen oder Wissen zu einem bestimmten Zweck zur Verfügung gestellt werden: zur Erleichterung der Entscheidungen, die so oder so getroffen werden müssen. Hier wäre das markante Beispiel die Analyse der Kassenbons im Supermarkt und die Kenntnis darüber, welche Produkte im Verlauf eines Jahres wie oft verkauft werden. Die Kenntnis darüber ermöglicht es den Verantwortlichen, beispielsweise dem Filialleiter, seine Entscheidungen über Regalplatzierungen, Nachbestellungen oder Preis änderungen zu unterstützen. Diese Entscheidungen müssen so oder so getroffen werden, nur ermöglicht es Analytik, dass diese Entscheidungen nicht nur vom reinen „Bauchgefühl“ oder der jahrelangen Erfahrung abhängig sind. Unabhängig davon, ob Prognosemodelle verwendet werden, enthalten die historischen Daten eines Unternehmens immerhin einen Hinweis darauf, warum das Unternehmen in der jetzigen Situation ist, da diese Daten die vergangenen Situationen und Entscheidungen abbilden. Aufgrund der technischen Nähe und Komplexität wird Analytik meistens als reine IT-Disziplin betrachtet, die in erster Linie durch das technische Umfeld des Unternehmens getrieben wird. Diese Verortung vernachlässig allerdings immer das notwendige Wissen der Domäne. So wird eine Analytik ohne Berücksichtigung der Organisation (Mission, Vision, Strategie und Ziele) und der genauen Kenntnis der realen Geschäftsprozesse, die meistens nicht dokumentiert oder in IT-Systemen abgebildet sind, kaum die optimale Lösung darstellen. Betrachtet man nur das zuvor genannte Beispiel des Filialleiters, so lassen sich schnell eine Fülle von Einflussfaktoren ableiten, die ein reiner IT-Fokus – auch aufgrund nicht erfasster Daten – vernachlässigt hätte: Demografie, sozio-ökonomisches Umfeld (lokal und gesamtvolkswirtschaftlich), Kundenstimmungen oder gar die Eigenheiten der Konsumenten vor Ort (bekannt dem Filialleiter durch seinen täglichen Umgang, aber kaum in einem IT-System abgebildet). Ein gewisses Grundgerüst an Analytik war und ist eigentlich in jedem Unternehmen vorhanden und seien es nur die allgegenwärtigen Excel-Dateien. In den letzten Jahren haben die zugrunde liegenden IT-Systeme jedoch einige wichtige Entwicklungen erfahren.

1.1 Notwendigkeit einer zunehmenden analytischen Entscheidungsunterstützung

3

Eine große Änderung wird als „Big Data“ bezeichnet. Dabei ist die Größe der Daten2 die erste und manchmal die einzige Dimension, die bei der Erwähnung großer Daten hervortritt. An dieser Stelle wollen wir nicht zu tief in die Herkunft und Hintergründe des Begriffs abtauchen und dokumentieren nur das grundlegende Konzept im Zusammenhang mit großen Datenmengen. Bereits 2001 schlug Laney [4] vor, dass Volume, Variety und Velocity (oder die drei Vs) die drei Dimensionen der Herausforderungen im Datenmanagement sind. Die 3Vs haben sich seitdem zu einem gemeinsamen Rahmen für die Beschreibung von Big Data entwickelt. Auch definiert Gartner [5] den Begriff in ähnlicher Weise: cc „Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enables enhanced insight, decision making, and process automation“. Das Volumen bezieht sich auf die Größe der Daten. Große Datenmengen werden in mehreren Terabyte und Petabyte angegeben. Ein Terabyte speichert so viele Daten wie auf 1500 CDs oder 220 DVDs passen würden, genug, um etwa 16 Millionen Facebook-Fotos zu speichern. Facebook verarbeitet bis zu einer Million Fotos pro Sekunde [6]. Ein Petabyte entspricht dabei 1024 Terabyte. Die Definitionen von Big Data hängen aber von der Branche und dem Typ der Daten ab und erlauben es nicht einfach, einen bestimmten Schwellenwert für Big Data zu definieren. So können zwei Datensätze gleicher Größe je nach Typ (Tabellen- vs. Videodaten) unterschiedliche Technologien zur Verarbeitung erfordern. Die Variety bezieht sich auf die strukturelle Heterogenität in einem Datensatz. Moderne Technologien ermöglichen es dabei Unternehmen, verschiedene Arten von strukturierten, halbstrukturierten und unstrukturierten Daten zu verwenden. Strukturierte Daten beziehen sich auf die tabellarischen Daten in Tabellenkalkulationen oder relationalen Datenbanken. Text, Bilder, Audio und Video sind Beispiele für unstrukturierte Daten, denen die strukturelle Ordnung fehlt, welche aber von Programmen zur Analyse benötigt wird. Über ein Kontinuum zwischen vollständig strukturierten und unstrukturierten Daten hinweg entspricht das Format der teilstrukturierten Daten nicht den strengen Standards auf der einen noch der anderen Seite. Extensible Markup Language (XML) ist eine textuelle Sprache für den Datenaustausch im Web und ist ein typisches Beispiel für semi-strukturierte Daten. XML-Dokumente enthalten benutzerdefinierte Daten-Tags, die sie maschinenlesbar machen. Die Velocity bezieht sich auf die Geschwindigkeit, mit der Daten erzeugt werden, und die Geschwindigkeit, mit der sie analysiert und bearbeitet werden sollen. Die Verbreitung digitaler Endgeräte wie Smartphones und Sensoren hat zu einer beispiellosen Datenerstellungsrate geführt und führt weiterhin zu einem immer stärker anwachsenden Bedarf an Echtzeitanalysen. Auch konventionelle Einzelhändler generieren hochfrequente Daten, Wal-Mart zum Beispiel verarbeitet mehr als eine Million Transaktionen pro Stunde [7]. 2

Eigentlich gemeint ist die Masse oder Menge.

4

1 Business Analytics und Analytics

Auch neue Technologien, wie In-Memory-Datenbanken (hier befinden sich die Daten dauerhaft im physischen Hauptspeicher (RAM) des Computers ermöglichen es, nicht nur größere Datenmengen zu verarbeiten, sondern sogar in kürzerer Zeit. In einem konventionellen Datenbanksystem sind die Daten plattenresident und die benötigten Daten können für den Zugriff im Hauptspeicher zwischengespeichert und dort bearbeitet werden, wohingegen bei einer In-Memory-Datenbank die Daten speicherresident als Sicherungskopie auf der Festplatte abgelegt werden, ansonsten aber im Hauptspeicher verweilen. In beiden Fällen kann ein bestimmtes Objekt Kopien sowohl im Speicher als auch auf der Festplatte haben. Der Hauptunterschied besteht aber darin, dass bei der In-Memory-Datenbank die Primärkopie dauerhaft im Hauptspeicher verbleibt. Da in den letzten Jahren ein Trend zu beobachten ist, dass der Hauptspeicher immer billiger wird, ist es jetzt schon möglich, immer größere Datenbanken in den Hauptspeicher zu verlagern. Da auf Daten direkt im Speicher zugegriffen werden kann, können wesentlich bessere Antwortzeiten und Transaktionsdurchsätze ermöglicht werden. Dies ist besonders wichtig für Echtzeitanwendungen, bei denen Transaktionen zu den angegebenen Zeitfristen abgeschlossen werden müssen. Auch ändert sich momentan das vorherrschende Paradigma des Softwarebezugs. Der zunehmende Einsatz von Cloud-Lösungen (bei denen Software und Daten nicht am Anwenderstandort gehostet werden), ermöglicht tendenziell eine kürzere Time-to-Market und die Möglichkeit, mit neuen Technologien früher erste Tests und Prototypen zu erstellen. Die genannten Änderungen in der Verfügbarkeit der Daten, das größere Datenvolumen und die Verfügbarkeit von neuer Software und Softwarebezugsmodellen zur Speicherung und Verarbeitung dienen einem weiteren Trend als Grundlage: dem verstärkten Einsatz von Analysemodellen zur automatisierten Steuerung von ganzen Betriebsprozessen. So ist der entscheidende Schritt, der uns dazu veranlasst, von Business Analytics statt von Business Intelligence zu sprechen (siehe die Ausführung in Abschn. 1.2) der der Überführung der Entscheidungen von Menschen auf die Systeme. Hier sind einige Beispiele: • Bei rein digitalen Prozessen wie dem Omnichannel-Marketing sind heute schon die Entscheidungen auf das System übertragen worden. Die Kundenkommunikation wird direkt vom System an die Kunden versendet, basierend auf der systemischen Einschätzung des individuellen Kunden. Beispielhaft sind hier die Werbe-E-Mails von Amazon oder die Empfehlungen von Netflix. Basierend auf der Datenhistorie des Kunden optimieren Recommender-Systeme die Kommunikation mit dem Kunden. Aber auch der Handel mit Aktien und Währungen ist inzwischen fast vollkommen automatisiert und die Algorithmen der unterschiedlichen Händler arbeiten gegeneinander. Natürlich ist hier der erfolgreichste Investor derjenige, der den besten Algorithmus verwendet. • Semiphysisch digitalisierte Prozesse sind Prozesse, in denen Analytik eingesetzt wird, um beispielsweise die zukünftige Nachfrage vorherzusagen und automatisch die Ware nachzubestellen. Auch in diesem Fall wird der Gewinner im Markt das Unternehmen sein, das die Prozesse mit Hilfe der am besten optimierten Algorithmen ausführt.

1.1 Notwendigkeit einer zunehmenden analytischen Entscheidungsunterstützung

5

Das Internet der Dinge3 ist ein weiterer neuer Begriff, der die Abbildbarkeit von bisher rein physischen Prozessen durch Sensoren und Sensordaten in allen Arten von Alltagsgegenständen beschreibt. So gibt es Milchbauern, die ihre Kühe fast ausschließlich automatisiert von Robotern melken lassen. Menschen werden nur bei Bedarf herangezogen, wie bei festgestellten Krankheiten der Kühe und der notwendigen Behandlung, was nicht durch Maschinen erledigt werden kann. Dazu werden verschiedenste Sensoren aus dem Stall, der Umgebung und an den einzelnen Tieren selber genutzt und ausgewertet. • Vollständig digital gesteuerte physikalische Prozesse, wie der Einsatz von Robotern in der automatisierten Fertigung von Waren oder Autos. Diese Roboter reagieren dabei auf externen physikalischen Input und Algorithmen entscheiden über die notwendige Reaktion. Sie müssen in der Lage sein, auf der Grundlage von Algorithmen autonom zu entscheiden und nutzen dazu Sprach- und Videoerkennung, um die physiologische Umgebung zu verstehen, in der sie agieren. In den letzten Jahren wurde eine große Vielzahl von Prozessen digital abgebildet, digitalisiert oder komplett automatisiert, und die damit verbundenen manuellen Entscheidungen sind verschwunden. In vielerlei Hinsicht sehen wir heute, was die Menschen während der Dotcom-Ära erwartet haben, in der es um die Möglichkeiten neuer automatisierter und digitalisierter Geschäftsprozesse ging, die es Unternehmen ermöglichten, auf der Grundlage extrem skalierbarer Geschäftsmodelle global zu konkurrieren. Schon damals haben neue Marktteilnehmer wie Amazon.com den Verkauf von Büchern neu definiert, indem man einen rein physikalischen Prozess (der Buchladen um die Ecke) in einen physisch digitalisierten Prozess (Online-Kauf von physischer Ware) umgewandelt hat. Später begannen Apple und Amazon, physische Geräte zu produzieren, um die Möglichkeiten zum Konsum von Inhalten (Büchern, Musik und Filmen) über das Internet und damit den Grad der digitalen Wertschöpfung weiter zu erhöhen. Weniger beachtet von Öffentlichkeit ist die Entwicklung bei den physischen Produktionsprozessen zunehmend digitalisiert worden. In den letzten zehn Jahren wurden immer mehr Geschäftsprozesse so weit digitalisiert, dass der nächste Wettbewerber nur eine App entfernt ist (Apple iBooks vs. Google Play Books). Die marktführende App ist oft diejenige, die auf der führenden Plattform integriert ist, die beste Benutzererfahrung bietet und auf das Individuum optimierte Empfehlungen, basierend auf kundenbezogenen Datenanalysen, enthält. Da Analytik zunehmend in digitalen Prozessen eingesetzt und diese Prozesse durch die Analytik auch automatisiert werden können, ist Business Analytics heute auch viel mehr als die Entscheidungshilfe für den Menschen innerhalb eines Unternehmens. Es geht auch um die Bereitstellung von Daten, aber vor allem darum, digitalisierte Prozesse intelligent und automatisiert zu steuern. Die Unterstützung für den Menschen rückt dabei deutlich in den Hintergrund. So kommen wir auch zu unserer Definition für Business Analytics:

3

Auch Internet of Things (IoT).

6

1 Business Analytics und Analytics Business Analytics bezeichnet (1) Technologien, Systeme, Methoden und Anwendungen, die (2) Daten erfassen, verarbeiten und analysieren, um damit (3) eine Entscheidungsunterstützung oder Automatisierung mit einem Mehrwert für das Unternehmen zu ermöglichen.

Wobei im weiteren Verlauf diese Definition mit Leben gefüllt wird: 1. Grundlage für alle Datenerfassung, -verarbeitung, -analyse und die darauf basierten Entscheidungen sind immer IT-Systeme: von den IoT-Sensoren, die ihre Daten an die zentralen oder auch verteilten Systeme zu Weiterverarbeitung geben, bis hin zum zentralistischen ERP-System, welches die Entscheidungen umsetzt. Die Methoden werden in Abschn. 2.2, die Technologien, Systeme und Anwendungen in Kap. 3 beschrieben. 2. Die Erfassung von Daten, deren Verarbeitung und das Zusammenspiel wird in Abschn. 1.4 in einem umfassenden Technologie-Framework beschrieben. 3. Beispiele für die Entscheidungsunterstützung und -automatisierung finden Sie dabei im ganzen Buch und besonders in Kap. 3 und vor allem in Kap. 4.

1.2

bgrenzung zwischen Business Intelligence und A Business Analytics

Die eingenommene Perspektive – Gegenwart bis Zukunft – Ein Teil der vorhergehenden Ausführungen treffen auch auf den bisher bekannteren Begriff der Business Intelligence (BI) zu. Im Folgenden wollen wir einmal ausführen, worin sich die Begrifflichkeiten der BI und der BA unterscheiden und wo es eine Schnittmenge gibt. So gibt es in den einnehmbaren Perspektiven im Rahmen der Analytik einen gleichartigen Rahmen (siehe Tab. 1.1). Die meisten Autoren ziehen die Linie zwischen Business Intelligence (BI) und Business Analytics in Bezug auf die zeitliche Zielstellung der Anwendung. So wird BI generell eine reine Ex-post- und BA eine Ex-ante-Perspektive unterstellt. Diese Abgrenzung ist aus einer technischen Sicht, wenn man beispielsweise rein die eingesetzten Algorithmen betrachtet, sicherlich richtig, auch wenn man die Betrachtung auf die grundsätzlich gestellten Fragen, die den Gegenstand und die Rechtfertigung für den Einsatz von BI bilden, ansieht. Diese stützen sich tatsächlich im Hauptaugenmerk auf Kennzahlensysteme (KPIs) Tab. 1.1 Perspektiven der Analytik Vergangenheit Informationen Was ist passiert? (Reporting) Erkenntnisse Wie und warum ist etwas passiert? (Modellierung)

Gegenwart Was passiert gerade? (Alerts) Was ist der beste nächste Schritt (Empfehlungen)

Zukunft Was wird passieren? (Hochrechnung) Was wird im besten und schlechtesten Fall passieren? (Vorhersage, Optimierung)

Im Rahmen der Analytik können verschiedene Perspektiven eingenommen werden. Die führende Struktur bildet dabei der zeitliche Rahmen zwischen der Vergangenheit und der Zukunft.

1.2 Abgrenzung zwischen Business Intelligence und Business Analytics

7

aus der Aggregation von historischen Daten. Erweitern wir die Betrachtung nun aber auf eine Gesamtperspektive und betrachten BI aus einer gesamtunternehmerischen Sicht, losgelöst von der technischen und operativen Ebene, so gliedert sich BI doch sicherlich in einen größeren Kontext der betrieblichen Entscheidungsunterstützung ein. BI ist niemals ein Selbstzweck, sondern ein Unterstützungsinstrument für Entscheidungen, durchgeführt von Menschen. Jede ermittelte KPI dient im Grunde ja nur dazu, dass, basierend auf dieser, eine Beurteilung und Entscheidung für zukünftige Veränderungen (oder eben auch nicht) getroffen wird. Die KPI zum Umsatz nach geografischen Absatzregionen und die dazugehörige KPI der Veränderung derselben kann mehreren Zwecken dienen. Abb. 1.1 verdeutlich die zeitlogische Perspektive anhand einer Zeitleiste mit Daten, die zum Erstellen von Vorhersagemodellen oder Business-Intelligence-Berichten verwendet werden. Die vertikale Linie in der Mitte stellt die Zeit dar, in der das Modell gebaut wird (heute/jetzt). Die Daten, die für den Aufbau der Modelle verwendet werden, befinden sich auf der linken Seite, da diese immer historische Daten darstellen – es können logisch keine Daten aus der Zukunft existieren. Wenn prädiktive Modelle, die die Grundlage von Business Analytics bilden, erstellt werden, um ein „zukünftiges“ Ereignis vorherzusagen, werden die für den Aufbau der prädiktiven Modelle ausgewählten Daten auf eine Zeit vor dem Datum, an dem das zukünftige Ereignis bekannt ist, zurückgreifen. Wenn man beispielsweise ein Modell erstellen will, um vorherzusagen, ob ein Kunde auf eine E-Mail-Kampagne antwortet, so beginnt man mit dem Datum, an dem die Kampagne erstellt wurde (wenn alle Antworten eingegangen sind), um alle Teilnehmer zu identifizieren. Dies ist das Datum für die Bezeichnung „Zielvariable, die aus diesem Datum berechnet wurde“ in der Abbildung Abb. 1.1. Die als Eingaben verwendeten Attribute müssen vor dem Datum des Mailings selbst bekannt sein, sodass diese Werte links vom Datum der Sammlung der Zielvariablen gesammelt werden. Mit anderen Worten, die Daten werden mit allen Modellierungsdaten in der Vergangenheit erstellt, aber die Zielvariable liegt noch in der Zukunft bis zum Datum, an dem die Attribute in der Zeitachse der für die Modellierung verwendeten Daten gesammelt werden. Es ist jedoch wichtig klarzustellen, dass sowohl die Analysen der Business Intelligence als auch der Business Analytics auf den gleichen Daten basieren und

Abb. 1.1 Die Analytik-, Daten- und Umsetzungsperspektiven der Business Analytics (eigene Darstellung)

8

1 Business Analytics und Analytics

die Daten in beiden Fällen historisch sind. Die Annahme ist, dass das zukünftige Verhalten rechts von der vertikalen Linie mit dem bisherigen Verhalten übereinstimmt. Wenn ein prädiktives Modell Muster in der Vergangenheit identifiziert, die vorhergesagt haben (in der Vergangenheit), dass ein Kunde ein Produkt kaufen würde, geht man davon aus, dass diese Beziehung auch in Zukunft bestehen bleibt. Die Automatisierung als Leitgedanke Wie bereits angedeutet, nutzen BI und BA grundsätzlich unterschiedliche Methoden der Analyse (siehe Abschn. 2.2) der gleichen Datensätze. Mit der unterschiedlichen Zeitper spektive der Analyseergebnisse ermöglicht BA aber ein deutlich anderes Anwendungsgebiet, welches wir definitorisch für die Abgrenzung zwischen BI und BA ansehen: Mit den zukünftigen Modellen und Prognosen ermöglicht BA die Verschiebung der Entscheidungsfindung vom Menschen auf IT-Systeme. Während bei BI die Ergebnisse immer von Menschen auf die Zukunft übertragen werden müssen (Bauchgefühl oder Erfahrungen sind hier die nicht-definierte Entscheidungsgrundlage), braucht es dies bei einer Prognose durch ein BA-System nicht. Daher können die Folgeprozesse auch automatisiert gestartet werden.

1.3

Kategorisierung von analytischen Methoden und Modellen

Business Analytics kann von einfachen Berichten bis hin zu den fortschrittlichsten Optimierungstechniken (Methoden zur Bestimmung der besten möglichen Vorgehensweise) reichen, wobei Analytik grundsätzlich in drei große Kategorien unterteilt wird: deskriptive, prädiktive und präskriptive Analytik.

1.3.1 Deskriptive Analytik Descriptive Analytics oder deskriptive Analytik ist die konventionelle Herangehensweise der Business Intelligence und zielt darauf ab, Fakten und Zahlen in verständlicher Form darzustellen oder „zusammenzufassen“, um Daten für Kommunikationsvorgänge oder auch für weitere Analysen durch einen Menschen aufzubereiten. Es werden zwei primäre Techniken verwendet: die Datenaggregation und das „Data Mining“, um vergangene Ereignisse zu ermitteln. Das Ziel ist es dabei, historische Daten in einem leicht vermittelbaren Format zum Nutzen eines breiten Geschäftspublikums aufzubereiten. Ein häufiges Beispiel für deskriptive Analytik sind Unternehmensberichte und KPIs, die lediglich einen Überblick über die Geschäftstätigkeiten, Umsätze, Finanzen, Kunden und Interessengruppen eines Unternehmens geben. Deskriptive Analytik hilft dabei, Daten in einem Format zu beschreiben und darzustellen, das für eine Vielzahl von unterschiedlichen Zielgruppen leicht verständlich ist. Deskriptive Analytik versucht selten, Ursachen- und Wirkungsbeziehungen zu untersuchen oder herzustellen. Da diese Form der Analytik in der Regel

1.3 Kategorisierung von analytischen Methoden und Modellen

9

nicht über eine oberflächliche Betrachtung hinausgeht, ist die Validität der Ergebnisse leichter zu erreichen. Einige gängige Methoden, die in der deskriptiven Analytik verwendet werden, sind Beobachtungen, Fallstudien und Umfragen. Daher können auch die Sammlung und Interpretation großer Datenmengen im Big-Data-Umfeld bei dieser Art von Analytik eine Rolle spielen, da es relativ egal ist, aus wie vielen Einzelwerten eine KPI aggregiert wird. Deskriptive Analytik ist eher für eine historische Darstellung oder eine Zusammenfassung vergangener Daten geeignet und spiegelt sich meist auch im Einsatz von reinen statistischen Berechnungen wider. Einige gängige Anwendungen der deskriptiven Analytik sind: • Erstellung von KPIs zur Beschreibung der Auslastung von Maschinen, Lieferzeiten oder Wartezeiten von Kunden • Berichte über Marktanteile oder darauf bezogene Veränderungen • Zusammenfassung vergangener Ereignisse aus dem regionalen Vertrieb, Kundenabwanderung oder Erfolg von Marketingkampagnen (Klickraten oder Kosten/Gewinn- Rechnungen) • Tabellarische Erfassung von sozialen Kennzahlen wie Facebook Likes, Tweets oder Followern • Berichterstattung über allgemeine Trends und Entwicklungen (Inflation, Arbeitslosenquote)

1.3.2 Prädiktive Analytik Prädiktive Analytik (allgemein unter dem englischen Schlagwort „Predictive Analytics“ bekannt) und Statistik haben erhebliche Überschneidungen, wobei einige Statistiker argumentieren, dass die prädiktive Analytik im Kern nur eine Erweiterung der Statistik ist [8]. Prädiktive Modellierer ihrerseits verwenden oft Algorithmen und Tests, die in der Statistik üblich sind. Meistens tun diese das aber ohne die (abschließende) Diagnose zu berücksichtigen, was jeder Statistiker tun würde, damit sichergestellt ist, dass die Modelle „richtig“ (valide) aufgebaut sind. Dennoch gibt es signifikante Unterschiede zwischen den typischen Tab. 1.2 Vergleich zwischen Statistik und prädiktiver Analytik Statistik Modelle basieren auf Theorie (es gibt ein Optimum) Modelle sind typischerweise linear. Datenmengen sind typischerweise klein; Algorithmen sind oft auf Genauigkeit bei kleinen Datenmengen ausgerichtet Das Modell ist entscheidend

Prädiktive Analytik Modelle basieren oft auf nicht-parametrischen Algorithmen – kein garantiertes Optimum Modelle sind typischerweise nicht-linear Skalierung besonders auf große Datenmengen ausgerichtet; die Algorithmen sind für kleine Datenmengen nicht so effizient und stabil Daten sind entscheidend

Vereinfachter Vergleich zwischen Statistik und prädiktiver Analytik

10

1 Business Analytics und Analytics

Ansätzen der beiden Bereiche. Tabelle (Tab. 1.2) zeigt dies deutlich, wenn auch ein wenig plakativ und vereinfacht. Die Statistik wird von der Theorie getrieben, während die prädiktive Analytik dem nicht folgt, denn hier stammen viele Algorithmen aus anderen Bereichen (vor allem der Künstlichen Intelligenz und dem Maschinellen Lernen) und diese haben meist keine nachweisbare optimale Lösung. Aber vielleicht ist der grundlegendste Unterschied zwischen den beiden Feldern (in der letzten Zeile der Tabelle) zusammengefasst: Für die Statistik ist das Modell das zentrale Element, während es für die prädiktive Analytik die Daten sind. Trotz aller Ähnlichkeiten zwischen Statistik und Analytik gibt es einen Unterschied in der Denkweise, der zu Unterschieden in der Durchführung von Analysen führt. Statistiken werden häufig verwendet, um bestätigende Analysen durchzuführen, bei denen eine Hypothese über eine Beziehung zwischen Eingaben und einer Ausgabe aufgestellt wird. Und der Zweck der Analyse ist es, die Beziehung zu bestätigen oder zu verneinen und den Grad dieser Bestätigung oder Verneinung zu quantifizieren. Viele Analysen sind sehr strukturiert, z. B. die Bestimmung, ob ein Medikament die Häufigkeit einer bestimmten Krankheit reduziert. Kontrollen sind unerlässlich, um sicherzustellen, dass keine Verzerrungen in das Modell eingebracht werden, was die Interpretation des Modells durch den Analysten irreführt. Koeffizienten von Modellen sind von entscheidender Bedeutung für das Verständnis dessen, was die Daten sagen. Deshalb muss große Sorgfalt darauf verwendet werden, die Modelleingaben und -ausgaben so zu transformieren, dass sie den Annahmen der Modellierungsalgorithmen entsprechen. Wenn die Studie die Auswirkungen von Kalorienzufuhr, Rauchen, Alter, Größe, Bewegungsumfang und Stoffwechsel auf das Gewicht einer Person vorhersagt und man dem relativen Beitrag jedes Faktors auf das Gewicht einer Person vertrauen muss, ist es wichtig, jede Verzerrung aufgrund der Daten selbst zu beseitigen, damit die Schlussfolgerungen die Absicht des Modells widerspiegeln. Verzerrungen in den Daten könnten dazu führen, dass der Analytiker irregeführt wird, dass die Eingaben in das Modell mehr oder weniger Einfluss haben, als sie tatsächlich haben, einfach wegen numerischer Probleme in den Daten. Die Residuen werden ebenfalls sorgfältig untersucht, um Abweichungen von einer Normalverteilung zu identifizieren, obwohl das Erfordernis der Normalität mit zunehmender Datengröße abnimmt. Wenn die Residuen nicht zufällig mit konstanter Varianz sind, wird der Statistiker die Eingaben und Parameter ändern, bis diese Probleme behoben sind. Prädiktive Modellierer zeigen hingegen oft wenig oder nur sehr oberflächlich Rücksicht auf die Endparameter in den Modellen. Der Schlüssel ist oft die prädiktive Genauigkeit des Modells und damit seine Fähigkeit Entscheidungen zu treffen und zu beeinflussen. Im Gegensatz zu dem strukturierten Problem, das durch konfirmative Analysen mit Hilfe von Statistiken gelöst wird, versucht die Predictive Analytics oft, weniger strukturierte Geschäftsprobleme mit Daten zu lösen, die nicht einmal zum Zwecke der Modellbildung erhoben wurden, sondern nur zufällig oder als Beiprodukt vorhanden waren. Kontrollen sind oft nicht in den Daten vorhanden und daher wird die Kausalität, die selbst bei strukturierten Problemen nur sehr schwer aufzudecken ist, äußerst schwer zu identifizieren sein. Betrachtet man beispielsweise das Vorgehen, um zu analysieren,

1.3 Kategorisierung von analytischen Methoden und Modellen

11

elche Ausprägung einer Marketingkampagne bei einem bestehenden Kunden für einen w digitalen Händler durchgeführt werden soll. Der Kunde könnte Inhalte aus einem von zehn Programmen erhalten, die die E-Mail-Marketing-Gruppe identifiziert hat. Zu den verfügbaren Modellierungsdaten gehören die Stammdaten des Kunden, die allgemeine (demografische) Entwicklung, das frühere Verhalten auf der Website und die Interaktion mit E-Mails sowie die Reaktion auf ausgespielte Inhalte aus einem der zehn Programme (Klicks, Verweildauer, durchgeführte Käufe). Die möglichen Reaktionen umfassen das Ignorieren, das Öffnen und den Kauf des beworbenen Produktes oder eines Alternativproduktes. Prädiktive Modelle können sicherlich gebaut werden, um die beste Marketingansprache der zehn Möglichkeiten zu identifizieren, die in die E-Mail eingefügt werden sollte, basierend auf dem Verhalten eines Kunden und der demografischen Entwicklung. Dies ist jedoch alles andere als eine kontrollierte Studie. Während der Laufzeit dieses Marketingprogramms interagiert jeder Kunde weiterhin mit der eigenen Webseite, anderen Webseiten und sieht andere Werbeaktionen. Der Kunde hat zwischenzeitlich möglicherweise andere Display-Anzeigen gesehen oder Google-Suchen durchgeführt, die sein Verhalten weiter beeinflussen. Der Zweck eines solchen Modells kann nicht darin bestehen, vollständig nachzuvollziehen, warum sich der Kunde in einer bestimmten Weise verhält, weil es viel zu viele unbeobachtete, teilweise auch nicht-beobachtbare und sich zum Teil widersprechende Einflüsse gibt. Aber das bedeutet nicht, dass das Modell nicht nützlich ist. Prädiktive Modellierer nutzen häufig solche unstrukturierten Probleme und Daten und die Daten, in welcher Form auch immer diese verfügbar sind, werden in den Modellen genutzt. Dies ist kein Problem, solange die Daten weiterhin in einer Weise gesammelt werden, die mit den Daten übereinstimmt, wie sie in den Modellen verwendet wurden; die Konsistenz der Daten erhöht die Wahrscheinlichkeit, dass es eine Konsistenz der Vorhersagen des Modells gibt, und somit, wie gut das Modell Entscheidungen beeinflusst. Dieses Vorgehen ist in vielen Fällen einfach der Situation geschuldet, dass kontrollierte Experimente, wie sie von Statistikern meistens durchgeführt werden, häufig im Kontext des Geschäftsalltags nicht umsetzbar sind.

1.3.3 Präskriptive Analytik Das Feld der präskriptiven Analytik ermöglicht es dem Anwender, eine Reihe von verschiedenen möglichen Aktionen „vorherzusehen“, und können ihn zu einer (optimierten) Lösung führen. Kurz gesagt, geht es bei diesen Analysen um Beratung. Die präskriptive Analytik versucht, die Auswirkungen zukünftiger Entscheidungen zu quantifizieren, um über mögliche Ergebnisse zu beraten, bevor die Entscheidungen tatsächlich getroffen werden. Im besten Fall prognostiziert die präskriptive Analytik nicht nur, was passieren wird, sondern auch, warum es passieren wird, und gibt Empfehlungen für Maßnahmen, die die Vorteile der Prognosen realisieren.

12

1 Business Analytics und Analytics

Diese Analysen gehen über die deskriptive und prädiktive Analytik hinaus, indem sie eine oder mehrere mögliche Handlungsoptionen empfehlen. Im Wesentlichen prognostizieren sie mehrere Zukünfte und ermöglichen es Unternehmen, eine Reihe möglicher Ergebnisse anhand ihrer Handlungen zu bewerten. Die präskriptive Analytik verwendet eine Kombination von Techniken und Werkzeugen wie Tools, Algorithmen, Methoden der Künstlichen Intelligenz, Methoden des Maschinellen Lernens und Modellierungsverfahren. Diese Techniken werden auf verschiedene Datensätze angewendet, einschließlich historischer und transaktionaler Daten, Echtzeit-Datenfeeds und großer Datenmengen. Die Initiierung, Definition, Umsetzung und anschließende Nutzung von präskriptiven Analysen ist relativ komplex und die meisten Unternehmen nutzen diese noch nicht im täglichen Geschäftsbetrieb. Bei richtiger Umsetzung können sie einen großen Einfluss auf die Art und Weise haben, wie Entscheidungen getroffen werden, und damit auf das Ergebnis des Unternehmens. Größere Unternehmen nutzen erfolgreich präskriptive Analysen, um Produktion, Planung und Lagerhaltung in der Lieferkette zu optimieren und um sicherzustellen, dass sie die richtigen Produkte zur richtigen Zeit liefern und das Kundenerlebnis optimieren.

1.4

Business Analytics Technologieframework (BA.TF)

Frameworks spielen eine wichtige Rolle bei der effektiven Planung und Zuweisung von Ressourcen. Auch können Frameworks einem Unternehmen helfen, Komponenten und Beziehungen zwischen den Architekturkomponenten zu identifizieren, um ein ansonsten komplexes Systemgefüge zu verstehen. Die Frameworks für Managementinformationssysteme [9] und für Decision Support Systeme [10] sind frühe große Frameworks, die Unternehmen bei der Implementierung von Systemen und bei der Entscheidungsfindung unterstützt haben. Auch haben Wissenschaftler bei der Kartierung von Forschungstrends und der Identifizierung von Forschungslücken diese genutzt. Im Zuge der Entwicklung der Informationssysteme sind zahlreiche Frameworks entstanden, so bietet beispielsweise das Zachman-Framework [11, 12] ein Mittel zum Verständnis der Integration der Komponenten eines Systems unabhängig von dessen Vielfalt, Größe und Komplexität. Im Bereich der Entscheidungsunterstützung stellt der Entwicklungsrahmen für Executive Information Systems (EIS) [13] eine strukturelle Perspektive der EIS-Elemente, ihrer Interaktion und des EIS-Entwicklungsprozesses dar. Seit der Arbeit des Decision Support Systems (DSS) Framework von [10] ist die Vielfalt der Frameworks zur Entscheidungsunterstützung gewachsen und gereift [14], um Plattformen für Führungsinformationssysteme, Gruppen-Entscheidungsunterstützungssysteme, geografische Informationssysteme und in jüngster Zeit für Business Intelligence und Big Data zu schaffen. Das in diesem Buch neu eingeführte Framework (siehe Abb. 1.2) für Business Analytics mit Methoden der Künstlichen Intelligenz „Business Analytics Technologieframework“ (BA.TF) setzt dabei auf bewährte Frameworks.

1.4 Business Analytics Technologieframework (BA.TF)

13

Abb. 1.2 Business Analytics Framework (BA.TF) (eigene Darstellung)

So teilen Watson et al. (2007) das Business Intelligence Framework [15] in zwei Hauptaktivitäten ein: Dateneingang und -ausgang („getting data in and getting data out“). Dabei wird der erste Teil auch traditionell als Data Warehousing bezeichnet und beinhaltet die Übertragung und Speicherung von Daten aus einer Reihe von Quellsystemen in ein integriertes Zielsystem, das Data Warehouse. Im BA.TF ist dies der linke Teil, der mit einem rechtsgedrehten Dreieck visualisiert ist. Die Quellen können innerhalb des Unternehmens liegen, von einem externen Datenanbieter bereitgestellt werden oder von einem Geschäftspartner stammen. Die Datenbeschaffung ist der anspruchsvollste Aspekt, der etwa 80 Prozent des Zeit- und Arbeitsaufwands erfordert und mehr als 50 Prozent der unerwarteten Projektkosten verursacht [15]. Die Herausforderung ergibt sich dabei aus der schlechten Datenqualität in den Quellsystemen (und zwar auch den unternehmensinternen und nicht zwingend den externen) und die Nutzung von Legacy-Technologie. Die Datenbeschaffung liefert dabei nur einen begrenzten Wert für ein Unternehmen, denn nur wenn Benutzer und Anwendungen auf diese Daten zugreifen und sie für Entscheidungen verwenden können, kann ein Mehrwert aus diesen Daten geschaffen werden. Diese zweite Aktivität, die wir hier als Analyse, Modellerstellung oder automatisierte Entscheidungsfindung bezeichnen, wird im BA.TF im rechten Teil abgebildet, der mit einem linksgedrehten Dreieck visualisiert ist. Dabei besteht dieser Teil aus Dataanalysten, Geschäftsbenutzern und (automatisierten) Anwendungen, die auf Daten zugreifen, um Reporting, OLAP-Abfragen und prädiktive und präskriptive Analysen zu erlauben. Das Eckerson-Framework [16] beispielsweise erkannte schon 2011 „Business intelligence is changing“ und teilt die notwendigen Bestandteile einer BI-Architektur in die vier zugrunde liegenden Anwendungszwecke ein: • die Business Intelligence zur Bereitstellung von Berichten, Dashboards und Scorecards, im BA.TF auf der rechten Seite als manueller Zugriff und Nutzung dargestellt.

14

1 Business Analytics und Analytics

• Analytische Intelligenz für „Power-User“ und Ad-hoc-Zugriff auf alle Daten mit Hilfe von Tabellenkalkulationen, Desktop-Datenbanken, OLAP-Tools, Data-Mining-Tools und visuellen Analysetools. • Kontinuierliche Intelligenz zur Sammlung, Überwachung und Analyse von großen Mengen an schnell wechselnden Daten zur Unterstützung der betrieblichen Prozesse. Hier soll eine nahezu zeitnahe Bereitstellung von Informationen (d. h. Stunden bis Minuten) in einem Data Warehouse bis hin zu komplexen Ereignisverarbeitungs- und Streaming-Systemen, die Warnmeldungen auslösen, stattfinden. Diese Anforderungen finden sich hier im Bereich des Complex Event Processing und Streaming wieder (siehe auch Abschn. 3.1) • Inhaltsintelligenz ermöglicht die Analyse von Dokumenten, Webseiten, E-Mail- Nachrichten, Social-Media-Seiten und anderen unstrukturierten Inhalten. Das wurde im BA.TF beispielsweise durch die Nutzung des Data Lakes aufgegriffen. Auch das Industrial Internet Consortium (IIC)4 hat unter dem Namen „Analytics Framework“ [17] ein Framework definiert. Obwohl der Fokus hier sehr stark auf die industrielle Nutzung des Internet of Things ausgerichtet ist, so finden sich einige allgemeingültige Aspekte wieder.

1.4.1 Datenquellen Big Data zeichnet sich durch unterschiedliche Datentypen aus, die zur Analyse verarbeitet werden können. Der linke Abschnitt „Datenquellen“ im BA.TF zeigt auf, welche Arten von Daten der Organisation zur Verfügung stehen (können). Strukturierte Daten machen dabei immer noch den Großteil der Daten aus, die laut Umfragen für Analysen verwendet werden [18]. Strukturierte Daten befinden sich meistens in Kalkulationstabellen (Microsoft Excel), Tabellen und relationalen Datenbanken, die einem Datenmodell entsprechen, das die Eigenschaften und Beziehungen zwischen ihnen beinhaltet. Diese Daten haben bekannte Datenlängen, Datentypen und Datenbeschränkungen. Daher können sie aufgrund der bekannten Struktur leicht erfasst, organisiert und abgefragt werden. Das BA.TF zeigt strukturierte Daten aus Quellen wie internen Systemen, die Berichte erstellen, operativen Systemen, die Transaktionsdaten erfassen, und automatisierten Systemen, die Maschinendaten erfassen, wie beispielsweise Kundenaktivitätsprotokollen.

Das Industrial Internet Consortium (IIC) ist eine offene Mitgliedsorganisation mit mehr als 250 Mitgliedern. Das IIC wurde nach eigenen Angaben gegründet, um die Entwicklung, Einführung und den weitverbreiteten Einsatz von miteinander verbundenen Maschinen und Geräten sowie intelligenter Analytik zu beschleunigen. Das im März 2014 von AT&T, Cisco, General Electric, IBM und Intel gegründete IIC katalysiert und koordiniert die Prioritäten und Basistechnologien des Industrial Internets mit Fokus auf dem Internet of Things.

4

1.4 Business Analytics Technologieframework (BA.TF)

15

Unstrukturierte Daten kommen in vielen verschiedenen Formen vor, die sich nicht an herkömmliche Datenmodelle anlehnen und die daher typischerweise nicht gut für eine relationale Datenbank geeignet sind. Dank der Entwicklung alternativer Plattformen für die Speicherung und Verwaltung solcher Daten sind sie in IT-Systemen immer häufiger anzutreffen. Im Gegensatz zu den traditionell strukturierten Daten wie z. B. den Transaktionsdaten können unstrukturierte Daten in uneinheitlichen Formaten gepflegt werden. Eine der häufigsten Arten von unstrukturierten Daten ist Text. Unstrukturierter Text wird in einer Vielzahl von Formen generiert und gespeichert, darunter Word-Dokumente, E-Mail-Nachrichten, PowerPoint-Präsentationen, Umfrageantworten, Abschriften von Call-Center-Interaktionen und Beiträge aus Blogs und Social-Media-Websites. Andere Arten von unstrukturierten Daten sind Bilder, Audio- und Videodateien. Maschinendaten sind eine weitere Kategorie, die in vielen Unternehmen schnell wächst. Beispielsweise liefern Protokolldateien von Websites, Servern, Netzwerken und Anwendungen – insbesondere mobilen – eine Fülle von Aktivitäts- und Leistungsdaten. Darüber hinaus erfassen und analysieren Unternehmen zunehmend Daten von Sensoren an Produktionsanlagen und anderen im Internet of Things (IoT) verbundenen Geräten. In einigen Fällen können solche Daten als halbstrukturiert betrachtet werden – zum Beispiel, wenn Metadaten-Tags hinzugefügt werden, um Informationen und Zusammenhänge über den Inhalt der Daten zu liefern. Die Grenze zwischen unstrukturierten und teilstrukturierten Daten ist nicht absolut. Semistrukturierte Daten werden noch weit häufiger für die Analyse verwendet [18], denn diese Daten weisen zwar keine strenge und starre Struktur auf, beinhalten jedoch identifizierbare Merkmale. Fotos und Bilder können beispielsweise mit Uhrzeit, Datum, Ersteller und Schlüsselwörtern versehen werden, um Benutzern die Suche und Organisation zu erleichtern. E-Mails enthalten feste Tags wie Absender, Datum, Uhrzeit und Empfänger, die an den Inhalt angehängt sind. Webseiten weisen identifizierbare Elemente auf, die es Unternehmen ermöglichen, Informationen mit ihren Geschäftspartnern auszutauschen.

1.4.2 Data Preparation Die Datenaufbereitung umfasst zunächst einmal die klassischen Prozesse des Extrahierens, Transformierens und Ladens (ETL) von Daten und die Datenbereinigung. ETL-Prozesse erfordern Expertenwissen und sind als Grundlage für die Analyse unerlässlich. Sobald Daten als relevant identifiziert wurden, extrahiert ein Team (beispielsweise das verantwortliche Team für das Data Warehouse oder den Data Lake Abschn. 2.2.8) Daten aus primären Quellen und transformiert sie, um das Entscheidungsziel zu unterstützen [15]. Eine kundenorientierte Entscheidung kann beispielsweise erfordern, dass Datensätze aus verschiedenen Quellen wie z. B. einem operativen Transaktionssystem und den Social-Media-Kundenbeschwerden zusammengeführt und über eine Kundenkennung wie z. B. eine Postleitzahl verknüpft werden. Quellsysteme können unvollständig, ungenau oder schwer zugänglich sein, sodass Daten bereinigt werden müssen, um die Datenintegrität

16

1 Business Analytics und Analytics

zu gewährleisten. Die Daten müssen möglicherweise transformiert werden, um für die Analyse nützlich zu sein, wie z. B. die Erstellung neuer Felder zur Beschreibung des Customer Lifetime Values (Deckungsbeitrag, den ein Kunde während der gesamten Geschäftsbeziehung dem Unternehmen bringt). Die Daten können in ein herkömmliches Data Warehouse, in einen Data Lake oder in Hadoop-Cluster (siehe Abschn. 2.2.8) geladen werden. Das Laden kann in einer Vielzahl von Methoden mit einem Data Warehouse entweder sequenziell oder parallel durch Aufgaben wie das Überschreiben vorhandener Daten, das stündliche oder wöchentliche Aktualisieren von Daten erfolgen. Für die Nutzung eines Data Lakes werden die ETL-Prozesse nicht benötigt, vielmehr können die Daten direkt in die Anwendung geladen werden (Data Loading). Zuletzt werden auch, je nach Einsatzszenario, Streaming Data verarbeitet. Dies sind Daten, die kontinuierlich von Tausenden von Datenquellen erzeugt werden, die typischerweise die Datensätze gleichzeitig und in kleinen Größen (Größenordnung von Kilobytes) einsenden. Zu den Streaming-Daten gehören eine Vielzahl von Daten wie Log-Dateien, die von Kunden erstellt wurden, die ihre Mobil- oder Webanwendungen nutzen, E- Commerce-Käufe, Aktivitäten von Spielern im Spiel, Informationen aus sozialen Netzwerken, Finanzhandelsflächen oder Geodiensten sowie Telemetrie von angeschlossenen Geräten oder Instrumenten in Rechenzentren. Diese Daten müssen sequenziell und inkrementell auf Datensatzbasis oder über gleitende Zeitfenster verarbeitet und für eine Vielzahl von Analysen verwendet werden, einschließlich Korrelationen, Aggregationen, Filterung und Probennahme. Die aus einer solchen Analyse gewonnenen Informationen geben Unternehmen Einblick in viele Aspekte ihrer Geschäfts- und Kundenaktivitäten, wie z. B. die Nutzung von Dienstleistungen (für Mess- und Abrechnungszwecke), Serveraktivitäten, Website-Klicks und die Geolokalisierung von Geräten, Personen und physischen Gütern, und ermöglichen es ihnen, schnell auf neue Situationen zu reagieren. So können Unternehmen beispielsweise Veränderungen in der öffentlichen Meinung zu ihren Marken und Produkten verfolgen, indem sie kontinuierlich Social Media Streams analysieren und bei Bedarf rechtzeitig reagieren. Die Streaming-Datenverarbeitung erfordert zwei Schichten: eine Speicherschicht und eine Verarbeitungsschicht. Die Speicherschicht muss die Reihenfolge der Datensätze und eine starke Konsistenz unterstützen, um schnelles, kostengünstiges und wiedergabefähiges Lesen und Schreiben großer Datenströme zu ermöglichen. Die Verarbeitungsschicht ist dafür verantwortlich, Daten aus der Speicherschicht zu konsumieren, Berechnungen mit diesen Daten durchzuführen und dann die Speicherschicht darüber zu informieren, nicht mehr benötigte Daten zu löschen.

1.4.3 Datenspeicherung Traditionell werden Daten in einen Datenspeicher geladen, der subjektorientiert (nach Geschäftskonzepten modelliert), integriert (standardisiert), zeitvariant (erlaubt neue Versionen) und nichtflüchtig (unverändert und langfristig erhaltend) ist [19]. Daher erfordert das

1.4 Business Analytics Technologieframework (BA.TF)

17

Laden von Daten ein etabliertes Data Dictionary5 und ein Data Warehouse, das als Spei cherort für verifizierte Daten dient, die das Unternehmen für die Analyse verwendet. Daten, die sich auf bestimmte Anwendungen oder Fachabteilungen beziehen, können in einem Data Mart6 zusammengefasst werden, um den Zugriff zu erleichtern oder den Zugriff einzuschränken. Das Verschieben und Verarbeiten extrem großer Datenmengen als monoli thischen Datensatz auf einer singulären Hardware (Server) ist mit der heutigen Technologie bis zu einer bestimmten Größe möglich, jedoch wenig wirtschaftlich und kaum sinnvoll. Daher erfordern die Speicherung und Analyse großer Daten eine Aufteilung der Verarbeitung auf vernetzte Computer, die untereinander kommunizieren und die Aktionen verteilt koordinieren können. Hadoop ist ein Open-Source-Framework, das eine solche verteilte Verarbeitung von Daten über kleine bis große Cluster ermöglicht. Hadoop ist dabei kein ETL-Tool, sondern es unterstützt ETL-Prozesse, die parallel zum Data Warehouse laufen und dieses ergänzen [20]. Die Ergebnisse des Hadoop-Clusters können an das Data Warehouse weitergeleitet oder die Analysen direkt auf den Clustern gefahren werden. Abhängig von den Anforderungen benötigt ein Unternehmen sowohl ein Data Warehouse als auch einen Data Lake, da die beiden Konzepte unterschiedliche Anforderungen und Anwendungsfälle erfüllen. So ist ein Data Warehouse erst mal nur eine Datenbank, die für die Analyse relationaler Daten aus Transaktionssystemen und Geschäftsanwendungen optimiert ist. Die Datenstruktur und das Schema werden im Voraus definiert, um sie für schnelle SQL-Abfragen zu optimieren, wobei die Ergebnisse typischerweise für das operative Reporting und die Analyse verwendet werden. Daten werden bereinigt, angereichert und transformiert, sodass sie als „einzige Quelle der Wahrheit“ fungieren können, der die Benutzer vertrauen können. Ein Data Lake unterscheidet sich hiervon, weil er relationale Daten aus der Branche der Geschäftsanwendungen und nicht-relationale Daten aus mobilen Anwendungen, IoT-Geräten und sozialen Medien speichert. Die Struktur der Daten oder des Schemas ist bei der Datenerfassung nicht definiert. Das bedeutet, dass alle Daten ohne vorheriges Design oder Bereinigungen gespeichert werden können. Die Idee ist dabei, dass Daten einfach gespeichert werden, wie sie ankommen, und es erst mal zweitrangig ist, für welche Fragestellungen die Daten in der Zukunft benötigt werden könnten – was bei einem Data Warehouse und ETL-Prozessen aber meistens Ein Data Dictionary enthält Metadaten, also Informationen über die Datenbank. Das Data Dictionary ist sehr wichtig, da es zum Beispiel die Informationen enthält, was sich in der Datenbank befindet, wer darauf zugreifen darf, wo sich die Datenbank physisch befindet. Die Benutzer der Datenbank interagieren normalerweise nicht direkt mit dem Data Dictionary, es wird nur von den Datenbankadministratoren verwaltet, von den Entwicklern der nutzenden Anwendungen angepasst und im Kontext des Buches von den Analysten und Data Scientists genutzt. 6 Ein Data Mart ist eine auf einen einzelnen Funktionsbereich eines Unternehmens fokussierte Teilmenge von Daten, die in einem Data Warehouse oder anderem Datenspeicher gespeichert sind. Ein Data Mart ist eine Menge aller verfügbaren Daten und wurde für die Verwendung durch eine bestimmte Abteilung, Einheit oder Gruppe von Benutzern in einem Unternehmen zugeschnitten (zum Beispiel für Marketing, Vertrieb, Personalwesen oder Finanzen). 5

18

1 Business Analytics und Analytics

otwendigerweise vorab bekannt sein muss. Verschiedene Arten von Analysen auf den n Daten sind dabei möglich: SQL-Abfragen, Big Data Analytics, Volltextsuche, Echtzeitanalysen und Methoden des Maschinellen Lernens können alle auf einem Data Lake verwendet werden. Eine technisch tiefergehende Beschreibung der beiden Konzepte findet sich in Abschn. 2.2.8.

1.4.4 Analyse Die Analyse umfasst ein breites Spektrum von Aktivitäten, die in verschiedenen Phasen der Datenverwaltung und -nutzung auftreten können [21]. Die Abfrage von Daten ist oft der erste Schritt in einem Analyseprozess und ist ein vordefinierter und oft routinemäßiger Aufruf zur Datenspeicherung für eine bestimmte Information; im Gegensatz dazu ist die Ad-hoc-Abfrage ungeplant und wird bei Bedarf an Daten verwendet. Die deskriptive Analytik ist eine Klasse von Werkzeugen und Statistiken, um die Daten in zusammengefasster Form zu beschreiben. Beispielsweise können Analysten über die Anzahl der Vorkommnisse verschiedener Kennzahlen wie Anzahl der Klicks oder Anzahl der Personen in bestimmten Altersgruppen berichten oder zusammenfassende Statistiken wie Mittelwerte und Standardabweichungen verwenden, um Daten zu charakterisieren. Die deskriptive Analytik kann explorative Methoden verwenden, um zu versuchen, Daten zu verstehen; z. B. kann Clustering Affinitätsgruppen identifizieren. Die explorative Analytik ist oft hilfreich bei der Identifizierung eines potenziellen Datenelements, das für zukünftige Studien von Interesse ist, oder bei der Auswahl der Variablen, die in eine Analyse einbezogen werden sollen. Predictive Analytics bezieht sich auf eine Gruppe von Methoden, die historische Daten verwenden, um die Zukunft einer bestimmten Zielvariablen vorherzusagen. Einige der bekanntesten prädiktiven Methoden sind Regression und neuronale Netze. Die präskriptive Analytik ist ein aufstrebendes Feld, das mit dem Aufkommen großer Datenmengen mehr Aufmerksamkeit erhalten hat, da mehr zukünftige Zustände und eine größere Vielfalt an Datentypen untersucht werden können als in der Vergangenheit. Diese Analyse versucht, verschiedene Handlungsoptionen zu untersuchen, um die optimale zu finden, indem sie das Ergebnis verschiedener Entscheidungsoptionen vorwegnimmt [20]. Viele dieser Prozesse sind seit Langem Standard in der Datenanalyse. Was sich bei großen Datenmengen unterscheidet, ist die größere Menge und Vielfalt der betrachteten Daten und möglicherweise der Echtzeitcharakter der Datenerfassung und -analyse. Mit Hadoop können beispielsweise Rohdaten von Lieferanten-Websites verarbeitet und sogar gespeichert, betrugsanfällige Muster erkannt und ein prädiktives Modell flexibel und interaktiv entwickelt werden. Das prädiktive Modell könnte auf Hadoop entwickelt und dann in das Data Warehouse kopiert werden, um Verkaufsaktivitäten mit dem identifizierten Muster zu finden. Ein betrügerischer Lieferant würde dann weiter untersucht und möglicherweise ausgeschlossen [22]. Als weiteres Beispiel könnten grafische Bilder von Verkaufsartikeln analysiert werden, um Tags zu identifizieren, mit denen ein Verbraucher am

1.4 Business Analytics Technologieframework (BA.TF)

19

ehesten nach einem Artikel suchen kann. Die Ergebnisse können zu verbesserten Etiketten führen, um den Umsatz zu steigern. Die im BA.TF dargestellte „Analytics Sandbox“ ist eine skalierbare, entwicklungsorientierte Plattform für Data Scientists, um Daten zu erforschen, Daten aus internen und externen Quellen zu kombinieren, erweiterte Analysemodelle zu entwickeln und Alternativen vorzuschlagen, ohne den aktuellen Datenzustand eines Unternehmens zu verändern. Die Sandbox kann eine eigenständige Plattform im Hadoop-Cluster oder eine logische Partition im Enterprise Data Warehouse sein [23]. Herkömmliche Architekturen verwenden ein Schema-on-write und Save-and-process-Paradigma, bei dem Daten zunächst bereinigt und präpariert, gespeichert und erst dann abgefragt werden. Die komplexe Ereignisverarbeitung ist eine proaktive prozessbegleitende Überwachung von Echtzeitereignissen, die es Unternehmen ermöglicht, Entscheidungen zu treffen und schnell auf Ereignisse wie potenzielle Bedrohungen oder Chancen zu reagieren [24]. Die Kombination aus Echtzeit-Ereignisverarbeitung, Data Warehousing, Data Lakes, Data Marts, Hadoop-Clustern und Sandboxing bietet eine Datenanalyse- und Speicherinfrastruktur, die eine stabile Umgebung unterstützt und gleichzeitig Innovation und Echtzeitreaktion ermöglicht. Die im Detail durchführbaren Analysen aus Abschn. 1.3 lassen sich dabei mit dem Framework aus Kapitel Abschn. 1.5 in einen organisatorischen Kontext (Projekt) einfügen und konkret unter Verwendung der in Abschn. 2.1.3 vorgestellten Algorithmen zur Problemlösung der Fragestellungen umsetzen.

1.4.5 Zugriff und Nutzung Während der Aufbau einer BA-Systemarchitektur nur einmal geschieht, so wird es doch zum täglichen Geschäft, dass die Daten und Analysen genutzt und abgefragt werden. Im Gegensatz zu vielen anderen Frameworks und in Abgrenzung zur klassischen Business Intelligence (siehe Abschn. 1.2) unterscheidet das BA.TF zwei Kategorien der Datennutzung: automatisierte Anwendungen und die Integration der Analysen und Modelle in die operativen Systeme sowie auf der anderen Seite die manuelle Nutzung der Daten durch Anwender und Analysten. Das Eckerson-Framework [16] kategorisiert die manuelle Benutzung durch zwei Gruppen von Benutzern: Casual User und Power User. Die Casual User oder Gelegenheitsbenutzer sind meistens Führungskräfte, Manager und die im operativen Kerngeschäft tätigen Mitarbeiter (Buchhalter, Vertriebler, Kundendienst) und diese nutzen die grundlegenden Funktionen der Systems. Die Berichtsfunktionalität kann bei Bedarf genutzt oder die analytische Verarbeitung in den Workflow dieser Benutzer integriert werden. So kann beispielsweise ein Call-Center-Mitarbeiter im Gespräch mit einem Kunden den Wert, die Präferenzen und potenziellen Angebote des Kunden für Cross-Selling anzeigen. Die Power User sind die Analysten, Analysemodellierer und Datenwissenschaftler, die die

20

1 Business Analytics und Analytics

volle Leistungsfähigkeit der ihnen zur Verfügung stehenden BI-/BA-Systeme nutzen. Sie verfügen über gute Kenntnisse der Funktionen, Fähigkeiten und Grenzen des Systems und ein tiefes Verständnis der Geschäftsprozesse und der Daten, die hinter diesen Prozessen stehen. Das Framework unterscheidet drei Arten von Benutzern: Geschäftsanwender, Business- Analysten und Datenwissenschaftler. Geschäftsanwender verfügen über grundlegende Fähigkeiten und domänenbasierte Anforderungen. Sie umfassen die Gelegenheitsnutzer im Rahmen von Eckerson [16], aber auch externe Benutzer wie Kunden und Lieferanten, die sich über Anwendungen verbinden können, die von der analytischen Verarbeitung abhängen. So kann beispielsweise ein Fluggast, der eine mehrstädtische Reiseroute erstellt und berechnet, eine ausgeklügelte Planungsanwendung mit einer dynamischen Preismaschine verwenden, ohne sich der komplexen Abwicklung bewusst zu sein. Business-Analysten sind Benutzer, die über mehr analytische Fähigkeiten verfügen als Geschäftsanwender: Sie können Daten analysieren und verstehen, wie Daten organisiert sind. Sie verwenden Datenabfrage über Ad-hoc-Abfragen, erstellen spezialisierte Berichte, erstellen WhatIf-Szenarien und führen interaktiv tiefere Analysen zur Unterstützung ihrer Entscheidungsfindung durch. Während diese beiden Rollen in etwa den beiden Benutzertypen im Eckerson-Framework [16] entsprechen, identifiziert unser Framework Datenwissenschaftler als fortgeschrittene Datennutzer. Ein Datenwissenschaftler hat einen starken Hintergrund in Mathematik, Statistik und/oder Informatik, einen ebenso starken Geschäftssinn und die Fähigkeit, sowohl mit Geschäfts- als auch mit IT-Führungskräften in einer Weise zu kommunizieren, die beeinflussen kann, wie ein Unternehmen seine geschäftlichen Herausforderungen mit Hilfe von Daten angeht. Ein Datenwissenschaftler kann deskriptive und prädiktive Modelle entwickeln (vielleicht mit Hilfe der Discovery- Plattform; z. B. Sandbox), Modelle auswerten und diese durch kontrollierte Experimente einsetzen und testen. Im Zusammenhang mit großen Datenmengen können Datenwissenschaftler Unternehmen bei der Interpretation von umfangreichen Daten, der Verwaltung großer Datenmengen, der Integration von Daten aus mehreren Quellen und der Erstellung von Visualisierungen beraten, die das Verständnis von Daten erleichtern. Sie können sich auch an der Kommunikation der Erkenntnisse nicht nur an die Spezialisten und Wissenschaftler in ihrem Team, sondern auch an Führungskräfte aus der Wirtschaft und bei Bedarf an ein Nicht-Fachpublikum beteiligen.

1.4.6 (Big)-Data Management and Governance Datenmanagement und -governance sollten ein integraler Bestandteil jedes Unternehmens sein und sind mit der Nutzung von Daten im Rahmen von BI- und BA-Initiativen zwingend notwendig [25]. Aufgrund der zunehmenden Komplexität von Themen im Zusammenhang mit großen Datenmengen stehen Unternehmen vor neuen ethischen, rechtlichen und regulatorischen Herausforderungen bei der Verwaltung und Governance großer Datenmengen [26]. Der Data-Governance-Prozess muss ausbalanciert sein, um die Anfor-

1.4 Business Analytics Technologieframework (BA.TF)

21

derungen von oben nach unten und unten nach oben zu erfüllen [16]. Die in unserem Rahmen identifizierte Big-Data-Management- und Governance-Komponente schlägt einen umfassenden Datenmanagementansatz vor, der Probleme auf strategischer, taktischer und operativer Ebene angeht. Auf strategischer Ebene sollte ein erfolgreicher Data- Governance-Prozess das gesamte Spektrum von der Datenbeschaffung bis zur Nutzung umfassen und sicherstellen, dass große Datenmengen im Einklang mit der Geschäftsstrategie stehen. Zu den Entscheidungen gehören die darüber, welche internen und externen Datenquellen verwendet werden sollen, die Auswahl und der Einsatz geeigneter großer Datentechnologien für die Datenspeicherung und den einheitlichen Datenaustausch sowie Investitionen in Trainingsprogramme, um über die entsprechenden Fähigkeiten zu verfügen, um fundierte und zeitnahe Entscheidungen zu treffen. Im Zusammenhang mit großen Datenmengen speichern Unternehmen mehr Daten als ihren unmittelbaren Bedürfnissen entspricht, was sie mehr Datenschutz- und Sicherheitsrisiken aussetzen kann. Angemessene Governance-Mechanismen, die die Einhaltung von Vorschriften und Gesetzen sicherstellen, sind von entscheidender Bedeutung. Im Gegensatz zu herkömmlichem BI, bei dem die meisten Geschäftseinheiten und Benutzer im Rahmen großer Datenmengen mit entsprechenden Berichten/Daten für die Entscheidungsfindung versorgt werden, ermöglichen viele Unternehmen ihren Geschäftseinheiten heute, Wege zu finden, Daten zu nutzen und zu analysieren, um ihre Bedürfnisse besser zu erfüllen. So ist es nicht ungewöhnlich, dass große Datenprojekte aus verschiedenen Geschäftsbereichen stammen. Daher ist die Verwaltung großer Datenprojekte von entscheidender Bedeutung. Auf taktischer Ebene sollte der Prozess der guten Unternehmensführung Möglichkeiten beinhalten, große Datenprojekte zu priorisieren, Metriken zur Bewertung von Projekten und deren Nutzen festzulegen und Wissensmanagementprozesse so einzusetzen, dass eine effektive gemeinsame Nutzung von Ressourcen in der Organisation im Zusammenhang mit großen Datenaufwänden stattfindet. Eine weitere große Veränderung im Big-Data- und KI-Kontext sind die Management- Aufwendungen auf operativer Ebene. Die Latenzzeit (d. h. die Geschwindigkeit des Datenzugriffs) ist entscheidend. Da es sich bei den von Unternehmen verwendeten Daten sowohl um interne als auch um externe Daten handelt, müssen auf operativer Ebene Entscheidungen darüber getroffen werden, wie mit Daten aus unterschiedlichen Quellen umgegangen werden soll, wie etwa unstrukturierte Daten strukturiert werden können, wie die Datenqualität sichergestellt werden kann (z. B. Stammdatenmanagement), welche In- Memory-Datenbanken für die Speicherung verwendet werden sollen und welche No- SQL-Ansätze für den Zugriff auf Daten verwendet werden.

22

1.5

1 Business Analytics und Analytics

orgehensmodell: Business Analytics Model for Artificial V Intelligence (BAM.AI)

Das Wichtigste bei einem großen und komplexen Projekt mit einer Vielzahl von Beteiligten und notwendigen Kompetenzen ist es, so schnell wie möglich einen Überblick über das Projekt aus einer übergreifenden Perspektive zu bekommen. Dies gilt selbstverständlich nicht nur für Projekte aus dem in diesem Buch vorgestellten Bereich der Business- Analytik und der Verwendung von Methoden der Künstlichen Intelligenz, hier aber in besonderem Maße. Denn es wird zwingend ein Projektteam benötigt mit Beteiligten mindestens aus dem Fachbereich, aus der IT und zusätzlich die umsetzenden Data Scientists. Dieses Kapitel konzentriert sich in der Strukturierung dieser Projekte auf das Business Analytics Model for Artificial Intelligence (BAM.AI), das genau einen solchen Überblick und eine solche Strukturierung ermöglicht. Das Vorgehensmodell bietet einen Überblick über das Verständnis und die Schaffung von erfolgreichen BA-Initiativen in jeder Art von Unternehmen. Das Ziel des Modells ist es, der Organisation einen einzigen gemeinsamen Bezugsrahmen für eine Gesamtstruktur bei der Schaffung eines erfolgreichen BA-Projekts zu geben. Dazu verdeutlicht das Modell die Rollen der einzelnen Abschnitte und die Interaktion im Prozess der Informationsgenerierung und des Informationskonsums. Die Einrichtung eines BA-Projekts ist eine herausfordernde Aufgabe, da die dafür erforderlichen Fähigkeiten sehr breit gefächert sind und Kenntnisse über die Geschäftsfelder, Datenbanktechnologien, Dateninfrastruktur sowie prädiktive Modellierungsalgorithmen und -techniken erfordern. Nur sehr wenige Personen verfügen über all diese Fähigkeiten und deshalb ist die Einrichtung eines BA- Modellierungsprojekts zwangsläufig eine Teamleistung. Dieses Kapitel beschreibt dabei ein Vorgehensmodell und die Grundsätze für die Einrichtung eines BA-Projekts. Folgt man der eigenen Erfahrung und derer zahlreiche anderer Autoren, so gibt es bisher keinen anerkannten Standard für Business-Analytics-Vorgehensmodelle. Daher müssen die Arbeitsteams, die an einem solchen Projekt teilnehmen, oft eine eigene Ad-hoc-Methodik entwickeln, um die Arbeitsdynamik innerhalb jedes Teams und zwischen den Teams zu bewältigen. Letzteres weist einen niedrigen Prozessreifegrad auf und erhöht damit signifikant die Wahrscheinlichkeit des Scheiterns. Auch wenn es keine einheitlichen Vorgehensmodelle für BA-Projekte gibt, so existieren doch zahlreiche Methodiken für den Teilbereich des Data Minings. Das Data Mining wurde in den 90er-Jahren entwickelt, um Datenmuster in strukturierten Quellen (Datenbanken) zu entdecken und damit einen betriebswirtschaftlichen Mehrwert zu gewinnen [27, 28] (siehe auch folgende Definition). Es gibt dabei in der Literatur und Praxis eine große Variationsbreite in Bezug auf die Problembereiche, Anwendungen, Formulierungen und Algorithmen, die in realen Anwendungen vorkommen. Daher ist „Data Mining“ an sich erst mal ein weit gefasster Oberbegriff, der diese verschiedenen Aspekte der Datenverarbeitung beschreibt, sich aber in den allermeisten Fällen auf die Sammlung und Analyse der Daten bezieht und weniger auf die Anwendung der gewonnenen Erkenntnisse in

1.5 Vorgehensmodell: Business Analytics Model for Artificial Intelligence (BAM.AI)

23

einer automatisierten Perspektive, wie es die BA als definitorische Grundlage beinhaltet (siehe auch Abschn. 1.2). Data Mining umfasst das Sammeln, Bereinigen, Verarbeiten, Analysieren und Gewinnen nützlicher Erkenntnisse aus Datenmengen. [28] Im Gegensatz zum ursprünglichen Verständnis des Data Mining berücksichtigt Business Analytics explizit immer auch unstrukturierte Daten und arbeitet in größerem Umfang. Ein gemeinsamer Punkt ist, dass beide aus Prozesssicht eine enge Zusammenarbeit von Datenwissenschaftlern und Management erfordern, um erfolgreich zu sein.7 Viele Methoden und Prozessmodelle wurden ursprünglich für Data Mining und Knowledge Discovery entwickelt. Der erste Ansatz war dabei Knowledge Discovery in Database (KDD) und dieser wurde in viele andere Ansätze erweitert und verfeinert. Diese Ansätze haben sich dann unter der Bezeichnung „Cross-industry standard process for data mining“ (CRISP-DM) zu einer Art Quasi-Standard im Bereich des Data Mining entwickelt. Das Business Analytics Model for Artifical Intelligence (BAM.AI) beschreibt dabei den BA-Prozess in klar abgegrenzten Schritten und stellt ein branchenübergreifendes Vorgehensmodell dar Abb. 1.3. Es ist eng an die historisch aus dem KDD entwachsenen Modelle angelehnt und hat einen engen Bezug zum CRISP-DM und der daraus von IBM weiterentwickelten „Analytics Solutions Unified Method for Data Mining/Predictive Analytics“ (ASUM-DM) [29]. Ein Vorteil der Verwendung von BAM.AI ist, dass es die häufigsten Schritte auf generische Art beschreibt und ein gleiches Verständnis und Vorgehen innerhalb eines Unternehmens und in der Kommunikation nach außen ermöglicht.

Abb. 1.3 Business Analytics (Process) Model for Artifical Intelligence (BAM.AI)

Dabei muss angemerkt werden, dass auch das Data Mining inzwischen auch unstrukturierte Daten in der Betrachtung nicht unberücksichtigt lässt.

7

24

1 Business Analytics und Analytics

Die Zielgruppe von BAM.AI umfasst dabei sowohl Manager als auch Praktiker. Für Entscheidungsträger und Projektmanager beschreibt BAM.AI die Schritte im Modellierungsprozess aus der Programmperspektive und zeigt die Schritte auf, die Analysten beim Aufbau von BA-Projekten durchführen müssen. Für jeden der Schritte kann dann auch eine eigene Kosten- und Aufwandsschätzung ermittelt werden und während der Projektlaufzeit nachverfolgt werden. So kann schon vorab eine realistische Schätzung ermittelt und auch transparent gehalten werden, sodass die Projektergebnisse und Zeitpläne eingehalten werden. Dabei ist BAM.AI in zwei Abschnitte (Cycles) aufgeteilt: den Development- Cycle (Abschn. 1.5.1) und den Deployment-Cycle (Abschn. 1.5.2). Für Praktiker bieten beide Cycles zusammen eine Struktur zur Planung und für die Durchführung der Projekte. Auch für erfahrene Praktiker strukturiert und beschreibt BAM. AI die notwendigen Schritte kurz und bündig. Die Darstellung des Vorgehensmodells als zwei integrierte Kreise hat dabei gute Gründe, denn viele Praktiker sehen die Notwendigkeit, bei solchen Projekten nicht linear (Stichwort „Wasserfallmodell“) vorzugehen, da diese Projekte aufgrund von Problemen mit Daten (Verfügbarkeit, Struktur, Qualität und Inhalte) und den Modellen (Auswahl, Training oder Performance) fast nie wie geplant ablaufen. Eine gute Strukturierung ist jedoch immer wertvoll, zumal BAM.AI eine Begründung für die notwendigen Schritte liefert, die im Prozess der Business-Analytik durchgeführt werden müssen. BAM.AI kombiniert dabei praktische Erfahrung mit bewährten Branchenpraktiken, um erfolgreiche, risikominimierte Umsetzungen zu erreichen. Es basiert auf der gesammelten Erfahrung von anderen Vorgehensmodellen bei der Implementierung von Software in den anspruchsvollsten IT-Umgebungen, um ein breites Spektrum von Anforderungen zu erfüllen. Die beiden integrierten Cycles entsprechen dabei auch den realen Gegebenheiten in den meisten Unternehmen, wo die (Projekt-)Entwicklung und der eigentliche Betrieb voneinander entkoppelt erfolgen. Das Vorgehensmodell trägt daher dieser Realität Rechnung, ohne aber dabei zu vergessen, dass die Daten aus dem produktiven Betrieb die Grundlage für die Verbesserung der Modelle bilden. Denn KI-Methoden sind immer auf große Datenmengen zum Trainieren (Lernen) angewiesen (siehe Kap. 2.)

1.5.1 Development Cycle Der erste der beiden Cycles, der Development Cycle, konzentriert sich vor allem auf die Erstellung des Modells und die Ableitung bzw. das Trainieren von diesem aus den historischen Daten.

1.5.1.1 Business Understanding Jedes BA-Projekt braucht Geschäftsziele und Domänenexperten, die Entscheidungen, KPIs, Schätzungen oder Berichte, die für ein Unternehmen von Wert sind, verstehen und die Ziele des Projekts aus Sicht des Geschäfts definieren. Die eingesetzten Analysten selbst verfügen manchmal über diese Expertise, wenn diese denn inhouse angestellt sind,

1.5 Vorgehensmodell: Business Analytics Model for Artificial Intelligence (BAM.AI)

25

aber Domänenexperten haben in den meisten Fällen eine bessere Perspektive, welche Aspekte beim täglichen Geschäft wichtig sind und wie sich die Ergebnisse des Projekts auf das Unternehmen auswirken (sollen). Ohne Fachkompetenz können die gesetzten Ziele, Definitionen, welche Modelle gebaut und wie sie und die Ergebnisse daraus bewertet werden sollten, zu gescheiterten Projekten führen, die die wichtigsten Geschäftsprobleme nicht berücksichtigen. Eine Möglichkeit, die Zusammenarbeit zu verstehen, die zu einem Erfolg bei den BA-Projekten führt, ist die Vorstellung eines dreibeinigen Stuhls. Jedes Bein ist entscheidend dafür, dass der Stuhl stabil stehen bleibt und seinen Zweck erfüllt. Bei BA-Projekten sind die drei Grundpfeiler unabdingbar: (1) Domänenexperten, (2) Daten- oder Datenbankexperten und (3) Experten für die Modellierung (Data Scientists). Die Domänenexperten sind erforderlich, um ein Problem umfassend und so zu formulieren, dass die Fragestellung für das Unternehmen von Nutzen ist. Die Daten- oder Datenbankexperten werden benötigt, um festzustellen, welche Daten für die Modellierung zur Verfügung stehen, wie weitere erhoben werden können, die bestehenden qualitativ bereinigt werden und wie auf diese Daten zugegriffen werden kann. Die Modellierer oder Data Scientists sind erforderlich, um auf diesen Daten und den definierten Fragen die erforderlichen Modelle zu erstellen. Wenn einer oder mehrere dieser drei Grundpfeiler fehlen, dann wird das Problem leicht nicht richtig definiert oder es erfolgt eine rein technische Betrachtung der Problematik (wenn beispielsweise nur Modellierer und der Datenbankadministrator die Probleme definieren). So können dann exzellente Modelle mit fantastischer Genauigkeit auf den neusten und angesagtesten Algorithmen erstellt werden, aber diese können nicht genutzt werden, da das Modell nicht den tatsächlichen Bedürfnissen des Unternehmens entspricht. Oder auf subtilere Weise: Vielleicht stützt das Modell ja die richtige Art von Entscheidung, aber die Modelle werden so bewertet, dass sie nicht sehr gut das ansprechen, was für das Unternehmen am wichtigsten ist – das falsche Modell wird ausgewählt, weil die falsche Metrik zur Beschreibung guter Modelle verwendet wird. Wenn auf der anderen Seite der Datenbankexperte nicht involviert wird, so können Datenprobleme auftreten. Erstens gibt es möglicherweise nicht genügend Verständnis für das Layout von Tabellen in den Datenbanken, um auf alle Felder zugreifen zu können, die für die Algorithmen erforderlich sind. Zweitens kann es zu wenig Verständnis für die einzelnen Felder und darüber, welche Informationen sie darstellen, geben, auch wenn die Namen der Felder intuitiv erscheinen. Wobei ehrlicherweise der Normalzustand in vielen Unternehmen ist, dass die Namen kryptisch und willkürlich über Jahre entstanden sind und keine Dokumentation verfügbar ist. Drittens können unzureichende Berechtigungen verhindern, dass Daten genutzt werden können. Viertens, Datenbankressourcen unterstützen möglicherweise nicht die Art von Joins oder die Abfragen übersteigen die verfügbaren technischen Ressourcen, die benötigt werden. Und fünftens, Modellbereitstellungsoptionen, die vom BA-Team vorgesehen sind, werden von dem Unternehmen möglicherweise nicht unterstützt. Wenn die Data Scientists während dieser ersten entscheidenden Phase nicht verfügbar sind, können sich verschiedene Hindernisse ergeben. Erstens ein Mangel an Verständnis bei den Programmmanagern von dem, was die Algorithmen und Modelle

26

1 Business Analytics und Analytics

leisten können oder sollen. So kann es sein, dass Manager, angetrieben durch den Hype um die KI, Vorgaben spezifizieren, die unmöglich umzusetzen sind. Zweitens kann es vorkommen, dass die Definition von Zielvariablen für die Modellierung überhaupt nicht oder nur unzureichend durchgeführt wird, wodurch die Bemühungen um die Modellierung behindert werden. Drittens, wenn der Data Scientist das Layout der benötigten Daten nicht definiert, die er für den Aufbau der Modelle benötigt, kann es vorkommen, dass eine zu verwendende Datenquelle überhaupt nicht definiert wird oder es fehlen die entscheidenden Schlüsselfelder, die aber für die Modelle dringend benötigt werden.

1.5.1.2 Data Discovery Im Gegensatz zum CRISP-DM-Modell ist der hier neu definierte Best-Practice-Ansatz, den Datenanalyseprozess, auch Data Discovery genannt, in zwei verschiedene Schritte zu unterteilen: Erkundung (Data Exploration) – Nachdem Daten vorbereitet wurden, werden diese Daten „erkundet“, um zu sehen, welche Teile davon weiterhelfen, die gesuchten Antworten zu finden. Dabei können auch die ersten Tests gemacht werden und verschiedene Hypothesen überprüft werden. Man kann sich diesen Schritt auch als Datenveredelung oder Datenauswahl vorstellen. Die Unternehmen und Anwender können die Datenexploration mit einer Kombination aus automatisierten und manuellen Methoden durchführen. Data Scientists verwenden häufig automatisierte Tools wie Datenvisualisierungssoftware für die Datenexploration, da diese Tools es den Benutzern ermöglichen, die relevantesten Funktionen und Abhängigkeiten innerhalb eines Datensatzes schnell und einfach aufzuzeigen. In diesem Schritt können Nutzer die Variablen identifizieren, die am wahrscheinlichsten für interessante Beobachtungen erscheinen. Entdeckung (Data Discovery) – sobald bekannt ist, welche Daten benötigt werden, kann in diesen Daten „tief gegraben“ werden, um die spezifischen Punkte und Variablen zu identifizieren, die Antworten auf die ursprüngliche Frage geben. Es handelt sich dabei um einen geschäftsanwenderorientierten Prozess zur Erkennung von Mustern und Ausreißern beispielsweise durch eine visuelle Navigation durch Daten oder die Anwendung von automatisierten erweiterten Analysen. Discovery ist ein iterativer Prozess, der keine umfangreiche Vorabmodellerstellung erfordert. Die Datenentdeckung erfordert Fähigkeiten um das Verständnis von Datenbeziehungen und Datenmodellierung, im Umgang mit Datenanalyse und geführten erweiterten Analysefunktionen.

1.5.1.3 Data Wrangling Data Wrangling ist einer der Fachbegriffe, die mehr oder weniger selbsterklärend sind: Data Wrangling ist der Prozess der Bereinigung, Strukturierung und Anreicherung von Rohdaten in ein gewünschtes Format für eine bessere Entscheidungsfindung in kürzerer Zeit. Data Wrangling ist bei IT-Unternehmen zunehmend allgegenwärtig und Bestandteil sämtlicher IT-Initiativen. Die Daten sind vielfältiger und unstrukturierter geworden, was

1.5 Vorgehensmodell: Business Analytics Model for Artificial Intelligence (BAM.AI)

27

eine längere Zeit für die Aufnahme, Bereinigung und Strukturierung von Daten für die eigentliche Analyse erfordert. Gleichzeitig haben Geschäftsanwender weniger Zeit, auf technische Ressourcen zu warten, da Daten in fast jeder Geschäftsentscheidung benötigt werden – gerade bei analytisch fokussierten Unternehmen. Die Grundidee des Data Wranglings besteht darin, dass die Mitarbeiter, die die Daten und die dahinterstehenden Realweltprobleme am besten kennen, diese auch untersuchen und vorbereiten. Das bedeutet, dass Businessanalysten, Branchenanwender und Manager (unter anderem) die beabsichtigten Benutzer von Tools zum Data Wrangling sind. Im Vergleich dazu konzentrieren sich Extract-Transform-Load-Technologien (ETL) auf die IT als Endanwender. IT-Mitarbeiter erhalten Anforderungen von ihren Geschäftspartnern und implementieren Pipelines oder Workflows mit ETL-Tools, um die gewünschten Daten in den gewünschten Formaten an die Systeme zu liefern. Reine Geschäftsanwender sehen oder nutzen bei der Arbeit mit Daten selten ETL-Technologien, da diese wenig intuitiv sind und mehr auf Datenbanktechnologieebene angesiedelt sind als im Geschäftsbetrieb. Bevor Tools zum Data Wrangling verfügbar waren, fand die Interaktion dieser Benutzer mit Daten nur in Tabellenkalkulationen oder Business-Intelligence-Tools statt. Der Vorgang des Data Wrangling beinhaltet dabei eine Abfolge der folgenden Prozesse: Vorverarbeitung, die unmittelbar nach der Datenerfassung erfolgt Standardisierung der Daten in ein verständliches und nutzbares Format Bereinigung von Daten von Rauschen, fehlenden oder fehlerhaften Elementen Konsolidierung von Daten aus verschiedenen Quellen oder Datensätzen zu einem einheitlichen Ganzen • Abgleich der Daten mit den vorhandenen Datensätzen • Filterung von Daten durch festgelegte Einstellungen für die nachfolgende Verarbeitung • • • •

1.5.1.4 Analyse In der Phase der Analyse gilt es zu definieren, was die Lösung bezogen auf das Problem und Umfeld leisten muss. Dies umfasst sowohl die Features als auch die nicht-funktionalen Attribute (wie Performance, Usability etc.). Dabei wird in der Analysephase zunächst die Modellierungstechnik ausgewählt, danach die notwendige Qualität und Gültigkeit des Modells festgelegt und final das Modell implementiert. Modellierungstechnik – Im ersten Schritt der Analyse müssen die eigentliche Modellierungstechnik, die zu nutzenden Algorithmen und Vorgehensweisen ausgewählt werden. Obwohl vielleicht zuvor bereits, in der Phase des Geschäftsverständnisses, ein Toolset oder Werkzeug ausgewählt wurde, muss in dieser Phase die spezifische Umsetzung festgelegt werden. Dies erfolgt dabei selbstverständlich unter Berücksichtigung der ursprünglichen Fragestellung. Denn ob Sie Entscheidungsbäume oder neuronale Netzwerke nutzen, hat erst mal viel mit der zu beantwortenden Frage, den verfügbaren Daten und den weiteren Rahmenbedingungen (die durch die beiden Phasen zuvor gesetzt sind) zu tun. Dazu folgt in Abschn. 2.1.3 eine detaillierte Aufstellung der Problemtypen und der jeweils

28

1 Business Analytics und Analytics

e insetzbaren Algorithmen. Dabei gilt es immer, auch wenn mehrere Techniken angewendet werden müssen, zu berücksichtigen: • Modellierungstechnik – Auswahl und Festlegung der Modellierungstechnik, die verwendet werden soll • Modellierungsannahmen – Viele Modellierungstechniken treffen spezifische Annahmen über die Daten, z. B. dass alle Attribute einer Gleichverteilung unterliegen, keine fehlenden Werte erlaubt sind oder Klassenattribute symbolisch sein müssen Qualitätssicherung – Bevor danach das tatsächliche Modell erstellt wird, muss zusätzlich eine Prozedur oder ein Mechanismus definiert werden, um die Qualität und Gültigkeit des Modells zu testen. So ist es beispielsweise bei überwachten Algorithmen wie der Klassifizierung üblich, die Fehlerraten als Qualitätsmaßstäbe für die Modelle zu verwenden. Daher teilt man bei der Anwendung dieser Algorithmen den Datensatz typischerweise in Trainings- und Testdaten (auch Lern- und Validierungsdatensätze genannt). Das Modell wird dabei auf den Trainingsdaten aufgebaut und danach die Qualität auf dem separaten Testsatz geschätzt. Wichtig in dieser Phase ist auch die Festlegung des vorgesehenen Plans für das Training, das Testen und die Bewertung der Modelle. Ein wesentlicher Bestandteil des Plans ist die Festlegung, wie der verfügbare Datensatz in Trainings-, Test- und Validierungsdatensätze unterteilt werden soll. Modelle erstellen – Danach wird das Modellierungswerkzeug (Abschn. 2.2.8) auf dem vorbereiteten Datensatz angewendet, um ein oder mehrere Modelle zu erstellen. Dabei werden die notwendigen Parametereinstellungen definiert. Bei jedem Modellierungswerkzeug gibt es oft eine große Anzahl von Parametern, die angepasst werden können. Dabei sollten die Parameter und die ausgewählten Werte zusammen mit einer Begründung für die Wahl der Parametereinstellungen dokumentiert werden. Somit umfasst das Ergebnis dieses Teilschritts sowohl das Modell als auch die Modellbeschreibung und -dokumentation: • Modelle – Dies sind die tatsächlichen Modelle, die mit dem Modellierungswerkzeug erstellt wurden • Modellbeschreibungen – Beschreibung die resultierenden Modelle, Bericht über die Interpretation der Modelle und Dokumentation eventueller Schwierigkeiten und Annahmen in der Erstellung

1.5.1.5 Validierung Die nun erstellten Modelle müssen entsprechend den Domänenkenntnissen (am besten unter Einbeziehung der Fachanwender in Workshops) interpretiert werden, basierend auf den zuvor festgelegten Erfolgskriterien und dem Testdesign. Zunächst gilt es, die Ergebnisse der erstellten Modelle technisch (im Sinne der Gütekriterien der Algorithmen) zu beurteilen und dann die Ergebnisse mit den Business-Analysten und Domänenexperten im geschäftlichen Kontext zu diskutieren. Bei der Bewertung sollten dabei aber nicht nur die

1.5 Vorgehensmodell: Business Analytics Model for Artificial Intelligence (BAM.AI)

29

technischen Qualitätskriterien gemessen, sondern auch die Unternehmensziele und Geschäftserfolgskriterien so weit wie möglich berücksichtigt werden. In den meisten Projekten wird eine einzige Technik mehr als einmal angewendet und Ergebnisse werden mit mehreren verschiedenen Techniken oder in mehreren Schritten erzeugt. Das Vorgehen der technischen Bewertung (im Sinne einer mathematischen Gütebewertung) ist dabei in zwei Schritte einzuteilen: • Modellbewertung – Es erfolgt eine Zusammenfassung der Ergebnisse dieses Schrittes mit einer Auflistung der Güte und Qualität jedes generierten Modells (z. B. in Bezug auf die Genauigkeit). Danach werden die Modelle in Bezug auf die Qualitätskriterien ausgewählt. • Überarbeitete Parametereinstellungen – Je nach Modellbewertung müssen die Parametereinstellungen nochmals angepasst werden und für den nächsten Modellierungslauf abstimmt werden. Dabei sollten die Modellerstellung und die Bewertung iteriert werden, bis das beste Modell gefunden ist. Es gilt, alle Änderungen, Revisionen und Bewertungen zu dokumentieren. Im vorhergehenden Schritt dieser Phase wurden Faktoren wie die Genauigkeit und Allgemeingültigkeit des Modells behandelt. Im zweiten Schritt wird bewertet, inwieweit das Modell die Unternehmensziele erreicht und ob es einen geschäftlichen Grund gibt, warum dieses Modell ausreichend oder vielleicht unzureichend ist. Eine weitere Möglichkeit besteht darin, das/die Modell(e) auf Testanwendungen in der realen Anwendung zu testen – falls es die Zeit- und Budgetbeschränkungen zulassen. Die Evaluierungsphase beinhaltet auch die Bewertung aller anderen Ergebnisse, die generiert wurden.

1.5.1.6 New Data Aquisition Abhängig von den Ergebnissen wird nun eine weitere Iteration initiiert, neue notwendige oder mögliche Daten werden ermittelt und das Modell wird wieder neu betrachtet. Auch sollte eine Bestandsaufnahme der verbleibenden Ressourcen und des Budgets vorgenommen werden, wenn ein fixer Budgetrahmen existiert, da diese Restriktionen weitere Entscheidungen beeinflussen können.

1.5.2 Deployment Cycle Der zweite der beiden Cycles, der Deployment Cycle, konzentriert sich vor allem auf die Nutzung und produktive Verwertung des zuvor erstellten Modells und die Anwendung auf aktuellen Daten. Den meisten Datenwissenschaftlern ist diese andere Hälfte des Problems nicht oder kaum bewusst. Viele Unternehmen haben mit BA und KI und den verschiedenen Fallen zu kämpfen, wie verschiedenen Studien zeigen [30, 31]. Analysten zufolge dauert es etwa 2 Monate, um ein einziges Vorhersagemodell von der Erstellung bis zur

30

1 Business Analytics und Analytics

Produktion zu bringen. Aber warum ist es so schwierig, BA- und KI-Projekte in einer Organisation zu skalieren? Gerade die produktive Einführung und Wartung dieser Projekte ist keine leichte Aufgabe und wird von den meisten Datenwissenschaftlern als nicht ihre Aufgabe angehsehen. Dabei sind die entscheidenden Fragen doch essenziell für den Projekterfolg: • Wie integriere ich das Modell oder Projekt in die bestehenden Systemlandschaft? • Wie kann das Modell einfach bereitgestellt werden, so dass es von anderen Anwendungen skalierbar und sicher konsumiert werden kann? • Wie kann man die Qualität der Modelle überwachen und bei Bedarf eine neue Version veröffentlichen? • Wie kann man die Übergabe der Artefakte vom Datenwissenschaftler an den IT-Betrieb ohne Reibungsverluste bewältigen? Ist diese Trennung überhaupt nötig?

1.5.2.1 Publish Um festzustellen, wo das erstellte Analytics-Modell produktiv ausgeführt werden soll, sollten die folgenden Überlegungen berücksichtigt werden: Umfang – Letztendlich sind es die abgeleiteten Informationen und Entscheidungen (nicht die Rohdaten) und wie darauf reagiert werden kann, die bestimmen, welche Arten von Analysen eingesetzt werden und wo. Wenn es beispielsweise darum geht, die Maschinenverfügbarkeit an einem Standort zu optimieren, kann eine Analyse der dort gesammelten Daten ausreichend sein. In diesem Fall kann die Analyse überall durchgeführt werden, vorausgesetzt, dass der normale lokale Betrieb nicht entscheidend von der Netzwerklatenz und der Verfügbarkeit der Analyseergebnisse abhängig ist. Andererseits, wenn das Leistungsversprechen darin besteht, die Produktion über Standorte hinweg zu optimieren, die einen Vergleich der Fabrikeffizienz erfordern, dann muss die Analyse der von diesen Standorten gesammelten Daten durchgeführt werden, um auf einer höheren Ebene der Systemarchitektur verfügbar zu sein. Reaktionszeit und Zuverlässigkeit – In einem industriellen Umfeld erfordern einige Probleme Analysen, Berechnungen und Entscheidungen in Echtzeit und andere können nachträglich durchgeführt werden. Erstere erfordern fast immer, dass die Analytik für Zuverlässigkeit und Leistung lokal ist. Bandbreite – Die Gesamtmenge der erzeugten Daten (von Sensoren beispielsweise), zusammen mit den von den Steuerungs- oder Transaktionssystemen erfassten Daten, kann in vielen Fällen enorm sein. Dies muss je nach Ort des Deployments in der insgesamt zunehmenden Netzwerk- und Infrastrukturauslastung berücksichtigt werden. Kapazität – In einigen Fällen kann es optimal sein, die Analytik auf einer bestimmten Ebene in einer Systemarchitektur durchzuführen, aber die bestehende Infrastruktur kann sie möglicherweise nicht unterstützen, sodass eine andere Ebene ausgewählt wird. Sicherheit – Der Wert aus der Datenübermittlung muss mit der Sorge um die Übertragung von Rohdaten außerhalb von Kontrollbereichen und den damit verbundenen Kosten abgewogen werden. Es kann effizienter sein, einige Analysen lokal durchzuführen und

1.5 Vorgehensmodell: Business Analytics Model for Artificial Intelligence (BAM.AI)

31

notwendige zusammenfassende, redigierte oder anonymisierte Informationen mit anderen Bereichen zu teilen. Diese Diskussion führt in den allermeisten Fällen zu einer Entscheidung zwischen einem lokalen oder einem Cloud-basierten Ort des Deployment. Wichtig ist dabei, dass man eine ehrliche Bewertung durchführt. (Sind die eigenen lokalen Admins wirklich so gut wie die Sicherheitsexperten von Amazon AWS?) Compliance – Um zu veranschaulichen, wie sich Compliance auf die Analytik als Designbetrachtung auswirken kann, wird die nationale Sicherheit als Beispiel herangezogen. Nationale Sicherheitsbedenken können die architektonische Entscheidung über Datenmanagement und -austausch mit staatlichen Vorschriften in Branchen wie Luft- und Raumfahrt und Verteidigung einschränken. Dies wird Einfluss darauf haben, wo die Analytik eingesetzt werden muss, um die gesetzlichen Anforderungen zu erfüllen, z. B. um zu verhindern, dass groß angelegte Berechnungen in einer Public-Cloud-Anlage durchgeführt werden, um die Kosten zu senken. Plattform – Wenn es um die Bereitstellung geht, muss sich für eine Platform as a Service (PaaS) oder Infrastructure as a Service (IaaS) entschieden werden. Ein PaaS kann sich für die Erstellung von Prototypen und für Unternehmen mit geringeren Anforderungen eignen. Wenn das Unternehmen wächst und/oder höhere Ansprüche gestellt werden, ist IaaS wahrscheinlich der bessere Weg. Dies erfordert zwar die Handhabung von mehr Komplexität, aber erlaubt es eine Skalierung deutlich besser (und wahrscheinlich auch kostengünstiger) umsetzen. Es gibt viele Lösungen von den großen Hyperscalern (AWS, Google, Microsoft) sowie eine Menge von Nischenanbietern. Einen Überblick hierzu bietet auch der Abschn. 3.2.

1.5.2.2 Analytic Deployment Das Deployment, also die Überführung der Anwendung aus der Entwicklung in den produktiven Betrieb, wird auch als „DevOps“ bezeichnet. Dabei ist DevOps ein Kunstwort aus den Begriffen Development (englisch für Entwicklung) und IT Operations (englisch für IT-Betrieb) und bezeichnet eine Methodik, die sich auf die Interaktion zwischen der Entwicklung (erster Cycle) und dem Betrieb bezieht. Die Entwicklung braucht so viele Veränderungen wie möglich, um die Bedürfnisse der sich ändernden Zeit zu erfüllen, während die Veränderung für den Betrieb „der Feind“ ist. Der Betrieb erfordert Stabilität und jede Veränderung stößt somit auf starken Widerstand. Es gibt viele grundlegende DevOps- Praktiken. Einige davon sind: Infrastruktur als Code (IaC) ist die Praxis, in der die in der Softwareentwicklung verwendeten Techniken, Prozesse und Werkzeugsätze genutzt werden, um die Bereitstellung und Konfiguration von Systemen, Anwendungen und Middleware zu verwalten. Die meisten Test- und Bereitstellungsfehler treten auf, wenn sich die Entwicklerumgebungen von den Test- und Produktionsumgebungen unterscheiden. Die Versionskontrolle dieser Umgebungen bringt sofortige Vorteile in Bezug auf Konsistenz, Zeitersparnis, Fehlerraten und Auditierbarkeit.

32

1 Business Analytics und Analytics

Unter der Praxis der kontinuierlichen Integration (CI) werden die Arbeitskopien des gesamten Entwicklercodes mit einer gemeinsamen Hauptleitung kombiniert. Automatisiertes Testen – ist die Praxis, bei der verschiedene Tests wie Last-, Funktions-, Integrations- und Komponententests automatisch ablaufen, entweder nachdem Sie Code eingecheckt haben (d. h. an CI angehängt sind) oder auf andere Weise einen oder mehrere Tests automatisch gegen einen bestimmten Build oder eine bestimmte Anwendung auslösen. Release-Management ist eine Praxis, die die Entwicklung, das Testen, den Einsatz und den Support von Software-Releases überwacht. Konfigurationsmanagement ist die Praxis zur Feststellung und Aufrechterhaltung der Konsistenz der Leistung eines Produkts mit seinen Anforderungen, Design- und Betriebs informationen während seiner gesamten Lebensdauer. cc

Erst wenn die Modelle in der Produktion eingesetzt werden („Analytic Deployment“ oder auch „Productive Deployment“), können diese einen Mehrwert schaffen. Somit ist der das Analytic Deployment der entscheidende Schritt eine jeden Business-Analytics-Projektes.

Das Analytic Deployment kann man in der Praxis grob in zwei Vorgehensweisen einteilen (siehe Abb. 1.4), wie im Folgendem kurz skizziert. Das Deployment innerhalb von geschlossenen Applikationen und die gekapselte Verwendung in einer Anwendung, haben kommen ohne externe Abhängigkeiten aus und sind meistens auf Plattformen oder bestehenden Applikationslandschaften, wie einer

Abb. 1.4 Die Analytical-Deployment-Architektur mit Docker Swarm oder Kubernetes

1.5 Vorgehensmodell: Business Analytics Model for Artificial Intelligence (BAM.AI)

33

SAP-Umgebung, vorzufinden. Ein gutes Beispiel für diese Art des Deployments ist die Nutzung der SAP HANA Predictive Analysis Library (PAL) im Umfeld von SAP und der SAP Datenbankplattform HANA (siehe Abschn. 3.2.5.3). Die PAL definiert Funktionen, die innerhalb von SAP-HANA-SQLScript-Prozeduren aufgerufen werden können, um analytische Algorithmen durchzuführen. Diese vorgefertigten Algorithmen, wie eine Regression Abschn. 2.2.4, können nun von bestehenden Anwendungen, wie dem SAP ERP-System aufgerufen werden. Somit ist es möglich mit vorhandenen und nativen Frameworks, hier die ABAP Programmiersprache der SAP, Business-Analytics-Funktionen zu nutzen. Ein anschauliches Beispiel liefert dazu die Fallstudie in Abschn. 4.1, wo basierend auf der SAP HANA Datenbankplattform und dem SAP Customer Activity Repository eine Sentiment Analyse für die Optimierung der Kundenerlebnis im stationären Handel beschrieben wird. Das Deployment als Microsservice und die Integration in bestehende Anwendungen per Schnittstelle ist die gängige Praxis außerhalb von abgeschlossenen Plattformsystemen wie der SAP. Das Vorgehen orientiert sich dabei daran, dass man die Model, meistens dann basierend auf Python, als Microservice bereitstellt. Dabei ist die grundlegende Logik wie folgt zu beschreiben: • Der einzelne Service, Optimierung eines Preises oder eine Automatisierung beispielsweise, wird on Python erstellt. • Die erforderliche Logik (Trainieren, Datenquellen definieren, Eingaben und Ausgaben) werden durch einen Webserver (mit Frameworks wie Flask oder FastAPI) erstellt und jeder Prozess wird durch einen Endpunkt bereitgestellt. • Die erzeugten Objekte/Modelle werden in einer zentralen Datenbank gespeichert. • Eine Koordinierungsschicht, inklusive einer Art Message Queue) sorgt dafür, dass –– a) die Anfragen und Antworten zwischen dem Web-Server und dem Modell-Server weitergeleitet werden, –– b) bei einer bestimmten Grenze (Anzahl der parallel abzuarbeitenden Anfragen) der Container-Dienst (Docker Swarm/Kubernetes) weiter skaliert und neue Instanzen erzeugt, –– c) im Falle das die zentrale Datenbank eine neuere Version bereitstellt, diese die alten Instanzen ersetzt.

1.5.2.3 Application Integration Die Anwendungsintegration ist oft ein schwieriger Prozess, insbesondere bei der Integration bestehender Legacy-Anwendungen mit neuen Anwendungen oder Web Services. Angesichts des großen Bereichs dieses Themas könnte man buchstäblich ein Buch über eine erfolgreiche Implementierung schreiben. Einige der grundlegenden Anforderungen sind jedoch immer gleich: • angemessene Konnektivität zwischen den Plattformen • Geschäftsregeln und Datentransformationslogik

34

1 Business Analytics und Analytics

• die Langlebigkeit von Geschäftsprozessen • Flexibilität der Geschäftsprozesse • Flexibilität bei Hardware, Software und Unternehmensziele Um diesen Anforderungen gerecht zu werden, sollte die Anwendungsumgebung über eine gemeinsame Schnittstelle für die offene Kommunikation verfügen, einschließlich der Möglichkeit des Systems, Webservices anzufordern und bei der Anbindung an andere Plattformen und Anwendungen kompatibel zu sein. Die Nutzung der gängigen Softwareplattformen (siehe letztes Kapitel in diesem Buch) ermöglicht diese offene Kommunikation durch Schnittstellen (APIs), die dem Paradigma dieser Plattformen zur Grunde liegen. Gerade im Bereich der Business Analytics wird es selten eine homogene Plattform für die kritischen Geschäftsanwendungen (ERP-System) und gleichzeitig die Datenanalyse und das Maschinelle Lernen geben. Vielmehr wird eine Integration beider Plattformen in beide Richtungen (also Datenzugriff und Datenschreiben) notwendig sein.

1.5.2.4 Test Der Test von Software beschreibt Methoden zur Beurteilung der Funktionalität eines Softwareprogramms. Es gibt viele verschiedene Arten von Softwaretests, aber die beiden Hauptkategorien sind dynamische Tests und statische Tests. Dynamisches Testen ist eine Bewertung, die während der Ausführung des Programms durchgeführt wird. Hingegen ist statisches Testen eine Überprüfung des Programmcodes und der zugehörigen Dokumentation. Dynamische und statische Methoden werden oft zusammen verwendet. Theoretisch ist das Testen von Software eine ziemlich einfache Tätigkeit. Für jeden Eingang sollte es einen definierten und bekannten Ausgang geben. Es werden Werte eingegeben, Selektionen oder Navigationen durchgeführt und das tatsächliche mit dem erwarteten Ergebnis verglichen. Wenn diese übereinstimmen, ist der Test bestanden. Wenn nicht, so gibt es möglicherweise einen Fehler. Der Punkt ist hier, dass man bisher immer bereits vorab wusste, was die erwartete Ausgabe sein sollte. Aber in diesem Buch geht es um eine Art von Software, bei der es nicht unbedingt eine definierte Ausgabe geben muss. Wichtig ist, dass sowohl in den Anwendungsbeispielen für Maschinelles Lernen als auch für Analytik die Akzeptanzkriterien nicht in Form von Fehlernummer, Art oder Schwere ausgedrückt werden. Tatsächlich werden sie in den meisten Fällen durch die statistische Wahrscheinlichkeit ausgedrückt, dass sie in einem bestimmten Bereich liegen. 1.5.2.5 Production/Operations „Operate“ umfasst dabei die Wartungsaufgaben und Kontrollpunkte nach dem Rollout, die einen erfolgreichen Einsatz der Lösung ermöglichen. Dabei geht es um die Überwachung und Kontrolle der Applikationen (Monitoring der Antwortzeiten) und der Hardware (Serverausfälle). Dabei unterscheidet sich dieser Schritt nicht von dem üblichen Betrieb anderer Software.

Literatur

35

Das Hauptziel der Operation ist es, sicherzustellen, dass die IT-Services effektiv und effizient bereitgestellt werden und gleichzeitig die höchste Servicequalität gewährleistet ist. Das umfasst dabei auch die Erfüllung von Benutzeranfragen, die Behebung von Servicefehlern, die Behebung von Problemen sowie die Durchführung von Routineaufgaben. Einige andere Ziele dieser Phase sind im Folgenden aufgeführt: • Minimieren der Auswirkungen von Serviceausfällen auf die täglichen Geschäftsaktivitäten • Sicherstellung des Zugriffs auf vereinbarte IT-Services nur durch autorisiertes Personal und Anwendungen • Reduzierung von Vorfällen und Problemen • Unterstützung der Benutzer bei der Nutzung des eigentlichen Dienstes

1.5.2.6 Continuous Improvement Die kontinuierliche Serviceverbesserung oder Continuous Improvement ist eine Methode, um Möglichkeiten zu identifizieren und auszuführen, IT-Prozesse und -Services zu verbessern und die Auswirkungen dieser Bemühungen im Zeitablauf objektiv zu messen. Die Idee entstammt dabei auch dem Lean Manufacturing oder „The Toyota Way“. Es wurde im verarbeitenden Gewerbe und der Industrie entwickelt, um Fehler zu verringern, Verschwendung zu vermeiden, die Produktivität zu steigern, den Einsatz der Mitarbeiter zu optimieren und Innovationen anzuregen. Das Grundkonzept der kontinuierlichen Serviceverbesserung wurzelt in den Qualitätsphilosophien des Unternehmensberaters und Experten W. Edwards Deming aus dem 20. Jahrhundert. Der Deming-Kreis besteht aus einem vierstufigen Kreislauf aus Plan, Do, Check und Act. Der Deming-Kreis wird wiederholt ausgeführt, um eine kontinuierliche Prozess- oder Serviceverbesserung zu erreichen.

Literatur 1. Bracht, U.: Digitale Fabrik: Methoden und Praxisbeispiele, 2. Aufl., VDI-Buch, Geckler, D., Wenzel, S. (Hrsg.). Springer, Berlin/Heidelberg (2018) 2. Steven, M.: Industrie 4.0: Grundlagen – Teilbereiche – Perspektiven, 1. Aufl., Moderne Produktion (Hrsg.). Kohlhammer, Stuttgart (2019) 3. Schneider, M.: Lean factory design: Gestaltungsprinzipien für die perfekte Produktion und Logistik. Hanser, München (2016) 4. Laney, D.: 3D data management: Controlling data volume, velocity and variety. META Group Research Note 6(70) (2001) 5. Gartner. Big Data. N.N. https://www.gartner.com/it-glossary/big-data/. Zugegriffen am 22.01.2019 (2019) 6. Barbier, G., Liu, H.: Data mining in social media. In: Social Network Data Analytics, S. 327–352. Springer, New York (2011) 7. Cukier, K.: Special Report: Data, Data Everywhere. (2010). February

36

1 Business Analytics und Analytics

8. Amirian, P., Lang, T., van Loggerenberg, F.: Big Data in Healthcare: Extracting Knowledge from Point-of-Care Machines. Springer, Cham (2017) 9. Gorry, G.A., Scott Morton, M.S.: A framework for management information systems. Sloan Manag. Rev. 13, 55–70 (1971) 10. Sprague Jr., R.H.: A framework for the development of decision support systems. MIS Q. 4, 1–26 (1980) 11. Zachman, J.A.: A framework for information systems architecture. IBM Syst. J. 26(3), 276–292 (1987) 12. Sowa, J.F., Zachman, J.A.: Extending and formalizing the framework for information systems architecture. IBM Syst. J. 31(3), 590–616 (1992) 13. Watson, H.J., Rainer Jr., R.K., Koh, C.E.: Executive information systems: a framework for development and a survey of current practices. MIS Q. 15, 13–30 (1991) 14. Hosack, B., et al.: A look toward the future: decision support systems research is alive and well. J. Assoc. Inf. Syst. 13(5), 315 (2012) 15. Watson, H.J., Wixom, B.H.: The current state of business intelligence. Computer. 40(9), 96 (2007) 16. Eckerson, W.: BI Ecosystem of the Future. http://www.b-eye-network.com/blogs/eckerson/archives/2011/10/ (2011). Zugegriffen am 22.11.2016 17. IIC: The Industrial Internet of Things Volume T3: Analytics Framework, Bd. 3. IIC, Needham, MA (2017) 18. Russom, P.: Big data analytics. TDWI Best Practices Report, Fourth Quarter. 19(4), 1–34 (2011) 19. Watson, H., Wixom, B.: The current state of business intelligence. Computer. 40, 96–99 (2007) 20. Watson, H.J.: Tutorial: big data analytics: concepts, technologies, and applications. Commun. Assoc. Inf. Syst. 34(1), 65 (2014) 21. Kulkarni, R., S.I. Inc.: Transforming the data deluge into data-driven insights: analytics that drive business. In: Keynote Speech Presented at the 44th Annual Decision Sciences Institute Meeting, Baltimore (2013) 22. Awadallah, A., Graham, D.: Hadoop and the Data Warehouse: When to Use Which. Copublished by Cloudera, Inc. and Teradata Corporation, California (2011) 23. Phillips-Wren, G.E., et al.: Business analytics in the context of big data: a roadmap for research. CAIS. 37, 23 (2015) 24. Chandy, K., Schulte, W.: Event Processing: Designing IT Systems for Agile Companies. McGraw-Hill, Inc, New York (2009) 25. Watson, H.J.: Business intelligence: past, present and future, S. 153. AMCIS 2009 Proceedings, Cancun (2009) 26. Ballard, C., et al.: Information Governance Principles and Practices for a Big Data Landscape IBM Redbooks. International Business Machines Corporation, New York (2014) 27. Ponsard, C., Touzani, M., Majchrowski, A.: Combining process guidance and industrial feedback for successfully deploying big data projects. Open J. Big Data. 3, 26–41 (2017) 28. Aggarwal, C.C.: Data Mining: The Textbook. Springer, Cham (2015) 29. Angée, S., et al.: Towards an Improved ASUM-DM Process Methodology for Cross-Disciplinary Multi-organization Big Data & Analytics Projects. Springer, Cham (2018) 30. Veeramachaneni, K.: Why You’re Not Getting Value from Your Data Science. https://hbr. org/2016/12/why-youre-not-getting-value-from-your-data-science (2016). Zugegriffen am 12.05.2017 31. McKinsey: Global AI Survey: AI Proves Its Worth, but Few Scale Impact. https://www.mckinsey.com/featured-insights/artificial-intelligence/global-ai-survey-ai-proves-its-worth-but-fewscale-impact (2019). Zugegiffen am 21.12.2019

2

Künstliche Intelligenz

McCarthy definiert Künstliche Intelligenz als „[…] die Wissenschaft und Technik der Schaffung intelligenter Maschinen, insbesondere intelligenter Computerprogramme“. Die Disziplin steht im Zusammenhang mit der Aufgabe, Computer zum Verständnis der menschlichen Intelligenz zu nutzen. Damit stützen auch viele Teilbereiche und Methoden der KI sich auf biologische Muster und Abläufe, die KI ist aber nicht nur auf diese biologisch beobachtbaren Methoden beschränkt. Wie eingangs erwähnt, soll dieses Buch in keiner Weise zu tief in die einzelnen Konzepte und Ideen einsteigen und gerade im Bereich der KI wird dies auch nicht notwendig sein. So wird hier auch nicht weiter das Konzept der KI in seiner Gesamtheit diskutiert oder die philosophischen Gedanken über die Intelligenz aufgegriffen.1 Mehr noch, an dieser Stelle wird darauf hingewiesen, dass wir einer einfachen, aber doch – wenn richtig durchdacht – kolossalen Ideen von Russell und Norvig [1] zu KI folgen werden: KI ist die Wissenschaft, die Computer und Maschinen Aktionen lehrt, die noch nicht vom Computer ausgeführt werden können und in denen die Menschen derzeit besser sind. Die in der KI verwendeten Methoden sind nicht nur für diese Disziplin exklusiv. Dabei sind die Definitionen und die Einteilung doch recht umstritten und viele Abgrenzungen sind schwimmend. Eine Reihe von Forschungsteilbereichen Abb. 2.1 können dennoch unterschieden werden:2 Die Verarbeitung natürlicher Sprache oder Natural Language Processing (NLP) ist ein Teilgebiet der Informatik und Künstlichen Intelligenz, das sich mit den Wechselwirkungen zwischen Computern und menschlichen (natürlichen) Sprachen befasst, insbesondere mit der Programmierung von Computern zur Verarbeitung und Analyse großer Mengen an natürlichen Sprachdaten. Siehe hierzu die Ausführung von Alan Turing. Der Mathematiker und Informatiker gilt als einer der einflussreichsten Theoretiker der frühen Computerentwicklung und Informatik. 2 Wobei auch hier gesagt werden muss, dass diese Einteilung nicht unumstritten ist. 1

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 F. Weber, Künstliche Intelligenz für Business Analytics, https://doi.org/10.1007/978-3-658-29773-2_2

37

38

2 Künstliche Intelligenz

Abb. 2.1 Übersicht über die verschiedenen Zweige der Künstlichen Intelligenz (Darstellung nach Russell und Norvig [1])

Robotik ist ein interdisziplinärer Zweig der Ingenieur- und Naturwissenschaften, der den Maschinenbau, die Elektrotechnik, die Informationstechnik, die Informatik (und damit die KI als Teilgebiet) und andere umfasst. Die Robotik beschäftigt sich mit dem Entwurf, dem Bau, dem Betrieb und der Nutzung von Robotern sowie mit Computersystemen zu deren Steuerung, sensorischer Rückmeldung und Informationsverarbeitung. Ein kognitives System ist der Versuch einer Annäherung an biologische kognitive Prozesse (überwiegend menschlich) zum Zwecke des Verständnisses und der Vorhersage. Kognitive Modelle konzentrieren sich tendenziell auf ein einzelnes kognitives Phänomen oder einen einzelnen Prozess (z. B. Listenlernen), wie zwei oder mehr Prozesse interagieren (z. B. visuelle Suche und Entscheidungsfindung) oder um Verhaltensvorhersagen für eine bestimmte Aufgabe oder ein bestimmtes Werkzeug zu treffen (z. B. wie die Einführung eines neuen Softwarepakets die Produktivität beeinflusst). In der Informatik, der Künstlichen Intelligenz und der mathematischen Optimierung ist eine Heuristik eine Technik, die dazu bestimmt ist, ein Problem schneller zu lösen, wenn „klassische“3 Methoden zu langsam sind, oder auch um eine ungefähre Lösung zu finden, wenn „klassische“ Methoden keine genaue Lösung ermöglichen. Diese Zielkonflikte werden auch als Zieldreieck zwischen Optimalität, Vollständigkeit (auch Genauigkeit oder Präzision) und der Lösungszeit (Geschwindigkeit) repräsentiert.

3

Meistens sind hier mathematische Optimierungssysteme gemeint.

2.1 Maschinelles Lernen

39

Wissensrepräsentation und -logik ist ein Feld, welches sich der Darstellung von Informationen über die Umwelt in einer Form widmet, die ein Computersystem nutzen kann, um komplexe Aufgaben wie die Diagnose eines medizinischen Zustands oder den Dialog in einer natürlichen Sprache zu lösen. Die Wissensrepräsentation bezieht Erkenntnisse aus der Psychologie darüber ein, wie Menschen Probleme lösen und Wissen darstellen, um Formalismen zu entwerfen, sodass komplexe Systeme einfacher zu entwerfen und zu bauen sind. Wissensrepräsentation und Argumentation beziehen auch Erkenntnisse aus der Logik ein, um verschiedene Arten von Argumentation zu automatisieren, wie z. B. die Anwendung von Regeln oder die Beziehungen von Mengen und Teilmengen. Im Bereich der Business-Analytik sticht ein Teilbereich der KI besonders hervor: das Maschinelle Lernen oder Machine Learning (ML). Dabei ist ML eine Disziplin innerhalb der KI-Forschung, die sich mit der Verbesserung des Lernens auf der Grundlage von Daten beschäftigt. Letztendlich geht es darum, inwieweit Aufgaben durch die Maschine durch besonders gute Trainingsdaten oder besonders große Datenmengen aus Algorithmen kontinuierlich besser gelöst werden.

2.1

Maschinelles Lernen

Maschinelles Lernen (Machine Learning) ist ein wesentlicher Bestandteil der KI und so beliebt, dass es manchmal mit Künstlicher Intelligenz verwechselt wird (zumindest werden die beiden Begriffe häufig synonym verwendet). Die im Maschinellen Lernen verwendeten Algorithmen lassen sich grob in drei Kategorien einteilen (siehe Abb. 2.2 und die Gegenüberstellung in Abschn. 2.1.2): überwachtes Lernen, unüberwachtes Lernen und bestärkendes Lernen. Überwachtes Lernen beinhaltet Feedback, um anzuzeigen, wann eine Vorhersage richtig oder falsch ist, während

Abb. 2.2 Verschiede Arten des Maschinellen Lernens

40

2 Künstliche Intelligenz

nbeaufsichtigtes Lernen keine Reaktion beinhaltet: Der Algorithmus versucht einfach, u Daten basierend auf ihrer verborgenen Struktur zu kategorisieren. Verstärkungslernen ist ähnlich wie überwachtes Lernen, da es Feedback erhält, aber nicht unbedingt für jeden Eingang oder Zustand. Im Folgenden wird untersucht, welche Ideen hinter den Lernmodellen stehen und es werden einige Schlüsselalgorithmen, die für jedes dieser Modelle verwendet werden, vorgestellt. Algorithmen für das Maschinelle Lernen verändern und entwickeln sich ständig weiter. In den meisten Fällen neigen die Algorithmen jedoch dazu, sich in eines von drei Lernmodellen zu integrieren. Die Modelle existieren, um sich automatisch in irgendeiner Weise anzupassen, um ihre Funktionsweise oder ihr Verhalten zu verbessern. Beim überwachten Lernen beinhaltet ein Datensatz seine gewünschten Ausgaben (oder Bezeichnungen), sodass eine Funktion einen Fehler für eine bestimmte Vorhersage berechnen kann. Die Überwachung erfolgt, wenn eine Vorhersage gemacht und ein Fehler (tatsächlich vs. gewünscht) erzeugt wird, um die Funktion zu ändern und das Mapping zu lernen. Beim unbeaufsichtigten Lernen enthält der Datensatz keine gewünschte Ausgabe, sodass es keine Möglichkeit gibt, die Funktion zu überwachen. Stattdessen versucht die Funktion, den Datensatz in „Klassen“ zu segmentieren, sodass jede Klasse einen Teil des Datensatzes mit gemeinsamen Merkmalen enthält. Schließlich, beim Verstärkungslernen, versucht der Algorithmus, Aktionen für einen gegebenen Satz von Zuständen zu lernen, die zu einem Zielzustand führen. Ein Fehler wird nicht nach jedem Beispiel ausgegeben (wie beim überwachten Lernen), sondern beim Empfang eines Verstärkungssignals (z. B. Erreichen des Zielzustandes). Dieses Verhalten ist ähnlich wie beim menschlichen Lernen, bei dem nicht unbedingt für alle Aktionen ein Feedback gegeben wird, sondern nur wenn eine Belohnung gerechtfertigt ist.

2.1.1 Überwachtes Lernen/Supervised Learning Überwachtes Lernen (Supervised Learning) ist das einfachste der Lernmodelle.4 Das Lernen im überwachten Modell beinhaltet die Schaffung einer Funktion, die mit Hilfe eines Trainingsdatensatzes trainiert wird und dann auf neue Daten angewendet werden kann. Der Trainingsdatensatz enthält dabei markierte Datensätze (Lables), sodass die Zuordnung zum gewünschten Ergebnis beim gesetzten Input im Vorhinein bekannt ist. Das Ziel ist es, die Funktion so aufzubauen, dass über die initialen Daten hinaus eine Verallgemeinerung der Funktion möglich wird, also unbekannte Daten zum richtigen Ergebnis zuzuordnen. In der ersten Phase unterteilt man einen Datensatz in zwei Arten von Stichproben: Trainingsdaten und Testdaten. Sowohl Trainings- als auch Testdaten enthalten einen Testvektor (die Eingänge) und einen oder mehrere bekannte gewünschte Ausgangswerte. Die

4

Weitergehende Informationen finden sich in [2].

2.1 Maschinelles Lernen

41

Mapping-Funktion wird mit dem Trainingsdatensatz angelernt, bis er ein gewisses Leistungsniveau erreicht hat (eine Metrik dafür, wie genau die Mapping-Funktion die Trainingsdaten auf den zugehörigen gewünschten Output abbildet). Im Rahmen des überwachten Lernens geschieht dies bei jeder Trainingsprobe, indem mit Hilfe dieses Fehlers (tatsächliche vs. gewünschte Ausgabe) die Mapping-Funktion angepasst wird. In der nächsten Phase wird die trainierte Mapping-Funktion mit den Testdaten geprüft. Die Testdaten stellen Daten dar, die nicht für das Training verwendet wurden und deren Zuordnung (gewünschte Ausgabe) bekannt ist. Damit lässt sich sehr einfach ein gutes Maß dafür bestimmen, wie gut die Mapping-Funktion zu neuen und unbekannten Daten verallgemeinern kann [3]. Um ein bestimmtes Problem auf generischer Grundlage des überwachten Lernens zu bearbeiten, müssen mehrere Schritte unternommen werden [3]: 1. Identifizierung von verschiedenen Trainingsbeispielen. So kann für die Analyse der Handschrift ein einzelnes handschriftliches Zeichen oder ein vollständig handschriftliches Wort oder eine komplette handschriftliche Zeile verwendet werden. 2. Der zweite Schritt besteht darin, ein Trainingsset zusammenzustellen, das die praktische Anwendung einer Funktion darstellen muss. Daher müssen eine Reihe von Eingangsobjekten und gleichwertige Ergebnisse entweder aus Messungen oder von Experten bestimmt werden. Im Beispiel hier die Übertragung des Bildes als Matrix von schwarzen (an den Stellen, wo Schrift ist) und weißen (dort, wo keine Schrift ist) Feldern zu einem mathematischen Vektor zu bestimmen. 3. Der dritte Schritt besteht darin, ein bestimmtes Eingabeobjekt (Schriftzeichen) zu identifizieren, das eine gelernte Funktion darstellen würde. Die Genauigkeit einer gelernten Funktion hängt stark von der Darstellung des Eingabeobjekts ab. Hier wird das Eingabeobjekt in einen Merkmalsvektor umgewandelt, der aus mehreren Merkmalen besteht, die ein Objekt beschreiben. Die Gesamtzahl der Merkmale sollte aufgrund des Fluches der Dimensionalität („curse of dimensionality“)5 gering sein, muss aber genügend Informationen enthalten, um die Ausgabe genau vorherzusagen.

Der Fluch der Dimensionalität bezieht sich auf verschiedene Phänomene, die bei der Analyse und Organisation von Daten in hochdimensionalen Räumen (oft mit Hunderten oder Tausenden von Dimensionen) auftreten, die nicht in niedrigdimensionalen Umgebungen wie dem dreidimensionalen physischen Raum der Alltagserfahrung auftreten. Das gemeinsame Thema dieser Probleme ist, dass mit zunehmender Dimensionalität das Volumen des Raumes so schnell zunimmt, dass die verfügbaren Daten spärlich werden. Bei maschinellen Lernproblemen, bei denen aus einer begrenzten Anzahl von Datenproben in einem hochdimensionalen Merkmalsraum gelernt wird, wobei jedes Merkmal eine Reihe von möglichen Werten hat, ist in der Regel eine enorme Menge an Trainingsdaten erforderlich, um sicherzustellen, dass es mehrere Stichproben mit jeder Kombination von Werten gibt. Weitere Informationen zum Fluch und möglicher Lösungsansätze finden sich beispielsweise in [4].

5

42

2 Künstliche Intelligenz

4. Der vierte Schritt besteht darin, die Struktur der erlernten Funktion zusammen mit dem entsprechenden Lernalgorithmus zu identifizieren. 5. Der Lernalgorithmus wird nun auf dem kumulierten Trainingsset ausgeführt. Nur wenige der überwachten Lernalgorithmen verpflichten die Nutzer, die durch Leistungsoptimierung anzupassenden Steuerungsparameter anhand einer als Validierungssatz bezeichneten Teilmenge zu bewerten. 6. Der letzte Schritt ist die Beurteilung der Genauigkeit der erlernten Funktion. Nach den Prozessen des Lernens und der Parametereinstellung muss die Leistung der Funktion am Testset gemessen werden, das sich von vom ursprünglichen Trainingsset unterscheidet.

2.1.2 Unüberwachtes Lernen/Unsupervised Learning Unüberwachtes Lernen (auch unbeaufsichtigtes Lernen oder Unsupervised Learning) ist auch ein relativ einfaches Lernmodell.6 Wie der Name schon sagt, fehlt allerdings eine Kontrollinstanz und es besteht keine Möglichkeit, die Qualität der Ergebnisse zu messen. Das Ziel ist es, eine Mapping-Funktion aufzubauen, die die Daten in Klassen kategorisiert, die auf in den Daten verborgenen Merkmalen basieren. Wie beim beaufsichtigten Lernen verwendet man beim unbeaufsichtigten Lernen zwei Phasen. In der ersten Phase segmentiert die Mapping-Funktion einen Datensatz in Klassen. Jeder Eingangsvektor wird Teil einer Klasse, aber der Algorithmus kann diesen Klassen keine Bezeichnungen zuweisen. Diese Daten sind nicht beschriftet (im Gegensatz zum überwachten Lernen, wo die Beschriftung durch den Nutzer vorab vorgenommen wird), was zeigt, dass die Eingangsvariablen (X) keine gleichwertigen Ausgangsvariablen aufweisen. Hier müssen die Algorithmen die Datenstrukturen selbst identifizieren [7]. Unüberwachtes Lernen kann wiederum vereinfacht in zwei verschiedene Kategorien von Algorithmen eingeteilt werden: • Clustering (Abschn. 2.2): Das mit diesen Algorithmen zu lösende Problem tritt auf, wenn versucht wird, die integralen Gruppierungen der Daten zu identifizieren, wie z. B. die Gruppierung von Kunden basierend auf ihrem Kaufverhalten. • Association (Abschn. 2.2): Das mit diesen Algorithmen zu lösende Problem tritt auf, wenn versucht wird, die Regeln für die Beschreibung eines großen Teils der vorhandenen Daten zu finden, wie z. B. Personen, die dazu neigen, sowohl Produkt X als auch Y zu kaufen.

6

Für weitergehende Informationen zu diesem Lernmodell siehe [5] oder [6].

2.1 Maschinelles Lernen

43

Exkurs: Semi-supervised Learning In den beiden vorhergehenden Typen gibt es entweder keine vorab bekannte Kennzeichnung (Lables) des Datensatzes oder es sind Kennzeichnungen für alle Beobachtungen vorhanden. Semi-supervised Learning positioniert sich genau zwischen diesen beiden Extremen. In vielen praktischen Situationen sind nämlich die Kosten für die Kennzeichnung recht hoch, da dafür qualifizierte menschliche Fachkräfte erforderlich sind. Bei Abwesenheit von Kennzeichnung in der Mehrheit der Beobachtungen (aber Verfügbarkeit in einem kleineren Teildatensatz) sind semi-supervised Algorithmen die besten Kandidaten. Diese Methoden stützen sich auf die Idee, dass, obwohl die Gruppenzugehörigkeit der nicht markierten Daten unbekannt ist, diese Daten wichtige Informationen über die Gruppenparameter und für die Verallgemeinerung enthalten.

2.1.3 Bestärkendes Lernen/Reinforcement Learning Bestärkendes Lernen ist ein Lernmodell mit der Fähigkeit, nicht nur zu lernen, wie man einen Input auf einen Output abbildet, sondern auch eine Reihe von Inputs auf Outputs mit Abhängigkeiten (z. B. Markov-Entscheidungsprozesse) abzubilden.7 Verstärkungslernen existiert im Kontext von Zuständen in einer Umgebung und den möglichen Aktionen in einem bestimmten Zustand. Während des Lernprozesses untersucht der Algorithmus zufällig die Zustandsaktionspaare innerhalb einer Umgebung (um eine Zustandsaktionspaartabelle aufzubauen), dann nutzt er in der Praxis die Belohnungen der Zustandsaktionspaare aus, um die beste Aktion für einen bestimmten Zustand auszuwählen, die zu einem Zielzustand führt. Dabei wird bestärkendes Lernen meist durch (teil)autonome Softwareprogramme, sogenannte Agents, umgesetzt. Diese Agenten interagieren mit der Umgebung durch diskrete Zeitschritte. Das höchste Ziel des Agenten ist dabei die Maximierung der Belohnungen. Zu einem bestimmten Zeitpunkt t erhält der Agent eine Beobachtung und die maximal mögliche Belohnung [10]. Eine Aktion wird nun aus dem verfügbaren Satz von Aktionen ausgewählt, die dann an die betroffene Umgebung gesendet werden. So wird ein neuer Zustand gefunden und die damit verbundene Belohnung wird mit diesem Übergang bestimmt. Die Verstärkung kann sowohl positiv als auch negativ sein. Es ist das Auftreten eines Ereignisses, das aus einem bestimmten Verhalten resultiert und die Häufigkeit und Stärke des Verhaltens erhöht. Ein optimal handelnder Agent muss dabei in der Lage sein, die langfristigen Auswirkungen seines Handelns zu berücksichtigen, auch wenn die unmittelbare Belohnung negativ ist [11]. Daher ist das bestärkende Lernen geeignet für Themen wie kurz- und langfristige Belohnungskompromisse. Die Verwendung von Funktionsannäherungen in größeren Umgebungen und die Verwendung von Beispielen zur Leistungsoptimierung sind die Schlüsselelemente, die das bestärkende Lernen verbessern. Die Situationen, in denen Verstärkungslernen eingesetzt wird, sind charakterisiert durch das Fehlen einer analytischen Situation, das Umgebungsmodell ist jedoch bekannt. So ist 7

Für weitergehende Informationen siehe [8] oder [9].

44

2 Künstliche Intelligenz

das Simulationsmodell für die Umwelt bekannt und die Informationen über die Umwelt können durch Interaktion mit ihr gesammelt werden [12]. Die ersten beiden Themen können als Planungsprobleme klassifiziert werden und das letzte ist ein echtes Lernproblem. Um intelligente Programme (die Agenten) zu erstellen, durchläuft das Verstärkungslernen generell die folgenden Schritte: . Der Eingangszustand (State) wird vom Agenten überwacht. 1 2. Die Entscheidungsfunktion wird verwendet, um den Agenten dazu zu bringen, eine Aktion auszuführen (Action). 3. Nach der Durchführung der Aktion erhält der Agent eine Belohnung oder Verstärkung (positiv oder negativ) aus der Umwelt. 4. Die Informationen (State-Action) über die Belohnung werden gespeichert.

2.1.4 Übersicht über die Arten des Maschinellen Lernens Tab. 2.1 zeigt eine Übersicht verschiedener Arten des Machinellen Lernens.

2.1.5 Neuronale Netze Da neuronale Netze die Grundlage der meisten Innovationen im Bereich der Künstlichen Intelligenz und des Maschinellen Lernens darstellen (selbstfahrende Autos, Chatbos wie Siri etc.), seien diese im Folgenden im Detail erklärt. Tab. 2.1 Verschiedene Arten des Machinellen Lernens Art des Maschinellen Lernens Supervised Learning

Unspervised Learning Reinforcement Learning

Wann einsetzen? Wenn bekannt ist, wie die Eingabedaten klassifiziert werden und welche Art von Verhalten vorhergesagt werden soll.

Mögliche Algorithmen und Methodena Regression, Entscheidungsbaum. Naive Bayes, Vector Machines, Random Forest, Neuronales Netzwerk K-Means, Recommender System, Hierarchical Clustering

Wenn bekannt ist, wie die Eingabedaten klassifiziert werden und Muster in den Daten erkannt werden sollen. Q-Learning, Temporal Difference Wenn es kaum Trainingsdaten gibt und der ideale Zielzustand nicht klar definiert (TD), Deep Adversarial Networks werden kann oder erst durch Interaktion mit der Umwelt erschlossen werden muss.

Die drei Arten des Maschinellen Lernens werden jeweils in unterschiedlichen Situationen eingesetzt und umfassen jeweils unterschiedliche Algorithmen a Ausgewählte Problemstellungen und Algorithmen finden sich in Abschn. 2.1.3

2.1 Maschinelles Lernen

45

Neuronale Netze sind eine Reihe von Algorithmen, die lose nach dem Vorbild des menschlichen Gehirns modelliert und grundsätzlich dazu bestimmt sind, Muster zu erkennen. Sie interpretieren sensorische Daten durch eine Art maschineller Wahrnehmung, Beschriftung oder Clustering von Rohdaten. Die Muster, die sie erkennen, sind numerisch, in Vektoren enthalten, in die alle realen Daten, seien es Bilder, Ton, Text oder Zeitreihen, übersetzt werden müssen. Die grundlegenden Bausteine von Neuronalen Netzwerken sind Neuronen. Diese bilden die kleinste Grundeinheit eines neuronalen Netzwerks. Ein Neuron nimmt Eingaben entgegen, rechnet mit ihnen und erzeugt eine Ausgabe. So sieht ein 2-Eingangs-Neuron aus (siehe Abb. 2.3). Mit jedem Neuron passieren drei Dinge. Zuerst wird jede Eingabe mit einem Gewicht w multipliziert:

x1 → x1 ∗ w1 x 2 → x 2 ∗ w2 Anschließend werden alle gewichteten Eingänge mit einer Verzerrung b „bias“ addiert:

( x1 ∗ w1) + ( x2 ∗ w2 ) + b Schließlich wird die Summe durch eine Aktivierungsfunktion geleitet:

y = f ( x1 ∗ w1 + x 2 ∗ w2 + b )

Die Aktivierungsfunktion wird verwendet, um einen unbegrenzten Eingang in einen Ausgang zu verwandeln, der eine vorhersehbare Form hat. Eine häufig verwendete Aktivierungsfunktion ist die Sigmoidfunktion, siehe Abb. 2.4.

Abb. 2.3 Darstellung eines Neurons und den zugrunde liegenden mathematischen Abläufen

46

2 Künstliche Intelligenz

Abb. 2.4 Sigmoidfunktion

Die Sigmoid-Funktion liefert nur Zahlen im Bereich von (0,1). Man kann sich das als Komprimierung vorstellen: (−∞,+∞) wird zu (0,1) – große negative Zahlen werden zu 0 und große positive Zahlen werden zu 1. Resultiert die Aktivierungsfunktion nun in 1, so gilt das Neuron als aktiviert und „feuert“, heißt es gibt seinen Wert weiter. Denn ein neuronales Netzwerk ist nichts anderes als eine Menge von Neuronen, die miteinander verbunden sind. So könnte ein einfaches neuronales Netzwerk aussehen Abb. 2.5: Dieses Netzwerk hat zwei Eingänge, eine versteckte Schicht mit zwei Neuronen (h1 und h2) und eine Ausgabeschicht mit einem Neuron (o1). Eine versteckte Schicht ist jede Schicht zwischen der Eingangs-(ersten) Schicht und der Ausgangs-(letzten) Schicht. In den meisten praktischen Fällen wird es mehrere hunderte versteckte Ebenen geben! Entscheidend ist, dass die Eingänge für o1die Ausgänge von h1 und h2 sind – genau dieser Umstand macht aus den losen Neuronen ein neuronales Netzwerk. Eingesetzt wird das Neuronale Netzwerk nun auf zwei Arten. Beim Lernen (Trainieren) oder normalen Einsatz (nachdem das Training stattfand) werden Informationsmuster über die Eingabeschicht in das Netzwerk eingespeist, die die Schichten verborgener Einheiten auslösen, die wiederum zu den Ausgabeeinheiten gelangen. Dieses zusammenhängende Design wird als Feedforward-Netzwerk bezeichnet.

Abb. 2.5 Minimalstes Neuronales Netzwerk mit einer versteckten Ebene

2.2 Problemtypen der Künstlichen Intelligenz und deren Algorithmen

47

Jedes Neuron empfängt Eingangssignale von den Neuronen auf der linken Seite (bildlich gesehen) und die Eingänge werden mit den Gewichten der Verbindungen multipliziert. Jede Einheit summiert alle auf diese Weise empfangenen Eingänge (bei der einfachsten Art von Netzwerk) und, wenn die Summe einen bestimmten Schwellenwert (Wert der Aktivierungsfunktion) überschreitet, „feuert“ das Neuron und löst die folgenden Neuronen (rechts) aus. Damit ein neuronales Netzwerk lernen kann, muss eine Art von Rückmeldung (Feedback) beteiligt sein. Auf übertragene Art lernen Neuronale Netze in etwa so wie kleine Kinder lernen: indem ihnen gesagt wird, was sie richtig oder falsch gemacht haben. Neuronale Netze lernen auf ähnliche Weise, nämlich typischerweise durch einen Feedbackprozess namens Backpropagation. Dabei wird der Output des Netzwerks verglichen mit dem Output, den es für ein richtiges Ergebnis erzeugen sollte. Die Abweichung (Differenz) zwischen den beiden Zuständen wird genutzt, um die Gewichte (w) der Verbindungen zwischen den Einheiten im Netzwerk zu ändern, wobei von den Ausgabeeinheiten über die versteckten Einheiten bis hin zu den Eingabeeinheiten gearbeitet wird – also rückwärts (daher das Wort Backpropagation). Mit der Zeit führt die Backpropagation dazu, dass das Netzwerk sich anpasst (lernt) und die Differenz zwischen tatsächlicher und beabsichtigter Ausgabe auf den Punkt reduziert wird, an dem die beiden genau übereinstimmen, so dass das Netzwerk die Dinge genau so berechnet wie erwartet. Sobald das Netzwerk mit genügend Lernbeispielen trainiert wurde, erreicht es einen Punkt, an dem man es mit einem völlig neuen Satz von Inputs nutzen kann. Denn das Neuronale Netz ermöglicht nun eine Verallgemeinerung der aus der Lernphase gelernten Ergebnisse und ist auf neue Situationen (Daten) anwendbar.

2.2

roblemtypen der Künstlichen Intelligenz und P deren Algorithmen

2.2.1 Klassifizierung Klassifizierung ist der Prozess der Vorhersage der Klasse der gegebenen Datenpunkte. Klassen werden manchmal als Ziele/Bezeichnungen oder Kategorien bezeichnet. Die prädiktive Modellierung der Klassifizierung ist die Aufgabe, eine Abbildungsfunktion (f) von Eingangsvariablen (X) auf diskrete Ausgangsvariablen (y) zu approximieren. So kann beispielsweise die Spamerkennung bei E-Mail-Dienstleistern als Klassifizierungsproblem identifiziert werden. Dies ist eine binäre Klassifizierung, da es nur 2 Klassen gibt: Spam (1) und reguläre E-Mails (0). Ein Klassifikator verwendet Trainingsdaten, um zu verstehen, wie sich bestimmte Eingangsvariablen auf die Klasse beziehen. In diesem Fall müssen bekannte Spam- und Non-Spam-E-Mails als Trainingsdaten verwendet werden. Wenn der Klassifikator genau trainiert wird, kann er verwendet werden, um eine unbekannte E-Mail zu erkennen. Die Klassifizierung gehört zur Kategorie des beaufsichtigten Lernens, bei dem die Ziele zusammen mit den Inputdaten geliefert werden. Es gibt Anwendungen der Klassifi-

48

2 Künstliche Intelligenz

zierung in vielen Bereichen wie zum Beispiel der Kreditvergabe, der medizinischen Diagnose, dem Target-Marketing etc. Es gibt zwei Typen von Lernenden in der Klassifizierung als „lazy“ (faul) und „eager“ (begierig). • Lazy Learners – speichern einfach die Trainingsdaten und warten, bis Testdaten erscheinen. In diesem Fall wird die Klassifizierung auf der Grundlage der am häufigsten verwendeten Daten in den gespeicherten Trainingsdaten durchgeführt. Im Vergleich zu eifrigen Lernenden haben faule Lernende weniger Trainingszeit, aber mehr Zeit für die Vorhersage. Beispielhafte Algorithmen wären: K-Nearest-Neighbor oder das fallbasierte Schließen (Case-based reasoning oder CBR) • Eager Learners – konstruieren ein Klassifizierungsmodell auf der Grundlage der gegebenen Trainingsdaten, bevor sie Daten zur Klassifizierung erhalten. Das System muss in der Lage sein, sich auf eine einzige Hypothese festzulegen, die den gesamten Instanzraum abdeckt. Aufgrund des Modellaufbaus benötigen eifrige Lernende viel Zeit für das Training und weniger Zeit für Vorhersagen. Beispielhafte Algorithmen wären: Entscheidungsbaum, Naive Bayes, Künstliche Neuronale Netze. Es gibt derzeit viele Klassifikationsalgorithmen, aber es ist nicht möglich festzustellen, welcher dem anderen überlegen ist. Es hängt von der Anwendung und der Art des verfügbaren Datensatzes ab. Zum Beispiel können, wenn die Klassen linear trennbar sind, die linearen Klassifikatoren wie logistische Regression oder die Fisher’schen Diskriminanzfunktionen anspruchsvolle Modelle übertreffen und umgekehrt. Entscheidungsbaum (Decision Tree) – bildet Klassifizierungs- oder Regressionsmodelle in Form einer Baumstruktur Abb. 2.6. Es verwendet einen Wenn-dann-Regelsatz, der

Abb. 2.6 Visualisierung eines Entscheidungsbaums

2.2 Problemtypen der Künstlichen Intelligenz und deren Algorithmen

49

sich gegenseitig ausschließt und für die Klassifizierung vollständig ist. Die Regeln werden sequenziell anhand der Trainingsdaten nacheinander gelernt. Jedes Mal, wenn eine Regel gelernt wird, werden die von den Regeln abgedeckten Tupel entfernt. Dieser Prozess wird auf dem Trainingsset fortgesetzt, bis eine Abbruchbedingung erfüllt ist. Entscheidungsbäume folgen im Aufbau generell einem rekursiven Top-down-Prinzip. Es handelt sich um ein Top-down-Prinzip (von oben nach unten), da ein Durchlauf immer von der Baumwurzel aus startet und von dort nacheinander in zwei neue Zweige nach unten im Baum (Richtung Baumkrone) fortgeführt wird. Alle Attribute sollten kategorisch sein. Andernfalls sollten sie im Voraus diskretisiert werden. Attribute im oberen Teil des Baumes haben einen größeren Einfluss auf die Klassifizierung und werden über das Konzept des Information Gain identifiziert. Ein Entscheidungsbaum kann leicht überbaut werden und zu viele Zweige erzeugen und kann Anomalien aufgrund von Lärm oder Ausreißern widerspiegeln. Ein überfittes Modell hat eine sehr schlechte Leistung auf den unsichtbaren Daten, obwohl es eine beeindruckende Leistung auf den Trainingsdaten liefert. Dies kann durch Vorschnitt, der die Baumkonstruktion frühzeitig stoppt, oder durch einen „Nachschnitt“, der Äste vom ausgewachsenen Baum entfernt, vermieden werden. Der naive Bayes-Klassifikator ist ein probabilistischer Klassifikator, der vom Bayes- Satz von der einfachen Annahme inspiriert ist, dass die Attribute bedingt unabhängig sind. Die Klassifizierung erfolgt durch Ableitung des maximalen Seitenzahns, d. h. des maximalen P(Ci|X) mit der obigen Annahme für den Bayes-Satz. Diese Annahme reduziert die Rechenkosten erheblich, indem sie nur die Klassenverteilung zählt. Auch wenn die Annahme in den meisten Fällen nicht zutrifft, da die Attribute abhängig sind, konnte der naive Bayes-Klassifikator überraschenderweise beeindruckende Leistungen erbringen. Dieser Klassifikator ist ein sehr einfacher Algorithmus und in den meisten Fällen wurden gute Ergebnisse erzielt. Er kann leicht auf größere Datensätze skaliert werden, da er lineare Zeit in Anspruch nimmt, und nicht eine teure iterative Annäherung vornimmt, wie sie bei vielen anderen Klassifikatoren verwendet wird. Naive Bayes-Algorithmen können an einem Problem leiden, welches als „Nullwahrscheinlichkeitsproblem“ bezeichnet wird. Wenn die bedingte Wahrscheinlichkeit für ein bestimmtes Attribut null ist, kann es keine gültige Vorhersage geben. Dies muss explizit mit einer Laplace-Approximation behoben werden. Künstliche Neuronale Netze (Artificial Neural Networks) sind eine Reihe von verbundenen Ein-/Ausgabeeinheiten, bei denen jeder Verbindung ein Gewicht zugeordnet ist Abb. 2.7. Das Modell wurde von Psychologen und Neurobiologen entwickelt, um rechnerische Analoga von Neuronen zu bekommen und zu testen. Während der Lernphase lernt das Netzwerk durch Anpassung der Gewichte, um die korrekte Klassenbezeichnung der Input-Tupel vorhersagen zu können. Es gibt viele Netzwerkarchitekturen, die jetzt verfügbar sind, wie Feed-forward, Convolutional, Recurrent etc. Die geeignete Architektur hängt von der Anwendung des Modells ab. In den meisten Fällen liefern Feed-Forward-Modelle relativ genaue Ergebnisse, und insbesondere für Bildverarbeitungsanwendungen leisten Faltungsnetzwerke bessere Ergebnisse. Je nach Komplexität der Funktion, die durch das

50

2 Künstliche Intelligenz

Abb. 2.7 Visualisierung der künstlichen Neuronalen Netzwerke

Modell abgebildet werden soll, kann es mehrere versteckte Ebenen im Modell geben. Mehr versteckte Schichten ermöglichen es, komplexe Zusammenhänge wie z. B. tiefe neuronale Netze zu modellieren. Wenn es jedoch viele versteckte Schichten gibt, braucht es viel Zeit, um die Gewichte zu trainieren und anzupassen. Der andere Nachteil ist die schlechte Interpretierbarkeit des Modells im Vergleich zu anderen Modellen wie Entscheidungsbäumen aufgrund der unbekannten symbolischen Bedeutung hinter den erlernten Gewichten. Künstliche neuronale Netze haben dennoch in den meisten Anwendungen der realen Welt eine beeindruckende Leistung gezeigt. Ein neuronales Netz hat eine hohe Toleranz gegenüber verrauschten Daten und kann untrainierte Muster klassifizieren. In der Regel schneiden künstliche neuronale Netze mit kontinuierlich bewerteten Ein- und Ausgängen besser ab. k-Nearest-Neighbor (KNN) ist ein Lazy-Learning-Algorithmus, der speichert, dass alle Instanzen den Trainingsdatenpunkten im n-dimensionalen Raum entsprechen (siehe Abb. 2.8). Wenn unbekannte diskrete Daten empfangen werden, analysiert es die nächstgelegene k Anzahl von gespeicherten Instanzen (nächstgelegene Nachbarn) und gibt die gebräuchlichste Klasse als Vorhersage zurück und gibt für reale Daten den Mittelwert von dem k nächstgelegenen Nachbarn zurück. Im entfernungsgewichteten Algorithmus für den nächsten Nachbarn gewichtet er den Beitrag jedes der k Nachbarn entsprechend seiner Entfernung mit der folgenden Abfrage, die den nächsten Nachbarn mehr Gewicht verleiht. Normalerweise ist KNN robust gegenüber verrauschten Daten, da es jeweils die nächsten Nachbarn mittelt.

2.2.2 Abhängigkeiten und Assoziationen Die Assoziationsanalyse ist, wie der Name schon sagt, eine Form der Analyse, die nach Assoziationen zwischen Objekten sucht. Sie wird auch Affinitätsanalyse genannt, und eine

2.2 Problemtypen der Künstlichen Intelligenz und deren Algorithmen

51

Abb. 2.8 Visualisierung des k-Nearest-Neighbor- Algorithmus

bestimmte Teilmenge dieser Analyseform wird umgangssprachlich oft auch als Warenkorbanalyse bezeichnet, da dies der meist genutzte und diskutierte Einsatzzweck ist. Der Anwendungsbereich der Assoziationsanalyse ist insbesondere der Aspekt der Warenkorbanalyse, also: „Welche Produkte werden zusammen in einem Warenkorb gekauft?“ Die Ergebnisse der Assoziationsanalyse erfolgen üblicherweise in Form von Regeln wie „Wenn Artikel A gekauft wird, dann auch Artikel B“. Die Qualität oder Nützlichkeit dieser Regeln wird bewertet, indem man die Anzahl der Körbe berechnet, die die Regel unterstützen, wo also die Kombination existiert, geteilt durch die Gesamtzahl der Körbe. Diese Kennzahl oder Statistik wird als Regelunterstützung bezeichnet. Es wird dann berechnet, wie gut die Regel bei der Vorhersage der „rechten Seite“ der Regel ist, in unserem Beispiel Punkt B, angesichts der „linken Seite“ der Regel, Punkt A in unserem Beispiel. Dieses Maß oder diese Statistik ist die Anzahl der Warenkörbe, in denen A und B vorhanden sind, geteilt durch die Anzahl der Körbe mit A in ihnen, ausgedrückt in Prozent. Es wird als „rule support“ bezeichnet. Schließlich berechnen wir ein Maß „Lift“, das als das Vertrauen der Kombination der Elemente geteilt durch die Unterstützung des Ergebnisses definiert ist. Der „Uplift“ ist das Verhältnis von Käufern von A und B zu Käufern von B allein. Es misst, wie viel besser die Regel ist, als nur die „rechte Seite“ der Regel zu erraten. Wenn es größer als 1 ist, dann wird B öfter mit A gekauft; wenn es kleiner als 1 ist, dann wird B öfter alleine gekauft, in diesem Fall ist die Regel nicht sehr gut. Die Berechnungen sind sehr einfach, aber in der Praxis ist die Herausforderung der Assoziationsanalyse meist die sehr große Menge an Transaktionsdaten und damit die Leistungsfähigkeit der Hardware. Dieser He rausforderung kann begegnet werden, indem man die Anzahl der zu extrahierenden Regeln begrenzt. Die Interpretation der Ergebnisse ist nicht immer so einfach wie es scheint, vor allem wenn Regeln entweder triviale oder scheinbar unsinnige Assoziationen hervorrufen.

52

2 Künstliche Intelligenz

Die Hauptstärke der Assoziationsanalyse besteht darin, dass sie klare Ergebnisse liefert. Darüber hinaus sind die Berechnungen einfach und damit leicht verständlich, was die Chance erhöht, dass das Management die Ergebnisse umsetzt. Die bereitgestellten Regeln sind für viele Anwendungen umsetzbar, insbesondere um Cross- und Up-selling- Möglichkeiten für Produkte vorzuschlagen. Dies sind große Vorteile in der prädiktiven Analyse, wo die Algorithmen oft sehr komplex und damit schwer zu erklären sind, was bei den Befragten, die aufgefordert werden, ihre Ergebnisse in Geschäftsprozesse umzusetzen, Zweifel aufkommen lässt. Eine der größten Schwächen des Apriori-Algorithmus ist, dass er exponentiell mehr Berechnungen benötigt, wenn die Datenmenge wächst. Aus diesem Grund gibt es mehrere andere Abkürzungen des Algorithmus, wie z. B. Apriori Lite.8 Einige der Ergebnisse können trivial und damit wertlos sein. Umgekehrt können einige der Ergebnisse unerklärlich sein – letzteres Problem gilt jedoch für einen Großteil der prädiktiven Analyse (mathematische Beziehungen können gefunden werden, aber ist die Beziehung mathematisch oder zufällig?). Eine weitere Schwäche ist, dass der Algorithmus seltene Gegenstände diskontiert, da er im Wesentlichen nach gemeinsamen Gegenständen sucht. Die Schwächen werden von den Stärken weit überkompensiert. Auch wenn die Datenmengen riesig sein können, werden sie in der Praxis oft in Segmente zerlegt, da die Nutzer in der Regel Beziehungen innerhalb von Produkthierarchien oder nach Standorten, wie z. B. Einzelhandelsgeschäften, und damit bei kleineren Datenmengen suchen. Dabei ist der Apriori-Algorithmus ein Beispiel aus der Assoziationsanalyse, welcher speziell für die Verwendung in sehr großen Datenmengen entwickelt wurde [13]. Im Rahmen der Assoziationsanalyse sollen dabei Regeln erzeugt werden (siehe Abb. 2.10), „welche die Beziehungen zwischen den in den Datensätzen eines Datenbestandes vorkommenden Elementen (Items) beschreiben“ [14]. Ausgangsbasis des Apriori-Algorithmus ist dabei eine Datenmenge D aus einzelnen Transaktionen, die wiederum aus einer Menge von Items bestehen, wobei Items uninterpretierte und diskrete Entitäten darstellen [15]. Eine Assoziationsregel X → Y besteht dabei aus einer Itemmenge X als Prämisse und der Itemmenge Y als Konklusion, wobei X und Y disjunkt sein müssen. Eine Transaktion t erfüllt eine Regel X → Y, falls alle Items in der Regel auch in der Transaktion enthalten sind (es gilt somit (X ∪ Y) ⊆ t). Dabei werden die Regeln mit zwei probabilistischen Messwerten, dem Support und der Konfidenz, bewertet. Der Algorithmus ignoriert dabei Regeln, welche unterhalb eines vorab zu definierendem Mindestmaßes dieser beiden Werte liegen. Der Support stellt dabei die Wahrscheinlichkeit, dass eine Itemmenge in einer Transaktion vorkommt, dar. Es ist also die relative Häufigkeit, mit der die Regel in der Datenbasis vorkommt. Dabei ist relativ unwahrscheinlich, dass eine Regel für alle Transaktionen gültig ist. Daher ist die Konfidenz (confidence) definiert als der Anteil der Transaktionen, die die Prämisse und die Konklusion erfüllen. Formal gilt dabei: Eine Übersicht der verschiedenen Entwicklungen rund um den Apriori-Algorithmus findet sich in [13] oder [14].

8

2.2 Problemtypen der Künstlichen Intelligenz und deren Algorithmen

53

Abb. 2.9 Formale Darstellung des Supports und der Konfidenz des Apriori-Algorithmus

Abb. 2.10 Visualisierung des Apriori-Algorithmus

Der Apriori-Algorithmus enthält dabei zwei aufeinanderfolgende Schritte (siehe Abb. 2.9). Es werden zunächst alle Itemmengen berechnet, deren Support innerhalb des zuvor definierten Intervalls liegt. Im zweiten Schritt wird bei diesen Items, auch als häufige Items bezeichnet, der Supportwert bestimmt (Abb. 2.10). Die Vorteile dieses Algorithmus sind, dass er speziell für den Einsatz in großen Datenbeständen entwickelt wurde und somit weniger ressourcenintensiv und schneller ist als ähnliche Algorithmen der Assoziationsanalyse.9 Anderseits müssen keine Einschränkungen für den Algorithmus vorab definiert werden, außer der subjektiven Festlegung der relevanten Intervalle des Supports und der Konfidenz – weshalb auch triviale oder uninteressante Regeln in das Ergebnis einbezogen werden [16].

9

Siehe [14] oder [16].

54

2 Künstliche Intelligenz

2.2.3 Clustering Die Clusteranalyse befasst sich mit der Organisation von Daten in Gruppen mit ähnlichen Merkmalen. Im Idealfall sind die Daten innerhalb einer Gruppe eng aufeinander abgestimmt, während die Gruppen selbst sehr unterschiedlich sind. Anders ausgedrückt, die Objektabstände zwischen den Clustern sind innerhalb des Clusters („inter-cluster“), aber gleichzeitig sind die Abstände zwischen den Clustern („intra-cluster“) groß. Die Marktsegmentierung ist eine der Hauptanwendungen der Clusteranalyse. Anstatt generisch an alle zu vermarkten, herrscht Einigkeit darüber, dass es vorteilhafter ist, sich auf bestimmte Segmente zu konzentrieren, z. B. mit gezielten Produktangeboten. Es gibt eine ganze Branche, die sich der Marktsegmentierung widmet. Die Segmentierung wurde verwendet, um Gruppen ähnlicher Kunden für die Auswahl von Testmärkten für Werbeangebote zu finden, um zu versuchen, die Schlüsselattribute der Segmente zu verstehen und die Bewegung der Kunden aus verschiedenen Segmenten im Laufe der Zeit zu verfolgen, um die Dynamik des Kundenverhaltens zu verstehen. Wir haben gesehen, wie die Clusteranalyse zur Verfeinerung der prädiktiven Analyse im Umgang mit großen und komplexen Datensätzen eingesetzt werden kann. Ein paralleles Beispiel dafür wäre, dass ein Unternehmen Tausende von Produkten oder Hunderte von Geschäften hat, und es sollen Strategien entwickelt werden, um diese Produkte und Geschäfte zu verwalten. Dabei sollen keine hundert oder sogar tausend Strategien entstehen, also müssen die Produkte und Filialen gruppiert werden und eine überschaubare Anzahl von Strategien entwickelt. Wobei jede Strategie dann nur für Gruppen von Produkten oder Filialen gilt. Ein ungewöhnliches Beispiel für die Clusteranalyse war das der US- Armee, die die Anzahl der verschiedenen Einheitsgrößen reduzieren wollte und so viele Messungen der Körpergröße analysierte und daraus ein Größensystem ableitete, bei dem Individuen bestimmten Größengrupen/Clustern zugeordnet wurden. Die Clusteranalyse ist wahrscheinlich die an der weitesten verbreiteten Klasse von prädiktiven Analysemethoden mit Anwendungen in einer ganzen Reihe von Bereichen, wie z. B. Kriminalitätsmusteranalyse, medizinische Forschung, Bildung, Archäologie, Astronomie oder Industrie. Clustering ist in der Tat allgegenwärtig. K-Means-Clustering – ist der bekannteste Clustering-Algorithmus. Die Gründe dafür liegen klar auf der Hand: Er ist leicht zu verstehen und zu implementieren. Die unten stehende Grafik (siehe Abb. 2.11) dient zur Veranschaulichung. Zunächst werden eine Reihe von Gruppen oder Klassen ausgewählt, die zufällig nach ihren entsprechenden Mittelpunktpunkten verwendet und initialisiert werden. Um die Anzahl der zu verwendenden Klassen zu ermitteln, sollte man sich die Daten kurz ansehen und dann versuchen, jede einzelne Gruppierung zu identifizieren [17]. Die Mittelpunkte sind Vektoren gleicher Länge, da alle Datenpunktvektoren X-Koordinaten sind. Jeder Datenpunkt wird kategorisiert, indem der Abstand zwischen diesem Punkt und der Mitte jeder vorab definierten Gruppe berechnet und dann der Punkt der am nächsten gelegenen Gruppe zugeordnet wird. Auf der Grundlage dieser klassifizierten Punkte kann das Gruppenzentrum neu berechnet werden, indem man den Mittelwert aller Vektoren verwendet. Diese Schritte werden

2.2 Problemtypen der Künstlichen Intelligenz und deren Algorithmen

55

Abb. 2.11 Schritte des K-Means-Clustering

für eine feste Anzahl von Iterationen wiederholt oder solange, bis die Zentren zwischen den aufeinanderfolgenden Iterationen nur sehr wenig Veränderung aufweisen. Die Gruppenzentren können auch mehrmals zufällig initialisiert werden und danach wird der Lauf mit den besten Ergebnissen ausgewählt. K-Means ist sehr schnell, da nur die Berechnung der Entfernungen zwischen den Gruppenzentren erfolgt und diese nur sehr geringe Rechenoperationen benötigt. Seine lineare Komplexität ist also O(n) [17]. K-Means hat auch einige Nachteile. Zuerst muss man „zufällig“ wählen, wie viele Gruppen/Klassen es gibt. Auch führt dies dazu, dass bei verschiedenen Durchläufen des Algorithmus unterschiedliche Clustering-Ergebnisse als Ergebnis entstehen. Auf diese Weise können die Ergebnisse nicht stabil sein und zur Verwirrung führen. Mean Shift Clustering – ist ein Clustering-Algorithmus, der die Datenpunkte den Clustern iterativ zuordnet, indem er Punkte in Richtung des Modus verschiebt (siehe grafische Darstellung in Abb. 2.12). Der Modus kann als die höchste Dichte von Datenpunkten (in der Region, im Rahmen der Meanshift) verstanden werden. Daher wird er auch als Modus-Suchalgorithmus bezeichnet. Der Meanshift-Algorithmus hat Anwendungen im Bereich von Bildverarbeitung und Computer Vision. Bei einer Reihe von Datenpunkten

Abb. 2.12 Visualisierung des Meanshift Algorithmus nach [18]

56

2 Künstliche Intelligenz

ordnet der Algorithmus iterativ jeden Datenpunkt dem nächstgelegenen Cluster- Schwerpunkt zu. Die Richtung zum nächsten Cluster-Schwerpunkt wird dadurch bestimmt, wo sich die meisten der nahegelegenen Punkte befinden. Bei jeder Iteration rückt also jeder Datenpunkt näher an die Stelle, an der sich die meisten Punkte befinden, was zum Clusterzentrum führt oder führen wird. Wenn der Algorithmus stoppt, wird jeder Punkt einem Cluster zugeordnet. Im Gegensatz zum beliebten K-Means-Algorithmus erfordert die Mittelwertverschiebung keine vorherige Angabe der Anzahl der Cluster. Die Anzahl der Cluster wird durch den Algorithmus in Bezug auf die Daten bestimmt. Density-based Clustering – basiert im Prinzip auf der Grundlage des Mean-Shift- Algorithmus, hat aber einige Vorteile. Diese Art des Clustering beginnt mit einem beliebigen Datenpunkt, der nicht besucht wird. Die Nachbarschaft des Punktes wird mit einer Entfernung extrahiert, alle Punkte innerhalb der Entfernung sind damit Nachbarschaftspunkte. Wenn wir eine ausreichende Anzahl von Punkten in der Nachbarschaft ermittelt haben, beginnt der Clustering-Prozess und der aktuelle Datenpunkt wird als erster Punkt im neuen Cluster betrachtet. Wenn nicht, wird es als Rauschen bezeichnet, das später Teil des Clusters werden kann. In beiden Fällen wird der Punkt als „besucht“ gekennzeichnet [19]. Mit dem ersten Punkt des neuen Clusters, den darin liegenden Punkten, ist auch die Nachbarschaft Teil dieses Clusters. Der Prozess des Renderings aller Punkte in der Nachbarschaft zum gleichen Cluster wird für jeden neuen Punkt wiederholt, der zur Clustergruppe hinzugefügt wird.

2.2.4 Regression, Prediction oder Vorhersage Viele Anwendungen beinhalten die Modellierung von Beziehungen zwischen einer oder mehreren unabhängigen Variablen und einer abhängigen Variablen. Beispielsweise kann die Umsatz- bzw. Absatzhöhe auf Grundlage des festgelegten Preises vorhergesagt werden oder als Trend in die Zukunft hochgerechnet werden. Als weitere Beispiele kann ein Unternehmen den Umsatz auf der Grundlage des Bruttoinlandsprodukts prognostizieren oder ein Marketingforscher könnte die Chancen vorhersagen, dass ein bestimmtes Automobilmodell gekauft wird, und zwar basierend auf einer Umfrage zur Einstellung der Verbraucher zur Automarke und dem Einkommensniveau. Regressionsanalysen sind Werkzeuge, um solche Modelle zu erstellen und zukünftige Ergebnisse vorherzusagen [20]. Das Hauptaugenmerk liegt hier darauf, ein grundlegendes Verständnis für die Aussage und Interpretation der Daten durch Trendlinien, Regressionsmodelle und statistische Fragen und deren Zusammenhang zu bekommen. Das Verständnis sowohl der Mathematik als auch der beschreibenden Eigenschaften verschiedener funktionaler Beziehungen ist wichtig für den Aufbau prädiktiver Analysemodelle. Man beginnt oft damit, ein Diagramm der Daten zu erstellen, um die Abhängigkeiten inhaltlich zu verstehen und die geeignete Art der funktionalen Beziehung des analytischen Modells auszuwählen. Für Querschnittsdaten verwendet man am besten ein Streudiagramm, für Zeitreihen oder Datenreihen am besten ein Liniendiagramm.

2.2 Problemtypen der Künstlichen Intelligenz und deren Algorithmen

57

Die gängigsten Arten von mathematischen Funktionen, die in prädiktiven analytischen Modellen verwendet werden, sind die Folgenden: • Lineare Funktion y = a + bx – Lineare Funktionen zeigen stetige Zu- oder Abnahme über den Bereich von x. Dies ist die einfachste Art von Funktionen, die in prädiktiven Modellen verwendet werden. Es ist leicht zu verstehen und kann über kleine Wertebereiche das Verhalten recht gut approximieren. • Logarithmische Funktion y = ln(x) – Logarithmische Funktionen werden verwendet, wenn die Änderungsrate einer Variablen schnell steigt oder sinkt und sich dann ausgleicht, z. B. bei abnehmenden Skalenerträgen. Logarithmische Funktionen werden häufig in Marketingmodellen eingesetzt, bei denen konstante prozentuale Steigerungen in der Werbung beispielsweise zu konstanten absoluten Umsatzsteigerungen führen. • Polynomfunktion y = ax2 + bx + c (quadratische Funktion zweiter Ordnung) oder y = ax3 + bx2 + dx + e (kubische Funktion dritter Ordnung) und so weiter. Ein Polynom zweiter Ordnung ist parabolisch und hat nur einen Hügel oder ein Tal; ein Polynom dritter Ordnung hat ein oder zwei Hügel oder Täler. Absatz- und Umsatzmodelle oder die Preiselastizität sind oft Polynomfunktionen. • Potenzfunktion y = axb – Potenzfunktionen definieren Phänomene, die mit einer bestimmten Geschwindigkeit zunehmen. Lernkurven, die Verbesserungszeiten bei der Ausführung einer Aufgabe ausdrücken, werden oft mit Potenzfunktion mit a > 0 und b