Small Data? Alter Wein in neuen Schläuchen

In unseren Projekten, aber auch auf Konferenzen, hören wir gelegentlich den Begriff Small Data. In Abgrenzung zu Big Data soll Small Data die Aufmerksamkeit auf einzelne oder wenige Daten lenken, die Kausalzusammenhänge zwischen Variablen abbilden sollen.

Um es kurz zu sagen: das ist alter Wein in neuen Schläuchen. Small Data gab es früher, als keine oder nur wenige Prozesse digitalisiert waren und nur geringe Datenmengen zu Verfügungs standen. Um etwa Neuproduktentscheidungen auf Basis von Daten zu treffen, behalf man sich mit Marktforschungsmassnahmen, die eine ungefähre Ahnung des aktuellen und zukünftigen Kundenverhaltens vermittelten. Das ist die klassische Marktforschung, oder auch Marktforschung 1.0.

Seitdem immer mehr Prozesse digitalisiert werden, stehen Unternehmen und Individuen Daten in Hülle und Fülle zu Verfügung. Oft sind es soviele Daten, dass Unternehmen ihnen nicht mehr Herr werden, in neue Data Warehouse Infrastrukturen investieren und entsprechende neue Datenmanagemen-Prozesse neu aufsetzen müssen. Dies nicht nur, um datengetriebene Produkte zu entwickeln, sonden auch um bestehende Kundenverhältnisse zu optimieren: ein Kunde, dessen Bedürfnisse im Online-Shop, in der E-Mail- oder Call Center-Kommunikation nur unzureichend erkannt und beachtet werden, wechselt den Anbieter.
Vertreter des Small Data Gedankens werden meist von der oft als unüberschaubar wahrgenommenen Komplexität von Big Data abgeschreckt und ziehen sich deshalb auf bewährte Vorgehensweisen zurück: sie erstellen eine Hypothese – beispielsweise über das Verhalten Ihrer Zielgruppe – und suchen nach Daten, die diese Hypothese unterstützen. Sobald sie auch nur die geringsten Datenmengen gefunden haben, die ihre Hypothese unterstützt, nehmen sie dies als Beleg her und bauen darauf eine Marketingstrategie auf.

Aktuelles Beispiel für dieses archaische Vorgehen ist ein Vortrag des Marketing-Experten Martin Lindström auf dem Serviceplan Innovationstag 2016. Anhand von oben skizzierten Beispielen kommt er zu dem Schluss: „Big Data allein ist nutzlos. Im Grunde handelt es sich nur um eine Ansammlung von Daten, in denen Sie nach Korrelation suchen, aber nicht nach Kausalität – was sinnvoller wäre.“

Eine solche Aussage, getroffen von einem international anerkannten Experten, auf einer hochkarätig besetzen Konferenz, ist vermutlich im Jahr 2016 nur noch in Deutschland möglich – in einem Land, in dem das Bewahren von Bewährtem immer noch als deutlich wichtiger eingestuft wird als das Zerstören von Bekanntem, das Umwerfen und das Neu-Denken. Das Aufstellen von Hypothesen mit einer angeschlossenen auf geringen Datenmengen basierten Analyse wurde bis vor ca. 5 Jahren als Marktforschung durchgeführt. Nicht jedoch, weil man wusste, dass dies eine sinnvolle Methode beispielsweise zur Vorhersage von Kundenverhalten wäre, sondern weil auf der Basis der vorhandenen Daten dies damals das bestmögliche Vorgehen war. War.

In der Zwischenzeit hat sich die Welt jedoch geändert: wir haben jetzt die Daten, die uns ein vielfach besseres Bild der Gegenwart, wie auch der Zukunft ermitteln. Und weil wir diese Daten haben, müssen wir uns auch nicht mehr selber als Propheten betätigen und die Zukunft voraussagen, sondern wir sehen uns die Daten an, erkennen Korrelationen (nicht Kausalitäten) und entwickeln daraus Zukunftsoptionen.

Insbesondere der Unterschied zwischen Kausalität und Korrelation scheint sich in einigen Expertenkreisen noch nicht wirklich herumgesprochen zu haben. Der Grund, auf das Erkennen von Kausalitäten zugunsten von Korrelationen zu verzichten, ist einfach: Wenn Martin Lindström berichtet, dass ein Teenager seine Turnschuhe lieber abgetragen trägt, gilt das für genau diesen einen Teenager. Womöglich zeigt sich sogar, dass sich 100 Teenager so verhalten. Für ein Neuprodukt mit „pre-used“ Sohlen reicht das jedoch nicht. Diese „Kausalität“ hilft uns nicht weiter. Sie ist weder übertragbar, noch skalierbar.

Was uns weiterhelfen würde, wäre beispielsweise die Aussage, dass die Zeit, die Teenager durchschnittlich auf dem Skateboard verbringen, signifikant höher ist, wenn ihre Schuhe ein Mindestalter von > 6 Monaten haben und die Sohle um mind. 30% abgenutzt ist. Durch Sensoren im Schuh könnte eine solche Information verfügbar gemacht werden. In diesem Fall hätten wir einen tatsächlichen Beleg für das beschriebene Verhalten – im Fall der Lindströmschen Beobachtung handelt es sich lediglich um eine Anekdote.

Wir haben heutzutage die Möglichkeit, grosse Datenmengen zu erzeugen und zu analysieren. Lassen wir uns diese reichhaltigen Erkenntnis-Pool nicht entgehen! Indem wir uns selbst und unsere eigene Wahrnehmungsfähigkeit zunächst zurücknehmen und Daten sprechen lassen, werden wir unseren Blickwinkel deutlich erweitern und viele erstaunlich und bisher für undenkbar gehaltene Zusammenhãnge erkennen. Hören wir weniger auf Experten, sondern bilden wir uns unsere eigenen Meinungen basierend auf der Analyse von Big Data!

Was ist Big Data?

Big Data, „große Daten“, ist ein seltsamer Begriff – ein Marketing-Buzzword. Dabei fasst Big Data eine ganze Reihe von Entwicklungen zusammen, die in ihrer Bedeutung für fast jeden Bereich unseres Lebens gar nicht überschätzt werden können: es handelt sich um nicht weniger, als einen vollständigen Paradigmenwechsel, technologisch getrieben, aber schon längst weit jenseits der Technologie wirksam. Nach dem World Wide Web vor 20 Jahren, Social Media (aka Web 2.0) vor 10 Jahren, ist es die dritte Welle von Technologie, die aus dem Internet entstanden ist und sich weltweit ausgebreitet hat.

Aber was ist dieses „Big Data“? Oft ist von den „Drei Vs“ die Rede – Volume, Velocity, Variety. Große Datenmengen, die in schneller Folge gemessen werden sind aber für sich genommen noch nichts Neues. Datenbanken, die auf gewaltigen Servern in Rechenzentren hochperformant „EDV“ machen, gibt es schon lange. Völlig neu aber ist, dass es seit wenigen Jahren Betriebssysteme und Datenbanken gibt, die auf billiger Standard-Hardware laufen; viel leistungsfähiger und nahezu beliebig skalierbar; und das meiste davon ist Open Source.

Hadoop kann man als das „Betriebssystem“ von Big Data bezeichnen. Hadoop, ein Open Source Projekt der Apache-Foundation ist gerade zehn Jahre alt geworden. Es liefert vor allem ein Filesystem, mit dem sich beliebig viele Rechner zu einer einzigen großen Festplatte zusammenschalten lassen. Um Hadoop hat sich schnell ein „Ökosystem“ aus frei verfügbaren sowie kommerziellen Anwendungen entwickelt – ganz wie wir es „damals“ mit Microsoft Windows und dem PC erlebt haben.

Für viele Anwendungen ist es aber nicht einmal nötig, selbst die Infrastruktur aufzubauen. Cloud-Computing wie Amazon Webservices ermöglichen ohne großen Aufwand oder tiefe Fachkenntnisse, größte Datenmengen zu verarbeiten. Da das Pricing nach Rechenzeit geht, kann man mit Test-Daten beginnen und nach erfolgreichem Test skalieren. Dadurch ist es selbst kleinen Teams oder sogar Einzelpersonen möglich, Datenanalyse zu liefern, die vor kurzem ausschließlich größten Rechenzentren vorbehalten war.

Die Daten werden auf den Cloud Systemen a la Hadoop zunächst unstrukturiert abgespeichert. Über Konsistenz, fehlende Werte oder falsche Formatierung macht man sich erst danach Gedanken. Statt wie beim klassischen Data Warehouse die Daten erst in die passende Tabellenform zu transformieren und dann in die Datenbank hochzuladen, bleiben die Daten am besten als Rohdaten auf dem Laufwerk liegen, genau wie sie angekommen sind.

Das Dateiformat, dass sich in der Big-Data-Kultur für alle Metadaten (also Daten, die die eigentlichen Daten – wie Bilder oder Videos – beschreiben) durchgesetzt hat, ist die „Java Script Object Notation“ JSON, in der Informationen als Paare von Schlüsseln und Werten dokumentiert werden, „Key-Value-Pairs“.

Die unstrukturiert auf dem Cloud-System abgelegten Daten können in Datenbanken hochgeladen werden – je nach Bedarf. Dabei kommen neue Datenbank-Konzepte zum Einsatz, die speziell auf unstrukturierte oder halbstrukturierte Daten ausgelegt sind. Diese Datenbanken werden oft als NoSQL bezeichnet. Der Begriff „NoSQL“ leitet dabei in die Irre: auch wenn viele der Big-Data-Datenbanken keine relationalen Systeme mit Tabellen-Logik sind, haben die meisten eine Abfragesprache, die sich stark an SQL orientiert.

Für Datananalyse wird die Programmiersprache Python mehr und mehr zum Standard. Python ist schnell zu lernen – viel intuitiver als die meisten anderen Programmiersprachen in der Anwendung. Für Python gibt es eine gewaltige Menge an Code-Bibliotheken, die praktisch jeden Bereich von Datananalyse abdecken.

Das Programmier-Framework Spark bietet schließlich alle Funktionen, um datengetriebene Anwendungen auf verteilten Rechenanalgen industriell zu skalieren.

Hadoop und Cloud-Computing, Datenbanken für unstrukturierte Daten, Metadaten in JSON, Datenanalyse (z.B. in Python und Spark) – ergeben zusammen Big Data. Und das Beste: für alle Fragen gibt es im Netz jede Menge Unterstützung. Also: keine Angst vor Big Data – einfach ausprobieren!

Big Data leicht gemacht – Die wichtigsten Begriffe

 

Immer mehr wird über den Begriff „Big Data“ gesprochen und geschrieben. Aber was verbirgt sich dahinter? Wieso sind Unternehmen interessiert, Daten zu sammeln und diese gezielt auszuwerten? Wie machen sie das?

Wer sich für die technologische Zukunft wappnen will, der kommt um das Verständnis von „Big Data“ nicht herum. In diesem Artikel stellen wir eine vereinfachte Übersicht über die fragmentierte Welt der „Big Data“ dar. Aber vorab: Was genau ist eigentlich Big Data?

More information is created faster than organisations can make sense of it. (Jeff Jonas)

Diese Definition gefällt uns sehr gut: Big Data ist, wenn Daten schneller und in größerer Menge anfallen, als die jeweiligen Unternehmen damit etwas anfangen können. Der hierin enthaltene Gedanke des Nicht-Beherrschbaren zielt in die richtige Ecke: während wir früher damit begannen, Hypothesen aufzustellen und beispielsweise Zielgruppen zu bilden, bevor „entsprechende“ Daten erhoben wurden, werden heute alle anfallenden Daten ohne vorheriges Betrachten gespeichert und anschließend analysiert.

 

Big Data

Abbildung: Big Data – eigen Darstellung

MapReduce
MapReduce ist das Google Paper, mit dem alles begann (weitere Details). Es ist ein Modell für das Schreiben von verteilten Codes, inspiriert von einigen Elementen der funktionalen Programmierung. Es ist ein möglicher Ansatz, der von Google entwickelt wurde, der viele technische Vorteile aufweist. Die Google interne Implementierung trägt den Namen MapReduce und die Open-Source-Implementierung wird Hadoop genannt. Amazons Hadoop-Instanz heißt Elastic MapReduce (EMR) und verfügt über Plugins für zahlreiche Programmiersprachen.

HDFS
HDFS ist eine Implementierung inspiriert vom Google File System (GFS), um große Dateien verteilt auf mehrere Rechner zu archivieren. Hadoop verarbeitet Daten im Hadoop Distributed File System (HDFS).

Apache Spark
Apache Spark ist eine Plattform, die immer mehr an Beliebtheit gewinnt. Sie bietet im Vergleich zu MapReduce mehr Flexibilität, gleichzeitig aber mehr Struktur als ein „Message Passing Interface“. Es stützt sich auf das Konzept der verteilten Datenstrukturen (bekannt als RDDs). Weitere Informationen.

MLIB und GraphX
Durch die Einfachheit von Spark, was auf einem „Message Passing Interface“ aufsetzt, ermöglicht dieses Big Data-Framework einen leichteren Zugang zu Daten für Data Scientists. Die Machine Learning Engine die daran ansetzt heißt heißt MLIB und das graphische Framework GraphX.

Pregel und Giraph
Pregel und die Open Source Anwendung Giraph sind Lösungen, um hochkomplexe, soziale Graphen und stark miteinander verbundene Datenstrukturen auf vielen Rechnern gleichzeitig zu analysieren. Bemerkenswert ist, dass sich Hadoop / MapReduce nicht gut eignet, um graphische Analysen durchzuführen. Hingegen wird aber HDFS / GFS weiterhin als Datenspeicher genutzt.

Zookeeper
Wer heute Cluster-Software schreibt, setzt zur Koordinierung höchstwahrscheinlich ZooKeeper ein. ZooKeeper erlaubt die Abbildung typischer Nebenläufigkeits-Patterns (Lock, Counter, Semaphore) über Hunderte von Servern. Hadoop implementiert mittels ZooKeeper Fail-over seiner wichtigsten Systemkomponenten.

Big Data - Data Democracy

 

Abbildung: Data Democracy (by Avinash Kaushik) – eigen Darstellung

Flume
Flume ist ein Apache Projekt und zielt darauf ab, Daten aus unterschiedlichsten Quellen (Sources) in HDFS oder Files (Sinks) zu transportieren. Kurz gesagt: Flume ein Log-Collector, der in seiner neueren Version die Möglichkeit der Korrelation bereits im Transport-Channel zulässt. Dabei ist es unerheblich, welche Art von Daten transportiert werden, und was die Quelle und das Ziel sind (sofern unterstützt). Die konsequente Nutzung der API ermöglicht es Entwicklern, eigene Sources und Sinks zu schreiben und einzubinden. Mehr Informationen.

Scribe
Scribe ist ein Open-Source Projekt von Facebook. Ähnlich wie Flume zielt Scribe darauf ab, machen es einfach, eine Menge von aufgezeichneten Daten zu sammeln und zu analysieren.

Google BigTable und HBase
Google BigTable und das Open-Source Pendant HBase wurde bereits 2004 entwickelt und findet ihren Einsatz in zahlreichen bekannten Anwendungen, wie zum Beispiel MapReduce, Google Maps, Google Bücher, YouTube oder Google Earth. Bei der Entwicklung wurde sehr großen Wert auf die Skalierbarkeit und Geschwindigkeit gelegt. Dies wurde durch die nicht-relationale Struktur ermöglicht.

Hive und Pig
Hive und Pig sind SQL Abstraction Language, das auf Hadoop aufsetzt. Sie dient zur Analyse von Tabellendaten in einem verteilten Dateisystem (denken Sie an eine sehr, sehr große Excel-Tabelle, so groß, dass sie nicht auf einem Rechner Platz findet). Sie arbeiten beide auf einem Data Warehouse Prinzip: Daten werden unstrukturiert einfach abgespeichert und anschließend nicht mehr verändert. Der große Vorteil ist, dass die Daten in unterschiedlichen Formaten vorliegen können (plain text, compressed, binär). Hive und Pig sind entfernt mit einer Datenbank vergleichbar: es wird eine Meta-Information einer Tabelle und ihrer Spalten benötigt, der einzelne Felder der auszuwertenden Daten zugrunde liegen. Diese Felder müssen bestimmten Datentypen zugeordnet werden. Interessant sind Hive und Pig für Business Analysts, Statistiker und SQL Programmierer.

Es stellt sich mit der Zeit heraus, dass Hive und Pig in Ihrer Geschwindigkeit nachließen, weil sie auf Hadoop aufgesetzt wurden. Um dieses Problem zu lösen, gingen die Entwickler direkt Richtung HDFS und als Ergebnis kamen folgende Lösungen hervor: Googles Dremel (Dremel: Interaktive Analyse von Web-Scale-Datensätzen), F1 (das H-verteilte RDBMS, Unterstützung von Google Ad Operations, Facebooks Presto (Presto | Verteilte SQL Query Motor für Big Data), Apache Funken SQL (Seite auf apache.org), Cloudera Impala (Cloudera Impala: Echtzeit-Abfragen in Apache Hadoop), Amazon Redshift usw. Sie alle haben etwas eine abgewandelte Semantik, was aber am Ende eine Erleichterung für die Analyse von auf zahlreiche Datawarehouses verteilte Tabellendaten darstellt.

Mahout
Mahout (scalable machine learning „SML“ and data mining: https://mahout.apache.org) spielt im Ensemble der Massendatenverarbeitung eine tragende Rolle. Mahout bietet nahezu unbegrenzten Einsatzmöglichkeiten von Produktempfehlungen aufgrund von Interessensgebieten und statistischen Algorithmen bis hin zu Fraud Detection, Wahrscheinlichkeitsanalysen oder Trendanalysen in Sozialen Netzwerken. Mahout arbeitet mit einem zentralen Algorithmus zum Clustern von Daten, was weit über den Umfang von HDFS hinaus geht.

Oozie
In jedem Prozess findet ein Großteil der Aufgaben zur gleichen Zeit statt und sie wiederholen sich ständig. In einem hochkomplexen System wie Apache Hadoop würde dadurch viel Zeit und Kosten verstreichen, würde man jede Aufgabe einzeln angehen. Die Lösung dazu ist Oozie – ein Workflow Manager. Ozzie verwaltet und administriert Apache Hadoop Workflows und steuert in einem begrenzten Maß die Fehlerbehandlung wie Restart, Reload und Stop eines Prozesses. Ozzie kann neben zeitgesteuerten Aktionen auch datengesteuerte Aktionen ausführen, etwa wenn Daten unregelmäßig verfügbar und nicht per zeitgesteuertem Batchprocessing verarbeitet werden können.

Lucene
Lucene ist Open-Source und Java basiert. Sie erstellt einerseits einen Index aus Dateien, der etwa ein Viertel des Volumens der indexierten Dateien hat. Zum Anderen liefert Lucene anschließend Suchergebnisse mit Rangliste, wofür mehrere Suchalgorithmen zur Verfügung stehen.

Sqoop
Sqoop ist eine Verbindung (Connector) zwischen Hadoop und relationales Datenbankmanagementsystem (RDBMS). Sie wird von zahlreichen Datenbankanbietern genutzt und unterstützt. Mithilfe von Sqoop lässt sich mit einfachen Mitteln Apache Hadoop als Middleware-Applikation in bestehende BI-Lösungen integrieren. Das Elegante an Sqoop ist die Möglichkeit, Select Statements bereits in Datenbankabfragen oder bei der Rückspeicherung zu integrieren. Neben den Connectoren zu den bekannten RMDBS sind auch Connectoren zu Datenbanken wie TerraData, Netezza, Microstrategy, Quest und Tableau verfügbar. Weitere Informationen.

Hue
Hue ist eine Web-basierte grafische Benutzeroberfläche, um Teile  und Ergebnisse von den oben genannten Applikationen darzustellen . Weitere Informationen.

Das Big Data Versprechen: Bessere und schnellere Entscheidungen treffen

Big Data verspricht, besser und schneller entscheiden zu können. Während bisher Daten-Stichproben als das Max der Dinge eingesetzt wurden, können wir nun alle relevanten Daten abfragen und verarbeiten. Und die Ergebnisse stehen nicht nach Monaten oder Wochen, sondern nach Minuten oder Sekunden zur Verfügung. Lösen die seit geraumer Zeit aus dem Boden spriessenden Big Data Unternehmen dieses Versprechen ein?

Big Data Issues
Quelle: NewVante Partners

Laut einer NewVantage Partners Big Data Umfrage auf Vorstandsebene in Fortune 500 Unternehmen aus dem Finanzsektor, wie Bank of America, JP Morgan, Wells Fargo, American Express und Fidelity Investments sowie einigen Nicht-Finanzunternehen wie General Electric, meinen über ein Fünftel (22%) der befragten Top-Manager schnellere und bessere Entscheidungen auf Basis von Big Data Initiativen treffen zu können. Diese Ergebnisse wurden in so unterschiedlichen Projekten wie der Zusammenführung vieler unstrukturierter Datenströme wie Sensortasten und Social Media Daten mit strukturierten Daten aus öffentlichen Regierungsinstitutionen, als auch der FRagestellung, wie diese Daten zur Formulierung neuer Marketing Kampagnen eines Kreditkartenunternehmens genutzt werden können.

Übereinstimmend wird der grösste Vorteil in Big Data Projekten darin gesehen, dass zeitaufwendige Tätigkeiten wie das Formulieren einer Hypothese und der Datenaufbereitung nicht zu Beginn eines Projekts anfallen, sondern erst dann zu Tragen kommen, wenn in den Daten interessante Muster erkannt worden sind. Dieser Zeitvorsprung schmilzt die sogenannte  Time-to-Answer TTA auf eine deutlich kürzere Zeitspanne ein. Insofern bedeutet auch die Minimierung der TTA  den grössten Einzelnutzen, den ein Big Data Unternehmen bringen kann.

 

Wie mit Quantified Self Big Data ein Teil unseres Lebens wird

Es gibt mittlerweile viele Fitness-Apps und Zusatzgeräte, die dem Menschen helfen gesünder zu leben. Durch das tägliche Sammeln und Speichern aller Bewegungsdaten und von Angaben zur Nahrungsmittelaufnahme kann der gesundheitsbewusste Mensch kontrollieren, wieviel er sich tatsächlich beengt und wieviele Kalorien er zu sich nimmt.

Wer sein Verhalten konsequent täglich misst, sammelt eine große Menge an Daten an, die es zu analysieren gilt. Apps wie Up oder Nike+ Fuelband bereiten die Daten in ansprechenden., gut lesbaren Graphiken auf, die dem Nutzer einen schnellen Überblick seines Verhaltens erlauben. Inwiefern helfen die gesammelten Daten und ihre Aufbereitung aber nun wirklich? Sehen wir uns lediglich die schönen Charts an oder ändern wir basierend auf neuen Erkenntnissen unsere Lebensweise? Und – wie genau messen diese Apps wirklich? Können wir uns auf die Ergebnisse verlasen, so dass eine Verhaltensänderung auch den richtigen Schritt bedeutet?

Apps wie Human oder Moves motivieren ihre Nutzer dazu, sich über einen bestimmten Zeitraum pro Tag zu bewegen. Es sind simple Apps, die nur ein Ziel haben: mehr Bewegung ihrer Nutzer. Und weil jede zusätzliche Komplexität im mit Terminen, Verpflichtungen und mentalen Anforderungen angefüllten Tagesablauf störend wirken würde, verzichten die Apps auf Funktionalität: man wird aufgefordert, sich 30 Minuten pro Tag zu bewegen – sonst nichts. Diese Einfachheit ist der erste wichtige Grund dafür, wie Big Data ein Teil unseres Lebens wird: indem man sich nicht darum kümmern muss, sorgen Apps und tragbare Geräte dafür, dass wir automatisch und nebenbei die für uns wichtigen Daten sammeln.

wearable devices

Heute und auch noch ein paar Jahre in die Zukunft gedacht, nutzen wir die sogenannten wearable devices – tragbare Geräte wie beispielsweise den Withings Pulse. Der Gesamtmarkt für wearable device wird auf etwa 300 Millionen verkaufte Geräte im Jahr 2017 geschätzt. Im nächsten Schritt werden externe Zusatzgeräte wie der Pulse vermutlich von Implantaten und invasiven Arzneimitteln ersetzt: Wie sollte man den eigenen Körper besser kennenlernen, als durch den Blick ins Innere? Körpertemperatur, Puls, Atemfrequenz, der Hormonhaushalt und sogar eingenommene Medikamente können automatisch jederzeit gemessen und kontrolliert werden. Nicht nur für die Optimierung des persönlichen Wohlergehens, sondern auch für die Früherkennung und Prävention von Krankheiten kann dies von unermesslichem Wert sein.

Neben den klar erkennbaren Vorteilen des Quantified Self lasen sich auch potentielle Gefahren erkennen: was passiert, wenn die gemessenen Daten gegen die messende Person verwendet werden? Was, wenn die Daten in unbefugte Hände gelangen? Diese Fragen deuten auf reale Gefahren hin und müssen beantwortet werden. Die Tatsache, dass die komplette und ständige Vermessung des menschlichen Körpers in kurzer Zeit Realität sein wird und die daraus entstehenden Vorteile für Millionen von kranken und gefährdeten Menschen lebensrettend sein können, macht deutlich, wie wichtig dies für den Menschen ist und dass Quantified Self als ein selbstverständlicher Aspekt jeden verantwortungsbewussten Verhaltens angesehen werden wird.

The Analytics Advantage – eine Studie von Deloitte Touche Tohmatsu

Basically, analytics is about making good business decisions. Just giving reports with numbers doesn’t help. We must provide information in a way that best suits our decision-makers.„, ein Zitat von einem HR Officer eines US Unternehmens.

Immer mehr Unternehmen gerade in den USA sehen die Relevanz von Data Analytics bei der Vorbereitung von strategischen Entscheidungen. Wo stehen die Unternehmen in Hinblick auf Data Analytics? Diese Frage stellte sich Deloitte und hat mehr als 100 Unternehmen in den USA, Kanada, China und UK befragt. Das Ergebnis ist nicht überraschend: Data Analytics ist ein großes Thema für viele Unternehmen und gewinnt immer mehr an Bedeutung.

Bildschirmfoto 2013-06-27 um 17.38.13
Quelle: Deloitte „The Analytics Advantage“, 2013

Ein guter Manager zeichnet sich dadurch aus, dass er Entscheidungen trifft. Wie zu erwarten erhoffen sich Unternehmen eine bessere Entscheidungsgrundlage mit Hilfe von Data Analytics. Für die Pflege von Kundenbeziehungen und bei der besseren Einschätzung von Geschäftsrisiken werden Daten immer mehr eingesetzt. Trefflich von einem Teilnehmer der Befragung formuliert:

There are now enough reasons for us to prove beyond all doubt that what we’ve always done, based on intuition, isn’t the best way to go.

Bildschirmfoto 2013-06-27 um 17.38.25
Quelle: Deloitte „The Analytics Advantage“, 2013

Der Großteil der Befragten sind überzeugt davon, dass Analytics die Wettbewerbsfähigkeit ihres Unternehmens verbessern. Nur 3% gaben an, dass sie keinen Mehrwert darin sehen. Wenn Daten so eine große Rolle in Unternehmen spielen, stellt sich die Frage, wer sich damit in der Organisation beschäftigt.

Bildschirmfoto 2013-06-27 um 17.38.35

Quelle: Deloitte „The Analytics Advantage“, 2013

In der Regel befasst sich das Management Board (CEO, CFO, COO, usw.) mit aufbereiteten Daten. Kaum verwunderlich, denn diese Institution trifft bekanntlich die strategischen Entscheidungen einer Firma. Nicht überraschend dass auch Manager in der 2. Ebene, also Abteilungsleiter oder Geschäftsbereichsleiter sich auf Daten Analytics stützen.

Nun zur Kernfrage: wie fortgeschritten ist Data Analytics in den Unternehmen?

Bildschirmfoto 2013-06-27 um 17.38.54
Quelle: Deloitte „The Analytics Advantage“, 2013

Das Ergebnis ist ernüchternd. In vielen Unternehmen herrscht keine einheitliche Strategie beim Umgang mit Daten. Daten werden nicht zentral verwaltet und analysiert, auch die Verantwortung für diesen Bereich ist in vielen Unternehmen nicht eindeutig geregelt. Oft mangelt es an der passenden Technologie, um Data Analytics zu betreiben.

Fazit:

  • Data Analytics muss in Unternehmen gelebt werden und von den Führungspersonen voll unterstützt werden
  • Analytics soll Teil der strategischen Entscheidungsgrundlage werden
  • Analytics soll erweitert werden für Marketing und Kundenbetreuung
  • Analytics soll zentral verwaltet werden
  • Auch Analytics braucht eine klar ausformulierte Strategie

Hier können Sie eine Zusammenfassung der Studie vorgetragen von Tom Davenport, Professor von Harvard Business School und Berater von Deloitte Analytics ansehen.

Selbst die Franzosen werden offener in Hinblick auf Daten-Sharing

Wer hätte das gesagt, die prüden Franzosen gehen immer offener mit ihren Daten um. Laut einer Studie von IPG Mediabrands und Microsoft wären knapp 45% der Befragten in Frankreich bereit, Daten über ihr Kaufverhalten mit anderen zu teilen. Im Gegenzug erwarten sie nützliche Tipps und Empfehlungen. Auch für gezielte Werbung wären sie nicht abgeneigt.

48% der Befragten gaben an, dass sie einen Vorteil bei Kaufentscheidungen sehen, wenn sie ihre Datenidentität freigeben. Jedoch wären nur 36% der Konsumenten bereit, sich von Brands „tracken“ zu lassen, wenn ihnen ein besseres Kauferlebnis in Aussicht gestellt wird.

Diese Studie belegt wieder, dass Menschen offen für das Daten Sharing sind, wenn sie im Gegenzug einen Mehrwert sehen. Dies kann in Form eines nützlichen Feedbacks erfolgen aber auch durch gezielte Tipps und Empfehlungen für zukünftige Handlungen. Könnte diese Art der Incentivierung die Zukunft der Marktforschung sein?

Big Data’s Top PE Investoren

Ich habe mich schon lange gefragt, wer die aktivsten PE Investoren im Bereich Big Data sind und wie viel Kapital bereits von professionellen Investoren für diesen Bereich zur Verfügung gestellt wurden. In einem etwas älteren Beitrag aus März 2013 auf CN Insights wurde ich endlich fündig. Die Zahlen sind beeindruckend.

Seit der Finanzkrise in 2008 wurden insgesamt mehr als 4,9 Mrd. USD im Bereich Big Data investiert – eine beträchtliche Summe, wenn man bedenkt, dass PE-Investitionen seit 2008 stark rückläufig sind. Hier sind die Top 20 Investoren: