Hadoop- oder: Die Geburt von Big Data

Wired bringt eine schönen Abriss der Geburtsstunde von Big Data, die grundsätzlich mit der Entwicklung und dem Einsatz von Hadoop gleichzusetzen ist. Das Software System, das heute von allen grossen Networks wie Facebook, Twitter, Yahoo etc. eingesetzt wird, wurde  2006 von Doug Cutting und Michael Cafarella programmiert. Pate stand Google, die bereits im Jahr 2004 den Grundstein legten und ihre Architektur open source zur Verfügung stellten.

Mit dem aus dem Datenspeicher Hadoop Distributed File System HDFS und der Datenverarbeitungsplattform MapReduce besteht, können riesige Datenmengen gespeichert und in einem zweiten Schritt über hunderte oder gar tausende Server ausgeliefert werden. Über MapReduce werden dann grosse Rechenaufgaben in viele kleine Aufgaben verteilt über mehrere Serververbünden (Cluster) aufgeteilt. Diese Architektur machte zum ersten Mal die Verarbeitung grosser Datenmengen zu vertretbaren Kosten möglich: anstelle mehrerer Supercomputer können handelsübliche Server eingesetzt werden.

Mit der Zeit wurde der Ruf nach einer Möglichkeit lauter, Daten direkt aus Clustern zu ziehen, ohne über MapReduce gehen zu müssen. Workarounds wie Pig, Hove, Twitters Storm oder Yahoos Spark ermöglichen dies – allerdings kommen auch sie nicht gänzlich ohne MapReduce aus. In der neuen Version von Hadoop – Hadoop 2.0 – wird genau dieses Problem gelöst: über die neue Systemkomponente YARN können Entwickler Applikationen direkt mit HDFS kommunizieren lassen, ohne MapReduce zu bemühen.

YARN befindet sich aktuell in der Alpha-Version und ist schon in einigen Hadoop- Auslieferungen eingebaut, wie beispielsweise in Cloudera. Eine Beta-Version ist bereits angekündigt.

Featured Image: Hortonworks

Big Data gewinnt im Handel an Fahrt

Big Data gewinnt auch im Handel immer mehr an Wichtigkeit. So gibt die Investmentbank Goldmann Sachs bekannt, dass sie sich über ihren Bereich Merchant Banking mit 100 Millionen Dollar an Applied Predictive Technologies beteiligt. APT bietet Cloud Services an, mit der seine Kunden alle Geschäftsentscheidungen auf Big Data Analyse basierend optimieren können. Neben Goldman Sachs ist Accel-KKR an dem 13 Jahre alten Unternehmen beteiligt.

Vertrauen ist die wichtigste Voraussetzung für das Teilen von Daten

Die einen würden niemals Daten mit anderen Menschen teilen, für andere ist es selbstverständlich, auch intime Momente in Sozialen Netzwerken bzw. für Marktforschungszwecke bereitwillig zu kommunizieren. Generell lässt sich sagen: je älter der Mensch ist, desto geringer ist seine Bereitschaft zum Teilen – und vice versa. Sieht man jedoch genauer hin und fragt die Menschen nach ihren Einstellungen zum Thema Sharing, zeigt sich ein differenzierteres Bild. Eine aktuelle Studie von PriceWaterhouseCoopers bietet genauere Einblicke.

Consumers' Attitudes

 

73% der Nutzer sind bereit, Ihre Daten für Marktforschungszwecke zu teilen, wenn sie etwas dafür erhalten. In den meisten Fällen sind dies Rabatte auf Produkte wie Kinofilme, Theaterkarten oder Essensgutscheine. Aber auch nützliche Informationen wie Verkehrshinweise oder ortsbezogene Tipps motivieren Nutzer zum Daten Sharing. In Frankreich ist die Bereitschaft zum Teilen etwas geringer – aber immerhin 45% der Konsumenten teilen ihre Daten im Austausch mit besserer Werbung, wie IPG Mediabrands und Microsoft herausgefunden haben.

Auch die Frage, welche Daten geteilt werden, ist durchaus differenziert zu beantworten:

Willingness to share

 

Je persönlicher die Information ist, desto weniger bereitwillig wird sie geteilt: Geschlecht und Ehestand werden sofort bekanntgegeben, bei Informationen wie dem Web Browser Verlauf oder Dinge aus dem Privatleben agieren die Menschen zurückhaltender. Für die Forschung lässt sich insgesamt festhalten: wenn der Nutzer den Sinn in der Abgabe seiner Daten erkennt und er einen Nutzen daraus zieht, ist er bereit, seine Daten zu teilen. Dies ist eine klare Ansage: Sage mir, was Du mit meinen Daten  machst und gebe mir etwas dafür – dann bekommst Du meine Daten.

Data Driven Marketing: Finde die Kunden, die Du überzeugen kannst!

Zu wissen, wie sich Kunden verhalten werden, ist das Eine. Diese Kunden ansprechen und davon überzeugen zu können, die Produkte des eigenen Unternehmens zu kaufen, ist das Andere. Nur zu wissen, wohin der Nutzer gleich klickt oder welche Richtung er in der Stadt einschlagen wird, ist für sich genommen noch keine wertvolle Information, meint Arjan Harding.

Der Marketing-Fokus sollte demnach auf diejenigen Nutzer gelegt werden, die sich überzeugen lassen, das eigene Produkt zu kaufen. Mit kombinierten Methoden aus Behavioral Science und Data Science, dem Persuasion Profiling, entstehen neue Möglichkeiten, überzeugbare Kundengruppen zu identifizieren: aus der sog. persuasion DNA des Nutzers lassen sich wertvolle Erkenntnisse wie beispielsweise das favorisierte Kommunikationsmittel herausfinden. Allein eine derartige Erkenntnis erhöht die Effektivität des Marketings signifikant.

Mobile Shopping – die unberührte Daten Goldmine

44% aller Konsumenten nutzt das Smartphone beim Einkaufen, über ein Drittel für Preisvergleiche. Der Einfluss mobiler Suche auf den Konsum ist enorm: 90% aller Konsumenten geben an, dass die Suche übers Smartphone ihr Kaufverhalten beeinflusst.

Während erste spontane Reaktionen Einzelhändler dazu verleitet haben, Smartphones aus ihren Geschäften zu verbannen, findet nun ein Umdenken statt: die App Nutzung im Laden wird nicht mehr als Bedrohung des stationären Handels begriffen, sondern als Chance, den Kunden proaktiv anzusprechen und ihm maßgeschneiderte Angebote zu unterbreiten. Dazu muss der Retailer das Kundenverhalten kennen; was macht der Konsument auf seinem Smartphone, wenn er im Laden ist?

Ein Ergebnis der bisherigen qualitativen Forschung ist, dass 36% der Käufer die App eines Unternehmens öffnend, auf dessen Website sie anschließend online einkaufen. Mit Hilfe der Sensortasten von Smartphones kann nun viel genauer erkannt werden, was der Kunden macht: So weiss beispielsweise Wal-Mart über seien App, wenn Kunden einen Store betreten: diese werden dazu aufgefordert, in den sogenannten „Store Mode“ zu wechseln, in dem sie anschliessend in der Lage sind, Angebote und weiterführende Produktinformationen über spezielle QR Codes zu erhalten. Wal-Mart wiederum kann die Wege seiner Kunden nachvollziehen und erhält so Rückschlüsse darüber, warum bestimmte Produkte weniger gut verkauft werden: weil beispielsweise Kunden ein Regal überhaupt nicht abschreiten. Der Erfolg der Wal-Mart App ist beeindruckend: App-Nutzer besuchen Stores signifikant häufiger und geben 40% mehr Geld aus als Kunden ohne App.

Auch nachdem der Kunde einen Laden verlassen hat, ist er für den Retailer über eine App erreichbar. Walgreens erinnert seine Kunden über die App daran, die gekaufte Medizin auch einzunehmen und Rezepte mit den in der App gespeicherten Geräten auszufüllen. Doch das ist erst der Anfang: Einzelhändler sollten die Chancen ergreifen und mit Ihren Kunden während ihres kompletten Lebenszyklusses über Apps zu kommunizieren. Sowohl Erkenntnisse über zukünftige Käufe, als auch der bestmögliche Einsatz der Kenntnis über den Ort des Konsumenten bieten vielfältige Gelegenheiten, die über „contextually aware apps“ gesammelten Daten sinnvoll einzusetzen.

Virtuelle Assistenten – Eine neue Generation von Apps wächst heran

Wer Siri oder Google Now kennt, weiss die Dienste der virtuellen Assistenten zu schätzen. Von einfachen Arbeiten wie der raschen ins Smartphone gesprochenen Erinnerung oder einem Kalendereintrag angefangen, über Kleidertips für den Folgetag aufgrund der integrierten Wetterdaten bis hin zur geänderten Routenplanung aufgrund neuer Stauinformationen: es ist einfach sehr praktisch, wenn jemand „mitdenkt“.

Mitdenkende Apps sind aktuell stark im Kommen: Auf dem Bloomberg Next Big Thing Summit stellten sie den Löwenanteil der Geschäftsmodelle, die man im Silicon Valley für die meistversprechenden hält. Da Apps natü+rlich nicht wirklich mitdenken, sondern relevante Daten aus dem jeweiligen Nutzer Kontext integriert, spricht man von contextually aware applications. Über Sensoren sammeln Smartphones Daten über die Bewegungen, Aufenthaltsorte, Interaktionen, Geräusch- und Lichtszenarien,  in denen sich der Nutzer bewegt.  Insbesondere die Gesundheitsbranche steht hier vor eine Revolution: Apps und tragbare medizinische Geräte können beispielsweise herzinfarktgefährdeten Menschen rechtzeitig vor dem Infarkt mitteilen, dass eine Notsituation bevorsteht. So wird aus einem Life-logging für Nerds schnell eine praktische massentaugliche Anwendung, die kein Betroffener mehr missen möchte. Oder, wie Gary Wolf auf der Quantified Self Conference 2013 treffend bemerkte:

„Quantifying yourself will be regarded as a responsibility.“

Damit den reizvollen Anwendungen auch die entsprechenden Technologien zur Verfügung stehen, kündigen derzeit Beratungsgesellschaften wie IBM aber auch der Chiphersteller Intel Produktoffensiven an, die im Falle von Intel gar einer Neudefinition des gesamten Unternehmens gleichkommen.

Human API – Quantified Self für jedermann

Self Quantifizier wissen es schon lange: nicht nur das Sammeln und Analysieren der eigenen Daten, sondern gerade das Teilen der Daten mit anderen bringt hohe Erkenntnisgewinne. Was zunächst für weniger technologisch-affine Menschen undenkbar ist – das Teilen privater Verhaltensdaten mit anderen – bringt neben dem Wissen über die eigene Person eine Einordnung in das jeweilige soziale Umfeld mit sich, die dem Nutzer wiederum extrem hilft, sich in der Gesellschaft zu verorten.

Andrei Pop geht mit seinem Startup Human API den nächsten Schritt:: er möchte dem Normalbürger, der kein ausgewiesener Quantified Self Fan ist, möglichst einfach zu den oben beschriebenen Erkenntnisgewinnen verhelfen. Human API aggregiert Schnittstellen einer Reihe von Apps und Geräten aus dem Gesundheits- und Wellnessbereich. Zusätzlich macht das Startup externen Entwicklern die Normalisierung und Standardisierung der Daten einfacher. Über inhaltlich zusammenpassende APIs  werden kategorisierte Datenströme geliefert: so ist es für Dritte wesentlich leichter, auf thematischen Datenströmen aufzusetzen.  Dass diese Daten begehrt sind, zeigt der Andrang: über 600 Entwickler meldeten sich innerhalb der ersten 48 Stunden nach Einladung.

Apples iOS 7 deutet auf Boom für tragbare Technologie hin

Wer Apples Keynote zur Entwicklerkonferenz WWDC mitverfolgt hat, der wird die vielfältigen Hinweise auf zukünftige Schnittstellen zu tragbarer Technologie im mobilen Betriebssystem iOS 7 bemerkt haben. Während bisher Gadgets wie das Nike Fuelband oder Jawbones Up eigene Apps benötigten, um die Bewegungen des Nutzers ihren Systemen hinzuzufügen, bietet Apple mit zwei elementaren Bluetooth Features ab Herbst völlig neue Möglichkeiten der Datensammlung mit tragbaren Geräten bzw. Technologie in Kleidung: den Apple Notification Center Service (ANCS) und den Preservation and Restauration Service.

Mit diesen beiden Services können zum einen Push Notifications von iOS an ein über Bluetooth verbundenes Gerät gesendet werden. Zum anderen können über Bluetooth Daten zu einer App auf dem iPhone oder iPad passiv gesammelt werden. Wir können Tom Emrich komplett folgen, wenn er hierin einen grossen Schritt in Richtung wearable tech erkennt:  Apple positioniert sich als ein Hub für smart devices – eine Offenheit, die das Unternehmen in dieser Art bisher eher selten an den Tag legte. Für alle Fans des Quantified Self und insbesondere Hersteller von wearable tech eine äusserst positive Nachricht.

Data Science – Die harte Realität

Derzeit wird viel über das interessante und spannende Leben eines Data Scientist bzw. Data Engineers geschrieben: scheinbar einer der gefragtesten Berufsbilder überhaupt: im Silicon Valley werden Traumgehälter bezahlt; alle reissen sich um die Datenwissenschaftler.

Wie aber sieht sich der Data Engineer selbst? Wie Josh Wille, Clouderas Senior Director of Data Science, im MIT Technology Review meint,  stellt sich der Job aus Sicht eines Data Scientist eher ernüchternd dar: ein Grossteil der Zeit muss damit verbracht werden, Daten aufzuräumen und zu strukturieren. Diese eher administrativ zu nennenden Tätigkeiten sind Bedingung für die Kür: den Erkenntnisgewinn.

“I’m a data janitor. That’s the sexiest job of the 21st century,” he says. “It’s very flattering, but it’s also a little baffling.”