Mikrotargeting in der Politik – Wie mit Hilfe von personenbezogenen Daten auch in Deutschland Wahlkampf gemacht wird

Karl Rove, der Architekt der Wahlsiege von George W. Bush als Gouverneur von Texas in den Jahren 1994 und 1998, sowie – deutlich bekannter – der Wahlen zum US-Präsidenten 2000 und 2004, gilt als Innovator des datengetriebenen Wahlkampfs. In Vorbereitung auf die 2004 Kampagne kamen er und sein Team zu dem Schluss, dass Bush 3 Millionen mehr Wähler benötigte, als noch im Jahr 2000. Durch die landesweite Ansprache konservativer Priester, jeweils 10-20 Kirchenbesucher zur Wahl George W. Bushs zu überzeugen, gelang die Wiederholung des Wahlsiegs von 2000 im Jahr 2004 mit ziemlich genau 3 Millionen Stimmen Unterschied.

Karl Rove arbeitete hauptsächlich mit Direktmarketing-Methoden, sein Unternehmen hatte zum damaligen Zeitpunkt die größte entsprechende Datenbank mit demographischen Informationen über nordamerikanische Wähler aufgebaut. Wenngleich im Unterschied zu breit gestreuten Marketingmassnahmen im Direkt-Mailing einzelne Personen angesprochen werden, erhalten alle Personen immer noch dieselbe Kommunikationsbotschafft – unabhängig von ihren individuellen Präferenzen.

Was ist Mikrotargeting?

Hierin besteht der Unterschied zum Mikrotargeting, mit dem sich eine politische Partei zwar ebenfalls an Individuen richtet, ihre Botschaft jedoch an den spezifischen Rahmenbedingungen und Präferenzen des Empfängers ausrichtet. Möglich wird Mikrotargeting durch den Zugriff auf erheblich mehr Daten über jeden eizelnen Wähler, als dies noch zu Karl Roves Zeiten der Fall war. In seinen Wahlkämpfen 2008 und 2012 wurde Barack Obama vom Washingtoner Beratungsunternehmen Strategic Telemetry unterstützt. Hillary Clinton setzte 2016 auf die Dienste von Penn, Schoen, Berland (PSB), die neben Büros an Ost- und Westküste der USA auch an drei Europäischen Standorten sowie in Dubai Dependancen unterhalten. Letztgenannte PBS sind allerdings durch den Wahlsieg Donald Trumps medial ins Hintertreffen geraten: die Lorbeeren für die datengetriebenen Wahlkampfstrategie fuhr das bis dato unbekannte Unternehmen Cambridge Analytica ein, das erst im Sommer vom Wahkampfteam Trump beauftragt worden war, nachdem der erste bekannte Kunde, Ted Cruz, das Rennen um den republikanischen Kandidaten verloren hatte.

Die gemischten Resultate der drei genannten Unternehmen lassen bereits erkennen, dass – ganz ohne weitere Sachkenntnis – Mikrotargeting definitiv einen Anteil am Erfolg eines um Wählerstimmen kämpfenden Kandidaten haben kann. Offensichtlich jedoch ist es kein Selbstläufer, sonst hätte sich eine etablierte Firma wie PSB nicht von einem Newcomer wie Cambridge Analytica die Butter vom Brot nehmen lassen. Die Frage lautet also: Welchen Anteil hat Mikrotargeting am Erfolg eines Kandidaten?

Wie funktioniert Mikrotargeting?

(Daten-)Technische Grundlage des Mikrotargeting ist die Vorhersageanalyse aka Predictive Analytics. Die im Vergleich mit Deutschland signifikant andersartigen Datenschutzregeln und das Wahlverfahren erlauben es den Parteien in den USA, Informationen über Einkommen, Konsumgewohnheiten, etc. der Wähler im Wahlkampf zu nutzen. Der republikanische Anwärter auf die Präsidentschaftskandidatur, Ted Cruz, sorgte selbst in dieser aus deutscher Sicht eher freizügigen Umgebung für negative Schlagzeilen, als in seinem Auftrag die oben genannte Cambridge Analytica mit Hilfe spezifischer Persönlichkeitsfragebögen, für deren Ausfüllen auf Facebook jeder Nutzer 1 US-Dollar bekam, detaillierte Persönlichkeitsprofile erstellte. Da dies den Facebook Nutzungsbedingungen zuwider lief, wurde das Verfahren eingestellt. Die erhobenen Daten liegen Cambridge Analytica jedoch weiter vor und wurden im Anschluss im Wahlkamof für Donld Trump eingesetzt. In Deutschland ist es dagegen nicht zulässig, Daten dieser Art zu erheben und im Wahlkampf zu verwenden.

Dies erschwert die Arbeit des Datenanalysten, macht sie jedoch mitnichten unmöglich. Wenn keine entsprechenden Informationen über demographische Daten, Verhalten und Gewohnheiten der Wähler vorliegen, werden entsprechende Annahmen getroffen und mit politischen Empfänglichkeiten korreliert. Für eine erste grobe Einstufung reichen Postleitzahlen – genauere Angaben ergeben sich dann durch zugekaufte Daten, die beispielsweise Verträge, Rabattkarten oder online gestellte Informationen wie oben genannte Quizzes. Da viele Social Media Nutzer regelmässig an derlei Quizzes und Umfragen teilnehmen, reichen diese Angaben aus, um Aussagen über wahrscheinliche Präferenzen von Menschen treffen zu können.

Dazu zählen insbesondere Antworten auf die folgenden Fragen:
– Wie wahrscheinlich ist es, dass ein Mensch Wechselwähler bzw. noch unentschieden hinsichtlich seiner Stimmabgabe ist?
– Für welche Themen interessiert sich die Wählerin besonders stark?
– Wie wahrscheinlich ist es, dass eine Wählerin für den eigenen Kandidaten stimmt?

Auf den über die Wähler bekannten Informationen werden nun statistische Modelle gebaut, die entsprechende Antworten auf die o.g. Fragen vorhersagen – das sogenannte Predictive Modeling. Ausgestattet mit diesen Antworten werden wählerspezifische Wahlbotschaften in Text und Bild entwickelt und den Wählern entsprechend ihrer jeweiligen Präferenzen zugeschickt – per Direktmarketing oder über Social Media Kanäle – in Deutschland hauptsächlich auf Facebook. Auf diese Weise bekommt eine nicht entschlossene 34-jährige Russlanddeutsche Wählerin mit Wohnsitz Berlin-Kreuzberg eine politische Facebook-Anzeige in ihren Stream eingespielt, die ihren Grundbedürfnissen entspricht und für sie die gesuchte Entscheidungshilfe für ihre Stimmabgabe in der Bundestagswahl 2017 ist.
Grundlage für diese letzte entscheidende Kommunikationsbotschaft ist die Fähigkeit, ein Persönlichkeitsprofil des einzelnen Menschen auf Basis der von ihm selbst hinterlassenen Daten zu erstellen, dies mit entsprechender passender Kommunikation zu verknüpfen und ihm die Botschaft in demjenigen Kanal auszuspielen, dem er vertraut und aus dem er News und Infos bezieht – kurz: Mikrotargeting.

Datenschutz und Fake News

Was für viele Menschen insbesondere vor dem Hintergrund der Wahl Donald Trumps und der eher nebulösen Berichterstattung über das Thema in etablierten Medien wie eine bedrohliche Kulisse wirkt, vor der zukünftig politische Akteure handeln, ist Tagesgeschäft von auf Datenanalyse fokussierter Unternehmen. Solange sich die Akteure innerhalb der rechtlichen Rahmenbedingungen aufhalten, ist zumindest juristisch nichts gegen dieses Vorgehen einzuwenden. Wie oben schon angedeutet, ist der aus deutscher Sicht eher laxe Umgang mit Datenschutz in den USA die Basis für einen auch am Rande der Legalität datengetriebenen Wahlkampf.

Aber nicht nur der Datenschutz spielt eine Hauptrolle: auch diejenigen Mittelsmänner in einem Wahlkampf, die zwischen Parteien und Wähler stehen: klassische Medien sowie zahllose Akteure, die via Facebook auf ihre Art Wahlkampf betreiben, indem sie neben faktischen Informationen auch Falschinformationen – Fake News – publizieren und verbreiten. Für den Social Media Nutzer wird es zunehmend schwerer, richtige von falschen bzw. gefälschten Nachrichten zu unterscheiden. Und die immanente Eigenschaft Sozialer Medien, durch stetes millionenfaches Teilen alle möglichen Inhalte in kürzester Zeit unabhängig vom Wahrheitsgehalt zu einer faktischen News zu machen, verstärkt dieses Problem.

Wahlgewinner setzen Mikrotargeting ein

Alle demokratischen politischen Parteien müssen daher einen Weg finden, durch das Dickicht der Mittelsmänner und Falschmelder einen direkten, unmittelbaren Weg zu ihren (potenziellen) Wählern zu finden, um ihre Wahlbotschaft unverfälscht an die Frau zu bringen. Insofern stellt Mikrotargeting keine Bedrohung, sondern letztlich ein unverzichtbares strategisches Instrument für politische Parteien dar. Wer zukünftig Mikrotargeting nicht nutzt, wird zum Kreise der Wahlverlierer gehören.

Kooperation der Beratungsunternehmen mm1 und Datarella zur Erschließung von datenbasierten Geschäftspotenzialen im Internet der Dinge

Stuttgart/München, 11. November 2016- Datarella, das Beratungsunternehmen für Datenbasierte Digitale Transformation und mm1, die Beratung für Connected Business, haben eine Kooperation geschlossen und bieten damit ein komplementäres Leistungsangebot in den Themenfeldern Data Thinking/Big Data und Connected Business/IoT an.

Datarella und mm1 besitzen Expertenwissen und unterstützen bei der systematischen IoT-Technologie- und Plattformauswahl, bieten Prototypisierung von IoT-Cloud-Anbindungen an oder ermitteln Big Data Hero Use Cases.

„Daten sind das ‚Rohöl des 21. Jahrhunderts‘ – zusammen haben mm1 und Datarella die erforderliche Expertise, die es unseren Klienten ermöglicht, Daten als Rohstoffquelle zu erschließen und damit neue Wertschöpfung zu ermöglichen“,

erklärt Laurenz Kirchner, Partner bei mm1.

„Wir haben den Anspruch, unsere Klienten zu Connected Business Champions und damit dauerhaft wettbewerbsfähig zu machen. Diesen Anspruch können wir durch die Kooperation mit Datarella noch besser erfüllen.“

Das Beratungsangebot von mm1 wird durch die Fähigkeit von Datarella ergänzt, IoT-Plattformdienste und IT-Architekturen für die Erschließung von datenbasierten Geschäftspotenzialen umzusetzen.

„Digitale Transformation bedeutet in erster Linie eine Menge Daten. Die Herausforderung für Unternehmen besteht im Aufbau einer leistungsfähigen und skalierbaren Dateninfrastruktur und der anschließenden Entwicklung skalierbarer Anwendungen. mm1, eine führende Beratung für Connected Business, ist für Datarella der ideale Partner, um unsere Kompetenz in der Entwicklung datenbasierter Produkte ausspielen zu können, Big Data Systeme zu konzipieren, zu entwickeln und aufzubauen“,

so Joerg Blumtritt, Datarella Geschäftsführer.

Über Datarella GmbH
Die Datarella GmbH wurde im August 2013 von ihrem Geschäftsführer Joerg Blumtritt sowie Kira Nezu, Yukitaka Nezu und Michael Reuter gegründet. Datarella ist das Beratungsunternehmen für Datenbasierte Digitale Transformation. Aufbauend auf den Unternehmensbereichen Big Data Solutions, Blockchain Solutions und IoT Solutions bietet Datarella eine Full Service Beratung inklusive Entwicklung, Umsetzung und Vermarktung datenbasierter Produkte und Services. Kooperationspartner von Datarella sind u.a. die Unternehmensberatung mm1, die European Space Agency, die BayBG, Ethereum und die Serviceplan Gruppe. www.datarella.de

Über mm1
mm1 ist die Unternehmensberatung für Connected Business. Mit rund sechzig Beratern unterstützt mm1 große Unternehmen bei der digitalen Transformation und gestaltet Produkte und Prozesse für eine zunehmend vernetzte Welt. Das Beratungsangebot reicht von der Entwicklung von Connected Business Strategien und Geschäftsmodellen bis zur Sicherstellung der effizienten operativen Umsetzung. Renommierte Unternehmen aus den Branchen Telekommunikation, Medien, Unterhaltungselektronik, Finanzdienstleistung und Automobilbau zählen zum Kundenkreis von mm1.Das Unternehmen wurde 1997 gegründet und hat seinen Firmensitz in Stuttgart.
www.mm1.de

DNA und Big Data – Die Ära der Biopunks – SXSW 2017

Was verbindet die menschliche DNA mit Big Data? Warum ist es wichtig, sich bereits heute Gedanken darüber zu machen, vor welche Herausforderungen uns Daten über den menschlichen Körper stellen? Wie kann das Individuum wissen, welche Daten über seinen Körper existieren, diese erzeugen, verarbeiten und zu seinem Vorteil nutzen? 

Und wie ist es um das Thema Sicherheit und Privatsphäre bestellt? Wer kann an Daten über mich herankommen, diese nutzen und zu welchen Konsequenzen führt das für mich? Welche Gesetze und Rahmenbedingungen sind bereits geschaffen worden oder müssen installiert werden, damit die Konsequenzen der Verfügbarkeit der Biodaten für den Einzelnen und Gesellschaften beherrschbar bleiben?

Wer Antworten zu diesen Fragen sucht oder vielleicht schon hat, dem ist der Besuch des Talks Biopunk: Subverting Biopolitics auf der Konferenz SXSW im texanischen Austin zu empfehlen: Heather Dewey-Hagborg (School of the Art Institute of Chicago), Simone Browne (The University of Texas, Austin) und Joerg Blumtritt (CEO Datarella) präsentieren und diskutieren den aktuellen Wissenstand zum Thema.

Big Data, Blockchain, IoT: Das Ende asymmetrischer Information

Principal-Agent-Probleme, Moral Hazard, Public Choice Probleme und einige andere bekannte große betriebs- und volkswirtschaftliche Herausforderungen stellen seit den 50er Jahren des 20. Jahrhunderts einen relevanten Teil der jeweiligen Fachgebiete dar. James McGill Buchanan erhielt für seine ökonomische Theorie des Staates 1986 den Nobelpreis für Wirtschaftswissenschaften. Anlässlich derselben Preisverleihung im Jahr 2016 an Oliver Hart und Bengt Holmström, die für ihre Arbeiten auf dem Feld der Vertragstheorie ausgezeichnet wurden, werfen wir einen Blick auf die aktuelle technologische Realität, in der IoT, Blockchain und Big Data die oben genannten Herausforderungen lösen und das Forschungsfeld obsolet machen.

Der Begriff Big Data steht nicht nur für eine unüberbrückbare Datenflut, die schneller auf uns zuströmt, als dass wir sie schrittweise abarbeiten können, sondern auch für Ubiquitär vorhandene Daten bei jedweden Fragestellungen. Im Zusammenhang mit dem Internet of Things stehen über kurz oder lang in jeglicher Hardware alle Daten über Nutzung des „Things“ sowie über Kontext und Umwelt der Nutzung zu Verfügung. Maschinen werden gewartet, bevor sie kaputtgehen, Menschen werden rechtzeitig vor drohenden Unfällen gewarnt, und passende Empfehlungen werden auf Basis des erwarteten Nutzerverhaltens für zukünftige Produkte und Services ausgesprochen.

Mit anderen Worten: asymmetrische Informationszustände, die die Grundlage für Theorien wie Moral Hazard oder Principal-Agent-Probleme darstellen, wird es zukünftig nicht oder kaum noch geben. Während ohne die genannten Technologien Informationen ungleich verteilt waren, ermöglichen Big Data und IoT gemeinsam mit bestehenden Infrastrukturen wie dem Internet und der praktisch grenzenlosen Verfügbarkeit von Speicherkapazität und Bandbreite auch für das Individuum eine symmetrische Verteilung der Information.

Moral Hazard
Ein wichtiger Aspekt der Informationsasymmetrie besteht im (fehlenden) Vertrauen der Vertragspartner: wenn beispielsweise ein Versicherungsunternehmen ein Auto versichert, muss es davon ausgehen, dass der Versicherungsnehmer weniger sorgfältig mit dem Auto umgeht, als wenn er keine Versicherung abgeschlossen hätte. Dieser Moral Hazard ist der Grund für die Einführung des Selbstbehalts, der zumindest allzu große Nachlässigkeit vermeiden soll.

Jeder ab 1996 gebaute PKW bietet die Möglichkeit, über einen sogenannten OBD (On Board Diagnostic) Adapter, zumindest elementare Daten über die Fahrhistorie zu liefern. Für die Wartung des Fahrzeugs oder auch für die Beweisaufnahme bei Unfällen bieten diese Daten entscheidende Vorteile. Der berühmt gewordener Fall eines Journalisten, der angab, trotz korrekten Fahrverhaltens mit einem Tesla auf freie Strasse stehengeblieben zu sein, konnte durch die Analyse der Fahrdaten widerlegt werden.
Wenn nun diese Fahrdiagnosedaten auch dem Fahrer zu Verfügung gestellt werden, beispielsweise in Form von Apps, die ihn nicht nur auf fallenden Reifendruck aufmerksam machen, sondern ihm auch zeigen, wie er besonders sparsam und umweltverträglich fahren kann, ist die ursprüngliche Informationsasymmetrie aufgehoben. Wenn dann auch noch Werkstattbesuche automatisch geplant und vereinbart werden, weil über die Fahrdiagnose und den Kalender des Fahrers entsprechende Optionen geprüft werden können, erweiterte sich der Kreis der Informationstransparenz um eine weitere Ebene.

Principal-Agent-Probleme
Immer, wenn ein Principal einen Agent anheuert, um eine Leistung zu erbringen, besteht die Herausforderung darin, den richtigen Preis für diese Leistung zu bestimmen. Wird ein aus Sicht des Agents zu niedriger Preis vereinbart, wird er nur das Allernötigste beisteuern und die Gesamtleistung vermutlich darunter leiden. Ist der Preis aus Sicht des Principals zu hoch, wird er den Auftrag nicht erteilen. Der richtige bzw. optimale Preis ist demnach dann zu erzielen, wenn hohe Informationstransparenz bzw. Informationssymmetrie herrscht.

Ein nettes Beispiel zur Verdeutlichung des positiven Effekts von Informationssymmetrie ist die 2014 vom indischen Staat eingerichtete Website, auf der öffentlich und in real time die Büroarbeitszeiten von über 80.000 Verwaltungsangestellten in Neu-Delhi dargestellt werden. Im System werden lediglich Anfangs- und Endzeiten der Büropräsenz ermittelt, aber allein diese Informationen haben die Abwesenheitsrate der Verwaltungsangestellten dramatisch gesenkt.

Blockchain
Informationsasymmetrie führt oft zu mangelndem Vertrauen der Vertragspartner. In der Vergangenheit wurden Verrauensdefizite durch den Einsatz von Treuhand-Institutionen wie Notaren, Treuhandkonten, etc. ausgeglichen. Diese zusätzliche Einrichtung zwingend notwendiger neutraler Dritter ist ein kostspieliges Element in Verträgen: kein Beteiligter will es, alle brauchen es.

Durch den Einsatz der Blockchain – insbesondere durch die systemimmanente Unveränderbarkeit (Immutability) der in der Blockchain enthaltenen Daten, sowie durch den Einsatz von Smart Contracts und korrespondierender Krypto-Währungen wie Bitcoin oder Ether – wird die Funktion des Treuhänders von einer automatisch und autonom handelnden Maschine-zu-Maschine Kommunikation ersetzt. Allein der Ersatz dieser bisher benötigter Vertrauens- und Abwicklungsinstitutionen soll der Finanzindustrie rund ein Fünftel der Kosten der Abwicklung des Geldverkehrs einsparen.

Bringen Big Data, IoT und Blockchain das Ende asymmetrischer Information?

Oliver Hart und Bengt Holmström, der in den 1970er Jahren die Principal-Agent-Theorie mitentwickelte, erhielten den Nobelpreis für ihre Arbeiten zur Optimierung von Verträgen. Dabei spielen insbesondere sog. „unvollständige Verträge“ eine große Rolle – Verträge, die nicht vollständig alle theoretisch entstehenden Vertragssituationen regeln. Diese 100%-Abdeckung wird auch auf Basis der aktuellen technologischen Entwicklung nicht garantiert – aber im Vergleich zur Zeit der Entstehung dieser Theorien bieten die heute verfügbaren Daten und Methoden gänzlich andere, bessere Möglichkeiten der Vertragsgestaltung. Das oben bemühte Beispiel eines Autounfalls stellt sich für den Fahrer, das Unfallopfer, den Versicherer und alle am Unfall Beteiligten heute komplett anders dar, als noch Ende des 20. Jahrhunderts: die heute verfügbaren Daten und Methoden der Analyse lassen nahezu keinen (subjektiven) Ermessensspielraum bei der Beurteilung der Situation mehr zu und ermöglichen so ein a priori gänzlich andersartige Vertragsgestaltung.

Das Zeitalter asymmetrischer Information neigt sich dem Ende zu.

Small Data? Alter Wein in neuen Schläuchen

In unseren Projekten, aber auch auf Konferenzen, hören wir gelegentlich den Begriff Small Data. In Abgrenzung zu Big Data soll Small Data die Aufmerksamkeit auf einzelne oder wenige Daten lenken, die Kausalzusammenhänge zwischen Variablen abbilden sollen.

Um es kurz zu sagen: das ist alter Wein in neuen Schläuchen. Small Data gab es früher, als keine oder nur wenige Prozesse digitalisiert waren und nur geringe Datenmengen zu Verfügungs standen. Um etwa Neuproduktentscheidungen auf Basis von Daten zu treffen, behalf man sich mit Marktforschungsmassnahmen, die eine ungefähre Ahnung des aktuellen und zukünftigen Kundenverhaltens vermittelten. Das ist die klassische Marktforschung, oder auch Marktforschung 1.0.

Seitdem immer mehr Prozesse digitalisiert werden, stehen Unternehmen und Individuen Daten in Hülle und Fülle zu Verfügung. Oft sind es soviele Daten, dass Unternehmen ihnen nicht mehr Herr werden, in neue Data Warehouse Infrastrukturen investieren und entsprechende neue Datenmanagemen-Prozesse neu aufsetzen müssen. Dies nicht nur, um datengetriebene Produkte zu entwickeln, sonden auch um bestehende Kundenverhältnisse zu optimieren: ein Kunde, dessen Bedürfnisse im Online-Shop, in der E-Mail- oder Call Center-Kommunikation nur unzureichend erkannt und beachtet werden, wechselt den Anbieter.
Vertreter des Small Data Gedankens werden meist von der oft als unüberschaubar wahrgenommenen Komplexität von Big Data abgeschreckt und ziehen sich deshalb auf bewährte Vorgehensweisen zurück: sie erstellen eine Hypothese – beispielsweise über das Verhalten Ihrer Zielgruppe – und suchen nach Daten, die diese Hypothese unterstützen. Sobald sie auch nur die geringsten Datenmengen gefunden haben, die ihre Hypothese unterstützt, nehmen sie dies als Beleg her und bauen darauf eine Marketingstrategie auf.

Aktuelles Beispiel für dieses archaische Vorgehen ist ein Vortrag des Marketing-Experten Martin Lindström auf dem Serviceplan Innovationstag 2016. Anhand von oben skizzierten Beispielen kommt er zu dem Schluss: „Big Data allein ist nutzlos. Im Grunde handelt es sich nur um eine Ansammlung von Daten, in denen Sie nach Korrelation suchen, aber nicht nach Kausalität – was sinnvoller wäre.“

Eine solche Aussage, getroffen von einem international anerkannten Experten, auf einer hochkarätig besetzen Konferenz, ist vermutlich im Jahr 2016 nur noch in Deutschland möglich – in einem Land, in dem das Bewahren von Bewährtem immer noch als deutlich wichtiger eingestuft wird als das Zerstören von Bekanntem, das Umwerfen und das Neu-Denken. Das Aufstellen von Hypothesen mit einer angeschlossenen auf geringen Datenmengen basierten Analyse wurde bis vor ca. 5 Jahren als Marktforschung durchgeführt. Nicht jedoch, weil man wusste, dass dies eine sinnvolle Methode beispielsweise zur Vorhersage von Kundenverhalten wäre, sondern weil auf der Basis der vorhandenen Daten dies damals das bestmögliche Vorgehen war. War.

In der Zwischenzeit hat sich die Welt jedoch geändert: wir haben jetzt die Daten, die uns ein vielfach besseres Bild der Gegenwart, wie auch der Zukunft ermitteln. Und weil wir diese Daten haben, müssen wir uns auch nicht mehr selber als Propheten betätigen und die Zukunft voraussagen, sondern wir sehen uns die Daten an, erkennen Korrelationen (nicht Kausalitäten) und entwickeln daraus Zukunftsoptionen.

Insbesondere der Unterschied zwischen Kausalität und Korrelation scheint sich in einigen Expertenkreisen noch nicht wirklich herumgesprochen zu haben. Der Grund, auf das Erkennen von Kausalitäten zugunsten von Korrelationen zu verzichten, ist einfach: Wenn Martin Lindström berichtet, dass ein Teenager seine Turnschuhe lieber abgetragen trägt, gilt das für genau diesen einen Teenager. Womöglich zeigt sich sogar, dass sich 100 Teenager so verhalten. Für ein Neuprodukt mit „pre-used“ Sohlen reicht das jedoch nicht. Diese „Kausalität“ hilft uns nicht weiter. Sie ist weder übertragbar, noch skalierbar.

Was uns weiterhelfen würde, wäre beispielsweise die Aussage, dass die Zeit, die Teenager durchschnittlich auf dem Skateboard verbringen, signifikant höher ist, wenn ihre Schuhe ein Mindestalter von > 6 Monaten haben und die Sohle um mind. 30% abgenutzt ist. Durch Sensoren im Schuh könnte eine solche Information verfügbar gemacht werden. In diesem Fall hätten wir einen tatsächlichen Beleg für das beschriebene Verhalten – im Fall der Lindströmschen Beobachtung handelt es sich lediglich um eine Anekdote.

Wir haben heutzutage die Möglichkeit, grosse Datenmengen zu erzeugen und zu analysieren. Lassen wir uns diese reichhaltigen Erkenntnis-Pool nicht entgehen! Indem wir uns selbst und unsere eigene Wahrnehmungsfähigkeit zunächst zurücknehmen und Daten sprechen lassen, werden wir unseren Blickwinkel deutlich erweitern und viele erstaunlich und bisher für undenkbar gehaltene Zusammenhãnge erkennen. Hören wir weniger auf Experten, sondern bilden wir uns unsere eigenen Meinungen basierend auf der Analyse von Big Data!

Mit Big Data von Business Intelligence zum datengetriebenen Unternehmen

„… aber unser Business Intelligence System verarbeitet schon heute ganz viele Daten.“ Mit dieser Antwort regaieren IT-Verantwortliche häufig, wenn das Management oder eine Fachabteilung nach „Big Data“ fragt.

Wenn Datarella um Unterstützung angefragt wird, liegt allerdings meistens schon ein konkretes Problem vor. An einem bestimmten Punkt ist das Unternehmen an die Grenze dessen gestoßen, was seine bestehenden Systemwelt zu leisten vermag. An diesem Punkt stellt sich eine fachliche Herausforderung an die Datenverarbeitung, die über die bestehende Business Intelligence hinausgeht.

Viele Unternehmen haben in den 80er und 90er Jahren in Business Intelligence investiert, ERP, ‚Enterprise Resource Planning‘ und Data Warehouses aufgebaut. Der initiale Aufwand und die Maintenance dieser Systeme ist beträchtlich. Die Strukturen und Prozesse der Unternehmen wurden nicht selten regelrecht um die rigide Architektur der BI heraumgebaut: „Das geht nicht, das bekommen wir nicht umgesetzt“ ist eine des öfteren zu hörende Aussage.

Mangelnde Flexibilität von BI Systemen

Ein wesentlicher Grund für die mangelnde Flexibilität und geringe Anpassungsfähigkeit der BI-Systeme liegt in ihrem Grundkonzept. ETL – ‚Extract, Transform, Load‘ ist der Grundprozess der Data Warehouses. Die Daten werden dabei aus dem Produktionssystem extrahiert, dann geeignet umgeformt und in die Tabellen relationaler Datenbanksysteme wie Oracle oder SAP gespeichert. Jede Veränderung der Datenstruktur, jedes neue Datenfeld, jede neue Datenquelle, die angebunden werden soll, zieht eine lange Kette von notwendigen Änderungen im Data Warehouse nach sich.

Der schwerwiegende Nachteil des klassischen ETL-Prozesses besteht jedoch darin, dass die Rohdaten aus den Produktionssystemen zuerst transformiert werden, in eine geeignete Form gebracht, bevor sie abgespeichert werden. Dabei gehen viele Daten endgültig verloren. Es ist nicht mehr möglich, die fehlenden Daten nachträglich wieder herzustellen.

Unnötiger Datenverlust 

Ein Beispiel sind die Logfiles von Webservers. Viele Unternehmen extrahieren daraus Clicks, die Links, durch die die Nutzer auf die Seite gekommen sind (Referrer) und weitere Daten zur Nutzung. Diese Daten werden dann in Tabellenform gebracht, eine zum Beispiel mit der Summe der Clicks pro Stunde, eine andere mit den verweisenden Links, eine dritte mit den Browser-Typen und den Endgeräten. Die Verbindung, welcher Nutzer mit was für einem Gerät wann auf welchen Link geklickt hat, geht dabei verloren. Genau diese Verbindung aber ist die Grundlage für wirkungsvolle Empfehlungssysteme, wie sie etwa in einem Webshop angeboten werden sollten. Ebenso ist fast niemals mehr nachvollziehbar, wie die Website zum Zeitpunkt des Clicks ausgesehen hatte, welcher Content genau auf der Seite zu finden war.

Data Intelligence 2.0

An diesem Punkt spätestens kommt Datarella ins Spiel: Eine neue Data Intelligence wird entwickelt. Wir bauen für unsere Kunden einen Datenprozess, der so weit wie möglich die Rohdaten der Produktivsysteme beibehãlt. Aus den Live-Systemen fließen die Daten in ein Auffangbecken – ein ‚Bucket‘ – und werden als mehr oder weniger unstrukturierter ‚Datensee‘ – Data Lake – gesichert. Für die unterschiedlichen Anwendungen werden daraus im zweiten Schritt Reportingsysteme wie ERP bzw. das Data Warehouse befüllt, oder auch Echtzeit-Anwendungen wie Targeting, Empfehlungsmarketing oder Systeme zum Schutz vor Betrug betrieben. Anforderungen und Datenstruktur können dabei auch nach Fertigstellung agil angepasst werden.

Unsere Erfahrung aus zahlreichen Projekten der letzten Jahre zeigt: Der Big-Data-Weg zu Business Intelligence ist nicht nur das passende Werkzeug auf die Anforderung nach Flexibilität und Echtzeitfähigkeit, sondern auch wesentlich günstiger und schneller zu realisieren, als die klassische BI. Mit Big Data wird aus Business Intelligence das datengetriebene Unternehmen.

Datarella baut Ressourcen auf und gründet Baltic Data Science in Gdansk, Polen

München/Gdansk, 16. September 2016 – Während wir in der Anfangszeit von Datarella nahezu evangelisierend unterwegs waren und das neue Big Data Paradigma die erste stelle in Workshops einnahm, scheint sich die Notwendigkeit und Fähigkeit zum Management großer Datenmengen auf breiter Front in Unternehmen durchzusetzen.

Analog dazu hat sich unsere Arbeit im Projekt verändert: zwar entwickeln wir heute und auch zukünftig initiale Projektideen und Use Cases gemeinsam mit unseren Kunden, aber die später im Prozess dazukommenden Arbeiten werden häufiger. Zusätzlich steigen die Erwartungen unserer Kunden an die Umsetzungsgeschwindigkeit.

Um diesen Anforderungen gerecht zu werden, haben wir vor geraumer Zeit beschlossen, unsere Data Science Ressourcen signifikant aufzustocken Dieser Entschluss resultierte in der Gründung von Baltic Data Science BDS mit Sitz in Gdansk, Polen. Mit BDS ist Datarella in der Lage, kurzfristig hochqualitative Ressourcen anzubieten, kurz: Data Science As A Service.

Der Grund für uns, BDS in Form eines Joint Ventures mit unseren langjährigen polnischen Geschäftspartnern ins Leben zu rufen, liegt in der erstklassigen Qualität der Arbeit der Gdaansker Entwickler, der Vertrauensbasis, die sich über die Jahre gebildet hat und dem modernen gegenüber Technologie aufgeschlossenen Klima mit leistungswilligen und engagierten Mitarbeitern.

Als unsere erste Auslandsgründung bot der Prozess bis zur Anmeldung der Baltic Data Science eine steile Lernkurve. Wir sind überzeugt, mit BDS den richtigen und zukunftsweisenden Weg zu gehen und freuen uns darauf, genau das unter Beweis zu stellen.

Job Angebote bei Baltic Data Science, Standort: Gdansk

Was ist Big Data?

Big Data, „große Daten“, ist ein seltsamer Begriff – ein Marketing-Buzzword. Dabei fasst Big Data eine ganze Reihe von Entwicklungen zusammen, die in ihrer Bedeutung für fast jeden Bereich unseres Lebens gar nicht überschätzt werden können: es handelt sich um nicht weniger, als einen vollständigen Paradigmenwechsel, technologisch getrieben, aber schon längst weit jenseits der Technologie wirksam. Nach dem World Wide Web vor 20 Jahren, Social Media (aka Web 2.0) vor 10 Jahren, ist es die dritte Welle von Technologie, die aus dem Internet entstanden ist und sich weltweit ausgebreitet hat.

Aber was ist dieses „Big Data“? Oft ist von den „Drei Vs“ die Rede – Volume, Velocity, Variety. Große Datenmengen, die in schneller Folge gemessen werden sind aber für sich genommen noch nichts Neues. Datenbanken, die auf gewaltigen Servern in Rechenzentren hochperformant „EDV“ machen, gibt es schon lange. Völlig neu aber ist, dass es seit wenigen Jahren Betriebssysteme und Datenbanken gibt, die auf billiger Standard-Hardware laufen; viel leistungsfähiger und nahezu beliebig skalierbar; und das meiste davon ist Open Source.

Hadoop kann man als das „Betriebssystem“ von Big Data bezeichnen. Hadoop, ein Open Source Projekt der Apache-Foundation ist gerade zehn Jahre alt geworden. Es liefert vor allem ein Filesystem, mit dem sich beliebig viele Rechner zu einer einzigen großen Festplatte zusammenschalten lassen. Um Hadoop hat sich schnell ein „Ökosystem“ aus frei verfügbaren sowie kommerziellen Anwendungen entwickelt – ganz wie wir es „damals“ mit Microsoft Windows und dem PC erlebt haben.

Für viele Anwendungen ist es aber nicht einmal nötig, selbst die Infrastruktur aufzubauen. Cloud-Computing wie Amazon Webservices ermöglichen ohne großen Aufwand oder tiefe Fachkenntnisse, größte Datenmengen zu verarbeiten. Da das Pricing nach Rechenzeit geht, kann man mit Test-Daten beginnen und nach erfolgreichem Test skalieren. Dadurch ist es selbst kleinen Teams oder sogar Einzelpersonen möglich, Datenanalyse zu liefern, die vor kurzem ausschließlich größten Rechenzentren vorbehalten war.

Die Daten werden auf den Cloud Systemen a la Hadoop zunächst unstrukturiert abgespeichert. Über Konsistenz, fehlende Werte oder falsche Formatierung macht man sich erst danach Gedanken. Statt wie beim klassischen Data Warehouse die Daten erst in die passende Tabellenform zu transformieren und dann in die Datenbank hochzuladen, bleiben die Daten am besten als Rohdaten auf dem Laufwerk liegen, genau wie sie angekommen sind.

Das Dateiformat, dass sich in der Big-Data-Kultur für alle Metadaten (also Daten, die die eigentlichen Daten – wie Bilder oder Videos – beschreiben) durchgesetzt hat, ist die „Java Script Object Notation“ JSON, in der Informationen als Paare von Schlüsseln und Werten dokumentiert werden, „Key-Value-Pairs“.

Die unstrukturiert auf dem Cloud-System abgelegten Daten können in Datenbanken hochgeladen werden – je nach Bedarf. Dabei kommen neue Datenbank-Konzepte zum Einsatz, die speziell auf unstrukturierte oder halbstrukturierte Daten ausgelegt sind. Diese Datenbanken werden oft als NoSQL bezeichnet. Der Begriff „NoSQL“ leitet dabei in die Irre: auch wenn viele der Big-Data-Datenbanken keine relationalen Systeme mit Tabellen-Logik sind, haben die meisten eine Abfragesprache, die sich stark an SQL orientiert.

Für Datananalyse wird die Programmiersprache Python mehr und mehr zum Standard. Python ist schnell zu lernen – viel intuitiver als die meisten anderen Programmiersprachen in der Anwendung. Für Python gibt es eine gewaltige Menge an Code-Bibliotheken, die praktisch jeden Bereich von Datananalyse abdecken.

Das Programmier-Framework Spark bietet schließlich alle Funktionen, um datengetriebene Anwendungen auf verteilten Rechenanalgen industriell zu skalieren.

Hadoop und Cloud-Computing, Datenbanken für unstrukturierte Daten, Metadaten in JSON, Datenanalyse (z.B. in Python und Spark) – ergeben zusammen Big Data. Und das Beste: für alle Fragen gibt es im Netz jede Menge Unterstützung. Also: keine Angst vor Big Data – einfach ausprobieren!

Blockchain, Smart Contracts & DAO – das Ethereum Munich Meetup ist gestartet

Immer mehr unserer Big Data Projekte bei Datarella verlangen nicht nur nach administrativen bzw. rechtlichen Sicherheitskonzepten, sondern auch nach state-of-the-art technischen Sicherheits-Konzepten, die das Management von Geschäfts-, Unternehmnens- und persönlichen Daten bestmöglich erlauben.

Um unseren Kunden nachhaltige Lösungen anbieten zu können, sind wir Ende 2015 eine Partnerschaft mit Ethereum und dem Schwesterunternehmen Ethcore eingegangen. Das Ethereum Framework bietet uns die Möglichkeit, auf der Blockchain basierende Geschäftsmodelle mit integrierten Smart Contracts umd DAO-Elementen aufzusetzen.

Da Blockchain, Smart Contracts, DAO und auch Ethereum selbst hierzulande noch relativ unbekannt sind, haben wir das Ethereum Munich Meetup ins Leben gerufen: hier präsentieren, diskutieren und entwickeln wir Ideen, Use Cases und Projekte im Ethereum Ecosystem.

Wenn Sie selbst am Thema interessiert sind, sind Sie herzlich eingeladen, an einem unserer reglmäßigen Meetups teilzunehmen!

Der BAYDUINO, das Internet of Things und die Blockchain

Als wir im Sommer 2015 die Idee hatten, einen eigenen Microboard-Controller für das Internet of Things zu bauen, war das zunächst nicht viel mehr als die gestaltgewordene Kreativität vieler Gespräche – mit anderen Worten: wir wollten eine der hunderte unserer Ideen in die Tat umsetzen – mit durchaus offenem Ausgang.

Aus unserer täglichen Arbeit mit Big Data Projekten ergaben und ergeben sich zahlreiche neue Geschäftsideen. Die meisten davon werden nach dem üblichen „einmal-darüber-schlafen“ wieder verworfen, andere geistern noch eine Zeit in unseren Köpfen herum und schlafen irgendwann von selbst ein. Nur ganz wenige Ideen bleiben und wollen umgesetzt werden. Der BAYDUINO hat uns alle von Tag 1 angefixt: ein kleiner, einfach aufgebauter Rechner, mit dem man alles Mögliche steuern kann. Dabei so simpel und preiswert, dass schon Schüler mit dem Rechnerlein umgehen und sich selbstãndig Experimente dafür ausdenken können. So können wir viele unserer persönlichen Interessen und beruflichen Spezialgebiete miteinander vereinen: unsere hohe Wertschätzung von „Umsetzung“ im Vergleich zu „Ideen“, indem man praktisches Umsetzen von theoretisch erworbenem Wissen mit dem BAYDUINO übt, indem wir nicht nur in andere Länder blicken und über das staunen, was dort erdacht und entwickelt wird, sondern selbst in die Hände spucken und hier vor Ort ein Stück interessanter neuer Technologie erfinden und bauen, und indem wir das Bedürfnis und die Entwicklung des Marktes mitberücksichtigen, der mit dem Internet of Things eine ganz neue Herausforderung an Hard- und Software sowie das Datenmanagement stellt.

Glücklicherweise kennen wir Hardware-Urgestein Hans Franke  aka „der Große mit dem blauen Hemd“, der die BAYDUINO Idee in eine wunderschöne Hardware umgesetzt hat  – allein wären wir dazu nicht in der Lage gewesen.

Wir können den BAYDUINO also zum einen als eine einfache Hardware zum Lernen begreifen, aber auch als Steuerungsinstrument für das IoT, als eine Art Standard-Werkzeug, das man – vergleichbar mit einem Schraubenzieher – immer gut gebrauchen kann. 

Im Internet of Things kommunizieren Maschinen miteinander. Und damit wir Menschen diese Maschinen verstehen und steuern können, und zum anderen sich keine Unbefugten in nicht für sie bestimmte Kommunikation einmischen und diese manipulieren können, sind diverse Sicherheitsmassnahmen vonnöten.

Ein wichtiger Bestandteil dieser Sicherheitsmassnahmen bildet die Blockchain, die eine für befugte Teilnehmer transparente, unverãnderbare und damit vertrauenvolle Kommunikation ermöglicht. Da wir uns im Rahmen unseres Produkts Data Trust seit geraumer Zeit mit der Blockchain beschäftigen und mit unserem Partner Ethereum an maßgeschneiderten Marktlösumgen arbeiten, können wir das hier erworbene Wissen auch für den Einsatz des BAYDUINO im Internet of Things einsetzen. So schliesst sich der Kreis und die ursprünglich „verrückte“ Idee eine Hardware herzustellen, füllt eine Lücke im Gesamtkontext.

Jetzt heisst es für uns, an den oben beschriebenen  Teilbereichen sauber und konsequent weiterzuarbeiten und im Idealfall wird der BAYDUINO bald ein auf der Blockchain arbeitendes Standardwerkzeug für das IoT sein.