Small Data? Alter Wein in neuen Schläuchen

In unseren Projekten, aber auch auf Konferenzen, hören wir gelegentlich den Begriff Small Data. In Abgrenzung zu Big Data soll Small Data die Aufmerksamkeit auf einzelne oder wenige Daten lenken, die Kausalzusammenhänge zwischen Variablen abbilden sollen.

Um es kurz zu sagen: das ist alter Wein in neuen Schläuchen. Small Data gab es früher, als keine oder nur wenige Prozesse digitalisiert waren und nur geringe Datenmengen zu Verfügungs standen. Um etwa Neuproduktentscheidungen auf Basis von Daten zu treffen, behalf man sich mit Marktforschungsmassnahmen, die eine ungefähre Ahnung des aktuellen und zukünftigen Kundenverhaltens vermittelten. Das ist die klassische Marktforschung, oder auch Marktforschung 1.0.

Seitdem immer mehr Prozesse digitalisiert werden, stehen Unternehmen und Individuen Daten in Hülle und Fülle zu Verfügung. Oft sind es soviele Daten, dass Unternehmen ihnen nicht mehr Herr werden, in neue Data Warehouse Infrastrukturen investieren und entsprechende neue Datenmanagemen-Prozesse neu aufsetzen müssen. Dies nicht nur, um datengetriebene Produkte zu entwickeln, sonden auch um bestehende Kundenverhältnisse zu optimieren: ein Kunde, dessen Bedürfnisse im Online-Shop, in der E-Mail- oder Call Center-Kommunikation nur unzureichend erkannt und beachtet werden, wechselt den Anbieter.
Vertreter des Small Data Gedankens werden meist von der oft als unüberschaubar wahrgenommenen Komplexität von Big Data abgeschreckt und ziehen sich deshalb auf bewährte Vorgehensweisen zurück: sie erstellen eine Hypothese – beispielsweise über das Verhalten Ihrer Zielgruppe – und suchen nach Daten, die diese Hypothese unterstützen. Sobald sie auch nur die geringsten Datenmengen gefunden haben, die ihre Hypothese unterstützt, nehmen sie dies als Beleg her und bauen darauf eine Marketingstrategie auf.

Aktuelles Beispiel für dieses archaische Vorgehen ist ein Vortrag des Marketing-Experten Martin Lindström auf dem Serviceplan Innovationstag 2016. Anhand von oben skizzierten Beispielen kommt er zu dem Schluss: „Big Data allein ist nutzlos. Im Grunde handelt es sich nur um eine Ansammlung von Daten, in denen Sie nach Korrelation suchen, aber nicht nach Kausalität – was sinnvoller wäre.“

Eine solche Aussage, getroffen von einem international anerkannten Experten, auf einer hochkarätig besetzen Konferenz, ist vermutlich im Jahr 2016 nur noch in Deutschland möglich – in einem Land, in dem das Bewahren von Bewährtem immer noch als deutlich wichtiger eingestuft wird als das Zerstören von Bekanntem, das Umwerfen und das Neu-Denken. Das Aufstellen von Hypothesen mit einer angeschlossenen auf geringen Datenmengen basierten Analyse wurde bis vor ca. 5 Jahren als Marktforschung durchgeführt. Nicht jedoch, weil man wusste, dass dies eine sinnvolle Methode beispielsweise zur Vorhersage von Kundenverhalten wäre, sondern weil auf der Basis der vorhandenen Daten dies damals das bestmögliche Vorgehen war. War.

In der Zwischenzeit hat sich die Welt jedoch geändert: wir haben jetzt die Daten, die uns ein vielfach besseres Bild der Gegenwart, wie auch der Zukunft ermitteln. Und weil wir diese Daten haben, müssen wir uns auch nicht mehr selber als Propheten betätigen und die Zukunft voraussagen, sondern wir sehen uns die Daten an, erkennen Korrelationen (nicht Kausalitäten) und entwickeln daraus Zukunftsoptionen.

Insbesondere der Unterschied zwischen Kausalität und Korrelation scheint sich in einigen Expertenkreisen noch nicht wirklich herumgesprochen zu haben. Der Grund, auf das Erkennen von Kausalitäten zugunsten von Korrelationen zu verzichten, ist einfach: Wenn Martin Lindström berichtet, dass ein Teenager seine Turnschuhe lieber abgetragen trägt, gilt das für genau diesen einen Teenager. Womöglich zeigt sich sogar, dass sich 100 Teenager so verhalten. Für ein Neuprodukt mit „pre-used“ Sohlen reicht das jedoch nicht. Diese „Kausalität“ hilft uns nicht weiter. Sie ist weder übertragbar, noch skalierbar.

Was uns weiterhelfen würde, wäre beispielsweise die Aussage, dass die Zeit, die Teenager durchschnittlich auf dem Skateboard verbringen, signifikant höher ist, wenn ihre Schuhe ein Mindestalter von > 6 Monaten haben und die Sohle um mind. 30% abgenutzt ist. Durch Sensoren im Schuh könnte eine solche Information verfügbar gemacht werden. In diesem Fall hätten wir einen tatsächlichen Beleg für das beschriebene Verhalten – im Fall der Lindströmschen Beobachtung handelt es sich lediglich um eine Anekdote.

Wir haben heutzutage die Möglichkeit, grosse Datenmengen zu erzeugen und zu analysieren. Lassen wir uns diese reichhaltigen Erkenntnis-Pool nicht entgehen! Indem wir uns selbst und unsere eigene Wahrnehmungsfähigkeit zunächst zurücknehmen und Daten sprechen lassen, werden wir unseren Blickwinkel deutlich erweitern und viele erstaunlich und bisher für undenkbar gehaltene Zusammenhãnge erkennen. Hören wir weniger auf Experten, sondern bilden wir uns unsere eigenen Meinungen basierend auf der Analyse von Big Data!