DNA und Big Data – Die Ära der Biopunks – SXSW 2017

Was verbindet die menschliche DNA mit Big Data? Warum ist es wichtig, sich bereits heute Gedanken darüber zu machen, vor welche Herausforderungen uns Daten über den menschlichen Körper stellen? Wie kann das Individuum wissen, welche Daten über seinen Körper existieren, diese erzeugen, verarbeiten und zu seinem Vorteil nutzen? 

Und wie ist es um das Thema Sicherheit und Privatsphäre bestellt? Wer kann an Daten über mich herankommen, diese nutzen und zu welchen Konsequenzen führt das für mich? Welche Gesetze und Rahmenbedingungen sind bereits geschaffen worden oder müssen installiert werden, damit die Konsequenzen der Verfügbarkeit der Biodaten für den Einzelnen und Gesellschaften beherrschbar bleiben?

Wer Antworten zu diesen Fragen sucht oder vielleicht schon hat, dem ist der Besuch des Talks Biopunk: Subverting Biopolitics auf der Konferenz SXSW im texanischen Austin zu empfehlen: Heather Dewey-Hagborg (School of the Art Institute of Chicago), Simone Browne (The University of Texas, Austin) und Joerg Blumtritt (CEO Datarella) präsentieren und diskutieren den aktuellen Wissenstand zum Thema.

Big Data, Blockchain, IoT: Das Ende asymmetrischer Information

Principal-Agent-Probleme, Moral Hazard, Public Choice Probleme und einige andere bekannte große betriebs- und volkswirtschaftliche Herausforderungen stellen seit den 50er Jahren des 20. Jahrhunderts einen relevanten Teil der jeweiligen Fachgebiete dar. James McGill Buchanan erhielt für seine ökonomische Theorie des Staates 1986 den Nobelpreis für Wirtschaftswissenschaften. Anlässlich derselben Preisverleihung im Jahr 2016 an Oliver Hart und Bengt Holmström, die für ihre Arbeiten auf dem Feld der Vertragstheorie ausgezeichnet wurden, werfen wir einen Blick auf die aktuelle technologische Realität, in der IoT, Blockchain und Big Data die oben genannten Herausforderungen lösen und das Forschungsfeld obsolet machen.

Der Begriff Big Data steht nicht nur für eine unüberbrückbare Datenflut, die schneller auf uns zuströmt, als dass wir sie schrittweise abarbeiten können, sondern auch für Ubiquitär vorhandene Daten bei jedweden Fragestellungen. Im Zusammenhang mit dem Internet of Things stehen über kurz oder lang in jeglicher Hardware alle Daten über Nutzung des „Things“ sowie über Kontext und Umwelt der Nutzung zu Verfügung. Maschinen werden gewartet, bevor sie kaputtgehen, Menschen werden rechtzeitig vor drohenden Unfällen gewarnt, und passende Empfehlungen werden auf Basis des erwarteten Nutzerverhaltens für zukünftige Produkte und Services ausgesprochen.

Mit anderen Worten: asymmetrische Informationszustände, die die Grundlage für Theorien wie Moral Hazard oder Principal-Agent-Probleme darstellen, wird es zukünftig nicht oder kaum noch geben. Während ohne die genannten Technologien Informationen ungleich verteilt waren, ermöglichen Big Data und IoT gemeinsam mit bestehenden Infrastrukturen wie dem Internet und der praktisch grenzenlosen Verfügbarkeit von Speicherkapazität und Bandbreite auch für das Individuum eine symmetrische Verteilung der Information.

Moral Hazard
Ein wichtiger Aspekt der Informationsasymmetrie besteht im (fehlenden) Vertrauen der Vertragspartner: wenn beispielsweise ein Versicherungsunternehmen ein Auto versichert, muss es davon ausgehen, dass der Versicherungsnehmer weniger sorgfältig mit dem Auto umgeht, als wenn er keine Versicherung abgeschlossen hätte. Dieser Moral Hazard ist der Grund für die Einführung des Selbstbehalts, der zumindest allzu große Nachlässigkeit vermeiden soll.

Jeder ab 1996 gebaute PKW bietet die Möglichkeit, über einen sogenannten OBD (On Board Diagnostic) Adapter, zumindest elementare Daten über die Fahrhistorie zu liefern. Für die Wartung des Fahrzeugs oder auch für die Beweisaufnahme bei Unfällen bieten diese Daten entscheidende Vorteile. Der berühmt gewordener Fall eines Journalisten, der angab, trotz korrekten Fahrverhaltens mit einem Tesla auf freie Strasse stehengeblieben zu sein, konnte durch die Analyse der Fahrdaten widerlegt werden.
Wenn nun diese Fahrdiagnosedaten auch dem Fahrer zu Verfügung gestellt werden, beispielsweise in Form von Apps, die ihn nicht nur auf fallenden Reifendruck aufmerksam machen, sondern ihm auch zeigen, wie er besonders sparsam und umweltverträglich fahren kann, ist die ursprüngliche Informationsasymmetrie aufgehoben. Wenn dann auch noch Werkstattbesuche automatisch geplant und vereinbart werden, weil über die Fahrdiagnose und den Kalender des Fahrers entsprechende Optionen geprüft werden können, erweiterte sich der Kreis der Informationstransparenz um eine weitere Ebene.

Principal-Agent-Probleme
Immer, wenn ein Principal einen Agent anheuert, um eine Leistung zu erbringen, besteht die Herausforderung darin, den richtigen Preis für diese Leistung zu bestimmen. Wird ein aus Sicht des Agents zu niedriger Preis vereinbart, wird er nur das Allernötigste beisteuern und die Gesamtleistung vermutlich darunter leiden. Ist der Preis aus Sicht des Principals zu hoch, wird er den Auftrag nicht erteilen. Der richtige bzw. optimale Preis ist demnach dann zu erzielen, wenn hohe Informationstransparenz bzw. Informationssymmetrie herrscht.

Ein nettes Beispiel zur Verdeutlichung des positiven Effekts von Informationssymmetrie ist die 2014 vom indischen Staat eingerichtete Website, auf der öffentlich und in real time die Büroarbeitszeiten von über 80.000 Verwaltungsangestellten in Neu-Delhi dargestellt werden. Im System werden lediglich Anfangs- und Endzeiten der Büropräsenz ermittelt, aber allein diese Informationen haben die Abwesenheitsrate der Verwaltungsangestellten dramatisch gesenkt.

Blockchain
Informationsasymmetrie führt oft zu mangelndem Vertrauen der Vertragspartner. In der Vergangenheit wurden Verrauensdefizite durch den Einsatz von Treuhand-Institutionen wie Notaren, Treuhandkonten, etc. ausgeglichen. Diese zusätzliche Einrichtung zwingend notwendiger neutraler Dritter ist ein kostspieliges Element in Verträgen: kein Beteiligter will es, alle brauchen es.

Durch den Einsatz der Blockchain – insbesondere durch die systemimmanente Unveränderbarkeit (Immutability) der in der Blockchain enthaltenen Daten, sowie durch den Einsatz von Smart Contracts und korrespondierender Krypto-Währungen wie Bitcoin oder Ether – wird die Funktion des Treuhänders von einer automatisch und autonom handelnden Maschine-zu-Maschine Kommunikation ersetzt. Allein der Ersatz dieser bisher benötigter Vertrauens- und Abwicklungsinstitutionen soll der Finanzindustrie rund ein Fünftel der Kosten der Abwicklung des Geldverkehrs einsparen.

Bringen Big Data, IoT und Blockchain das Ende asymmetrischer Information?

Oliver Hart und Bengt Holmström, der in den 1970er Jahren die Principal-Agent-Theorie mitentwickelte, erhielten den Nobelpreis für ihre Arbeiten zur Optimierung von Verträgen. Dabei spielen insbesondere sog. „unvollständige Verträge“ eine große Rolle – Verträge, die nicht vollständig alle theoretisch entstehenden Vertragssituationen regeln. Diese 100%-Abdeckung wird auch auf Basis der aktuellen technologischen Entwicklung nicht garantiert – aber im Vergleich zur Zeit der Entstehung dieser Theorien bieten die heute verfügbaren Daten und Methoden gänzlich andere, bessere Möglichkeiten der Vertragsgestaltung. Das oben bemühte Beispiel eines Autounfalls stellt sich für den Fahrer, das Unfallopfer, den Versicherer und alle am Unfall Beteiligten heute komplett anders dar, als noch Ende des 20. Jahrhunderts: die heute verfügbaren Daten und Methoden der Analyse lassen nahezu keinen (subjektiven) Ermessensspielraum bei der Beurteilung der Situation mehr zu und ermöglichen so ein a priori gänzlich andersartige Vertragsgestaltung.

Das Zeitalter asymmetrischer Information neigt sich dem Ende zu.

Small Data? Alter Wein in neuen Schläuchen

In unseren Projekten, aber auch auf Konferenzen, hören wir gelegentlich den Begriff Small Data. In Abgrenzung zu Big Data soll Small Data die Aufmerksamkeit auf einzelne oder wenige Daten lenken, die Kausalzusammenhänge zwischen Variablen abbilden sollen.

Um es kurz zu sagen: das ist alter Wein in neuen Schläuchen. Small Data gab es früher, als keine oder nur wenige Prozesse digitalisiert waren und nur geringe Datenmengen zu Verfügungs standen. Um etwa Neuproduktentscheidungen auf Basis von Daten zu treffen, behalf man sich mit Marktforschungsmassnahmen, die eine ungefähre Ahnung des aktuellen und zukünftigen Kundenverhaltens vermittelten. Das ist die klassische Marktforschung, oder auch Marktforschung 1.0.

Seitdem immer mehr Prozesse digitalisiert werden, stehen Unternehmen und Individuen Daten in Hülle und Fülle zu Verfügung. Oft sind es soviele Daten, dass Unternehmen ihnen nicht mehr Herr werden, in neue Data Warehouse Infrastrukturen investieren und entsprechende neue Datenmanagemen-Prozesse neu aufsetzen müssen. Dies nicht nur, um datengetriebene Produkte zu entwickeln, sonden auch um bestehende Kundenverhältnisse zu optimieren: ein Kunde, dessen Bedürfnisse im Online-Shop, in der E-Mail- oder Call Center-Kommunikation nur unzureichend erkannt und beachtet werden, wechselt den Anbieter.
Vertreter des Small Data Gedankens werden meist von der oft als unüberschaubar wahrgenommenen Komplexität von Big Data abgeschreckt und ziehen sich deshalb auf bewährte Vorgehensweisen zurück: sie erstellen eine Hypothese – beispielsweise über das Verhalten Ihrer Zielgruppe – und suchen nach Daten, die diese Hypothese unterstützen. Sobald sie auch nur die geringsten Datenmengen gefunden haben, die ihre Hypothese unterstützt, nehmen sie dies als Beleg her und bauen darauf eine Marketingstrategie auf.

Aktuelles Beispiel für dieses archaische Vorgehen ist ein Vortrag des Marketing-Experten Martin Lindström auf dem Serviceplan Innovationstag 2016. Anhand von oben skizzierten Beispielen kommt er zu dem Schluss: „Big Data allein ist nutzlos. Im Grunde handelt es sich nur um eine Ansammlung von Daten, in denen Sie nach Korrelation suchen, aber nicht nach Kausalität – was sinnvoller wäre.“

Eine solche Aussage, getroffen von einem international anerkannten Experten, auf einer hochkarätig besetzen Konferenz, ist vermutlich im Jahr 2016 nur noch in Deutschland möglich – in einem Land, in dem das Bewahren von Bewährtem immer noch als deutlich wichtiger eingestuft wird als das Zerstören von Bekanntem, das Umwerfen und das Neu-Denken. Das Aufstellen von Hypothesen mit einer angeschlossenen auf geringen Datenmengen basierten Analyse wurde bis vor ca. 5 Jahren als Marktforschung durchgeführt. Nicht jedoch, weil man wusste, dass dies eine sinnvolle Methode beispielsweise zur Vorhersage von Kundenverhalten wäre, sondern weil auf der Basis der vorhandenen Daten dies damals das bestmögliche Vorgehen war. War.

In der Zwischenzeit hat sich die Welt jedoch geändert: wir haben jetzt die Daten, die uns ein vielfach besseres Bild der Gegenwart, wie auch der Zukunft ermitteln. Und weil wir diese Daten haben, müssen wir uns auch nicht mehr selber als Propheten betätigen und die Zukunft voraussagen, sondern wir sehen uns die Daten an, erkennen Korrelationen (nicht Kausalitäten) und entwickeln daraus Zukunftsoptionen.

Insbesondere der Unterschied zwischen Kausalität und Korrelation scheint sich in einigen Expertenkreisen noch nicht wirklich herumgesprochen zu haben. Der Grund, auf das Erkennen von Kausalitäten zugunsten von Korrelationen zu verzichten, ist einfach: Wenn Martin Lindström berichtet, dass ein Teenager seine Turnschuhe lieber abgetragen trägt, gilt das für genau diesen einen Teenager. Womöglich zeigt sich sogar, dass sich 100 Teenager so verhalten. Für ein Neuprodukt mit „pre-used“ Sohlen reicht das jedoch nicht. Diese „Kausalität“ hilft uns nicht weiter. Sie ist weder übertragbar, noch skalierbar.

Was uns weiterhelfen würde, wäre beispielsweise die Aussage, dass die Zeit, die Teenager durchschnittlich auf dem Skateboard verbringen, signifikant höher ist, wenn ihre Schuhe ein Mindestalter von > 6 Monaten haben und die Sohle um mind. 30% abgenutzt ist. Durch Sensoren im Schuh könnte eine solche Information verfügbar gemacht werden. In diesem Fall hätten wir einen tatsächlichen Beleg für das beschriebene Verhalten – im Fall der Lindströmschen Beobachtung handelt es sich lediglich um eine Anekdote.

Wir haben heutzutage die Möglichkeit, grosse Datenmengen zu erzeugen und zu analysieren. Lassen wir uns diese reichhaltigen Erkenntnis-Pool nicht entgehen! Indem wir uns selbst und unsere eigene Wahrnehmungsfähigkeit zunächst zurücknehmen und Daten sprechen lassen, werden wir unseren Blickwinkel deutlich erweitern und viele erstaunlich und bisher für undenkbar gehaltene Zusammenhãnge erkennen. Hören wir weniger auf Experten, sondern bilden wir uns unsere eigenen Meinungen basierend auf der Analyse von Big Data!

Mit Big Data von Business Intelligence zum datengetriebenen Unternehmen

„… aber unser Business Intelligence System verarbeitet schon heute ganz viele Daten.“ Mit dieser Antwort regaieren IT-Verantwortliche häufig, wenn das Management oder eine Fachabteilung nach „Big Data“ fragt.

Wenn Datarella um Unterstützung angefragt wird, liegt allerdings meistens schon ein konkretes Problem vor. An einem bestimmten Punkt ist das Unternehmen an die Grenze dessen gestoßen, was seine bestehenden Systemwelt zu leisten vermag. An diesem Punkt stellt sich eine fachliche Herausforderung an die Datenverarbeitung, die über die bestehende Business Intelligence hinausgeht.

Viele Unternehmen haben in den 80er und 90er Jahren in Business Intelligence investiert, ERP, ‚Enterprise Resource Planning‘ und Data Warehouses aufgebaut. Der initiale Aufwand und die Maintenance dieser Systeme ist beträchtlich. Die Strukturen und Prozesse der Unternehmen wurden nicht selten regelrecht um die rigide Architektur der BI heraumgebaut: „Das geht nicht, das bekommen wir nicht umgesetzt“ ist eine des öfteren zu hörende Aussage.

Mangelnde Flexibilität von BI Systemen

Ein wesentlicher Grund für die mangelnde Flexibilität und geringe Anpassungsfähigkeit der BI-Systeme liegt in ihrem Grundkonzept. ETL – ‚Extract, Transform, Load‘ ist der Grundprozess der Data Warehouses. Die Daten werden dabei aus dem Produktionssystem extrahiert, dann geeignet umgeformt und in die Tabellen relationaler Datenbanksysteme wie Oracle oder SAP gespeichert. Jede Veränderung der Datenstruktur, jedes neue Datenfeld, jede neue Datenquelle, die angebunden werden soll, zieht eine lange Kette von notwendigen Änderungen im Data Warehouse nach sich.

Der schwerwiegende Nachteil des klassischen ETL-Prozesses besteht jedoch darin, dass die Rohdaten aus den Produktionssystemen zuerst transformiert werden, in eine geeignete Form gebracht, bevor sie abgespeichert werden. Dabei gehen viele Daten endgültig verloren. Es ist nicht mehr möglich, die fehlenden Daten nachträglich wieder herzustellen.

Unnötiger Datenverlust 

Ein Beispiel sind die Logfiles von Webservers. Viele Unternehmen extrahieren daraus Clicks, die Links, durch die die Nutzer auf die Seite gekommen sind (Referrer) und weitere Daten zur Nutzung. Diese Daten werden dann in Tabellenform gebracht, eine zum Beispiel mit der Summe der Clicks pro Stunde, eine andere mit den verweisenden Links, eine dritte mit den Browser-Typen und den Endgeräten. Die Verbindung, welcher Nutzer mit was für einem Gerät wann auf welchen Link geklickt hat, geht dabei verloren. Genau diese Verbindung aber ist die Grundlage für wirkungsvolle Empfehlungssysteme, wie sie etwa in einem Webshop angeboten werden sollten. Ebenso ist fast niemals mehr nachvollziehbar, wie die Website zum Zeitpunkt des Clicks ausgesehen hatte, welcher Content genau auf der Seite zu finden war.

Data Intelligence 2.0

An diesem Punkt spätestens kommt Datarella ins Spiel: Eine neue Data Intelligence wird entwickelt. Wir bauen für unsere Kunden einen Datenprozess, der so weit wie möglich die Rohdaten der Produktivsysteme beibehãlt. Aus den Live-Systemen fließen die Daten in ein Auffangbecken – ein ‚Bucket‘ – und werden als mehr oder weniger unstrukturierter ‚Datensee‘ – Data Lake – gesichert. Für die unterschiedlichen Anwendungen werden daraus im zweiten Schritt Reportingsysteme wie ERP bzw. das Data Warehouse befüllt, oder auch Echtzeit-Anwendungen wie Targeting, Empfehlungsmarketing oder Systeme zum Schutz vor Betrug betrieben. Anforderungen und Datenstruktur können dabei auch nach Fertigstellung agil angepasst werden.

Unsere Erfahrung aus zahlreichen Projekten der letzten Jahre zeigt: Der Big-Data-Weg zu Business Intelligence ist nicht nur das passende Werkzeug auf die Anforderung nach Flexibilität und Echtzeitfähigkeit, sondern auch wesentlich günstiger und schneller zu realisieren, als die klassische BI. Mit Big Data wird aus Business Intelligence das datengetriebene Unternehmen.

Datarella baut Ressourcen auf und gründet Baltic Data Science in Gdansk, Polen

München/Gdansk, 16. September 2016 – Während wir in der Anfangszeit von Datarella nahezu evangelisierend unterwegs waren und das neue Big Data Paradigma die erste stelle in Workshops einnahm, scheint sich die Notwendigkeit und Fähigkeit zum Management großer Datenmengen auf breiter Front in Unternehmen durchzusetzen.

Analog dazu hat sich unsere Arbeit im Projekt verändert: zwar entwickeln wir heute und auch zukünftig initiale Projektideen und Use Cases gemeinsam mit unseren Kunden, aber die später im Prozess dazukommenden Arbeiten werden häufiger. Zusätzlich steigen die Erwartungen unserer Kunden an die Umsetzungsgeschwindigkeit.

Um diesen Anforderungen gerecht zu werden, haben wir vor geraumer Zeit beschlossen, unsere Data Science Ressourcen signifikant aufzustocken Dieser Entschluss resultierte in der Gründung von Baltic Data Science BDS mit Sitz in Gdansk, Polen. Mit BDS ist Datarella in der Lage, kurzfristig hochqualitative Ressourcen anzubieten, kurz: Data Science As A Service.

Der Grund für uns, BDS in Form eines Joint Ventures mit unseren langjährigen polnischen Geschäftspartnern ins Leben zu rufen, liegt in der erstklassigen Qualität der Arbeit der Gdaansker Entwickler, der Vertrauensbasis, die sich über die Jahre gebildet hat und dem modernen gegenüber Technologie aufgeschlossenen Klima mit leistungswilligen und engagierten Mitarbeitern.

Als unsere erste Auslandsgründung bot der Prozess bis zur Anmeldung der Baltic Data Science eine steile Lernkurve. Wir sind überzeugt, mit BDS den richtigen und zukunftsweisenden Weg zu gehen und freuen uns darauf, genau das unter Beweis zu stellen.

Job Angebote bei Baltic Data Science, Standort: Gdansk

Meredith L. Patterson und Flight Delay Dapp Live Demo auf dem Ethereum Munich Meetup, 20.9.16

Meredith L. Patterson ist jedem in der Security- und Crypto-Szene ein Begriff. Neben ihrer Arbeit im Bereich der Computational Linguistic und Data Maning ist Meredith Autorin und Bloggerin. Ihre Themen sind Copyright Reform, Biohacking, Bürgerrechte und Programmiersprachen.

Auf dem Ethereum Munich Meetup wird Meredith ihre Perspektive auf die Sicherheit der Blockchain und entsprechender Anwendungen darstellen. Über die Erkenntnis hinaus, dass die Blockchain lediglich für spezifische Teile eines gesamten Datenprozesses absolut Sicherheit garantieren kann – zumindest solange nicht jedermann über seinen eigenen Quantencomputer verfügt, haben die Teilnehmer Gelegenheit die Grenzen des Blockchain-Einsatzes auszuloten.

Der Abend beginnt mit leichterer, aber ebenso spannender Kost: als Weltpremiere präsentiert live aus Shanghai Christoph Mussenbrock die auf Ethereum Smart Contracts basierende Dapp Flight Delay. Sollte die Great Fire Wall die Live Demo verhindern, wird sein Partner Tobias Pfab die Präsentation vor Ort durchführen.

Für spannende Inhalte und rege Diskussion ist also gesorgt, am Dienstag, den 20.September im Saal 1008 des Bayerischen Staatsministeriums für Wirtschaft und Medien, Energie und Technologie, Prinzregentenstrasse 28.

Anmeldung und Details zum Ethereum Munich Meetup

Hacking the Blockchain – Meredith L. Patterson spricht auf Ethereum Munich Meetup

Wir sind stolz darauf, mit Meredith L. Patterson eine der führenden Security Expertinnen und Biopunks dafür gewonnen zu haben, auf unserem nächsten Ethereum Munich Meetup am 20. September 22016 zu sprechen.

Meredith L. Patterson
Meredith L. Patterson

Mit dem vielversprechenden Titel ihres Vortrags „Hacking the Blockchain“ wird Meredith einen faszinierenden Einstieg in die Sicherheitsaspekte geben, die mit Blockchain Anwendungen einhergehen. In der anschliessenden Diskussion soll insbesondere damit aufgeräumt werden, dass die Blockchain ein Allheilmittel für Transaktionen ist, sondern ihr Einsatz wohlüberlegt erfolgen sollte und noch am ehesten mit dem Bild eines sehr hohen, aber sehr schmalen Zaunes beschrieben werden kann, der das zu schützende Objekt in einem oder wenigen Aspekten perfekt absichert, aber ansonsten alle möglichen Einfallstore für Missbrauch offen lässt.

Wir freuen uns bereits jetzt auf einen spannenden Abend!

Schüler müssen programmieren lernen

Schüler müssen programmieren lernen – dieser Satz begegnet uns derzeit allen Ortens: Gesche Joost legt uns dies in der ZEIT dar, Klaus Ruß in der FAZ (nur offline verfügbar), auf zahlosen Konferenzen wird es gefordert – kurz: überall dort, wo man sich Gedanken über die zukünftige Wetbewerbsfähigkeit unseres Landes und die Chancen eines jeden einzelnen Berufstätigen macht. Ein Blick über die Landesgrenzen zeigt, dass es „die anderen wieder einmal besser machen“: Programmieren ist seit September 2014 Pflichtfach für alle fünfjährigen britischen Schüler. In der Schweiz sieht der Lehrplan 21 ebenfalls Programmier-Pflichtunterricht für fünfte und sechste Klassen vor

Das Programmieren ist indes kein Selbstzweck: es sollen nicht alle Schüler zu Programmiern ausgebildet werden, so wie nicht alle, die Sportunterricht geniessen, Leistungssportler werden. Das Programmieren soll in einem Alter den Blick auf die Chancen und gleichzeitig Herausforderungen öffnen, die moderne Technologien mit sich bringen. Schlagworte wie Industrie 4.0, Smart Home, selbstfahrenede Autos usw. beinhalten alle die dahinterliegende Technologie, die sich mit dem Begriff Internet of Things, oder: IoT, also der Vernetzung von Dingen untereinander, umschreiben lässt. Dinge, das können Haushaltsgeräte, Autos, Flugzeuge, Türen, Heizungen etc. sein, werden mit einer Kommunikationseinheit ausgestattet und bilden gemeinsam mit anderen Dingen ein Netzwerk. Einige der Dinge werden zusätzlich „smart gemacht“; d.h. sie erhalten eine gewisse „Intelligenz“ die es ihnen ermöglicht, selbständig Entscheidungen zu treffen: beispielsweise weicht das autonom fahrende Auto einem Hindernis aus. In wenigen Jahren werden die meisten der uns umgebenden Dinge Teil des IoT sein. Smartness in Dingen wird für uns selbstverständlich sein, wir werden von den Dingen autonome Entscheidungen verlangen, weil sie unser Leben erleichtern, so, wie wir bereits heute unsere eigenen Telefonnummern nicht mehr kennen, weil sie eingespeichert sind (ein solches Speichern einer Nummer ist zwar nicht unbedingt smart zu nennen, zeigt aber die Bereitschaft des Menschen, technologische Nutzen bereitwilllig zu akzeptieren).

Wir sehen, dass das IoT allgegenwãrtig sein wird. Sobald Menschen individuell von den Vorteilen smarter Geräte überzeugt sind, wollen sie keine anderen Geräte mehr haben. Aber: Wer programmiert die Regeln, nach denen die Dinge im Internet of Things agieren? Wer bringt den Dingen Intelligenz bei? Wer sorgt dafür, dass unser Kühlschrank die ausgehende Butter nachbestellt? Wer kümmert sich um etwaige Störungen im Netzwerk?

Auf absehbare Zeit zumindest müssen wir Menschen dies machen. Wir denken uns sinnvolle Anwendungsszenarien für das IoT aus, wir bauen die entsprechende Hardware und wir denken uns die Algorithmen aus, auf Basis derer die IoT Netzwerke funktionieren. Das bedeutet: der Handwerker von heute ist der IoT-Fachmann von morgen. Die Berufsbilder eines Heizungsinstallateurs, eines Anlagentechnikers oder sogar eines Goldschmieds werden sich signifikant ändern: alle werden früher oder später „intelligente“ Dinge herstellen und miteinander vernetzen. Ja, auch der Goldschmied: er wird Sensoren in seine Ringe, Ketten, etc. einbauen, die beispielsweise Körperaktivitäten ihrer Trägerinnen messen und an das Smartphone senden oder auch direkt eine Telefonverbindung aufbauen.

In den meisten unserer derzeitgen Berufe werden Programmierkenntnisse bzw. ein Verständnis für die Abläufe und Datenströme in Netzwerken vonnöten sein. Daher sind die eingangs genannten Forderungen berechtigt. Auf Forderungen müssen jetzt Taten folgen: aus Reden, Präsentationen und Kamingesprãchen müssen konkrete Projekte in den Schulen werden, die Schüler müssen möglichst schnell im IT-Unterricht praktische Erfahrungen sammeln können: bis Software- und Hardware-Programmierung Pflichtbestandteile des Lehrplans sind, muss dies über freiwillig bzw. zusätzlich organisierte Formen wie Arbeitsgemeinschaften erledigt werden.

Einige gute Beispiele gibt es bereits: hier arbeiten Eltern und Lehrer Hand in Hand, organisieren praktisch orientierte Zusatzangebote, kaufen auf eigene Rechnung Hardware, mit der programmiert wird. Bisher sind uns Einzelbeispiele bekannt – jeweils aus der Taufe gehoben von engagierten Einzelpersonen oder Gruppen an einzelnen Schulen. Hier gilt es anzusetzen: wir brauchen mehr solcher Initiativen, die auf kleinem Raum zeigen, wie einfach es ist, Schülern einen einfachen, spielerischen Zugang zum Programmieren zu geben und sie damit fit zu machen für die beruflichen Herausforderungen der Zukunft.

Wir tragen unseren Teil dazu bei, indem wir mit dem BAYDUINO einen kleinen Minirechner anbieten, der genau in diese Kerbe schlägt: jeder Schüler kann seinen eigenen BAYDUINO besitzen und über die einfache Drag ’n‘ Drop Programmieroberfläche OpenRoberta unseres Partners Fraunhofer Institut Programme schreiben, mit denen er Dinge im Internet of Things steuern kann. Einfacher geht’s nicht.

Wir laden alle engagierten Eltern und Lehrer ein, Kontakt zu uns aufzunehmen und den BAYDUINO kennenzulernen – unser Ziel ist es, bundesweit Schüler aller Schularten ab der 7. bzw. 8. Klasse mit dem BAYDUINO auszustatten und ihnen ein praxisnahes, anschauliches Lernen zu ermöglichen. Sprechen Sie uns an!

Was ist Big Data?

Big Data, „große Daten“, ist ein seltsamer Begriff – ein Marketing-Buzzword. Dabei fasst Big Data eine ganze Reihe von Entwicklungen zusammen, die in ihrer Bedeutung für fast jeden Bereich unseres Lebens gar nicht überschätzt werden können: es handelt sich um nicht weniger, als einen vollständigen Paradigmenwechsel, technologisch getrieben, aber schon längst weit jenseits der Technologie wirksam. Nach dem World Wide Web vor 20 Jahren, Social Media (aka Web 2.0) vor 10 Jahren, ist es die dritte Welle von Technologie, die aus dem Internet entstanden ist und sich weltweit ausgebreitet hat.

Aber was ist dieses „Big Data“? Oft ist von den „Drei Vs“ die Rede – Volume, Velocity, Variety. Große Datenmengen, die in schneller Folge gemessen werden sind aber für sich genommen noch nichts Neues. Datenbanken, die auf gewaltigen Servern in Rechenzentren hochperformant „EDV“ machen, gibt es schon lange. Völlig neu aber ist, dass es seit wenigen Jahren Betriebssysteme und Datenbanken gibt, die auf billiger Standard-Hardware laufen; viel leistungsfähiger und nahezu beliebig skalierbar; und das meiste davon ist Open Source.

Hadoop kann man als das „Betriebssystem“ von Big Data bezeichnen. Hadoop, ein Open Source Projekt der Apache-Foundation ist gerade zehn Jahre alt geworden. Es liefert vor allem ein Filesystem, mit dem sich beliebig viele Rechner zu einer einzigen großen Festplatte zusammenschalten lassen. Um Hadoop hat sich schnell ein „Ökosystem“ aus frei verfügbaren sowie kommerziellen Anwendungen entwickelt – ganz wie wir es „damals“ mit Microsoft Windows und dem PC erlebt haben.

Für viele Anwendungen ist es aber nicht einmal nötig, selbst die Infrastruktur aufzubauen. Cloud-Computing wie Amazon Webservices ermöglichen ohne großen Aufwand oder tiefe Fachkenntnisse, größte Datenmengen zu verarbeiten. Da das Pricing nach Rechenzeit geht, kann man mit Test-Daten beginnen und nach erfolgreichem Test skalieren. Dadurch ist es selbst kleinen Teams oder sogar Einzelpersonen möglich, Datenanalyse zu liefern, die vor kurzem ausschließlich größten Rechenzentren vorbehalten war.

Die Daten werden auf den Cloud Systemen a la Hadoop zunächst unstrukturiert abgespeichert. Über Konsistenz, fehlende Werte oder falsche Formatierung macht man sich erst danach Gedanken. Statt wie beim klassischen Data Warehouse die Daten erst in die passende Tabellenform zu transformieren und dann in die Datenbank hochzuladen, bleiben die Daten am besten als Rohdaten auf dem Laufwerk liegen, genau wie sie angekommen sind.

Das Dateiformat, dass sich in der Big-Data-Kultur für alle Metadaten (also Daten, die die eigentlichen Daten – wie Bilder oder Videos – beschreiben) durchgesetzt hat, ist die „Java Script Object Notation“ JSON, in der Informationen als Paare von Schlüsseln und Werten dokumentiert werden, „Key-Value-Pairs“.

Die unstrukturiert auf dem Cloud-System abgelegten Daten können in Datenbanken hochgeladen werden – je nach Bedarf. Dabei kommen neue Datenbank-Konzepte zum Einsatz, die speziell auf unstrukturierte oder halbstrukturierte Daten ausgelegt sind. Diese Datenbanken werden oft als NoSQL bezeichnet. Der Begriff „NoSQL“ leitet dabei in die Irre: auch wenn viele der Big-Data-Datenbanken keine relationalen Systeme mit Tabellen-Logik sind, haben die meisten eine Abfragesprache, die sich stark an SQL orientiert.

Für Datananalyse wird die Programmiersprache Python mehr und mehr zum Standard. Python ist schnell zu lernen – viel intuitiver als die meisten anderen Programmiersprachen in der Anwendung. Für Python gibt es eine gewaltige Menge an Code-Bibliotheken, die praktisch jeden Bereich von Datananalyse abdecken.

Das Programmier-Framework Spark bietet schließlich alle Funktionen, um datengetriebene Anwendungen auf verteilten Rechenanalgen industriell zu skalieren.

Hadoop und Cloud-Computing, Datenbanken für unstrukturierte Daten, Metadaten in JSON, Datenanalyse (z.B. in Python und Spark) – ergeben zusammen Big Data. Und das Beste: für alle Fragen gibt es im Netz jede Menge Unterstützung. Also: keine Angst vor Big Data – einfach ausprobieren!

Eine Dezentrale Autonome Organisation DAO – Was ist das?

Was ist eine DAO, wie entsteht sie, was unterscheidet sie von herkömmlichen Organisationen und welchen Nutzen schafft sie? In einem ersten Beitrag wolln wir den Begriff der Dezentralen Autonomen Organisation (auch: dezentrale Selbstorganisation) einführen und erläutern.

Die meisten typischen uns bekannten Organisationsformen weisen ähnliche Strukturen auf: sie sind von einer zentralen Einheit, beispielsweise einer oder mehreren Personen oder einem Unternehmen, gegründet worden. Sie werden mit einem Regelsystem ausgestattet, nachdem sie funktionieren (sollen). Struktur und Prozesse bestimmen Zweck, Verhalten umd Wirkung der Organisation. Solange die Umgebung so beschaffen ist und die Umwelt sich so verhält, wie die Leitung es einschätzt, funktioniert die Organisation „nach Plan“. Organisationen dieses Typs funktionieren nach dem Top-Down-Prinzip: die Leitung (Chef, Vorstand, Gremium, etc.) macht Vorgaben und delegiert die Erstellung weiterer Vorgaben an in der Struktur weiter únten befindliche Teilnehmer (Manager, Arbeiter, etc.), die wiederum für die Einhaltung ihrer Vorgaben sorgen (sollen).

Die Kernmerkmale dieser Organisationsform sind Zentralität und Heteronomie, oder Fremdbestimmtheit: nicht der Abteilungsleiter bestimmt und verantwortet letztlich die Geschicke eines Unternehmens, sondern die Geschäftsführung. Im Unterschied zu dieser klassisch-hierarchischen Organisationsform ist die DAO diametral anders strukturiert: sie ist dezentral aufgebaut und funktioniert autonom; d.h. sie steht zwar (beispielsweise über das Intermet) im Austausch. mit anderen – DAOs, Individuen, (klassischen) Organisationen, etc., handelt aber selbständig. Hier eine aktuelle Definition der DAO:

DAO Definition

Eine blockchain-basierte, autonome, dezentral strukturierte nicht-natürliche Organisationseinheit, die ohne jegliche zentrale Weisung selbständig Entscheidungen auf der Basis unveränderlichen Computercodes trifft.

Das der DAO zugrundeliegende Regelset wird durch Mehrheitsentscheidungen der involvierten Teilnehmer aufgestellt und stetig weiterentwickelt. Derzeit werden die originären Regelsets noch von denjenigen Individuen bzw. Organisationen definiert, die DAOs aufsetzen. Zu einem späteren Zeitpunkt soll die Fähigkeit zu einer dezentralen Entscheidungsfindung soweit entwickelt sein, dass die initiale Erstellung von Regularien selbst über dezentrale Entscheidungen läuft.

Da DAOs aus Computercode bestehen, interagieren sie mit der Aussenwelt über Dienstleister, die Entscheidungen transportieren. Eine DAO kann viele unterschiedliche Dienstleister beschäftigen, die verschiedenste Aufgaben erledigen:

Beispielsweise könnte eine imaginäre SonntagsFußballDAO, gegründet von 30 sportbegeisterten Männern in der Nachbarschaft, dafür sorgen, dass ein gemeinsames Fußballspiel automatisch vereinbart wird, sobald mindestens 11 Teilnehmer Sonntags zwischen 15-17 Uhr Zeit haben und vor Ort sind. In diesem Falle müsste ein Dienstleister die Verfügbarkeit der Teilnehmer in ihren Kalendern prüfen und sicherstellen, dass der Fußballplatz frei ist. Eventuell muss die Online-Buchung des Platzes durchgeführt werden. Nachdem mindestens 11 Teilnehmer zugesagt haben, wird allen der Termin in den Kalender geschrieben. Die Kontrolle darüber, dass tatsächlich ein Fußballspiel stattgefunden hat, könnte ebenfalls durch einen Dienstleister geschehen. Hier werden jedoch die Teilnehmer vermutlich genügend Eigeninteresse mitbringen, dies zu bestätigen.

Die jeweiligen Regeln, auf Basis derer die Diensleister agieren, werden smart contracts genannt. Diese mit einer englischsprachigen Beschreibung versehenen Codeschnipsel definieren die Ausführung der Dienstleistung: Zeitpunkt und Dauer, Art und Weise, Lieferergebnis, Zahlungsbedingungen, etc.. Für die Erstellung von smart contracts werden sog. Tokens der jeweiligen DAO benötigt, ein Zahlungsmittel für Interaktionen. Für die an der DAO Beteiligten ist der Einsatz von Tokens typischerweise kostenlos – Teilnehmer ausserhalb des Beteiligtenkreises können sich Tokens mit einer virtuellen Währung wie Ether oder Bitcoin kaufen. Grundsätzlich kann die DAO auch Aussenstehenden die Nutzung vin Tokens kostenlos ermöglichen – die Gebühr für den Erwerb der Tokens ist jedoch gleichzeitig ein Element eines möglichen Geschäftsmodells einer DAO. Im Falle unserer SonntagsFußballDAO ist vermutlich kein Geld im Spiel, da es sich um eine nachbarschaftliche Freizeitangelegenheit handelt. Sogenannte DACs decentralized autonomous corporations, also zu geschäftlichen Zwecken errichtete DAOs, werden sich typischerweise durch den Verkauf von Tokens refinanzieren.

DAOs können grundsätzlich jede denkbare Aufgabe übernehmen bzw Zweck erfüllen. In jedem Fall sind die für herkömmliche Prozesse notwendigen Mittelsmänner (z.B. Rechtsanwälte, Steuerberater, etc.) nicht mehr erforderlich – dies spart Zeit und Geld. Auch die Tatsache, dass eine DAO selbständig entscheidet – ohne einen entsprechende Anweisung durch eine zentrale Instanz anfordern zu müssen, gestaltet alle Prozesse maximal effizient: so kann beispielsweise die Haustür in Abwesenheit der Anwohner durch die Reinigungskraft geöffnet werden, während sie für alle anderen Personen verschlossen bleibt. In diesem Fall findet die tatsächliche Entscheidung in der Haustür selbst statt; dies verdeutlicht die Implikation, die DAOs für das Internet of Things IoT haben. Dazu werden wir in den folgenden Beiträgen noch näher eingehen.

Das Konzept der DAO ist neu. Verständlicherweise widerstrebt es insbesondere Geschäftsleuten sich vorzustellen, dass Unternehmen aus autonom entscheidenden, auf Computercode basierenden Organisationen bestehen und nicht zentral gesteuert werden. Die Blockchain-Technologie, der zunehmende Einsatz virtueller Währungen und die Entwicklung zu immer effizienteren Prozessen werden dafür sorgen, dass DAOs schon bald alltäglich sind. Vielleicht wird dann der Begriff DAO selbst keine Rolle mehr spielen und die aktuell auf dem Markt bekannten spezifischen virtuellen Währungen und Plattformen für smart contracts von anderen, neuen, abgelöst worden sein – für uns besteht allerdings kein Zweifel daran, dass DAOs in absehbarer Zeit die dominante Organisationsform darstellen.

Bei Datarella setzen wir uns daher seit geraumer Zeit mit dem Thema auseinander und arbeiten mit unserem Partner Ethereum an unterschiedlichen Lösungen für den Praxiseinsatz – als Software, wie als Hardware. Unser Anspruch dabei ist: eine DAO muss einen ökonomischen Nutzen bringen, idealerweise kurzfristig. Wenn sie das Thema interessiert und Sie sich einen Meinungsaustausch wünschen, sprechen Sie uns an oder besuchen Sie eines unserer Ethereum Munich Meetups!

Derlei Zusammenkünfte können ungeahnte Kreativität freisetzen, wie diese Science Fiction Kurzgeschichte von Dan Finlay, die ich Ihnen als Einstiegslektüre in das Thema DAO empfehle.