Big Data – Auf der Suche nach Zahlen

Big DataBig Data muss man erst einmal definieren können.

Irgendwie fragt sich ja jeder, was Big Data eigentlich so ist.

Und jeder zweite hat eine andere Meinung. Im Grunde redet alles über ein Licht ohne die Lampe zu beschreiben. Also mache ich mich auf die Suche nach den Parametern der Zahlenwelt von morgen.


Sehen wir uns doch einmal die Faktenlage an. Wie sehen die Daten aus, was haben sie für eine Qualität? Was ist ihnen gemeinsam und wo liegen die Unterschiede?

Zu allererst muss man definieren über was wir bei Big Data eigentlich reden. Schon das ist nicht mehr ganz so einfach, denn wir reden schon bei dieser Groben Abschätzung über vier verschiedene Dimensionen, die sich gegenseitig beeinflussen.

Menge:

Die Unternehmen stehen einer unglaublichen Schwemme an Daten gegenüber. Wir reden je nach Unternehmen über mehrere Terabyte und sogar Petabyte. Das ist eine unglaubliche Menge an Daten. Ein Terabyte sind mehr als 714.000 Disketten. Ein Petabyte sind in etwa 714 Millionen davon. Nur einmal so als Vergleich zu den Urzeiten der IT.

Und wenn man das einmal auf einen recht verbreiteten Dienst umsetzt: Twitter hat am Tag etwa 12 Terabyte an Daten, die anfallen, also etwa 8,5 Millionen Disketten.

Geschwindigkeit:

Die Daten kommen mit unglaublicher Geschwindigkeit zusammen und müssen direkt ausgewertet und bearbeitet werden. Durch die immer weiter vorangetriebenen Vernetzungen von Geräten, Sensoren und Meßstellen kann es passieren, dass zwei Minuten Laufzeit vom Eintreffen der Daten bis zur Reaktion zu lange sind.

Vielfalt:

Die Daten sind nicht einheitlich. Wir reden hier ja nicht nur über die Daten aus einer Quelle. Es können Bildaten sein, Standortdaten vom Handy, Audiodaten, Sprachnachrichten, Firewall-Alarme oder Daten aus sozialen Netzen. Hinzu kommen Daten aus der Warenwirtschaft oder sogar bewegte Bilder aus Videokameras, die die Produktion überwachen. All das fließt zusammen.

Datenintegrität:

Ein Drittel der Verantwortlichen in Unternehmen trauen den gewonnen Daten nicht. Sie trauen sich nicht, aufgrund der Daten businesskritische Entscheidungen zu treffen. Und das ist der wichtigste Punkt. Wie kann man sicherstellen, dass die Daten richtig sind? Und vollständig.

Das Dilemma:

Diese vier Dimensionen sind kaum auf einen gemeinsamen Nenner zu bekommen. Alle Big Data Systeme können nur auf einen Kompromisspunkt abgestellt werden. Und dazu muss das Unternehmen definieren, was im Fokus liegt.

  • Datenintegrität? Dann müssen Abstriche gemacht werden, was die Geschwindigkeit angeht. Prüfen und Verifizieren kostet Zeit.
  • Schnelligkeit? Die Daten sind nicht mehr verlässlich. Es können Übertragungsfehler passiert sein.
  • Verschiedene Quellen? Schnittstellen müssen sauber programmiert sein und dürfen sich nicht ändern. Sie müssen eventuell Daten umformen. Das kostet wieder Zeit.
  • Sie wollen alles sammeln? Dann haben Sie keine Zeit für Prüfungen oder Transformation. Hauptsache alles landet auf der Platte.

Das ist keine leichte Aufgabe, die sich da stellt. Ich befürchte, das bei der Suche nach dem optimalen Punkt irgendetwas der Einfachheit außer Acht gelassen wird. Und an dem Punkt wird es riskant.


Datenschutz - Impressum

IT-Beratung - IT-Betrieb - Technologieberatung - IT-Risikobewertung - Vorträge und Weiterbildung zu IT-Themen