Data Intelligence. Manfred KulmitzerЧитать онлайн книгу.
meinem Verständnis bezeichnet der Begriff Big Data die riesige, vielfältige und heterogene Menge an digitalen Daten, welche täglich in immer grösserer Geschwindigkeit erzeugt, gespeichert und genutzt werden.
Diese grossen Datenmengen lassen sich mit herkömmlichen IT-Systemen jedoch nicht mehr effektiv verarbeiten - dies startet bereits bei den noch nicht aggregierten Rohdaten, bei denen es oft unmöglich ist, diese im Speicher eines einzelnen Computers abzulegen.
Überdies wird Big Data oft als Sammelbegriff für digitale Technologien verwendet, die in technischer Hinsicht für eine neue Ära digitaler Kommunikation und Datenverarbeitung und in sozialer Hinsicht für einen gesellschaftlichen Umbruch verantwortlich gemacht werden.
Meine Definition von „Big Data“
Die Literatur bezieht sich in der Definition von Big Data meist auf die vier Dimensionen des englischsprachigen „V“: Volume, Velocity, Variety und Veracity. Ich habe diese Dimensionen für meine Betrachtungen entsprechend ergänzt sowie betreffend fachlicher Fragegestellungen und technischer Aspekte gruppiert.
Die von mir angedachten, sechs (6) wesentlichen Charakteristiken von Big Data habe ich entsprechend aufgeteilt - fachliche Fragestellungen werden adressiert durch Value, Veracity, Variety und Variability, und die technischen Aspekte vor allem durch Velocity und Volume.
Diese fachliche und technische Aufteilung der Charakteristiken von Big Data zeigt die nachstehende Grafik:
Die wesentlichen Charakteristiken von „Big Data“
Die vier Charakteristiken für fachliche Fragestellungen sind:
• Value (= Wert) beschreibt den Nutzen von oder die Wertschöpfung durch sehr grosse Datenmengen für das Unternehmen.
• Veracity (= Unsicherheit) beschreibt die Wahrhaftigkeit oder Richtigkeit von Daten.
• Variety (= verschiedene Datenformen) beschreibt die Vielfalt an Datenquellen und die Vielfalt an Datenarten (strukturiert vs. unstrukturiert).
• Variability (= Veränderlichkeit) beschreibt die Veränderlichkeit der Daten sowie Datenarten im zeitlichen Verlauf (Batch, Periodisch, Near-Real-time, Echtzeit).
Die beiden Charakteristiken für technische Aspekte sind:
• Volume (= Datengrösse) beschreibt den Umfang der anfallenden Datenmengen bzw. die Anzahl der anfallenden Dateien.
• Velocity (= Tempo des Wandels) beschreibt die Geschwindigkeit, mit welcher verschiedene Datenarten neu erzeugt werden.
«Es gibt eine smarte Analogie von Markt und Informationsmanagement.»
Damit die grossen, stark wachsenden Datenmengen in Zukunft effektiv gespeichert, verarbeitet und genutzt werden können, benötigt es neue Ansätze sowohl für die Datenbereitstellung als auch für die Datennutzung. Das von mir in diesem Buch vorgestellte, moderne Daten- und Informationsmanagement legt den Fokus genau auf diese Bedürfnisse.
Im klassischen Markt wird ein ausgeglichenes Gleichgewicht zwischen Angebot und Nachfrage angestrebt. Übersteigt das Angebot die Nachfrage, sinkt der Preis der Produkte und gleichzeitig steigen die Kosten für deren Lagerung. Ist die Nachfrage hingegen höher als das Angebot, steigt der Preis und die Kunden müssen länger auf ihre gewünschten Produkte warten. Diese Zusammenhänge zeige ich in der nachstehenden Grafik:
Eine Analogie von Markt und Informationsmanagement
Dieses Prinzip gilt in Analogie auch für Daten:
Die Sammlung, Aufbereitung und Speicherung von Daten verursacht primär Kosten, deshalb sind möglichst nur jene Daten bereitzustellen, die tatsächlich benötigt werden. Andererseits sollen die Kunden nicht auf (neue) Datenlieferungen warten müssen, um kurzfristig erforderliche Auswertungen oder Datenanalysen machen zu können.
Also ist es erforderlich, ein möglichst ausgewogenes Gleichgewicht von erforderlichen Kosten für die Datenbereitstellung und dem gewünschten Ertragspotenzial der Datennutzung zu erreichen.
Daher gilt das Prinzip von Angebot und Nachfrage im klassischen Markt analog für ein modernes Daten- und Informationsmanagement, wo die Erträge durch die Datennutzung die durch die Datenbereitstellung verursachten Kosten in jedem Fall übersteigen sollen. Dies wird in der nachstehenden Grafik dargestellt:
Betrachtung von Ertragspotenzial vs. Kosten
Die obenstehende Grafik illustriert für ein heutiges Szenario im Jahr 2020 und einen hypothetischen Zielzustand im Jahr 2025 die folgenden beiden Aussagen:
• Durch verbindliche Ziele zur Effizienzsteigerung und Optimierung der Datenbereitstellung sollen die Gesamtkosten nicht linear oder überproportional trotz des erwarteten, stark wachsenden Datenvolumens ansteigen.
• Das gewünschte Ertragspotenzial kann durch gezielte Investitionen in erweiterte und neue Fähigkeiten der Datennutzung - beispielsweise unter vermehrter Nutzung von Data Science und Künstlicher Intelligenz sowie eine mögliche Monetarisierung von Daten - entsprechend erhöht werden.
Die Nutzung von Big Data und in weiterer Folge von «Smart Data» erfordert einen revidierten Umgang mit Daten und Technologien. Neue Möglichkeiten aus organisatorischer, prozessualer und technischer Sicht müssen analysiert und gebündelt werden und sind in geeigneten IT-Infrastrukturen umzusetzen. Den Rahmen hierfür setzt eine datenzentrische Datenstrategie, auf deren Entwicklung später in diesem Buch eingegangen wird.
Das in diesem Buch beschriebene, moderne Daten- und Informationsmanagement legt einen wesentlichen Schwerpunkt auf die intelligente Datenbereitstellung und schafft die Grundlagen für eine effektive und nachhaltige Datenbewirtschaftung. Damit ist gemeint, einen optimalen Datenlebenszyklus zu definieren und die Datensammlung, Datenspeicherung, Datenbereinigung, Datenharmonisierung und Datenlöschung so zu optimieren, dass man eine Reduktion auf die wirklich benötigten Daten im Sinne von «Smart Data» erzielt.
«Für eine intelligente Datennutzung bedingt es hinkünftig zusätzlich Smart Data.»
Ausserdem sollen die effektive Datennutzung mit neuen Methoden und Technologien unterstützt sowie rechtliche und organisatorische Vorgaben eingehalten werden können. Der Begriff «Smart Data» selbst wird häufig mit dem Internet der Dinge und den Daten, welche die Sensoren in diesen Geräten produzieren, assoziiert. Nach meinem Verständnis sind «Smart Data» elektronische Daten, die so aufbereitet sind, dass daraus unmittelbar verwertbares Wissen abgeleitet werden kann.
Diese Daten sollen genutzt werden, um aus Rohdaten neue Erkenntnisse zu gewinnen, Daten intelligent zu speichern oder aufzubereiten oder um neue Modelle für die Datenanalyse im Rahmen von Data Science zu schaffen. Dazu werden die Rohdaten direkt an der jeweiligen Datenquelle gesammelt, geordnet, analysiert und für den Datenkonsumenten vorbereitet, häufig unter Nutzung der Technologien für Big Data und Fast Data.
Nach dieser intelligenten Aufbereitung können die Daten an die jeweils nachgelagerten Daten-Plattformen für eine weitere Datenkonsolidierung oder für direkte Datenanalysen im Unternehmen verteilt werden. Die Verteilung von «Smart Data» im Unternehmen geschieht im idealen Fall über eine zentral gesteuerte Datenorchestrierung oder Datenvirtualisierung aller Daten in der Datenlandschaft.
Somit stellen «Smart Data» eigenständige Datenbestände dar, die verwertbare Daten mittels Algorithmen nach bestimmten, vorgegebenen Strukturen aus meist sehr grossen Datenmengen extrahieren und nur „sinnvolle“ Daten enthalten. Dabei müssen die Daten vom Endbenutzer verstanden werden können, um ein sinnvolles Ergebnis erzielen zu können. Daher sind