Data Intelligence. Manfred KulmitzerЧитать онлайн книгу.
1. Beispiel: In einer Tabelle stellt ein Datum genau eine Spalte dar und die dazugehörige Spaltenüberschrift (der „Label“) legt die spezifische Bedeutung dieser Spalte und somit des Datums fest. Mit der Überschrift „PLZ“ wird also eine Spalte mit Postleitzahlen festgelegt.
2. Beispiel: Die für sich allein stehende Zahl „1967“ stellt noch keine Aussage dar; erst durch die Zuordnung einer spezifischen Bedeutung (beispielsweise in der Spaltenüberschrift einer Tabelle) wird daraus ein verständliches Datum und könnte entweder das „Geburtsjahr“ (1967) oder die „Postleitzahl“ (1967 für Sion, Schweiz) darstellen.
3. Beispiel: Die Zahl „21“ in Kombination mit der Temperatureinheit „Grad Celsius“ hat als Datum die spezifische Bedeutung für die Temperaturangabe „21 Grad Celsius“.
Meine Definition von Informationen
Im Daten- und Informationsmanagement dienen Informationen der Entscheidungsfindung, indem sie jene Erkenntnisse darstellen, welche sich aus der (kausalen) Interpretation von meist gebündelten Daten ergeben, können in strukturierter und teilweise auch in semi-strukturierter Form vorliegen und gespeichert werden.
Die Bündelung erfolgt dabei über die Vernetzung oder Kombination der verschiedenen (elektronischen) Daten und oft unter Zuhilfenahme einer leicht verständlichen Abfrage-Sprache (Structured Query Language, SQL).
Die Interpretation erfolgt manuell oder automatisiert und durch von Menschen oder Algorithmen festgelegte Regeln mit dem Ziel, die gebündelten Daten in einen entsprechenden Kontext zu stellen und damit (neue) Erkenntnisse zu erzielen.
Hierzu zeige ich ein einleuchtendes Beispiel auf: Durch die Bündelung der richtigen Daten kommt man zur Erkenntnis „Die durchschnittliche Temperatur in Meran im Mai ist 21 Grad Celsius“. Mit dieser Information kann nun entschieden werden, ob man dort Urlaub im Mai (= Kontext) machen möchte oder nicht.
Meine Definition von Wissen
Im Daten- und Informationsmanagement dient Wissen der erweiterten Entscheidungsfindung, indem es neue Erkenntnisse aus der Geschäftstätigkeit berücksichtigt, welche sich aus der Verknüpfung und Interpretation von internen und externen Informationen ergeben. Werden nun diese Informationen in einem bestimmten Kontext betrachtet, entsteht daraus Wissen.
Das hierbei gespeicherte Wissen gilt als Unternehmensgut, welches in strukturierter, semi-strukturierter und ebenso in unstrukturierter Form als Daten vorliegen kann.
Dazu ein kleiner philosophischer Diskurs: Einer - in der Philosophie stark vertretenen - These zufolge ist Wissen eine wahre, gerechtfertigte Überzeugung. Zunächst kann man nur dann etwas wissen, wenn man eine entsprechende Meinung hat. Eine Meinung ist jedoch nicht hinreichend für Wissen. So kann man etwa falsche Meinungen haben, jedoch kein falsches Wissen. Wissen kann also nur dann vorliegen, wenn man eine wahre Meinung hat. Doch nicht jede wahre Meinung stellt Wissen dar. Daher wird von vielen Philosophen argumentiert, dass eine wahre Meinung gerechtfertigt sein muss, wenn sie Wissen darstellen soll.
«Nun haben wir ein gemeinsames Verständnis, können Daten von Informationen klar unterscheiden und dabei entsteht ebenfalls Wissen.»
Im Rahmen des digitalen Wandels stellen Daten und Informationen somit die wesentlichsten Grundelemente dar, da diese eben jene digitalen Inhalte repräsentieren, welche für den Paradigmenwechsel der Gesellschaft und die neuen Geschäftsmodelle absolut erforderlich sind. Eine Zukunft ohne elektronische Daten und Informationen sowie digitale Dokumente wird es aus meiner Sicht nicht geben - ausser man verlässt die Zivilisation und begibt sich in völlige Isolation. Deshalb sollte jeder Mensch die entsprechenden Grundlagen zu Daten und Informationen verstehen und beherrschen können.
3.2 Intelligente Datensammlung mit «Smart Data»
Der digitale Wandel verändert das Daten- und Informationsmanagement von allen Unternehmen, die bereits datengetriebene Prozesse oder sogar datenzentrische Geschäftsmodelle nutzen, oder dies in Zukunft anstreben. Dabei ist meiner Meinung nach nicht mehr die möglichst grosse, umfassende oder komplette Sammlung von Daten entscheidend, sondern die intelligente Bereitstellung von «Smart Data» unter einer einheitlichen, zentralen Daten-Governance.
«Die Zukunft wird uns von schnöden Datensammlungen weg und hin zu Smart Data führen.»
Der Large Hadron Collider (LHC) ist einer der weltweit grössten Teilchenbeschleuniger und befindet sich am Europäischen Zentrum für Kernforschung CERN bei Genf in der Schweiz. Bei den sogenannten „Colliding Beam“ Experimenten werden in einem 26.7 Kilometer langen, unterirdischen Ringtunnel die erzeugten Protonen gegenläufig auf nahezu Lichtgeschwindigkeit beschleunigt und zur Kollision gebracht.
Dabei entstehen eine Milliarde Kollisionen pro Sekunde und es fallen circa ein Petabyte (dies entspricht 1015 Bytes) Daten pro Sekunde an!
Heute ist noch kein Computersystem der Welt fähig, diese unglaublich grossen Datenmengen in Echtzeit aufzuzeichnen, deshalb müssen die Daten vor der Speicherung gefiltert werden, wobei noch immer ein Petabyte an Daten täglich anfällt [23].
Damit man sich diese unglaublichen Datenmengen vorstellen, zähle ich hier ein paar Beispiele von Speichergrössen und dazugehörigen Grössenordnungen auf:
Beispiele zur Grössenordnung von Daten
Mit meinem allerersten Personal Computer aka PC im Jahr 1987 konnte ich maximal 360 Kilobyte Daten auf einer Floppy-Disk mit einem Durchmesser von 5.25 Zoll speichern - für all jene, die sich daran erinnern mögen: dies war die Grösse einer analogen Single-Schallplatte.
Die schon längst wieder aus der Mode gekommene Compact Disk aka CD aus dem Jahr 1982 konnte bereits 650 Megabyte an Daten aufnehmen und ein Gigabyte lässt sich auf zwei (2) CDs gut abspeichern. Ein Terabyte Daten entspricht 1.000 Gigabytes und für diese Datenmenge benötigt man über 1.500 CDs zur Speicherung.
Dahingegen entspricht ein Petabyte Daten bereits 1.000 Terabyte und erreicht als gestapelter Datenturm aus solchen CDs die stattliche Höhe von 1.850 Metern. Wenn ein Reiskorn ein Byte darstellen würde, dann könnte man mit einem Petabyte die gesamte Insel Manhattan der Stadt New York vollständig mit Reiskörnern bedecken.
Mit heutigem Stand verarbeitet Facebook täglich ungefähr vier (4) Petabyte und der Google-Konzern täglich circa 24 Petabyte an Daten.
«Weltweit wurden im vergangenen Jahr insgesamt 16 Zettabyte an Daten produziert.»
Ein Zettabyte Daten entspricht 1021 Bytes oder 1.000.000 Petabyte. Um eine Vorstellung davon zu bekommen und beim Vergleich mit den Reiskörnern zu bleiben: Mit einem Zettabyte könnte der gesamte pazifische Ozean mit Reis gefüllt werden und 16 Zettabyte würden unseren Mond zu 80 Prozent mit Reis ausfüllen.
Gemäss einer gemeinsamen Studie [24] der International Data Corporation (IDC) mit dem Festplattenhersteller Seagate betrug im Jahr 2018 das gesamte globale Datenaufkommen 33 Zettabytes und wird bis zum Jahr 2025 auf ein weltweites Datenvolumen von 175 Zettabyte ansteigen.
Es sollen zu diesem Zeitpunkt ein Drittel von diesen Daten in Echtzeit aka Real-time verarbeitet werden können. Im Vergleich mit den Reiskörnern ausgedrückt, entspricht dies beinahe neun (9) vollständig mit Reis gefüllten Monden.
Nun könnte man denken, dass die Nutzung von Internet und sozialen Medien durch Privatanwender für diesen rapiden Anstieg verantwortlich sind - aber mitnichten: Waren die Unternehmen laut der Studie im Jahr 2015 noch zu einem Drittel an der weltweiten Datengenerierung beteiligt, wird ihr Anteil in den kommenden Jahren rund 60 Prozent ausmachen und damit die heute dominierenden Privatanwender weit hinter sich lassen.
«Viele Unternehmen haben schon längst mit Big Data zu tun.»
Schon heute haben zahlreiche Unternehmen - allen voran die Finanzdienstleister wie Banken und Versicherungen - eine enorme Menge an Daten und Informationen