Big Data: Ratgeber [Update: 2022]

Daten sind überall.

Wir erzeugen Daten in unseren Apps und im Internet, und Maschinen erzeugen Daten durch Sensoren.

Kurzum: Täglich werden riesige Mengen an Daten erzeugt.

Diese Daten werden als „Big Data“ bezeichnet.

Big Data Markt

Wir haben diesen Ratgeber erstellt, um Ihnen eine Vorstellung davon zu geben, was Big Data wirklich ist und wie Sie Big-Data-Lösungen gewinnbringend anwenden können.

Shortcuts

Big Data: Definition

Big Data ist eine Kombination aus strukturierten, halbstrukturierten und unstrukturierten Daten.

Big Data wird meistens anhand von fünf Dimensionen beschrieben – den fünf „Vs“: Volume, Velocity, Variety, Veracity & Value.

Ziel von Big-Data-Lösungen ist es, nach Informationen zu suchen, die tiefere Einblicke ermöglichen, und so letztendlich besseren Entscheidungen fördern.

 

Big Data: Fünf Dimensionen

Volume (Volumen)

„Volume“ steht für die Datenmengen, die wir jeden Tag erschaffen und abspeichern. 

Hierbei handelt es sich um Fotos, Videos, Mails, Texte uvm.

Da immer neue Datenquellen erschaffen werden, gehen Experten davon aus, dass die weltweite Datenmenge weiter exponentiell wachsen wird.

Bis 2025 sollen die jährlich generierte Datenmenge sogar auf insgesamt 25 Millionen Zetabyte anwachsen!

Velocity (Geschwindigkeit)

„Velocity“ steht für die große Geschwindigkeit, mit der Daten erzeugt, übertragen und verarbeitet werden.

Alleine in 2020 wurden 306,4 Milliarden Mails verschickt – fast 10,000 Mails pro Sekunde!

Das kontinuierliche Sammeln, Speichern, Aktualisieren und Analysieren von neu generierten Daten stellt nach wie vor Organisationen vor eine große Herausforderung.

Variety (Vielfalt)

„Variety“ steht für die große Vielfalt an Datenquellen und Formaten.

Jede Information, die gesammelt werden kann, kann einen Wettbewerbs- bzw. Kostenvorteil bedeuten.

Genau deshalb versuchen Organisationen zunehmend, Daten in verschiedenen Formaten aus möglichst vielen verschiedenen Quellen zu sammeln, speichern, aktualisieren und analysieren.

Veracity (Richtigkeit)

„Veracity“ steht für die hohen Qualitätsunterschiede, die bei Daten auftreten.

Dadurch, dass so viele Daten gesammelt werden, werden nicht nur Daten mit guter Qualität, sondern auch Daten mit schlechter Qualität, gesammelt.

Eine schlechte Qualität zeichnet sich durch mangelhafte, fehlerhafte oder veraltete Daten aus.

Eine schlechte Datenqualität ist insofern gravierend, als dass sie Auswertungen und Analysen verzerren können, was wiederum zu schlechten Entscheidungen führen kann.

Schlechte Datenqualität kostet allein die US-Wirtschaft US$ 3 Billionen – jedes Jahr.

Value (Wert)

„Value“ ist die neueste, aber gleichzeitig wohl auch wichtigste Dimension.

Häufig verfügen Organisationen über riesige Datenmengen, wissen aber nicht, wie sie diese gewinnbringend nutzen können.

Mit Value als Dimension bekommen sie ein Gefühl dafür, wie wertvoll ihre Daten tatsächlich sind.

Das erlaubt ihnen, den Wert ihrer Daten besser abzuschöpfen.

Big Data 5 V Volume (Volumen) Velocity (Geschwindigkeit) Variety (Vielfalt) Veracity (Richtigkeit) Value (Wert)

Big Data: Datenstruktur

Bei Big Data geht es darum, möglichst viele Daten zu speichern, zu verwerten und dann gewinnbringend einzusetzen.

Dafür werden Daten in drei Kategorien eingeteilt: Strukturierte Daten, unstrukturierte Daten und halbstrukturierte Daten.

Strukturierte Daten

Wenn Sie sich eine klassische Kundendatenbank oder Verkaufsdatenbank vorstellt, dann handelt es sich dabei meistens um strukturierte Daten.

Daten in Kundendatenbank oder Verkaufsdatenbank werden nämlich in eine vorgegebene Struktur eingegeben.

Das erlaubt Anwendern, diese Daten für bestimmte Zwecke einfach und optimal zu nutzen.

Zum Beispiel, um anhand einer Kreditkartennummer weitere Kundeninformationen einzusehen.

Der Nachteil an strukturierten Daten ist, dass sie sehr unflexibel sind und große Mengen an Speicherkapazitäten benötigen.

Unstrukturierte Daten

Unstrukturierte Daten stehen für die gigantischen Datenmenge, die Organisationen jeden Tag ansammeln, ohne diese unmittelbar zu verwerten.

Dazu gehören E-Mails, Social-Media-Posts, Fotos, Videos, Prozessabläufe und vieles mehr.

Unstrukturierte Daten können flexibel und situationsbedingt ausgewertet werden – was die benötigte Speicherkapazität verringert.

Der Nachteil ist, dass Sie Expertenwissen und spezielle Software benötigt, um unstrukturierte Daten auszuwerten.

Halbsrukturierte Daten

Halbstrukturierte Daten haben keinen strengen strukturellen Rahmen, weisen aber einige strukturelle Eigenschaften auf.

Das reicht jedoch nicht aus, um sie in relationalen Datenbanken zu organisieren.

Bei E-Mails zum Beispiel handelt es sich um halbstrukturierte Daten.

Absender, Empfänger, Betreff, Datum usw. sind strukturelle Eigenschaften, der Inhalt der E-Mails ist jedoch gänzlich unstrukturiert und passt in keinen strengen strukturellen Rahmen.

Big Data: Software

Analytik

MATLAB

MATLAB stammt vom US-Unternehmen MathWorks und ist vor allem für numerische Berechnungen mithilfe von Matrizen ausgelegt.

Daher stammt auch der Name der Software: MATrix LABoratory.

Qlik Sense

Qlik Sense ist aktuell einer der benutzerfreundlichsten Anwendungen für Analysen.

Das moderne und intuitive Interface ermöglicht das schnelle und einfache Verwerten von Daten im Business-Kontext.

Alteryx

Auch Alteryx ist eine sehr einfach zu bedienende Software, die ohne Expertenwissen ein Arbeiten mit Big Data ermöglicht.

Darüber hinaus ist Alteryx für seine vielfältigen Individualisierungsmöglichkeiten bekannt.

Google BigQuery

Google BigQuery wurde, im Gegensatz zu anderen Google Produkten, nicht für die Visualisierung, sondern gezielt für das Durchsuchen riesiger Datenmengen entwickelt.

Auch Abfragen von Daten im Peta-Bereich sind für Google BigQuery kein Problem.

Azure Databricks

Azure Databricks ist, wie der Name schon vermuten lässt, eine Analyse-Software für Microsoft Azure.

Die Entwickler von Apache Spark waren auch an der der Entwicklung von Azure Databricks beteiligt – weshalb die Software naturgemäß auf Apache Spark aufsetzt.

Verarbeitung & Distribution

Snowflake

Mit Snowflake können alle wichtigen Data-Workloads über eine einzige Plattform verwaltet werden.

Die Software zeichnet sich dadurch aus, dass sie Compute und Storage trennt.

Das erlaubt ein automatisches skalieren, wodurch die richtige Balance zwischen Leistung und Kosten stets gefunden werden kann.

Qubole

Qubole wurde von Ashish Thusoo, Apache-Hive-Schöpfer und ehemaligen Leiter des Dateninfrastruktur-Teams bei Facebook, gegründet.

Die Software bietet seit langem eine Self-Service-Plattform, die es Data Scientists und Entwicklern ermöglicht, ihre Workflows in der Public Cloud ihrer Wahl abzubilden.

Die Plattform basiert auf Open-Source-Technologien wie z. B. Apache Spark, Presto und Kafka.

Amazon EMR

Amazon Elastic MapReduce (EMR) ist eine gemanagte Cluster-Plattform.

Die Software ist auf die Ausführung von Big-Data-Frameworks wie Apache Hadoop und Apache Spark spezialisiert.

So können beispielsweise Datenmengen über ein Hadoop-Cluster aus virtuellen Servern – bestehend aus Amazon Elastic Compute Cloud (EC2) und Amazon Simple Storage Service (S3) – verarbeitet und analysiert werden.

Google BigQuery

Google BigQuery ist Teil der umfassenden Datenanalyse-Plattform von Google Cloud.

Mit mit der Software können Organisationen und Entwickler Business Insights aus riesigen Datenmengen gewinnen – in Echtzeit.

Der Zugriff erfolgt über eine Anwenderschnittstelle oder REST API.

SQL (Microsoft Big Data Cluster)

Kürzlich hat Microsoft eine neue Architektur vorgestellt: Big Data Clusters.

Die Technologie setzt sich zusammen aus SQL Server 2019, Apache Spark und Hadoop Distributed File System (HDFS).

Big Data Clusters hilft Organisationen dabei, Datensilos zu beseitigen, indem sowohl strukturierte als auch unstrukturierte Daten über den gesamten Datenbestand hinweg kombiniert und intelligent ausgewertet werden.

Event Stream Processing

Apache Kafka

Apache Kafka ist ein verteiltes Publish-Subscribe-Messaging-System, das Daten von unterschiedlichen Quellsystemen empfängt.

Diese Daten wiederum werden anderen Zielsystemen in Echtzeit zur Verfügung gestellt.

Die Lösung wurde von LinkedIn entwickelt ist vor allem aufgrund seiner unglaublichen Performance und für seine niedrige Latenz bekannt und beliebt.

Confluent

Confluent kommt von den Machern von Apache Kafka.

Das Unternehmen dahinter wurde erste 2014 gegründet, gehört bereits jetzt zu den Big-Data-Stars.

Confluent macht es leichter, Apache Kafka zu erstellen und zu betreiben.

Zudem wird bei Confluent besonders darauf geachtet, dass die Sicherheit der Streams gewährleistet wird.

Aiven für Apache Kafka

Der Aufbau, das Testen und die Wartung eines eigenen Kafka-Clusters bindet Ressourcen, die anderweitig genutzt werden sollten.

Genau deshalb wurde Aiven entwickelt.

Aiven setzt auf Apache Kafka auf und gilt als eine der fortschrittlichsten Event-Streaming-Plattformen im Markt.

Die Lösung übernimmt nicht nur das komplette Management der Workloads, sondern kann auch in einer Public Cloud Ihrer Wahl – z. B. Amazon Web Services (AWS), Microsoft Azure oder Google Cloud – gehostet werden.

Amazon Kenesis

Amazon Kinesis ist in der Lage, Hunderte von Terabytes pro Stunde aus großen Mengen von Streaming-Daten zu verarbeiten.

Zu den erfassbaren Daten zählen Telemetriedaten von IoT-Devices, Anwendungsdaten oder Video- und Audiodaten.

Die Verarbeitung der Daten erfolgt in Echtzeit – welches die Entwicklung von Apps mit Echtzeit-Features ermöglicht.

Laut Experten schließt Amazon Kinesis somit eine von Hadoop und anderen Technologien hinterlassene Lücke.

Google Cloud Dataflow

Dataflow von Google ist ein Datenverarbeitungsdienst für Batch- und Echtzeitdaten.

Der Dienst basiert teilweise auf MillWheel und FlumeJava, Software-Frameworks die von Google entwickelt wurden.

Dataflow ist auf die Aufnahme und Verarbeitung großer Datenmengen bei niedrigen Latenzen ausgerichtet.

Das ist möglich, da die Lösung Aufgabenschritte verschlankt und vereinfacht.

Big Data Software

Big Data: Vorteile

Advanced Analytics

Mit Big-Data-Lösungen können Daten besser ausgewertet werden, was detailliertere Analysen ermöglicht. 

So können Strategien noch schneller entwickelt und in Echtzeit optimiert werden.

Das steigert vor allem die Agilität in Ihrer Organisationen.

Wettbewerbsvorteile

Dank Big-Data-Lösungen stehen Informationen früher und umfangreicher zur Verfügung, was zu schnelleren und besseren Entscheidungen führt.

Diese Einblicke geben Organisationen natürlich einen großen Wettbewerbsvorteil gegenüber solchen, die Big-Data-Lösungen nicht nutzen.

In der hyperkompetitiven Wirtschaft von heute sind Technologien wie Big-Data-Lösungen somit von einem unmessbaren Wert.

Kostensenkungen

Immer mehr Organisationen setzen auf Big-Data-Lösungen um ihre Kosten zu senken.

Das liegt daran, dass Big-Data-Lösungen gut darin sind, versteckte Muster von Verschwendung oder Misswirtschaft aufzudecken.

So können Probleme frühzeitig erkannt und mögliche Kostenfallen vermieden werden.

Umsatzsteigerungen

Die korrekte Datennutzung wirkt sich in 62 % der Organisationen positiv auf das Geschäftsergebnis aus.

Laut Oracle geben sogar 69 % der Organisationen an, dass eine Investition in Big-Data-Lösungen zu Umsatzsteigerungen geführt hat.

Splunk geht davon aus, dass die organisationsweite Rentabilität im Durchschnitt um 12,5 % steigt, wenn eine Datenstrategie umgesetzt wird, die greift.

Kundenerlebnisse

Einer der wichtigsten Gründe für die Verwendung von Big-Data-Lösungen ist das Schaffen besserer Kundenerlebnisse.

Als Datenquellen dienen hier Umfragen, Anrufprotokolle, Kommentare in sozialen Medien – praktisch jeder Austausch zwischen einer Organisation und ihren Kunden.

Mit Big-Data-Lösungen können diese Daten in Echtzeit analysiert und ausgewertet werden, um Produkt und Services zu optimieren, die in der Lage sind, das Kundenerlebnis noch weiter zu verbessern.

Big Data Vorteile

Big Data: Herausforderungen

Fachkräftemangel

Wie in vielen IT-Bereichen sind hochqualifizierte Fachkräfte auch im Big-Data-Bereich Mangelware.

Der Fachkräftemangel war in den letzten Jahren eines der Haupthindernisse und wird auch weiterhin eine echte Herausforderung bleiben.

Datenqualität

Durch das sammeln von riesige Datenmenge kommt es zwangsläufig zu Qualitätsunterschieden, was die Daten betrifft.

Das führt nicht nur zu einem hohen Verwaltungsaufwand, sondern auch dazu, dass Analyseergebnisse gegebenenfalls ein verzerrtes Bild darstellen.

Compliance

Für viele Organisationen ist Big Data eine unwahrscheinlich große Compliance-Herausforderung.

Denn bei all den gespeicherten Daten ist natürlich ein ethischer und gesetzeskonformer Umgang extrem wichtig.

Durch die Einführung der DSGVO wurde diese Komplexität nochmal gesteigert.

Security-Risiken

Die gigantischen Daten-Pools, auf die Big-Data-Lösungen zurückgreifen, sind natürlich auch ein attraktives Ziel für Hacker – besonders wenn es sich um sensible Daten handelt.

Deshalb werden intelligente Cyber-Security-Lösungen immer wichtiger, um Cyberkriminellen das Handwerk zu legen (hier entlang für mehr zum Thema Cyber Security).

Datensilos

Datensilos sind immer ein Problem.

Wenn nämlich nur ein kleiner Teil der vorhandenen Daten zur Verfügung steht, kann ein falsches Lagebild vermittelt werden.

Ist das der Fall, sind schwerwiegenden Fehleinschätzungen möglich, die Ihre Organisationen negativ beeinflussen können.

Big Data Herausforderungen

Big Data: Trends & Ausblick

Internet der Dinge (IdD)

Beim Internet der Dinge (IdD) werden riesige Mengen an maschinell erzeugten Daten aus einer Vielzahl von Sensoren aggregiert und komprimiert.

Diese Daten werden meistens für Echtzeit-Anwendungen genutzt (Stichwort: Edge Computing).

In 2022 und darüber hinaus werden diese Daten jedoch auch zunehmend mithilfe von Big-Data-Lösungen bearbeitet, um dynamische Analysemodelle zu erstellen.

Maschinelles Lernen (ML)

Weltweit wachsen Datenbanken immer schneller.

Maschinelles Lernen (ML) funktioniert besser, umso mehr Daten zur Verfügung stehen.

Organisationen setzen deshalb zunehmend auf ML, um ihre Daten auszuwerten.

Dieser Trend wird sich auch in 2022 weiter fortsetzen.

Augmented Analytics

Augmented Analytics automatisiert die Bearbeitung von Big Data durch den Einsatz von ML und Natural Language Processing (maschinelle Verarbeitung natürlicher Sprache).

Somit können nicht nur mehr Daten in einer kürzeren Zeit bearbeitet werden, sondern auch Analysen schneller und zuverlässiger erstellt werden.

Organisationen, die Augmented Analytics bereits in 2022 erfolgreich einsetzen, haben einen klaren Wettbewerbsvorteil.

Continuous Intelligence

Bei Continuous Intelligence geht es darum, alle zur Verfügung stehenden historischen und Echtzeit-Daten kontinuierlich und automatisiert auszuwerten.

Dieser hochfrequentierter Kreislauf ermöglicht es, Muster noch schneller zu entdecken, um so herauszufinden, was genau in den Daten von Wert ist.

Studien gehen davon aus, dass 2022 mehr als die Hälfte aller Organisationen Continuous Intelligence nutzen wird.

Chief Data Officers (CDOs)

Die Rolle des Chief Data Officer (CDO) ist noch relativ neu.

Chief Data Officers sind für alles zuständig, was mit Daten zu tun hat – für das Sammeln und Speichern, genauso wie für die Auswertung und Sicherheit.

Da immer mehr Organisationen verstehen, dass Daten wertvoll sind, wird der CDO immer mehr zur Schlüsselfigur.

Big Data Trends

Fazit

Daten sind überall.

Wir erzeugen Daten in unseren Apps und im Internet, und Maschinen erzeugen Daten durch Sensoren.

Kurzum: Täglich werden riesige Mengen an Daten erzeugt.

Diese Daten werden als „Big Data“ bezeichnet.

Big-Data-Lösungen bieten Ihnen viele Vorteile – von Advanced Analytics bis zu besseren Kundenerlebnissen.

Diese Vorteile profitieren von Big-Data-Trends wie das Internet der Dinge (IdD), Maschinelles Lernen, Augmented Analytics und Continuous Intelligence.

Dennoch sollten Sie auch die Herausforderungen im Auge behalten, die Big Data mit sich bringt.

Ungeachtet dessen wird Big Data in 2022 und darüber hinaus eine tragende Rolle für viele Organisationen spielen.

Sie können Daten ohne Informationen haben, aber Sie können keine Informationen ohne Daten haben.

Wir haben Ihr Interesse geweckt? 

Hier finden Sie weitere Technologie-Ratgeber!

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Jonathan Gurirab
Jonathan Gurirab
IT-Verantwortliche haben den schwersten Job der Welt. Als Chief Change Officers sind sie nämlich maßgeblich an der digitalen Transformation in ihren Organisationen beteiligt. Trotzdem werden sie täglich von Bugs in ihren IT-Landschaften, Besprechungen oder Marketing-E-Mails aufgehalten, obwohl sie sich mit neuen IT-Lösungen auseinandersetzen müssten. Die Beschreibungen dieser Lösungen sind jedoch oft schwer verständlich, technisch überladen oder gehen im Marketing-Jargon unter. Das macht es für IT-Verantwortliche extrem schwierig, die Vorteile und Nutzen dieser Lösungen nachzuvollziehen. Genau deshalb habe ich TECH/EDGE etabliert. TECH/EDGE ist eine Plattform, über die komplexe Technologien ausführlich und vor allem verständlich präsentiert werden. Das ermöglicht Ihnen einen schnellen Überblick und versetzt Sie in die Lage, stets die richtige Lösung für Ihre Organisation zu finden und einzusetzen.
Hat Ihnen der Beitrag gefallen?

Verpassen Sie nicht unseren nächsten!

Neue Beiträge
DAS KÖNNTE SIE AUCH INTERESSIEREN