Was ist Big Data? Eine Definition, einfach erklärt.

Der Begriff Big Data ist in aller Munde und wird häufig verwendet, aber was genau bedeutet er? Wir erklären Ihnen hier die Definition von Big Data auf einfache Weise, damit Sie verstehen, wie Big Data funktioniert und wie sie genutzt werden können.

Was ist Big Data?

Um Big Data wirklich zu verstehen, ist es hilfreich, den historischen Hintergrund zu kennen. Die folgende Definition stammt von Gartner aus dem Jahr 2001, die immer noch die gängigste Begriffserklärung ist:

Big Data sind Daten, die eine größere Vielfalt enthalten und in immer größeren Mengen und mit immer höherer Geschwindigkeit anfallen.

Dies ist bekannt als „die drei Vs.“ – „Volume“, „Velocity“ und „Variety“

Einfach ausgedrückt: Big Data sind größere, komplexere Datensätze, insbesondere aus neuen Datenquellen. Diese Datensätze sind so voluminös, dass herkömmliche Datenverarbeitungssoftware sie einfach nicht verwalten kann. Doch diese riesigen Datenmengen können zur Bewältigung von Geschäftsproblemen verwendet werden, die Sie vorher nicht hätten bewältigen können.

Erklärung Begriff "Big-Data"

Die drei Vs von Big Data erklärt

Volume (Menge des Datenbestandes)

Die Menge der Daten ist wichtig. Bei Big Data müssen Sie große Mengen unstrukturierter Daten geringer Dichte verarbeiten. Dabei kann es sich um Daten von unbekanntem Wert handeln, wie z.B. Twitter-Datenfeeds, Daten durch Traffic auf einer Webseite oder einer mobilen Anwendung oder sensoraktivierte Geräte, wie beim Internet der Dinge oder Themen der Industrie 4.0. Hierbei kann es sich um Dutzende von Terabyte oder um Hunderte von Petabytes an Daten handeln.

Velocity (Geschwindigkeit in der Daten anfallen, gesammelt und verarbeitet werden)

Die „Velocity“ ist die Geschwindigkeit, mit der Daten empfangen und verarbeitet werden. In der Regel strömt die höchste Geschwindigkeit von Daten direkt in schnelle Arbeitsspeicher und wird nicht erst auf Festplatten geschrieben. Einige internetfähige intelligente Daten sammelnde Software oder Geräte liefern Daten in Echtzeit und erfordern sehr schnelle Echtzeitauswertung und Echtzeitaktionen.

Variety (Datenvielfalt)

Die „Variety“ bezieht sich auf die vielen Arten von Daten, die zur Verfügung stehen. Herkömmliche Datentypen waren strukturiert und passten gut in eine relationale Datenbank. Mit dem Aufkommen von Big Data kommen Daten in neuen unstrukturierten Datentypen. Unstrukturierte und halbstrukturierte Datentypen, wie Text, Audio und Video, erfordern zusätzliche Vorverarbeitung, um deren Bedeutung zu verstehen und Metadaten zu generieren, um die Verwaltung und Analyse der Daten zu vereinfachen.

Data Science: Die intelligente Nutzung von Big Data

Datenwissenschaftler Oliver Bracht von der eoda GmbH über Die intelligente Nutzung von Big Data, über Data Mining und Anwendungsszenarien für Big Data

Big Data – Wert und Wahrheit

Das Sammeln und die Verarbeitung von Big Data hat sich natürlich stets weiterentwickelt. So haben sich in den letzten Jahren zwei weitere Vs herauskristallisiert: „Value“ und „Veracity„. Wert und Wahrheit.

Daten haben einen immanenten Wert. Aber sie nützen nichts, solange dieser Wert nicht entdeckt wird. Ebenso wichtig ist: Wie wahrheitsgetreu sind Ihre Daten – und wie sehr können Sie sich auf sie verlassen?

Immanenz bezeichnet das in den Dingen Enthaltene, das sich aus ihrer individuellen und objektiven Existenzweise ergibt. Es ist der Gegenbegriff zur Transzendenz. Das Adjektiv immanent bezeichnet eine einem Gegenstand innewohnende Eigenschaft, die somit nicht durch Folgerung oder Interpretation hergeleitet worden ist.

Heute ist Big Data zu einem Kapital geworden, das nicht mehr wegzudenken ist. Denken Sie an die größten Technologieunternehmen der Welt – ein großer Teil ihres Marktwertes, den sie bieten, kommt von den Daten, die sie ständig sammeln und analysieren, um mehr Effizienz zu erzeugen und neue Produkte zu entwickeln.

Jüngste technologische Durchbrüche haben die Kosten für die Speicherung und Berechnung von großen Datenmengen exponentiell gesenkt, sodass es einfacher und kostengünstiger ist, mehr Daten als je zuvor zu speichern. Da ein größeres Volumen an Big Data nun billiger und leichter zugänglich ist, können Sie genauere und präzisere Geschäftsentscheidungen treffen oder bessere Produkte entwickeln.

Bei der Suche nach dem Wert von Big Data geht es nicht nur um deren Analyse. Es ist ein ganzer Entdeckungsprozess, der aufschlussreiche Analysten, Business-Anwender und Führungskräfte erfordert, die die richtigen Fragen stellen, Muster erkennen, fundierte Annahmen treffen und Verhalten vorhersagen können, um den Wert ihrer Datenschätze zu erkennen.

Die Geschichte von Big Data

Obwohl das Konzept der Big Data selbst relativ neu ist, reichen die Ursprünge großer Datensätze bis in die 1960er und 70er Jahre zurück, als die Datenwelt mit den ersten Datenzentren und der Entwicklung der relationalen Datenbank gerade erst begonnen hatte.

Um das Jahr 2005 herum begann man sich bewusst zu werden, wie viele Daten die Benutzer über Facebook, YouTube und andere Online-Dienste generierten. Im selben Jahr wurde Hadoop (ein Open-Source-Framework, das speziell zur Speicherung und Analyse großer Datensätze geschaffen wurde) entwickelt. In dieser Zeit begann auch NoSQL an Popularität zu gewinnen.

Hadoop von Apache ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google Inc. sowie auf Vorschlägen des Google-Dateisystems und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen auf Computerclustern durchzuführen.

Die Entwicklung von Open-Source-Frameworks wie Hadoop (und in jüngerer Zeit Spark) war für das Wachstum großer Datenmengen unerlässlich, da sie die Arbeit mit großen Datenmengen einfacher und die Speicherung billiger machten. In den Jahren ist das Volumen großer Daten sprunghaft angestiegen. Benutzer erzeugen immer mehr riesige Datenmengen – aber es sind nicht nur Menschen, die diese Daten erzeugen.

Mit dem Aufkommen des Internets der Dinge (Internet of Things, IoT) sind immer mehr Objekte und Geräte mit dem Internet verbunden und sammeln Daten über das Nutzungsverhalten von Kunden und die Leistung von Produkten. Das Aufkommen des maschinellen Lernens hat noch mehr Daten hervorgebracht.

Big Data hat es zwar schon weit gebracht, aber der wirkliche große Nutzen von Big Data steht noch am Anfang. Cloud Computing hat die Möglichkeiten für Big Data noch weiter erweitert. Die Cloud bietet eine wirklich elastische Skalierbarkeit, bei der Entwickler Ad-hoc-Cluster einfach aufbauen können, um zumindest eine Teilmenge von großen Datenmengen zu analysieren.

Vorteile von Big Data und Datenanalyse

  • Big Data ermöglicht es Ihnen, ausführlichere Antworten zu bekommen, weil Sie mehr Informationen haben.
  • Ausführlichere Antworten bedeuten mehr Vertrauen in die Daten – was einen völlig anderen Ansatz zur Lösung von Problemen bedeutet.

Predictive Maintenance: Big-Data in der Industrie

Anwendungsfälle für Big Data

Big Data kann Ihnen bei einer Reihe von geschäftlichen Aktivitäten helfen – von Kundenerfahrungen bis hin zu Analysen. Die hier sind nur einige davon.

Produktentwicklung

Unternehmen wie Netflix und Procter & Gamble verwenden Big Data, um die Kundennachfrage zu prognostizieren. Sie erstellen Prognosemodelle für neue Produkte und Dienstleistungen, indem sie Schlüsselmerkmale vergangener und aktueller Produkte oder Dienstleistungen klassifizieren und die Beziehung zwischen diesen Merkmalen und dem kommerziellen Erfolg der Angebote modellieren.

Procter & Gamble nutzt zum Beispiel Daten und Analysen von ihren Zielgruppen, aus sozialen Medien, Testmärkten und frühen Markteinführungen, um neue Produkte zu planen, zu produzieren und auf den Markt zu bringen.

Predictive Maintenance (Vorbeugende Instandhaltung)

Für die Industrie sind Faktoren, die mechanische Ausfälle von Maschinen und Anlagen vorhersagen können, tief in strukturierten Daten vergraben – das Jahr, die Marke und das Modell der Ausrüstung, sowie Maschinen- und Anlagenteile. Aber auch in unstrukturierten Daten, die Millionen von Protokolleinträgen, Sensordaten, Fehlermeldungen und Motortemperatur umfassen.

Durch die Analyse dieser Daten auf potenzielle Probleme, bevor die Probleme auftreten, können Unternehmen die Wartung ihrer Maschinen und Anlagen kosteneffektiver durchführen und die Betriebszeit von Teilen und Geräten maximieren.

Kundenzufriedenheit

Eine klarere Sicht auf das Kundenerlebnis ist heute mehr als je zuvor möglich. Mit Big Data können Sie Daten aus Social Media, Webbesuchen, Anrufprotokollen und anderen Quellen sammeln, um das Kundenerlebnis zu verbessern und den gebotenen Wert zu maximieren.

Beginnen Sie mit der Bereitstellung personalisierter Angebote, reduzieren Sie die Kundenabwanderung und gehen Sie proaktiv mit Problemen um.

Betrugsprävention und Einhaltung von Vorschriften

Sicherheitslösungen und Compliance-Anforderungen entwickeln sich ständig weiter. Big Data hilft Ihnen dabei, Muster in Daten zu erkennen, die auf Betrug hindeuten, und große Informationsmengen zu aggregieren, um gesetzliche Rahmenbedingungen einzuhalten.

Maschinelles Lernen

Maschinelles Lernen ist im Moment ein heißes Thema. Und Daten – insbesondere Big Data – sind einer der Gründe dafür. Wir sind jetzt in der Lage, Maschinen zu trainieren, anstatt sie zu programmieren. Die Verfügbarkeit von Big Data für das Training von computergestützten Lernmodellen macht dies möglich.

Operative Effizienz

Operative Effizienz ist vielleicht nicht immer in aller Munde, aber es ist ein Bereich, in dem Big Data die größte Wirkung hat. Mit Big Data können Sie die Produktion, das Kundenfeedback und die Retouren im E-Commerce sowie andere Faktoren analysieren und bewerten, um Ausfälle zu reduzieren und zukünftige Anforderungen vorauszusehen.

Big Data kann zudem dazu verwendet werden, die Entscheidungsfindung entsprechend der aktuellen Marktnachfrage zu verbessern.

Innovation vorantreiben

Mit Big Data können Sie innovativ sein, indem Sie die Abhängigkeiten zwischen Menschen, Institutionen, Entitäten und Prozessen untersuchen und dann neue Wege zur Nutzung dieser Erkenntnisse bestimmen.

Nutzen Sie Datenerkenntnisse, um Entscheidungen über Finanz- und Planungsüberlegungen zu verbessern. Untersuchen Sie Trends und welche Kunden neue Produkte und Dienstleistungen wünschen. Implementieren Sie eine dynamische Preisgestaltung. Es gibt so viele Möglichkeiten.

Big Data – die Herausforderungen

Big Data ist zwar vielversprechend, aber nicht ohne Herausforderungen.

Erstens: Big Data ist groß! Obwohl neue Technologien zur Datenspeicherung ständig entwickelt werden, verdoppeln sich die Datenmengen etwa alle zwei Jahre. Unternehmen haben immer noch Mühe, mit ihren Daten Schritt zu halten und Wege zu finden, sie effektiv zu speichern.

Doch es reicht nicht aus, die Daten einfach nur zu speichern. Daten müssen genutzt werden, um wertvoll zu sein, und das hängt von der Aufbereitung ab. Bereinigte Daten oder Daten, die für den Kunden relevant und so organisiert sind, dass eine sinnvolle Analyse möglich ist, erfordern viel Arbeit. Datenwissenschaftler verbringen 50 bis 80 Prozent ihrer Zeit damit, Daten zu kuratieren und vorzubereiten, bevor sie tatsächlich verwendet werden können.

Die Big Data Technologie entwickelt sich in rasantem Tempo. Noch vor einigen Jahren war Apache Hadoop die populäre Technologie zur Verarbeitung großer Daten. Im Jahr 2014 wurde dann Apache Spark eingeführt. Heute scheint eine Kombination der beiden Frameworks der beste Ansatz zu sein. Mit der Technologie für große Datenmengen Schritt zu halten, ist eine ständige Herausforderung.

Apache Spark ist ein Framework für Cluster Computing, das im Rahmen eines Forschungsprojekts am AMPLab der University of California in Berkeley entstand und seit 2010 unter einer Open-Source-Lizenz öffentlich verfügbar ist.

Wie Big Data funktioniert

Mit Big Data erhalten Sie neue Einblicke, die Ihnen neue Möglichkeiten und Geschäftsmodelle eröffnen. Der Einstieg umfasst drei Schlüsselaktionen:

Integrieren

Big Data führt Daten aus vielen verschiedenen Quellen und Anwendungen zusammen. Herkömmliche Datenintegrationsmechanismen wie ETL (Extrahieren, Transformieren und Laden) sind dieser Aufgabe im Allgemeinen nicht gewachsen. Es erfordert neue Strategien und Technologien zur Analyse großer Datensätze im Terabyte- oder sogar Petabyte-Bereich.

Während der Integration müssen Sie die Daten erfassen, verarbeiten und sicherstellen, dass sie in einer Form formatiert und verfügbar sind, mit der Ihre Geschäftsanalysten starten können.

Verwalten

Big Data erfordert Speicherplatz. Ihre Speicherlösung kann in der Cloud, vor Ort oder beides sein. Sie können Ihre Daten in jeder beliebigen Form speichern und Ihre gewünschten Anforderungen an die Verarbeitung und erforderlichen Prozessmaschinerie auf Abruf in diese Datensätze einbringen.

Viele Unternehmen wählen ihre Speicherlösung danach, wo sich ihre Daten derzeit befinden. Die Cloud gewinnt allmählich an Popularität, da sie Ihre aktuellen Rechenanforderungen unterstützt und es Ihnen ermöglicht, Ressourcen nach Bedarf aufzustocken.

Analyse

Ihre Investition in Big Data zahlt sich aus, wenn Sie Ihre Daten analysieren und darauf reagieren. Gewinnen Sie neue Erkenntnisse durch eine visuelle Analyse Ihrer vielfältigen Datensätze. Untersuchen Sie die Daten weiter, um neue Erkenntnisse zu gewinnen. Teilen Sie Ihre Erkenntnisse mit anderen. Erstellen Sie Datenmodelle mit maschinellem Lernen und künstlicher Intelligenz. Setzen Sie Ihre Erkenntnisse aus den Daten in die Tat um.

Erfolgreiche Vorgehensweisen bei Big Data

Um Sie auf Ihrer Reise durch Big Data zu unterstützen, habe ich für Sie einige wichtige „Best Practices“ auf oracle.com gefunden, die Sie im Auge behalten sollten. Die Folgenden sind Empfehlungen für den Aufbau einer erfolgreichen Big Data Basis.

Big Data auf spezifische Geschäftsziele ausrichten

Umfangreichere Datensätze ermöglichen es Ihnen, neue Erkenntnisse zu gewinnen. Zu diesem Zweck ist es wichtig, neue Investitionen in Fähigkeiten, Organisation oder Infrastruktur mit einem stark geschäftsgetriebenen Kontext zu untermauern, um laufende Projektinvestitionen und Finanzierungen zu gewährleisten. Um festzustellen, ob Sie auf dem richtigen Weg sind, fragen Sie sich, wie Big Data Ihre obersten Geschäfts- und IT-Prioritäten unterstützt und fördert.

Beispiele hierfür sind das Verständnis, wie Webprotokolle gefiltert werden können, um das E-Commerce-Verhalten zu verstehen, die Ableitung von Emotionen aus Social Media- und Kundensupport-Interaktionen sowie das Verständnis statistischer Korrelationsmethoden und ihrer Relevanz für Kunden-, Produkt-, Fertigungs- und Konstruktionsdaten.

Den Mangel an qualifizierten Arbeitskräften mit Standards und Führung beheben

Eine der größten Hürden, um von Ihrer Investition in Big Data zu profitieren, ist der Mangel an Fachkräften. Stellen Sie sicher, dass Big Data-Technologien, Überlegungen und Entscheidungen in Ihre IT-Strategie aufgenommen und kommuniziert werden.

Durch die Standardisierung Ihres Ansatzes können Sie Kosten senken und Ressourcen wirksam einsetzen. Unternehmen, die Big Data-Lösungen und -Strategien implementieren, sollten ihre Qualifikationsanforderungen frühzeitig und häufig bewerten und potenzielle Qualifikationslücken proaktiv identifizieren. Diese können durch Schulung/Cross-Training vorhandener Ressourcen, Einstellung neuer Ressourcen und Nutzung von Beratungsunternehmen behoben werden.

Optimieren Sie den Wissenstransfer mit einem Kompetenzzentrum (Center of Excellence)

Nutzen Sie einen Kompetenzzentrum-Ansatz, um Wissen zu teilen, die Leitung zu beaufsichtigen und die Projektkommunikation zu verwalten. Die Nutzung dieses Ansatzes kann dazu beitragen, die Möglichkeiten von Big Data und die allgemeine Entwicklung der Informationsarchitektur auf strukturiertere und systematischere Weise zu verbessern.

Abgleich von unstrukturierten mit strukturierten Daten

Gewinnen Sie größere Geschäftseinblicke, indem Sie große Datenmengen geringer Dichte mit den strukturierten Daten, die Sie heute bereits verwenden, verbinden und integrieren.

Unabhängig davon, ob Sie große Kunden-, Produkt-, Geräte- oder Umweltdaten erfassen, besteht das Ziel darin, Ihren zentralen Stamm- und analytischen Zusammenfassungen mehr relevante Datenpunkte hinzuzufügen, die zu besseren Schlussfolgerungen führen. Es besteht zum Beispiel ein Unterschied darin, die gesamte Kundenzufriedenheit von der Ihrer besten Kunden zu unterscheiden. Aus diesem Grund sehen viele Big Data als eine integrale Erweiterung ihrer bestehenden Business-Intelligence-Funktionen, ihrer Data-Warehousing-Plattform und ihrer Informationsarchitektur.

Denken Sie daran, dass die analytischen Prozesse und Modelle für Big Data sowohl auf Menschen als auch auf Maschinen basieren können. Zu den analytischen Fähigkeiten von Big Data gehören Statistik, räumliche Analyse, Semantik, interaktive Entdeckung und Visualisierung. Mit Hilfe analytischer Modelle können Sie verschiedene Datentypen und -quellen korrelieren, um Assoziationen und sinnvolle Erkenntnisse zu gewinnen.

Schaffen Sie Ihr Forschungslabor für Performancezwecke

Es ist nicht immer einfach, den Wert Ihrer Daten zu erkennen. Manchmal wissen wir nicht einmal, wonach wir suchen müssen. Doch genau das wird erwartet. Management und IT-Abteilung müssen diese „Richtungslosigkeit“ oder „das Fehlen einer klaren Anforderung“ unterstützen können und wollen.

Gleichzeitig ist es für Analysten und Datenwissenschaftler wichtig, eng mit dem Unternehmen zusammenzuarbeiten, um die wichtigsten Wissensdefizite und Anforderungen des Unternehmens zu verstehen.

Um die interaktive Erkundung von Daten und das Experimentieren mit statistischen Algorithmen zu ermöglichen, benötigen Sie leistungsfähige Arbeitsumgebungen. Stellen Sie sicher, dass Sandbox-Umgebungen die erforderliche Unterstützung erhalten und ordnungsgemäß verwaltet werden.

Richten Sie sich an das Cloud-Modell aus

Big-Data-Prozesse und -Benutzer benötigen Zugang zu einer breiten Palette von Ressourcen sowohl für iterative Experimente als auch für laufende Produktionsaufträge.

Eine Big-Data-Lösung umfasst alle Datenbereiche, einschließlich Transaktionen, Stammdaten, Referenzdaten und verdichtete Daten. Analytische Sandboxen sollten bei Bedarf erstellt werden können.

Die Ressourcenverwaltung ist entscheidend, um die Kontrolle des gesamten Datenflusses einschließlich Vor- und Nachbearbeitung, Integration, datenbankinterne Verdichtung und analytische Modellierung zu gewährleisten. Eine gut geplante private- und public-Cloud-Bereitstellungs- und Sicherheitsstrategie spielt eine wesentliche Rolle bei der Unterstützung dieser sich ständig ändernden Anforderungen.

Das könnte Sie auch interessieren

Neu

WerbungKatteb Content AI

Nicht verpassen