KI braucht saubere Daten: Wie Unternehmen das Datenmanagement in den Griff bekommen

Sascha Hempe ist Vertriebsprofi mit 18 Jahren Erfahrung in der Technologie- und Softwarebranche. Seit Juli 2021 ist er als Regional Sales Manager bei Datadobi für die Umsetzung strategischer Vertriebsinitiativen und den Aufbau starker Kundenbeziehungen in der Region verantwortlich und trägt maßgeblich zum Unternehmenswachstum bei.

Über drei Viertel aller Unternehmen nutzen inzwischen künstliche Intelligenz (KI). Bei der Implementierung heißt es jedoch einige mögliche Fallstricke zu vermeiden. Besonders beim Datenmanagement zeigt sich schnell: Eine KI ist nur so gut wie die Daten, die mit denen sie gefüttert wird.

Immer häufiger kommt künstliche Intelligenz (KI) im Geschäftsalltag zum Einsatz. Zwischen 2018 und 2023 lag die Implementierungsquote in Unternehmen noch bei rund 50 Prozent. Inzwischen schätzt McKinsey in einer kürzlich veröffentlichten Studie, dass 78 Prozent der Unternehmen in mindestens einem ihrer Geschäftsbereiche KI nutzen – derzeit meist in Form von generativer KI (GenAI). Tendenz steigend, mit entsprechend großen Erwartungen an Kosteneinsparungen, Leistungssteigerungen und mehr Umsatz.

Damit die Implementierung im Unternehmen auch den gewünschten Erfolg bringt, gilt es allerdings einige Klippen zu umschiffen. Vor allem ein mangelhaftes Datenmanagement kann große Probleme mit sich bringen. Denn der Output eines KI-Tools ist grundsätzlich nur so gut wie die Qualität der Daten, die eingespeist werden. Viele Unternehmen haben Schwierigkeiten, ihre Daten entsprechend aufzubereiten und bereitzustellen sowie eine gute Daten-Governance umzusetzen. Denn Unternehmen müssen heute enorme Datenmengen verwalten. Dass ein Großteil ihrer Daten in unstrukturierter Form vorliegt, etwa als Video- und Audioaufzeichungen, E-Mails oder in Textdokumenten, erschwert das Datenmanagement noch erheblich: Schätzungen zufolge machen solche unstrukturierten Daten heute zwischen 80 und 90 Prozent des gesamten anfallenden Datenvolumens in Unternehmen aus.

Das Prinzip „Garbage in, Garbage out“

In der Datenverarbeitung gibt es einen altbekannte Grundsatz: „Garbage in, Garbage out“ (wo Schrott reingegeben wird, kommt auch Schrott raus). Er verdeutlicht, wie unerlässlich eine sorgfältige Datenverwaltung und -aufbereitung ist. Large Language Models (LLMs) etwa müssen mit Daten trainiert werden, um Muster zu erlernen, und sind dabei auf umfangreiche Datensätze angewiesen. Je aktueller, aussagekräftiger und unverzerrter die Daten sind, desto besser das Endergebnis.

Unternehmen, die die richtigen Daten zum Trainieren oder Erweitern einer KI finden wollen, müssen dazu oft erst Millionen von Dateien durchsuchen – mit dem entsprechenden Aufwand und nicht immer mit dem gewünschten Erfolg. Oder sie tun sich schwer, ihre in Data Lakes gespeicherten Daten in qualitativ hochwertige Datensätze zu verwandeln. Egal, welches Potenzial in den Unternehmensdaten steckt: Ein mangelhaftes Datenmanagement kann nicht nur die KI-Performance deutlich beeinträchtigen. Unsaubere Daten können auch dazu führen, dass die Ergebnisse verzerrt oder im schlimmsten Fall völlig unbrauchbar sind.

Ein Ansatz für das Datenmanagement

Die erste Voraussetzung, um die wachsenden unstrukturierten Datenmengen in den Griff zu bekommen, ist, den Überblick darüber zu gewinnen, welche Daten wo im Unternehmen gespeichert sind. Sind die Daten noch aktuell, sind sie vollständig und relevant? Diese Transparenz ist nötig, um zu entscheiden, welche Daten einen potenziellen Wert in KI-gestützten Geschäftsanwendungen haben.

Anschließend müssen die Daten entsprechend gekennzeichnet und so organisiert werden, dass sie nicht für den aktuellen Einsatz bereitstehen, sondern auch in zukünftigen KI-Anwendungen einen Mehrwert bringen. Das heißt: Datenwissenschaftler müssen schnell die besten Daten identifizieren können, um ihre KI-Modelle optimal zu trainieren und zuverlässige Ergebnisse zu erzielen.

Untermauert werden muss all dies von effektiver Daten-Governance, also mit klar definierten Richtlinien und Prozessen zur gesetzeskonformen Speicherung, Dokumentation und Verwaltung der Daten. Dazu gehören auch die Durchführung von Daten-Audits und eine kontinuierliche Optimierung des Datenmanagements. Der Einsatz unstrukturierter Daten kann zudem Sicherheits- und Compliancerisiken mit sich bringen. Eine gut durchdachte Datenmanagement-Strategie kann diese Risiken aber deutlich reduzieren.

Ordnung ins Datenchaos bringen

Das Management unstrukturierter Daten war noch bis vor Kurzem ein hochkomplexes Thema, weil es an geeigneten Lösungen mangelte. Um ihre steigenden Datenfluten zu bewältigen, blieb vielen Firmen nichts anders übrig, als in immer größere Speicherkapazitäten zu investieren. Das ist jedoch langfristig kein Ausweg, vor allem angesichts der Anforderungen, die der KI-Einsatz mit sich bringt. Anstatt ihre Speicherinfrastruktur immer weiter auszubauen, sollten Unternehmen nach Plattformen suchen, die ein solides Datenmanagement erlauben.

Mit solchen Plattformen lässt sich auch das Thema Datenfragmentierung in den Griff bekommen – also die Tatsache, dass Daten oft über verschiedene Unternehmens- und Speicherstandorte verteilt sind. Mit der Möglichkeit, alle Daten zu lokalisieren und in logisch zusammenhängende Gruppen zu organisieren, ist der Weg frei für eine umfassende Datenanalyse und Berichterstattung.

Intelligente Datenmanagement-Lösungen helfen daneben, Herausforderungen bezüglich der Datenqualität zu meistern. Indem sie für Transparenz in Bezug auf wichtige Datenattribute wie Alter, Verantwortlichkeiten, Zuständigkeiten und Datentypen sorgen, machen sie sichtbar, welche Daten relevant, gültig oder schon obsolet sind. Damit können Unternehmen besser informierte Entscheidungen etwa dazu treffen, welche Daten gelöscht oder archiviert werden können – und wo Daten aufbewahrt werden sollen, die für KI-Anwendungen zugänglich sein müssen.

Gutes Datenmanagement hat zahlreiche Vorteile

Fortschrittliche Datenmanagement-Lösungen sind schon speziell für das Management unstrukturierter Daten ausgelegt. Sie helfen, Ordnung ins Datenchaos zu bringen und dabei Compliance-Anforderungen gerecht zu werden. Unternehmen können mit Hilfe dieser Plattformen Frameworks für die Daten-Governance einrichten, Datenschutzmaßnahmen zuverlässig umsetzen und Datenintegrationen verwalten. Mit einem besseren Verständnis der Datennutzungsmuster lässt sich zudem die Datenspeicherung und der Datenzugriff optimieren, was auch Kosten spart. Kurz: Ein solches umfassendes Datenmanagement hilft Unternehmen, das Potenzial ihrer Daten voll auszuschöpfen.

Auch bei immer weiter wachsenden Datenmengen behalten Unternehmen so die Kontrolle über ihre Daten und profitieren von maximaler Datentransparenz selbst in hybriden Umgebungen. Das heißt, sie können die benötigten Daten nicht nur in kürzester Zeit auffinden und abrufen, sondern auch sicherstellen, dass die in KI-Anwendungen genutzten Daten korrekt, aktuell und relevant sind. Denn nur wenn die richtigen Daten zur richtigen Zeit am richtigen Ort sind, lassen sich unterm Strich die Geschäftserfolge erzielen, die sich so viele Unternehmen von künstlicher Intelligenz erhoffen.

Und die Implementierung einer Datenmanagement-Lösung kann noch einen weiteren positiven Nebeneffekt haben: Weil teamübergreifende Dateneinblicke eine einheitliche Plattform für die Datenanalyse schaffen, verbessert sich die Zusammenarbeit über unterschiedliche Unternehmensbereiche hinweg. Teams können datengestützte Projekte besser koordinieren, gemeinsame Innovationen vorantreiben und insgesamt produktiver arbeiten.

Ein durchdachtes Datenmanagement und die passende Technologie helfen dabei, die kritische Lücke zu schließen, die entsteht, wenn Teams KI-Modelle mit hochwertigen Daten trainieren möchten, jedoch nur auf unstrukturierte und wenig aussagekräftige Rohdaten zugreifen können. Optimalerweise ermöglicht eine moderne Datenmanagement-Plattform das reibungslose, sichere und effiziente Verschieben, Organisieren und Absichern von Daten – selbst in komplexen, heterogenen Speicherlandschaften – und schafft damit die zentrale Grundlage für den erfolgreichen Einsatz künstlicher Intelligenz. Für Unternehmen, die auf eine Zukunft setzen, in der GenAI sämtliche Bereiche von der strategischen Planung bis zur operativen Entscheidungsfindung prägt, ist eine solche belastbare Datenbasis unverzichtbar.