Was ist ein Data Lake?

Ein Data Lake ist ein zentrales Repository, in dem Sie alle strukturierten und unstrukturierten Daten in beliebigem Umfang speichern können. Sie können Ihre Daten im Ist-Zustand speichern, ohne sie erst strukturieren zu müssen, und können verschiedene Arten von Analysen durchführen – von Dashboards und Visualisierungen bis hin zu Big-Data-Verarbeitung, Echtzeitanalysen und Machine Learning – und damit bessere Entscheidungen treffen.

Warum brauchen Sie einen Data Lake?

Unternehmen, die aus ihren Daten erfolgreich einen Unternehmenswert gewinnen, haben ihren Mitbewerber etwas voraus. Einer Aberdeen-Umfrage zufolge konnten Unternehmen, die Data Lake implementierten, ein um 9 % höheres organisches Umsatzwachstum verzeichnen als ähnliche Unternehmen. Diese führenden Unternehmen konnten neue Arten von Analysen wie Machine Learning über im Data Lake gespeicherte neue Quellen wie Protokolldateien, Daten aus Click-Streams, sozialen Medien und mit dem Internet verbundenen Geräten durchführen. Auf diese Weise konnten sie Chancen für geschäftliches Wachstum schneller erkennen und nutzen – durch Gewinnung und Bindung von Kunden, Steigerung der Produktivität, proaktive Wartung von Geräten und fundierte Entscheidungen.

Data Lakes im Vergleich zu Data Warehouses – zwei unterschiedliche Ansätze

Je nach Anforderungen benötigt ein typisches Unternehmen sowohl ein Data Warehouse als auch einen Data Lake, weil diese auf unterschiedliche Bedürfnisse und Anwendungsfälle abzielen.

Ein Data Warehouse ist eine Datenbank, die für die Analyse relationaler Daten aus Transaktionssystemen und Geschäftsanwendungen optimiert ist. Die Datenstruktur und das Schema werden im Voraus definiert und für schnelle SQL-Abfragen optimiert, deren Ergebnisse in der Regel für operative Berichte und Analysen genutzt werden. Die Daten werden bereinigt, angereichert und umgewandelt, so dass sie als „Single Source of Truth“ fungieren können, der die Benutzer vertrauen können.

Ein Data Lake ist anders, denn er speichert relationale Daten aus Geschäftsanwendungen und nicht-relationale Daten aus mobilen Apps, IoT-Geräten und sozialen Medien. Die Struktur der Daten oder des Schemas wird bei der Datenerfassung nicht definiert. Das bedeutet, dass Sie alle Ihre Daten speichern können, ohne Sie sorgfältig planen oder wissen zu müssen, auf welche Fragen Sie in Zukunft Antworten benötigen. Anhand verschiedener Arten von Datenanalysen wie SQL-Abfragen, Big-Data-Analysen, Volltextsuche, Echtzeitanalysen und Machine Learning lassen sich Erkenntnisse gewinnen.

Da Unternehmen mit Data Warehouses die Vorteile von Data Lakes erkennen, entwickeln sie ihr Warehouse weiter, um Data Lakes einzubeziehen und verschiedene Abfragemöglichkeiten, Data-Science-Anwendungsfälle und erweiterte Funktionen zum Entdecken neuer Informationsmodelle zu ermöglichen. Gartner bezeichnet diese Entwicklung als „Data Management Solution for Analytics“ oder „DMSA“.

Merkmale	Data Warehouse	Data Lake
Daten	Relationale Daten aus Transaktionssystemen, Betriebsdatenbanken und Geschäftsanwendungen	Nicht-relationale und relationale Daten aus IoT-Geräten, Websites, mobilen Apps, sozialen Medien und Unternehmensanwendungen
Schema	Wird vor der Implementierung des Data Warehouse entwickelt (Schema-on-Write)	Wird zum Zeitpunkt der Analyse geschrieben (Schema-on-Read)
Preis/Leistung	Schnellste Abfrageergebnisse mit teurerem Speicher	Schnellere Abfrageergebnisse mit günstigem Speicher
Datenqualität	Sorgfältig kuratierte Daten, die als zentrale Version der Wahrheit gelten	Jegliche Daten, ob kuratiert oder nicht (z. B. Rohdaten)
Benutzer	Geschäftsanalysten	Datenwissenschaftler, Datenentwickler und Geschäftsanalysten (Verwendung kuratierter Daten)
Analytik	Batch-Berichte, BI und Visualisierungen	Machine Learning, prädiktive Analysen, Datenermittlung und -profilierung

Die wesentlichen Elemente einer Data-Lake- und Analytik-Lösung

Bei der Entwicklung von Data Lakes und einer Analytikplattform müssen Unternehmen eine Reihe zentraler Funktionen berücksichtigen:

Datenübermittlung

Data Lakes ermöglichen den Import beliebiger Datenmengen, die in Echtzeit anfallen können. Die Daten werden aus verschiedenen Quellen erfasst und in ihrem ursprünglichen Format in den Data Lake übertragen. Dieser Prozess ermöglicht die Skalierung auf Daten beliebiger Größe und spart gleichzeitig Zeit bei der Definition von Datenstrukturen, Schemata und Transformationen.

Sichere Speicherung und Katalogisierung von Daten

In Data Lakes können Sie relationale Daten wie Betriebsdatenbanken und Daten aus Geschäftsanwendungen sowie nicht-relationale Daten aus mobilen Apps, IoT-Geräten und sozialen Medien speichern. Durch Crawling, Katalogisierung und Indexierung von Daten können Sie außerdem nachvollziehen, welche Daten sich im Data Lake befinden. Schließlich müssen die Daten gesichert werden, um zu gewährleisten, dass Ihre Datenbestände geschützt sind.

Analytik

Data Lakes erlauben verschiedenen Rollen in Ihrem Unternehmen wie Datenwissenschaftlern, Datenentwicklern und Geschäftsanalysten den Zugriff auf Daten mit Analysetools und Frameworks ihrer Wahl. Dazu gehören Open-Source-Frameworks wie Apache Hadoop, Presto und Apache Spark sowie kommerzielle Angebote von Data-Warehouse- und Business-Intelligence-Anbietern. Data Lakes ermöglichen Ihnen die Durchführung von Analysen, ohne dass Sie Ihre Daten in ein separates Analysesystem bringen müssen.

Machine Learning

Data Lakes ermöglichen Unternehmen verschiedene Arten von Erkenntnissen, wie Berichte über historische Daten, und Machine Learning, bei dem Modelle erstellt werden, um wahrscheinliche Ergebnisse vorherzusagen, sowie das Vorschlagen einer Reihe vorgegebener Maßnahmen zum Erzielen des optimalen Ergebnisses.

Der Wert eines Data Lakes

Die Möglichkeit, in kürzerer Zeit mehr Daten aus mehr Quellen zu nutzen und die Benutzer in die Lage zu versetzen, zusammenzuarbeiten und die Daten auf verschiedene Weise zu analysieren, führt zu einer besseren und schnelleren Entscheidungsfindung. Beispiele für den Mehrwert von Data Lakes:

Vebesserte Kundeninteraktionen

Ein Data Lake kann Kundendaten aus einer CRM-Plattform mit Social-Media-Analysen, einer Marketingplattform mit Kaufhistorie und Vorfallstickets kombinieren, damit das Unternehmen die profitabelste Kundschaft, die Ursache für Kundenabwanderung und die Werbeaktionen oder Belohnungen, die die Loyalität erhöhen, erkennen kann.

Verbesserung der F&E-Innovationsentscheidungen

Ein Data Lake kann Ihren F&E-Teams das Testen ihrer Hypothesen, Verfeinern von Annahmen und Auswerten von Ergebnissen erleichtern – z. B. bei der Auswahl der richtigen Materialien für Ihr Produktdesign, die eine schnellere Leistung ergeben, bei der Genomforschung, die wirksamere Medikamente hervorbringt, oder beim Verständnis der Bereitschaft von Kunden, für verschiedene Eigenschaften zu zahlen.

Erhöhen der betrieblichen Effizienz

Durch das Internet der Dinge (Internet of Things, IoT) bieten sich mehr Möglichkeiten zur Erfassung von Daten über Prozesse wie die Fertigung, wobei die Daten in Echtzeit von über das Internet verbundenen Geräten kommen. Ein Data Lake erleichtert das Speichern und Ausführen von Analysen auf maschinell erzeugten IoT-Daten, wodurch sich Möglichkeiten zur Senkung der Betriebskosten und zur Steigerung der Qualität ermitteln lassen.

Die Herausforderungen von Data Lakes

Die größte Herausforderung bei einer Data-Lake-Architektur besteht darin, dass Rohdaten ohne Überblick über den Inhalt gespeichert werden. Damit ein Data Lake Daten nutzbar machen kann, muss er über definierte Mechanismen zur Katalogisierung und Sicherung von Daten verfügen. Ohne diese Elemente kann man keine Daten finden oder ihnen vertrauen, was zu einem „Datensumpf“ führt. Um den Anforderungen eines größeren Personenkreises gerecht zu werden, müssen Data Lakes über Governance, semantische Konsistenz und Zugriffskontrollen verfügen.

Bereitstellung von Data Lakes in der Cloud

Data Lakes eignen sich ideal für die Bereitstellung in der Cloud, da die Cloud Leistung, Skalierbarkeit, Zuverlässigkeit, Verfügbarkeit, eine Vielzahl von Analyse-Engines und massive Einsparungen bietet. Eine ESG-Studie ergab, dass 39 % der Befragten die Cloud als primären Einsatzort für Analysen in Betracht ziehen, 41 % für Data Warehouses und 43 % für Spark. Die wichtigsten Gründe, warum Kunden die Cloud als vorteilhaft für Data Lakes wahrnehmen, sind bessere Sicherheit, kürzere Bereitstellungszeiten, bessere Verfügbarkeit, häufigere Aktualisierungen von Funktionen, größere Elastizität, größere geografische Abdeckung und an die tatsächliche Nutzung gebundene Kosten.

Erstellen Ihrer Data Lakes in der Cloud auf AWS

AWS stellt das sicherste, skalierbarste, umfassendste und kostengünstigste Service-Portfolio bereit, das Kunden nutzen können, um ihren Data Lake in der Cloud zu erstellen und alle ihre Daten, darunter auch Daten auf IoT-Geräten, mit zahlreichen analytischen Ansätzen, z. B. Machine Learning, zu analysieren. Infolgedessen betreiben mehr Unternehmen ihre Data Lakes und Analysen auf AWS als irgendwo sonst. Kunden wie NETFLIX, Zillow, NASDAQ, Yelp, iRobot und FINRA vertrauen bei der Ausführung ihrer geschäftskritischen Analyse-Workloads auf AWS. Weitere Informationen.

Mehr Ressourcen zu Data Lakes

Erfahren Sie von Branchenanalysten mehr über Data Lakes.

Erste Schritte mit AWS

Registrieren Sie sich für ein AWS-Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent

Entwicklung eines sicheren Data Lakes in wenigen Tagen

Lesen Sie mehr über AWS Lake Formation

Einstieg in die Entwicklung mit AWS

Lesen Sie mehr über die Bereitstellung von Data Lakes auf AWS

Was ist ein Data Lake?

Speichern aller Ihrer Daten in einem zentralen Repository in beliebigem Umfang