Cos'è un data lake?

Un data lake è un repository centralizzato che permette di archiviare tutti i dati strutturati e non su qualsiasi scala. È possibile archiviare i dati così come sono, senza doverli prima strutturare, ed eseguire diversi tipi di analisi dei dati - da pannelli di controllo e visualizzazioni all'elaborazione di Big Data, analisi dei dati in tempo reale e machine learning per prendere decisioni migliori.

Perché serve un data lake?

Le organizzazioni che generano valore aziendale dai loro dati in modo proficuo supereranno i loro simili. Una ricerca di Aberdeen ha rilevato che le organizzazioni che hanno implementato data lake hanno ottenuto il 9% in più dei ricavi rispetto alle imprese di dimensioni simili. Questi leader sono stati in grado di eseguire nuovi tipi di analisi dei dati come machine learning su nuove fonti come i file di log, i dati provenienti dai flussi di clic, i social media e i dispositivi connessi a Internet archiviati nel data lake. Questo li ha aiutati a identificare e agire più velocemente sulle opportunità di crescita del business, attirando e mantenendo i clienti, aumentando la produttività, sottoponendo proattivamente a manutenzione i dispositivi e prendendo decisioni informate.

Data lake vs Data warehouse - due diversi approcci

A seconda dei requisiti, un'organizzazione standard richiederà sia un data warehouse che un data lake, in quanto adempiono a necessità e casi d'uso diversi.

Un data warehouse è un database ottimizzato per analizzare dati relazionali provenienti da sistemi transazionali e applicazioni line of business. La struttura dei dati e lo schema sono definiti preventivamente per ottimizzare le query SQL veloci, in cui i risultati sono utilizzati di solito per il resoconto operativo e l'analisi. I dati vengono riordinati, arricchiti e trasformati in modo da poter agire come "unica fonte di verità" a cui gli utenti possono fare affidamento.

Un data lake è diverso, in quanto archivia dati relazionali da applicazioni line of business, e dati non relazionali da applicazioni per dispositivi mobili, dispositivi IoT e social media. La struttura dei dati o lo schema non sono definiti quando vengono acquisiti i dati. Questo significa che puoi archiviare tutti i dati senza un'attenta progettazione o senza sapere quali domande avranno bisogno di risposte in futuro. Per rilevare informazioni dettagliate, è possibile utilizzare diversi tipi di analisi dei dati su dati come le query SQL, l'analisi dei Big Data, la ricerca di testo completo, l'analisi dei dati in tempo reale e il machine learning.

Man mano che le organizzazioni con data warehouse toccano con mano i vantaggi dei data lake, evolvono il loro warehouse per includere data lake e abilitare diverse funzionalità di query, casi d'uso di Data Science e funzionalità avanzate per scoprire nuovi modelli di informazioni. Gartner definisce questa evoluzione “Data Management Solution for Analytics” o “DMSA” (soluzione di gestione dei dati per l'analisi”.

Caratteristiche	Data warehouse	Data Lake
Dati	Dati relazionali da sistemi transazionali, database operativi e applicazioni line of business	Dati relazionali e non da dispositivi IoT, siti Web, applicazioni per dispositivi mobili, social media e applicazioni aziendali
Schema	Progettato prima dell'implementazione del data warehouse (schema su scrittura)	Scritto al momento dell'analisi (schema su lettura)
Prezzo/prestazioni	Risultati delle query più rapidi utilizzando uno storage di costo superiore	Risultati delle query più rapidi utilizzando un'archiviazione a basso costo
Qualità dei dati	Dati estremamente curati che fungono da fonte primaria di verità	Qualsiasi dato curato e non (ad es. dati non elaborati)
Utenti	Analisti aziendali	Data scientist, sviluppatori di dati e analisti aziendali (utilizzando dati curati)
Analisi dei dati	Resoconto in batch, BI e visualizzazioni	Machine learning, analisi dei dati predittiva, rilevamento dati e profiling

Gli elementi fondamentali di un data lake e di una soluzione di analisi dei dati

Man mano che le organizzazioni costruiscono data lake e una piattaforma di analisi dei dati, devono considerare una serie di funzionalità chiave, tra cui:

Trasferimento dati

I data lake permettono di importare qualsiasi quantità di dati che arrivano in tempo reale. I dati vengono raccolti da più fonti e spostati nel data lake in formato originale. Questo processo permette di dimensionare dati di qualsiasi dimensione, risparmiando il tempo necessario a definire strutture di dati, schemi e trasformazioni.

Archivia e cataloga dati in modo sicuro

I data lake permettono di archiviare dati relazionali come database operativi e dati da applicazioni line of business, e dati non relazionali come applicazioni per dispositivi mobili, dispositivi IoT e social media. Permettono anche di capire quali dati si trovano nel data lake attraverso la ricerca per indicizzazione, la catalogazione e l'indicizzazione dei dati. Infine, bisogna mettere in sicurezza i dati per garantire la protezione delle risorse di dati.

Analisi dei dati

I data lake permettono a vari ruoli nell'organizzazione come data scientist, sviluppatori di dati e analisti aziendali di accedere ai dati scegliendo i propri strumenti analitici e framework. Questo include framework open source come Apache Hadoop, Presto e Apache Spark, e offerte commerciali da fornitori di data warehouse e business intelligence. I data lake permettono di eseguire l'analisi dei dati senza spostarli in un sistema di analisi dei dati separato.

Machine learning

I data lake permetteranno alle organizzazioni di generare diversi tipi di informazioni dettagliate, compreso il resoconto sui dati storici e il machine learning in cui i modelli sono costruiti per prevedere i risultati probabili e suggerire una serie di operazioni necessarie al raggiungimento del miglior risultato.

Il valore di un data lake

La capacità di sfruttare più dati da più fonti in meno tempo e di permettere agli utenti di collaborare e analizzare i dati in modi diversi porta a un processo decisionale migliore e più veloce. Tra gli esempi in cui i data lake hanno valore aggiunto troviamo:

Interazioni migliori con i clienti

Un data lake può combinare i dati dei clienti da una piattaforma CRM con l'analisi dei dati dei social media, una piattaforma di marketing che include la cronologia degli acquisti e i ticket degli incidenti per permettere all'azienda di individuare la coorte di clienti più redditizia, la causa della perdita dei clienti e le promozioni o i premi che ne aumentano la fidelizzazione.

Migliora le scelte di innovazione di Ricerca e Sviluppo

Un data lake può aiutare i team di Ricerca e Sviluppo a testare ipotesi, perfezionarle e valutare risultati, come scegliere i materiali giusti nella progettazione del prodotto per portare a prestazioni più veloci, effettuare la ricerca genomica per ottenere farmaci più efficaci o comprendere la disponibilità dei clienti a pagare diversi attributi.

Migliora l'efficienza operativa

L'Internet of Things (IoT) introduce vari modi per raccogliere dati su processi come la produzione, con dati in tempo reale provenienti da dispositivi connessi a Internet. Un data lake semplifica l'archiviazione e l'esecuzione di analisi dei dati IoT generati dalla macchina per scoprire modi per ridurre i costi operativi e aumentare la qualità.

Le sfide dei data lake

La sfida principale con un'architettura dei data lake consiste nel fatto che i dati non elaborati sono archiviati senza alcuna supervisione dei contenuti. Affinché un data lake renda i dati utilizzabili, deve avere dei meccanismi specifici per catalogare e proteggere i dati. Senza questi elementi non è possibile trovare i dati o reputarli affidabili; in questo caso, potremmo essere di fronte a una "palude di dati". Soddisfare le esigenze di una clientela più ampia implica che i data lake debbano avere governance, coerenza semantica e controlli di accesso.

Implementare data lake nel cloud

I data lake sono un carico di lavoro ideale da implementare nel cloud perché il cloud fornisce prestazioni, scalabilità, affidabilità, disponibilità, una serie diversificata di motori analitici e imponenti economie di scala. La ricerca ESG ha rilevato che il 39% degli intervistati considera il cloud l'implementazione primaria per l'analisi dei dati, il 41% per i data warehouse e il 43% per Spark. Le ragioni principali per cui i clienti hanno percepito il cloud come un vantaggio per i data lake sono una migliore sicurezza, tempi più rapidi per l'implementazione, migliore disponibilità, aggiornamenti più frequenti di caratteristiche/funzionalità, maggiore elasticità, maggiore copertura geografica e costi legati all'utilizzo effettivo.

Costruisci un data lake nel cloud su AWS

AWS offre il portfolio di servizi più sicuro, scalabile, completo ed economicamente vantaggioso, che consente ai clienti di costruire data lake nel cloud, analizzarne tutti i dati, inclusi quelli provenienti dai dispositivi IoT, con una varietà di approcci analitici che includono il machine learning. Pertanto, ci sono più organizzazioni che eseguono data lake e analisi dei dati su AWS che altrove, vantando clienti come NETFLIX, Zillow, NASDAQ, Yelp, iRobot e FINRA, che si affidano ad AWS per eseguire carichi di lavoro critici di analisi dei dati. Ulteriori informazioni.

Più risorse sul data lake

Ulteriori informazioni dagli analisti di settore sui data lake.

Nozioni di base su AWS

Registrati per creare un account AWS

Ottieni accesso istantaneo al piano gratuito di AWS

Crea un data lake sicuro in pochi giorni

Leggi la sezione AWS Lake Formation

Inizia a lavorare con AWS

Leggi la sezione Implementare data lake su AWS

Cos'è un data lake?

Archivia tutti i dati in un unico repository centralizzato su qualsiasi scala