Data lake: memorizzate i vostri dati senza affogare in questo lago di dati

Da Roberta Salzano • Il 14 novembre 2020

Indice

In un momento in cui la quantità di informazioni generate da un'azienda può crescere dal 50 al 150% da un anno all'altro, ha senso volerle sfruttare al meglio e trarne il massimo vantaggio.

Le infrastrutture e le architetture necessarie per la gestione dei Big Data rimandano ancora molte aziende, soprattutto quello che spesso viene definito il suo cuore: il Data Lake.

Cos'è un data lake? Qual è la differenza con un data warehouse? Quali soluzioni per il data lake dovrei scegliere? Le risposte nell'articolo.

Cos'è un data lake? Definizione

Un data lake può essere definito prima di tutto come un serbatoio di dati grezzi, marginalmente qualificati, in forma strutturata o non strutturata. Questi dati possono essere :

estrazioni da database relazionali
immagini
PDF
flussi o eventi da applicazioni aziendali
file CSV semi-strutturati o log, ecc.

Perché utilizzare un data lake? Vantaggi di un Data Lake

La prima missione del data lake sarà l'ingestione in massa di questi dati grezzi per preservarne la cronologia per le esigenze future:

analisi dell'evoluzione comportamentale (di un cliente o di un'applicazione)
IA predittiva o motore di apprendimento della macchina
o più pragmaticamente la monetizzazione di queste informazioni a nuovi partner

Oltre a questa caratteristica principale, ci sono anche criteri importanti come :

la strutturazione per renderla navigabile ed evitare la palude di dati
l’elasticità che gli permetterà di crescere (e in teoria di diminuire) ad alta velocità in termini di capacità di memorizzazione e di calcolo
la sicurezza garantendo il corretto utilizzo dei dati

Data lake, Data Warehouse: qual è la differenza?

A differenza della Data Lake, l'obiettivo primario del Data Warehouse è quello di ottenere dati raffinati per un'esigenza precisa e ricorrente, che richiede forti prestazioni di aggregazione e consente di servire la reportistica, l'analisi e talvolta nuove applicazioni aziendali.

Ma, con un costo per terabyte memorizzato più di 10 volte superiore, il Data Warehouse ha raggiunto i suoi limiti come pietra angolare dei dati in azienda.

Come si fa ad avere il meglio di entrambi i mondi?

Quali soluzioni di data lake dovrebbero essere prese in considerazione?

Molte grandi aziende, avendo investito molto nel loro data warehouse, hanno preso la decisione di effettuare una transizione fluida verso il data lake, con una soluzione on-premise e un set di strumenti personalizzati per gestirlo.

Una soluzione è come il Data Lake Hadoop.

L’Apache Foundation ha fornito il framework Hadoop open-source, il cuore della capacità del data lake di ingerire storage di massa attraverso la parallelizzazione e la distribuzione del processo di storage.

Questo quadro è arricchito da molti strumenti open source che hanno reso accessibile l'implementazione del data lake:

Kafka per l'ingestione,
Yarn per la distribuzione delle risorse,
Spark per un'elaborazione ad alte prestazioni,
MongoDB come database NoSQL,
ElasticSearch e Kibana per l'indicizzazione e la restituzione dei contenuti,
e altri strumenti (database grafici, auditing, sicurezza) che stanno emergendo e talvolta scompaiono man mano .

Talvolta, la molteplicità di strumenti e la possibilità di creare un ambiente ultra-personalizzato può portare a costi di proprietà molto elevati, soprattutto se si è scommesso su una tecnologia dal futuro incerto.

È quindi logico preferire soluzioni confezionate come Cloudera, che ha assorbito Hortonworks e ha mantenuto una distribuzione open source, ma naturalmente offre un modello a pagamento meglio supportato.

Una forte partnership con IBM mira a fornire forti soluzioni on-premise.

MapR, che è stata rilevata nel 2019 da Hewlett Packard Enterprise, sarà integrata in HPE GreenLake, una soluzione cloud progettata per competere con i giganti Amazon, Microsoft, Google e Oracle, che stanno moltiplicando le partnership, le acquisizioni e i nuovi sviluppi per costruire piattaforme cloud in grado di competere con i migliori strumenti di analisi dei dati on-premise.

Una soluzione cloud come AWS o Azure data lake

Amazon AWS, Microsoft Azure, Microsoft Azure, Google Big Query o Oracle Cloud Infrastructure Data Flow, integrano tutti strumenti più o meno efficaci per la gestione dei dati (migrazione, lignaggio, monitoraggio), analisi (trasformazione in tempo reale, aggregazione, analisi classica o modelli AI), ma questa volta nel cloud.

Il grande vantaggio del Cloud condiviso è che mette da parte il problema dell'hardware, che può diventare rapidamente un grattacapo quando si prevede una forte crescita dei dati.

Tuttavia, la nuvola scomposta ha mostrato alcuni limiti nei casi di hacking di massa. La Private Cloud di IBM offre la garanzia dell'integrità dei vostri dati (proprietà industriale, contratti riservati, ecc.) e la soluzione Azure Stack offre una versione on premise dei principali strumenti di Microsoft sul campo.

Anche Teradata, un altro leader mondiale nel settore del data warehousing, ha iniziato la sua transizione verso una soluzione cloud nella speranza di riconquistare una base di clienti offuscata dai costi dei suoi potenti server on premise.

Le sfide di una buona Data Governance

Tutte le soluzioni hanno i loro vantaggi e svantaggi. Non dovete quindi perdere di vista gli impegni della vostra azienda nei confronti dei suoi clienti (RGPD, segreto industriale o professionale) e ponderarli con questa ricerca di elasticità, che può rappresentare un costo strutturale e umano significativo.

La valutazione di questo equilibrio deve far parte del lavoro primordiale di governance dei dati, che deve definire e strutturare il data lake e quindi :

fornire un quadro umano, tecnico e tecnologico per gli ingegneri dei dati che gestiranno quotidianamente terabyte di dati.
facilitare il lavoro di indagine degli scienziati dei dati per i loro motori di IA e Machine Learning
consentire agli utenti di rintracciare e convalidare le loro fonti per garantire i risultati delle loro analisi.

Questa governance vi permetterà di cogliere le reali esigenze del vostro core business, autorizzando al contempo un più ampio sfruttamento dei dati. L'obiettivo è di

far emergere nuovi usi e una nuova comprensione dei dati,
portare ai vostri clienti i vantaggi di una maggiore reattività e persino di un'anticipazione in tutta sicurezza.

Una buona governance può portare a architetture complesse a prima vista, ma che possono anche farvi risparmiare sia tecnicamente che finanziariamente.

La scelta della mesh di dati per una transizione di grande successo dei dati

Quindi, se il data lake impone la sua utilità, non necessariamente farà scomparire le altre strutture di gestione dei dati: dalla palude di dati a monte, al data warehouse e ai datamarts a valle, al dialogo di molte di queste strutture in un contesto internazionale, una buona governance dei dati può, al contrario, permettere di ampliare la gamma di strumenti.

Promuovendo il dialogo tra questi elementi di memorizzazione ed elaborazione dei dati, l'azienda ne trarrà il massimo vantaggio:

i sistemi storici ritenuti indispensabili e affidabili continueranno il loro lavoro
potrà sfruttare i vantaggi del data lake per, ad esempio, l'archiviazione di dati freddi, la messa in sicurezza delle fonti grezze che consentono un migliore controllo e possibili recuperi, ecc.
questa rete di dati, nel quadro di una forte governance, impedirà a un'azienda di rovinare un sistema esistente lanciando una migrazione "all data lake" o addirittura "all cloud", a volte poco pratica e spesso inadatta.

La rete di dati sarà quindi una garanzia di accettazione e di successo nella transizione ai Big Data.

Articolo adattato dalla versione orginale di Laurent Hercé sulla versione francese di Appvizer

Dopo aver completato gli studi di management, è arrivata in stage ad Appvizer nel gennaio 2019. Inizialmente ha assunto il ruolo di Country Manager Italia per poi passare a quello di International Growth Manager. Grazie alla sua passione per il marketing digitale, oggi ricopre il ruolo di Marketing Manager.

Expertise: SEO, SEA, Marketing Automation, Lead Generation, UX, Product Marketing, Comunicazione
Education: Università degli Studi di Pavia
Published works and citations: Perché i tuoi clienti non aprono le tue email? (Semrush, 2019)