Big Data as a Service ed architetture dati ibride

 

Grazie al cloud computing ed alla Rete è oggi possibile mettere a disposizione dei clienti varie tipologie di servizi, inclusi quelli destinati all’analisi di ingenti quantità di dati. E’ il termine Big Data, che forse avrete sentito nominare distrattamente in qualche servizio televisivo, ad indicare una serie di workload inerenti la raccolta, archiviazione e studio di dati provenienti da preziose fonti come i social network o i sensori intelligenti.

I principali cloud provider sono fermamente convinti che le imprese debbano trasferire il 100% della loro infrastruttura nel cloud (vedi AWS) ma per buona parte di esse questa soluzione non è praticabile (limiti di budget, assenza di personale con adeguate skill etc.).

Un’opzione teoricamente più abbordabile è invece quella delle architetture dati ibride che vede il potenziamento di infrastrutture on premise con rinnovate capacità d’analisi e risorse aggiuntive – fornite naturalmente dal cloud. Big Data ed archivio dei dati nella nuvola, sebbene lontani dalla complessità di una migrazione completa nel cloud, si rivelano comunque impegnativi da gestire: i cloud database e servizi di data warehousing vari devono essere infatti integrati nei sistemi aziendali, un compito non alla portata di tutti.

Le aziende di lungo corso, che secondo gli “evangelisti” del cloud dovrebbero ottenere maggiori vantaggi dal suo impiego, si trovano così in un vicolo cieco ed a fronteggiare problematiche varie. La situazione è frustrante non solo per gli addetti ai lavori ma anche per i “piani alti” che non riescono a fornire ai propri dipendenti delle infrastrutture adeguate:

“ci sono voluti circa 8 mesi per creare il nostro nuovo ambiente di data werehousing nel cloud. Abbiamo assoldato [uno specialista], formato personale adeguato ed interpellato alcuni consulenti. Adesso è finalmente online ma utilizzarla è quasi come accedere ad una stazione spaziale. Spostarvi i dati ed utilizzarli richiede un certo impegno. Il cloud non rappresenta ancora un elemento [cardine] del nostro business e non è stato ancora in grado di farci risparmiare. Abbiamo iniziato a malapena ad utilizzarlo” ha dichiarato un CIO al portale The Next Platform.

A fronte di quanto detto è allora chiaro quale sia l’obiettivo dei provider che dispongono in portfolio di soluzioni Big Data as a Service (BDaaS), quello di semplificare la vita delle aziende sollevandole dall’onere dell’integrazione e delle problematiche annesse.

BDaaS: definizione, caratteristiche, errate convizioni

I servizi BDaaS si appoggiano a varie tecnologie studiate per il processamento in parallelo di ingenti quantità di dati come Spark, SQL ed Hadoop. Alla base dei BDaaS troviamo come già detto il processamento dei dati e la possibilità di effettuare analisi varie. In certi casi ci si riferisce ad alcuni provider con l’espressione “Hadoop as a Service” o “Spark as a Service” ma gli engine messi a disposizione del cliente sono vari. In tutti i casi ad influire sul costo finale sono le modalità di configurazione e provisioning della tecnologia adoperata dal provider. Ottimizzare i servizi nel cloud è infatti impegnativo per via dei frequenti cambiamenti che avvengono nel mondo della nuvola e della tecnologia.

L’offerta BDaaS è attualmente in espansione ed è costituita, afferma Gartner, da un’insieme di componenti di piattaforme d’analisi dati nel cloud, engine di processazione multipli, integrazione ibrida on premise. I clienti li utilizzano solitamente per machine learning, data warehouse, data mart, data lake (un archivio di dati “grezzi” in attesa di essere elaborati). I cosidetti data scientist, data engineer e professionisti del data werehousing possono sfruttarli a proprio vantaggio per supportare programmi di analisi dati e business intelligence.

In linea di massima i servizi BDaaS sono tutti nel cloud ma non presentano le medesime caratteristiche. Alcuni si appoggiano a note infrastrutture cloud pubbliche come Azure, AWS, Cloud Platform mentre altri sono eseguiti negli ambienti cloud privati dei provider. I BDaaS possono essere inoltre single-tenant ed essere eseguiti da server dedicati. D’altra parte niente vieta di renderli disponibili a più utenti (multi-tenant) che andranno quindi a condividere la medesima infrastruttura server (con tutte le problematiche di sicurezza del caso). I vendor possono infine optare per il supporto a più piattaforme cloud pubbliche e/o permettere ai clienti di spostare i workload tra differenti ambienti cloud o direttamente on premise.

Trattandosi di un segmento di mercato relativamente nuovo non mancano errate convinzioni sui BDaaS: a volte sono confusi con i “data as a service”; potenziali acquirenti pensano che i vendor mettano a disposizione dei dataset,  altri si aspettano di trovare invece dei report e delle analisi pronte all’uso. E’ invece bene tenere a mente che i provider BDaaS si focalizzano solitamente sulla piattaforma adibita al processamento dei dati, senza interessarsi alla tipologia di analisi da effettuare ed alle “domande” da porre al sistema. I BDaaS sono quindi pensati per analisti e partner strategici che sanno già muoversi con dimestichezza nell’ambiente e che riusciranno ad ottenere in modo più celere i risultati auspicati.