L’ottimizzazione dei Big Data: di cosa si tratta?

Qualche tempo fa mi sono imbattuta in un’interessante discussione riguardo al numero di dati che le aziende hanno a disposizione e che spesso non sono in grado nè di gestire, nè di immaginare.

Mi sono quindi chiesta “c’è un modo per le aziende di ottimizzare i dati e trarne vantaggio?”. Girovagando qua e là per il web per conoscere meglio questi grandi dati da cui siamo circondati senza rendercene conto, ho trovato un articolo molto interessante sulla Big Data optimization, che vorrei riportare di seguito in modo che possa chiarire un po’ le idee anche a voi.

Come dice la parola stessa, i Big Data sono una quantità enorme di dati che crescono minuto dopo minuto in maniera esponenziale.

Questa crescita senza controllo porta ad un aumento della difficoltà nella loro gestione, che appunto diventa sempre più complessa sotto diversi punti di vista. Uno di questi, non da trascurare, è l’aumento dei costi di:

  • data warehouse
  • larghezza di banda della rete
  • analisi dei dati (più dati abbiamo a disposizione, più sarà lenta e complessa l’analisi degli stessi).

Proprio per i motivi elencati è necessario ottimizzare i Big Data al fine di accelerare il processo decisionale, perfezionare i processi aziendali e ridurre i costi complessivi associati a un tradizionale data warehouse (ormai quasi obsoleto).

Come ottimizzare i Big Data

Al fine di ottimizzare i Big Data abbiamo bisogno di un sistema che agisca su tre principali fattori:

  • Scalabilità: più aumentano i dati, più il sistema deve poter essere applicabile senza influenze negative su quello già creato;
  • Tolleranza all’errore: Il cluster Hadoop può arrivare ad avere migliaia di macchine, soprattutto in grandi aziende (come ad esempio Eni). Il margine di errore non è inesistente e deve essere sempre preso in considerazione: il sistema dovrebbe quindi essere in grado di affrontare tali situazioni senza effetti significativi. Come direbbero i latini se fossero presenti in questo periodo storico: Errare Machina Est
  • Distribuzione dei dati: Archiviazione ed elaborazione dei dati devono avvenire all’interno della stessa macchina, così come la distribuzione. Qualora ci fossero macchine diverse ad eseguire questi processi, saranno necessari tempi e costi aggiuntivi per l’emissione dei dati. Proprio qui Hadoop gioca un ruolo fondamentale in quanto è uno dei modi migliori per gestire elaborazione, archiviazione e analisi in rapida crescita dei dati.

Le grandi sfide nell’ottimizzazione dei dati

Pre-elaborazione

Si tratta di un’attività molto importante e complicata, che richiede tempo. Qui il rumore viene filtrato da enormi volumi di dati non strutturati e strutturati in modo continuo. I dati entrano a far parte di un contesto specifico.

Estrazione delle informazioni

Da enormi quantità di dati di scarsa qualità vengono estratte informazioni significative: questa è una delle sfide più grandi da affrontare con i Big Data. Pulizia e verifica della qualità dei dati sono fondamentali al fine di ottenere informazioni il più precise possibili.

Integrazione, aggregazione e rappresentazione

Naturalmente i dati raccolti sono tutt’altro che omogenei, potrebbero avere metadati diversi, pertanto l’integrazione dei dati richiede sforzi umani non trascurabili. Elaborare manualmente una logica di aggregazione per enormi dimensioni di Big Data risulta molto complicato. Proprio per questo motivo si ha la necessità di adottare approcci più recenti e migliori

Elaborazione e analisi delle query

I metodi adatti ai Big Data devono essere scoperti a valutati in base alla loro efficienza in modo che siano in grado di gestire dati rumorosi, dinamici, eterogenei e inaffidabili.

E voi avete un metodo? Raccontatecelo nei commenti!

Rispondi

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.