Le cinque V dei Big Data

“Guardatevi intorno e scegliete a caso. Non importa se siete in auto, o a casa, in ufficio o in treno. Ogni settore sta per essere attraversato da una rivoluzione digitale che moltiplicherà le connessioni. Ogni oggetto fisico diventerà una miniera di dati. Ogni dato sarà raccolto, analizzato e conservato, e contribuirà a creare quell’universo sconfinato chiamato Big Data.” (Simonetta, 2015)

Nel 2001 Douglas Laney, di Meta Group, scrisse un articolo (Laney, 2001) sulla necessità di gestire i crescenti dati prodotti dall’e-commerce con un approccio tridimensionale, secondo le variabili di Volume, Velocità, Varietà. Questo paradigma originale delle tre V rimane valido ancora oggi, ed è stato recentemente arricchito da due ulteriori V: Viralità e Variabilità.

Vediamo brevemente il loro significato:

  • Volume i dati, soprattutto quelli non strutturati tipici del mondo internet (immagini, video, email, messaggi sui Social Network), crescono in maniera esponenziale e richiedono capacità di elaborazione sempre più elevata. Per avere una idea delle grandezze in gioco basti pensare, ad esempio, che ogni secondo vengono inviate 2,9 milioni email, ogni giorno vengono prodotti 50 milioni di tweet e Google elabora 24 PetaBytes[1] di dati. (Donghi, 2015) Questa immensa miniera di dati, in aggiunta alle restanti attività “digitali”, permetterebbe, se governata, di disporre di moltissime informazioni le quali a loro volta possono essere incrociate tra loro, creando valore.
  • Velocità: i dati vengono prodotti con sempre maggiore velocità e frequenza costringendo le aziende a dover prendere delle decisioni in tempi molto rapidi per cogliere le opportunità offerte dal mercato, o per gestire al meglio eventuali crisi reputazionali. Si pensi, ad esempio, al monitoraggio del sentiment, con analisi semantica dei messaggi che parlano del proprio brand sui social network.
  • Varietà: i dati a disposizione delle aziende sono sempre più eterogenei, e a quelli classici transazionali, provenienti dal sistema informativo aziendale, si aggiungono quelli esterni, tipicamente destrutturati, come email, immagini, video, già visti nel blocco relativo ai Volumi. La loro natura li rende particolarmente rilevanti per gli obiettivi di business ma anche particolarmente complessi da raccogliere ed analizzare, rendendo necessaria l’adozione di infrastrutture IT dedicate, come Hadoop[2], e nuove figure professionali, come il Data Scientist (di cui parlerò nel quarto capitolo).
  • Viralità: la grande quantità di dati e la velocità con cui essi vengono generati fa sì che le reazioni ad un evento si propaghino rapidamente e a grande distanza, con caratteristiche, appunto, di viralità.
  • Variabilità: il significato o l’interpretazione di uno stesso dato può variare in funzione del contesto in cui questo viene raccolto ed analizzato. Il valore, quindi, non risiede solamente nel dato, ma è strettamente collegato al contesto in cui da cui si ricava.
[1] Un Petabytes corrispone a 1015 bytes, ovvero un biliardo di bytes
[2] Hadoop è un framework Open Source di Apache, concepito per offrire supporto ad applicazioni distribuite e semplificare le operazioni di storage e gestione di dataset di grandi dimensioni (Big Data).

~

Licenza Creative Commons
La banca liquida: Come la rivoluzione digitale sta cambiando l’industria finanziaria di Francesco Cugurra è distribuito con Licenza Creative Commons Attribuzione – Condividi allo stesso modo 4.0 Internazionale.
Based on a work at https://francescocugurra.wordpress.com/la-banca-liquida/.
Permessi ulteriori rispetto alle finalità della presente licenza possono essere disponibili pressohttp://www.linkedin.com/in/fcugurra.

Annunci