Introduzione ai concetti chiave della Data Science

Come responsabile di 3rdPlace mi trovo spesso a lavorare insieme al mio team di Data Scientist e Big Data Engineer. Una delle sfide che devo affrontare più spesso è la capacità di parlare la stessa lingua e non intendo lingua nel senso lingua parlata (inglese, italiano, francese, ecc) ma di esprimersi con gli stessi concetti.

Oggi ho trovato uno specchietto realizzato da Data Iku che riassume velocemente ed in maniera chiara i principali concetti della Data Science.

Sono elementi base e per chi è del settore scontati, ma per chi non ha e agli inizi possono risultate  ostici o poco chiari.

I concetti chiave della Data Science
  • model (in italiano anche modello): una rappresentazione matematica di un processo reale
  • training: il processo di creare un modello dai dati di training. I dati vengono elaborati da un algoritmo che impara una rappresentazione del problema e produce un modello. Viene anche chiamato learning
  • classification: un metodo di predizione che assegna ad ogni elemento una categoria predefinita ad esempio il tipo di genere musicale
  • training set: un insieme di dati usato per trovare un potenziale relazione predittiva che verrà usato per creare un modello
  • feature: conosciute anche come variabile indipendente o variabile di predizione. Una feature è una quantità osservabile, salvata e usata da un modello predittivo. Possono essere ingegnerizzate nuove feature combinandole insieme oppure aggiungendo nuove informazioni alle stesse
  • algorithm: un insieme di regole per fare un elaborazione o risolvere un problema
  • regression: un metodo di predizione il cui risultato è un numero reale, che rappresenta una quantità lungo una linea. Per esempio: predire la temperatura di un motore o i ricavi di un’azienda
  • target: in statistica viene chiamata variabile dipendente: è ciò che viene generato dal modello o la variabile che si vuole predire
  • test set: un insieme di dati, separato dal training set, ma che condivide la stessa struttura, utilizzato per verificare e valutare la bontà di un modello
  • overfitting: la situazione nella quale un modello troppo complesso per i dati disponibili è stato allenato per predire il target. Questo comporta la creazione di un modello troppo specializzato le cui predizioni non riflettono le vere relazioni presenti  tra feature e target.

Rispondi

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.