I dati sono il petrolio del XXI secolo, letteralmente. Se fino a pochi anni fa le più grandi al mondo, in termini di capitalizzazione, erano compagnie come Exxon Mobil e General Electric, oggi queste sono state scalzate dai giganti dell’Information Technology (IT) come Google (Alphabet), Facebook, Apple, Amazon, Microsoft, che superano i 500 miliardi di dollari di capitale a testa, e continuano a crescere. Il data scientist, con le sue capacità di analizzare e interpretare dati, diventa quindi una figura professionale sempre più centrale e richiesta sul mercato. Sempre più aziende infatti, oggi, ritengono di potere acquisire vantaggi competitivi da analisi e elaborazione dati.
A parlarne agli studenti del nuovo corso di laurea magistrale “Physics of Data”, che si propone di preparare una nuova generazione di fisici con conoscenze avanzate nel campo della fisica e una formazione di alto livello nell’ambito di big data e data science, è stato Davide Del Vecchio, Data Solution Architect alla Microsoft, nel corso di un incontro organizzato dal dipartimento di Fisica e Astronomia dell’università di Padova.
“La data science è la pratica di estrarre informazioni dal mondo reale per creare valore aziendale” secondo Davide Del Vecchio, “grazie all’uso di dati, algoritmi e sistemi si possono operare migliori decisioni e azioni nella società”.
La prima data scientist è stata una donna, Florence Nightingale (1820-1910), un’infermiera britannica che applicando il metodo scientifico dimostrò l’importanza dell’igiene negli ospedali correlandola a un ridotto tasso di mortalità. Grazie al suo pionieristico lavoro nel 1859 divenne la prima donna membro della Royal Statistical Society e nel 1874 membro onorario della American Statistical Association.
È stato però Enrico Fermi nel 1955, riporta Del Vecchio, a introdurre l’idea che i computer possono essere usati per testare ipotesi fisiche, con gli esperimenti numerici (o simulazioni al computer) sviluppati con Pasta, Ulam e Tsingou, qualcosa di “non molto diverso da quello che si fa oggi con il deep learning o con la teoria dei grafi”.
Il deep learning altro non è che un metodo per fare predizioni. A partire da dati demografici, ad esempio, si può arrivare a predire con un buon grado di approssimazione l’orientamento politico di un soggetto; partendo da età, salario, livello di istruzione e sesso è possibile predire se un soggetto sarà più probabilmente repubblicano o democratico.
“Il data scientist deve avere a che fare con uno strano vocabolario, perché mette nel modello una serie di parametri eterogenei, differenti linguaggi provenienti da discipline diverse, ma tenuti insieme”.
Oggi disponiamo di un’infinità di dispositivi che raccolgono dati, dai sensori meteorologici a quelli che monitorano i flussi del traffico automobilistico, dai dati delle transazioni bancarie ai like e alle interazioni nei social network. Tutto, in linea di principio, può venire registrato. Freud potrebbe dire che la nostra società ha un problema con l’accumulazione seriale, sintomo di uno sviluppo inceppatosi alla seconda delle sue celebri fasi psicosessuali. Ma tant’è, il data scientist è la figura che a partire dal dato grezzo effettua l’analisi, lo ripulisce dal “rumore”, e ne estrae la pepita d’oro (in inglese questa operazione si chiama proprio mining), ovvero l’informazione utile, il pattern, il significato statistico potremmo dire (sempre che ci sia).
Chiaramente da questa bulimia di dati può derivare anche un eccessivo controllo, violazioni della privacy, o più gravemente ancora interferenze con la libera formazione di preferenze e opinioni. “Da grandi poteri derivano grandi responsabilità” risponde Del Vecchio citando Spiderman.
Tra i riconoscimenti ottenuti per il suo lavoro Davide Del Vecchio cita il premio innovazione s@alute ottenuto per il progetto Khare (Kinect hololens assisted rehabilitation experience) sviluppato per Inail e finalizzato a migliorare l’esperienza riabilitativa degli infortunati e a ottimizzare il lavoro di medici e fisioterapisti. “Si tratta di una una piattaforma tecnologica che attraverso un normale computer e un sistema di rilevamento e tracciatura dei movimenti (Kinect) aiuta il medico e il fisioterapista a controllare e valutare l’esercizio svolto dal paziente”.
Francesco Suman
Il Bo, il giornale dell’Università di Padova