Se l’intelligenza artificiale impara da sola come vincere

Se l’intelligenza artificiale impara da sola come vincere
apprendimento
Crediti: shutterstock

Nuovi algoritmi di “apprendimento profondo” sono in grado di imparare da soli a giocare a una molteplicità di videogiochi e di scoprire autonomamente le strategie migliori per vincere. Le impressionanti capacità di queste forme di intelligenza artificiale mettono però in evidenza per la prima volta nella storia dell’umanità una totale dissociazione fra intelligenza e consapevolezza.

Nel corso della storia umana, l’intelligenza e la consapevolezza sono stati due concetti strettamente legati. Se avete un sacco della prima, si presume che, in qualche modo più o meno mal definito, siate più consapevoli del tizio dall’aria ottusa in fondo alla strada. Una persona intelligente sarà anche molto consapevole, in grado di parlarvi dettagliatamente delle sue esperienze (perché la coscienza è questo: la capacità di sperimentare qualcosa, qualsiasi cosa, che si tratti di un mal di denti, della visione di una casa giallo canarino o di una rabbia bruciante). Ma questo stretto rapporto potrebbe sgretolarsi.

Prendiamo le ultime vicende di DeepMind, una piccola azienda di Londra di cui è stato cofondatore, nel 2011, il britannico Demis Hassabis, bambino prodigio degli scacchi, designer di videogame e neuroscienziato computazionale. Lo scorso anno DeepMind è stata acquistata per centinaia di milioni di dollari da Google. Il suo nuovo codice fa cose mozzafiato: impara da solo a giocare ai videogiochi, e spesso molto meglio dei giocatori umani. La svolta tecnica è descritta in uno studio pubblicato a febbraio su “Nature”.

Per farvi un’idea, cercate su YouTube il video intitolato DeepMind Artificial Intelligence @ FDOT14. Si tratta di un breve estratto, ripreso con uno smartphone del discorso di Hassabis alla conferenza Tech 2014, dedicato a un algoritmo informatico che impara a giocare il classico arcade Breakout. Lo scopo del gioco, una variante di Pong, è rompere dei mattoncini allineati in righe sulla parte superiore dello schermo usando una palla che rimbalza in alto e sulle pareti laterali. Se la palla tocca la parte inferiore dello schermo, il giocatore perde una delle sue tre vite. Per evitarlo, muove una barra sul fondo che gli permette di respingere la palla verso l’alto.

Co-creato da Steve Wozniak nel 1976, per gli standard odierni il gioco è primitivo ma comunque avvincente. Hassabis lo ha usato per spiegare il problema al pubblico. All’inizio l’algoritmo non sapeva nulla e muoveva la barra in modo casuale e senza molta coordinazione, colpendo la palla solo occasionalmente. Dopo un’ora di allenamento, giocando più e più volte, le prestazioni sono migliorate, riuscendo spesso a rinviare la palla e a rompere i mattoni. Dopo due ore di allenamento, è diventato più bravo della maggior parte degli esseri umani, respingendo palle veloci e ad angoli stretti.

I programmatori hanno lasciato che l’algoritmo continuasse a giocare da solo, e a migliorare. Dopo quattro ore di gioco, l’algoritmo ha scoperto una strategia innovativa per Breakout, che ha fatto schizzare le sue prestazioni ben oltre quelle mai ottenute da qualsiasi essere umano. L’algoritmo ha compiuto l’impresa imparando a scavare un tunnel attraverso la parete di mattoncini a partire da un lato, in modo che la palla distruggesse rapidamente un gran numero di mattoni da dietro. Molto intelligente. Il successo è stato così impressionante che tutti gli esperti presenti sono esplosi in uno scrosciante applauso spontaneo (un evento raro in una conferenza scientifica). Per capire che cosa sta succedendo e perché è qualcosa di notevole, andiamo a dare un’occhiata più approfondita.

L’algoritmo ha tre caratteristiche, tutte riprese dalla neurobiologia: apprendimento con rinforzo, reti neurali a strati di convoluzione (convolutional neural networks) e loop sulla memoria selettiva.

Un’eredità duratura del comportamentismo, l’indirizzo che ha dominato lo studio del comportamento umano e animale nella prima parte del XX secolo, è l’idea che gli organismi imparano il comportamento ottimale mettendo in relazione la conseguenza di una particolare azione con uno stimolo specifico che l’ha preceduta. Questo stimolo è detto rinforzo del comportamento.

Prendiamo il caso del mio cane Ruby, quando, da cucciolo, l’ho dovuto educare. Subito dopo avergli dato da bere, a intervalli prestabiliti, lo portavo in un punto particolare del giardino e aspettavo. A un certo punto, avrebbe fatto pipì spontaneamente,e io l’avrei riempito di lodi. Se capitava un “incidente” in casa, lo sgridavo severamente. I cani rispondono bene a questi segnali sociali positivi e negativi. Nel giro di un mese o due Ruby aveva imparato che se a uno stimolo interno, la vescica piena, seguiva un certo comportamento – fare pipì nel solito posto – poteva aspettarsi un premio ed evitare una punizione.

L’apprendimento per rinforzo è stato formalizzato e implementato nelle reti neurali per insegnare ai computer come giocare vari giochi. Gerald Tesauro della IBM ha usato una versione particolare di apprendimento per rinforzo – il cosiddetto apprendimento per differenze temporali – per la progettazione di una rete che gioca a backgammon. Il programma analizza la tavola di gioco ed esamina tutte le possibili mosse lecite e le risposte del giocatore avversario a queste mosse. Tutte le posizioni di gioco che ne risultano vanno ad alimentare il cuore del programma, la sua funzione di valore.

La mossa scelta dal programma è quella che porta alla posizione sulla tavola con il punteggio più alto. Dopo una mano, la rete è leggermente ottimizzata, così che il programma prevede che cosa succederà un po’ meglio di quanto poteva fare dopo la sua mossa precedente. Partendo da zero, continua a migliorare per tentativi ed errori. Ciò che rende complicato l’apprendimento per rinforzo è che di solito c’è un notevole ritardo tra una mossa e il suo esito utile o dannoso. Il superamento di questo handicap richiede addestramento, addestramento e ancora addestramento: arrivare a battere a backgammon un giocatore umano esperto richiedeva al programma di Tesauro di giocare 200.000 partite contro se stesso.

Il secondo ingrediente del successo di DeepMind si chiama rete neurale a strati di convoluzione. Si basa su un modello dei circuiti cerebrali scoperto nel sistema visivo dei mammiferi da Torsten Wiesel e David H. Hubel fra la fine degli anni cinquanta e i primi anni sessanta. (Per questo lavoro Hubel e Wiesel furono poi insigniti del premio Nobel.) Il modello postula uno strato di elementi, o unità, di elaborazione, che calcolano una somma ponderata dei segnali in ingresso. Se la somma è sufficientemente grande, il modello manda un segnale in uscita, altrimenti rimane “spento”.

Alcuni teorici considerano il sistema visivo null’altro che una cascata di strati simili di elaborazione, indicata con il nome di rete feedforward. Ogni strato riceve un input da un livello precedente e invia un output al livello successivo. Il primo strato è la retina che intercetta la pioggia di fotoni in arrivo, registra le variazioni di luminosità dell’immagine e passa questi dati alla fase di elaborazione successiva. L’ultimo strato è costituito da un gruppo di unità che segnalano se alcuni elementi di alto livello, per esempio vostra nonna o Jennifer Aniston, sono presenti in quell’immagine.

I teorici dell’apprendimento hanno sviluppato efficaci metodi matematici per regolare i “pesi” di queste unità – ossia quanto debba essere influente un input rispetto a un altro – ottenendo reti feedforward che imparano a svolgere specifici compiti di rilevazione.

Per esempio, una rete è esposta a decine di migliaia di immagini prese da Internet, ciascuna delle quali è classificata in un certo modo a seconda che includa un gatto o no. Dopo ogni esposizione, tutti i pesi sono leggermente modificati. Se l’addestramento è abbastanza lungo (anche in questo caso l’addestramento deve essere davvero intensivo) e le immagini sono elaborate da reti abbastanza profonde, ossia con molti strati di elementi di elaborazione, la rete neurale riesce a fare una generalizzazione ed è in grado di riconoscere con precisione se una nuova fotografia contiene un felino. La rete ha appreso, in modo supervisionato, a distinguere le immagini dei gatti da quelle di cani, persone, automobili e così via.

La situazione non è dissimile da quella di una madre che sfogliando un libro illustrato con il suo bambino, gli indica tutti i gatti. Le reti a strati di convoluzione profondi sono di gran moda fra Google, Facebook, Apple e altre aziende della Silicon Valley che cercano di etichettare automaticamente le immagini, tradurre il parlato in testo, trovare i passanti in un video e identificare i tumori nelle scansioni del seno.

L’apprendimento supervisionato è differente dall’apprendimento con rinforzo. Nel primo, ogni immagine in ingresso è accoppiata a un’etichetta (un’immagine contiene un gatto); nel secondo, no. Nell’apprendimento per rinforzo, l’effetto di ogni mossa sul punteggio di gioco si sviluppa nel tempo, le azioni possono produrre dei benefici (un punteggio migliore) anche molte mosse più tardi.

Hassabis e i suoi collaboratori hanno usato una variante dell’apprendimento per rinforzo detta Q-learning, che fa da supervisore alla rete di apprendimento profondo. L’input della rete consiste in una versione sfocata dello schermo colorato di gioco, che include il punteggio – uguale a quello che vede un giocatore umano – ma anche le schermate associate alle ultime tre mosse. L’output della rete è un comando al joystick di spostarsi in una delle otto direzioni cardinali, con o senza l’azionamento del pulsante “Fuoco”. Partendo da un’impostazione casuale dei suoi pesi, la proverbiale tabula rasa, l’algoritmo è arrivato a capire quali azioni portano a un punteggio finale più alto, quando la barra ha maggiori probabilità di intercettare la palla sul fondo in modo da respingerla con una traiettoria tale da rompere i mattoni. In questo modo, la rete ha imparato – attraverso la ripetizione e l’apprendimento rinforzato – i metodi più efficaci per giocare a Breakout, superando di uno sconvolgente 1327 per cento il punteggio di un testatore professionista del gioco.

Il terzo componente critico dell’algoritmo è il loop della memoria selettiva, simile a quello che si pensa si verifichi nell’ippocampo, una regione del cervello associata alla memoria. Nell’ippocampo, i modelli di attività delle cellule nervose associate a una particolare esperienza, per esempio quella di percorrere un labirinto, vengono “rivisti”, ma a un ritmo più veloce. L’algoritmo, cioè, può richiamare dalla sua memoria, a caso, un particolare episodio di gioco (comprese le proprie mosse) incontrato in precedenza, adeguare la propria azione sulla base dell’esperienza precedente e aggiornare di conseguenza la sua funzione di valutazione.

Ai progettisti di DeepMind però non bastava che il loro algoritmo imparasse un solo gioco, e lo hanno allenato a 49 diversi giochi per Atari 2600, tutti sviluppati per generazioni di adolescenti. Fra questi vi erano Pinball, StarGunner, Robot Tank, Road Runner, Pong, Space Invaders, Ms. Pac-Man, Alien e la vendetta di Montezuma. In tutti i casi è stato usato sempre lo stesso algoritmo, con le stesse impostazioni. L’unica cosa che cambiava era l’output, calibrato sulle esigenze specifiche di ciascun gioco. I risultati hanno sbaragliato quelli di tutti gli altri algoritmi “giocatori”. Non solo, in 29 di questi giochi l’algoritmo ha superato del 75 per cento o più un testatore professionista umano, battendolo a volte con un margine molto ampio.

L’algoritmo ha i suoi limiti. Le sue prestazioni migliorano sempre più lentamente via via che i giochi richiedono una pianificazione progressivamente più a lungo termine. Per esempio, le prestazioni dell’algoritmo per Ms. Pac-Man sono abbastanza modeste perché il gioco richiede di scegliere il percorso da seguire nel labirinto per evitare di essere mangiato da un fantasma anche a 10 o più mosse di distanza.

Il programma, tuttavia, preannuncia un nuovo livello di sofisticazione nell’intelligenza artificiale. Deep Blue, il programma IBM che nel 1997 sfidò a scacchi il grande maestro Garry Kasparov, e Watson, il sistema IBM che ha battuto Ken Jennings e Brad Rutter nel quiz Jeopardy, erano raggruppamenti di algoritmi altamente specializzati messi a punto con cura artigianale per affrontare un tipo particolare di problema.

Il segno distintivo della nuova generazione di algoritmi è che, come le persone, imparano dai propri successi e dai propri fallimenti. Partendo esclusivamente dalla sfilza di pixel della schermata di gioco, alla fine gareggiano in giochi sparatutto, di boxe, di corse automobilistiche.

Naturalmente, i mondi in cui operano sono fisicamente molto semplificati e ubbidiscono a regole molto rigide, e le loro azioni sono molto limitate. Non vi è alcun segno di sensibilità in questi algoritmi. Non hanno alcuno dei comportamenti che associamo con la coscienza. Secondo gli attuali modelli teorici della coscienza le reti convoluzionali profonde non sono consapevoli.

Sono degli zombie che agiscono nel mondo, ma lo fanno senza alcun sentimento, mostrando una forma di intelligenza fredda, limitata e aliena: un algoritmo “sfrutta spietatamente le debolezze del sistema che trova. In modo del tutto automatico”, ha detto Hassabis nel suo discorso del 2014. Questi algoritmi, inclusi quelli che controllano le auto a guida autonoma di Google o quelli che eseguono gli scambi sui mercati finanziari, dimostrano che per la prima volta nella storia del pianeta, l’intelligenza è completamente dissociata dalla sensibilità, dalla coscienza.

Sono intelligenti, nel senso che possono imparare ad adattarsi a nuovi mondi, motivati unicamente dalla massimizzazione dei premi quali sono definiti dal punteggio di gioco. Non ho alcun dubbio che i progettisti di DeepMind siano impegnati a lavorare su motori di apprendimento più sofisticati, per insegnare ai loro algoritmi a dominare in prima persona giochi sparatutto come Doom o Halo, o giochi di strategia, come StarCraft. Questi algoritmi riusciranno a eseguire sempre meglio compiti specifici in nicchie molto specifiche, che nel mondo moderno abbondano. Ma non creeranno né apprezzeranno l’arte, né si meraviglieranno di fronte a un bellissimo tramonto.

Se questa sarà una buona cosa per l’umanità, lo si vedrà a lungo termine. La ragione per cui dominiamo il mondo naturale non è perché siamo più veloci o più forti, e men che meno più saggi di altri animali, ma perché siamo più intelligenti. Forse questi algoritmi di apprendimento sono nuvole scure all’orizzonte dell’umanità. Forse saranno la nostra ultima invenzione.

Christof Koch

L’autore
Christof Koch è presidente dell’Allen Institute for Brain Science, editorialista di “Scientific American Mind” (la versione statunitense di “Mente e Cervello”) e membro del consiglio di amministrazione di “Scientific American”.

(La versione originale di questo articolo è apparsa sul numero di luglio/agosto 2015 (n.4, vol. 26) di “Scientific American Mind”, e ripubblicata online l’11 giugno. Riproduzione autorizzata, tutti i diritti riservati)

lescienze.it