Deep Learning: una storia lunga sessant’anni

AlphaGo sfida il campione cinese Lee Sedol

Il banner promozionale dello scontro tra il campione cinese Sedol ed il programma AlphaGo – istruito mediante reti neurali

Nel 1958 lo psicologo Frank Rosemblatt presentava alla comunità scientifica ed al mondo Perceptron, un network neurale mosso dalla capacità computazionale (incomparabile con i sistemi attuali) di un computer grande come una stanza.

E’ così che iniziava l’avventura del deep learning (DL), un insieme di algoritmi matematici che nella seconda decade del XXI secolo ha permesso a varie tecnologie di compiere tangibili passi avanti nella qualità dei servizi e nelle possibilità offerte a privati ed aziende: comandi vocali, interazione con assistenti virtuali creati dai più noti produttori di device (Apple, Google, Microsoft etc.), servizi cloud in grado di riconoscere immagini e catalogarle senza l’impiego di tag, task varie inerenti il linguaggio (traduzioni da una a più lingue anche partendo dall’analisi di frasi pronunciate da un individuo) sono solo alcuni esempi.

L’approfondimento di oggi è dedicato come intuibile al deep learning ed alla sua evoluzione nell’arco di oltre mezzo secolo. Prima di cominciare la nostra retrospettiva è il caso di spiegare brevemente il significato di tre importanti parole correlate all’argomento di oggi:

  • intelligenza artificiale (IA). Termine che indica un vasto insieme di tecnologie adoperate per consentire ai calcolatori elettronici di imitare il modus operandi degli esseri umani attraverso la logica, regole, alberi di decisione, machine learning;
  • machine learning. Una sottocategoria delle IA che mediante varie tecniche consente ai computer di migliorare l’esecuzione di determinate operazione attraverso l’esperienza;
  • deep learning. Una sottocategoria del machine learning costituita da algoritmi che permettono ai software di apprendere autonomamente l’esecuzione di determinate operazioni (riconoscimento di immagini). L’apprendimento avviene mediante l’analisi di ingenti quantità di dati da parti di network neurali complessi.

Le potenzialità del DL sono elevate ed in grado di rivoluzionare teoricamente qualsiasi settore dell’industria. E’ quanto sostiene Jeff Dean, a capo del progetto Google Brain: “ci saranno profondi cambiamenti ora che i computer hanno aperto gli occhi”. Una dichiarazione che potrebbe fare pensare all’introduzione di un romanzo di fantascienza dove le macchine, gradualmente, si rendono sempre più indipedenti dai loro creatori ponendo infine questi ultimi ai margini. Non è ancora giunto quel momento (per fortuna): i network neurali sono in grado di riconoscere modelli/schemi come o meglio di un essere umano ma non sono ancora in grado di “pensare”.

Dagli anni ’60 alla seconda metà degli anni ’80

Tra gli anni ’50 e ’60 i network neurali sono molto popolari nella comunità scientifica. Nel 1958 il New York Times scriveva, forse lasciandosi trasportare dall’entusiasmo, quanto segue sul progetto Perceptron finanziato dalla Marina e supervisionato da Rosemblatt: “La Marina ha svelato oggi l’embrione di un computer elettronico che [in futuro] sarà in grado di camminare, parlare, vedere, scrivere, riprodurre se stesso ad avere coscienza della propria esistenza”.

La macchina, che come già stato detto era di generose dimensioni (una stanza), era riuscita a distinguere dopo 50 tentativi le tessere contrassegnate a destra da quelle contrassegnate a sinistra. A causa dei limiti del network neurale adoperato (single layer), Perceptron non riuscì a spingersi oltre ma incoraggiò ugualmente la ricerca che, nel 1969, subì un temporaneo arrestofu un libro supervisionato anche da un eminente esperto di intelligenze artificiali del MIT, Marvin Minsky, a congelare per quasi una ventina di anni “il sogno” dei network neurali.

In realtà già all’inizio degli anni ’80 i ricercatori Geoffrey HintonYann LeCun avevano ripreso a lavorare ed interessarsi di problematiche inerenti le reti neurali. Fu un paper di Hinton ad ispirare le future ricerche di LeCunn: “[il concetto] non venne formulato con quei termini. Ai tempi era estremamente difficile pubblicare qualcosa che menzionasse le parole “neuroni” o “reti neurali”.

Il contributo di entrambi consentì finalmente alla comunità scientifica di riappassionarsi al tema e riprendere i lavori: nel 1986 veniva pubblicato un paper nel quale Geoffrey ed altri collaboratori offrivano una soluzione al problema “errore-correzione”, mostrando in pratica come insegnare a reti neurali complesse (multilayer) a correggere degli errori. Due anni dopo LeCunn iniziò presso i AT&T’s Bell Labs un lavoro che si sarebbe protratto per quasi dieci anni ed avrebbe costituito le fondamenta di tutte le tecniche di riconoscimento delle immagini adottate successivamente.

Dagli anni ’90 al 2010

Negli anni ’90 si assiste ad ulteriori interessanti sviluppi nel DL: le intuizioni di LeCunn portano alla realizzazione di un dispositivo che, appoggiandosi ad una rete neurale, è in grado di comprendere la calligrafia umana (per la precisione le cifre riportate negli assegni); quasi contemporaneamente i ricercatori tedeschi Sepp Hochreiter e Jürgen Schmidhuber creano un algoritmo che 20 anni dopo si rivelerà cruciale per le applicazioni legate al riconoscimento del linguaggio.

A metà decennio la spinta generata dai lavori di Hinton e LaCunn si esaurisce. I limiti computazionali dell’epoca ed altre tecniche di machine learning più efficaci acquisitano maggiore rilevanza presso la comunità scientifica: il DL entra nuovamente in fase di attesa. Nel 1997 le IA attireranno comunque l’attenzione dell’opinione pubblica e dei media grazie alla clamorosa sconfitta del campione Garry Kasparov al gioco degli scacchi – fu la macchina Deep Blue di IBM a superare il noto veterano russo.

Dal 2007 circa in poi assistiamo alla terza rinascita del DL e delle reti neurali. Un importante contributo è dato in quello stesso anno da Fei-Fei Li: la professoressa (IA a Stanford) si concentra su quello che sarebbe divenuto il “libro di studio” delle reti neurali, ovvero i dati. La maggior parte del materiale utilizzabile per l’addestramento delle reti non era infatti catalogato – soprattutto le immagini: “La nostra visione fu quella di [considerare i big data come qualcosa in grado di cambiare radicalmente il machine learning”. […] I dati conducono all’apprendimento“. Nasceva così ImageNet, un enorme database di immagini catalogate (14 milioni) pronte per essere utilizzate dai ricercatori.

Dal 2011 ad oggi

Nel 2011 Microsoft implementa il deep learning nelle proprie soluzioni commerciali di riconoscimento del linguaggio. La manovra di avvicinamento era naturalmente iniziata alcuni anni prima: nel 2009 il team a cui era stato affidato il progetto invitò presso gli uffici di Redmond il precedentemente citato Geoffrey Hinton.

L’anno successivo (2012) è il turno di Google che si rende anche protagonista del celebre “esperimento del gatto” – in qualche modo questa espressione divenne estremamente popolare in Rete o “virale”. Si trattava del primo tentativo di unsupervised learning, ovvero d’istruire una vasta rete neurale (oltre 1000 computer) senza l’impiego di dati catalogati. Il compito di analizzare milioni di immagini ed individuare eventuali pattern venne lasciato quindi alla rete stessa.

I risultati del test furono di difficile interpretazione per il team di Mountain View: alcuni neuroni, situati nel livello più alto della rete, mostrarono un’energica risposta alle immagini in cui erano presenti gatti (da qui il curioso nome); altri risposero alle immagini di volti umani; non venne invece trovato alcun neurone che reagisse alle immagini di auto, presenti in larga misura nel database adoperato.

Google decide di scommettere sul deep learning e tra il 2013 ed il 2016 acquista la startup DeepMind, migliora i servizi di ricerca immagini grazie alle reti neurali, rievoca la sfida “IA vs Kasparov” chiamando in causa un campione cinese di GO, Lee Sedol, che perderà 4 sfide su 5 contro il programma AlphaGo – istruito mediante reti neurali. Anche altri importanti aziende non sono rimaste certo a guardare dalla già citata Microsoft (le reti neurali sono utilizzate ad esempio per gli algoritmi Bing, riconoscimento immagini etc.) fino a Facebook (ha assoldato il veterano LeCunn ed attualmente traduce grazie alle reti neurali oltre 2 miliardi di post al giorno) e Baidu (il Google “orientale” forse poco conosciuto in occidente ma all’avanguardia nel settore).

Dopo diverse pause forzate, il deep learning e le reti neurali sembrano quindi avere trovato infine il meritato successo. Vedremo quali progressi saranno in grado di raggiungere gli attivi ricercatori della comunità internazionale.