Nuovi algoritmi per l’apprendimento automatico profondo leggono agevolmente i caratteri nonostante il “rumore” visivo

“Apportando nostre piccole modifiche all’algoritmo pubblicato nel 2006 da Geoffrey Hinton su Science (grazie al quale il professor Hinton ha coniato il termine Deep Learning), abbiamo studiato il problema del trasferimento della conoscenza da un dominio a un altro, e, dal confronto diretto del comportamento automatico con quello che fa la psicofisica umana, siamo in effetti riusciti a realizzare applicazioni che funzionano bene anche di fronte a immagini immerse in contesti disturbati da molto rumore visivo” spiega Marco Zorzi, ordinario di Intelligenza artificiale presso l’ateneo padovano, che ha recentemente pubblicato il prodotto della sua ricerca su Nature Human Behaviour http://rdcu.be/vay3

E, più che le prestazioni raggiunte, ciò che è maggiormente rilevante è come si sono ottenuti tali risultati, ovvero si è affidato il compito di “percepire” ed elaborare ad architetture di Intelligenza artificiale hardware e software, le quali hanno egregiamente dimostrato di raggiungere metalivelli cognitivi degni delle prestazioni dell’umana corteccia visiva secondaria (nell’area capace di fornirci le cosiddette “rappresentazioni” dei simboli scritti). L’ormai reale implementazione nelle macchine di prerogative finora considerate appannaggio esclusivo dei cervelli naturali, potrebbe segnare l’inizio di un viaggio che potrebbe portare ad affidare ai computer proprietà del pensiero umano superiore.

Marco Zorzi
Marco Zorzi

“Fino a soli cinque anni fa le reti neurali erano dotate al massimo a un paio di strati di neuroni, oggi dato l’aumento delle possibilità di calcolo offerto dalle Gpu di ultima generazione (chip in grado di elaborare contemporaneamente in parallelo diversi dati grafici, cento volte più veloci dei tradizionali chip Cpu) è possibile ottenere stratificazioni complesse formate da molti livelli, e serie di algoritmi di apprendimento di Deep Learning, che abbattono drasticamente gli errori di interpretazione, sia nella computer vision, sia per quanto riguarda il riconoscimento vocale”, prosegue Zorzi.

Nei suoi primi anni di vita l’uomo costruisce un modello interno dell’ambiente esterno basandosi su regolarità statistiche estrapolate durante la visione, cioè osservando semplicemente il mondo senza alcuna “supervisione” che informi il soggetto neonato circa il metodo, le caratteristiche formali, e tutte le altre proprietà sensoriali, per discriminare gli oggetti gli uni dagli altri.

“Se abbiamo raggiunto certi risultati è perché utilizziamo da molti anni nei nostri laboratori le reti neurali come metodologia per sviluppare modelli e funzioni cognitive umane assumendo come benchmark una serie di fenomeni studiati e chiaramente modellizzati da psicologi e neuroscienziati, al fine di applicare all’interno delle nostre reti neurali stili di apprendimento il più possibile analoghi a quelli umani, i quali modelli, bisogna sottolineare, sono ben differenti da quelli abitualmente usati nelle applicazioni industriali del Deep Learning”, ha precisato Zorzi.

Il programma di ricerca finanziato dal Consiglio europeo per la ricerca scientifica è stato portato a termine presso il Padova Neuroscience Center da Alberto Testolin, e da Ivilin Stoianov (Cnr), sotto la supervisione di Marco Zorzi.

“Grazie all’impiego di conoscenze e competenze interdisciplinari, siamo riusciti a sfruttare i più recenti progressi nel campo dell’intelligenza artificiale per costruire un modello realistico della percezione visiva umana. Il risultato forse più importante del nostro lavoro è stato di mostrare come si possa effettivamente “riciclare” conoscenza percettiva: la rete neurale impara più agevolmente a “leggere”, se prima è stata parzialmente plasmata da informazione visiva più generica, come quella contenuta negli ambienti naturali. Abbiamo quindi ottenuto importanti ripercussioni sia in ambito ingegneristico, per suggerire come si possano creare macchine in grado di apprendere dall’esperienza senza bisogno di supervisione diretta, ma anche in ambito psicologico, con un importante passo avanti per comprendere come il bambino impari a leggere, aprendo la strada ad un miglioramento delle attuali strategie educative” ha aggiunto Testolin.

Concetti chiave:

Apprendimento non super rvisionato:

A differenza dell’apprendimento supervisionato (comunemente utilizzato) in cui i sistemi esperti della Ia ricevono le informazioni di base circa le caratteristiche degli oggetti da riconoscere, l’apprendimento non supervisionato, indica la facoltà del sistema di apprendere qualcosa di nuovo riciclando risorse codificate nei “neuroni” dell’hardware che si sono già specializzati durante precedenti compiti. Tale facoltà è propria del cervello umano, il quale, quando esposto a stimoli simbolici, sa riconoscerne la forma grazie all’esperienza visiva pregressa. Durante tale attività vengono infatti ricombinate le primitive visive dell’alfabeto (nella fattispecie segmenti di arco e di retta) per riconoscere oggetti nuovi. Tali compiti nell’uomo sono svolti dalla corteccia visiva primaria (che riconosce le primitive visive) e secondaria (associativa).

Meccanismi evoluti di apprendimento artificiale (Deep Learning): dati determinati stimoli, reti neurali complesse, dotate di molti livelli di elaborazione, apprendono partendo da tabula rasa, cioè senza informazioni iniziali di sorta. Ricevendo immagini fatte di pixel vengono sviluppante “rappresentazioni” interne, e più si va verso livelli alti più la complessità e il grado di astrazione aumentano.

Nuovo valore aggiunto: autonomia di apprendimento e possibilità di svolgere qualsiasi altro compito senza ripartire dall’immagine originaria, ma dalle “rappresentazioni” raggiunte durante le esperienze pregresse cui il sistema è stato esposto, che vengono utilizzate per interpretare nuovi scenari complessi.


Redazione

La redazione di Scienzaveneto.it