Perché dobbiamo aprire la scatola nera dell'intelligenza artificiale

Un team dell’Università di Pisa ha cercato di capire come funzionano le black box di algoritmi 'oscuri' come quello di Facebook.

|
lug 12 2018, 12:32pm

Immagine: Pixabay

L'espressione black box è ormai di uso comune per indicare i casi in cui si fa uso di algoritmi e metodi computazionali di cui non si conoscono bene i meccanismi di funzionamento. Esempio: il misterioso algoritmo del news feed di Facebook.

Esistono vari validi motivi per considerarci in una società black box, sia per quanto riguarda il ruolo delle grandi piattaforme, che controllano i flussi di informazione in modo proprietario e spesso opaco (algoritmi dei social network, creazione di filter bubble, ecc...), sia per il fatto che abbiamo a che fare con tecnologie sempre più complesse, comprensibili a una cerchia sempre più ristretta di persone.

Nei settori dell’intelligenza artificiale, e quindi degli algoritmi di machine learning, il termine black box è utile per indicare criticità più intrinseche, che stanno creando grattacapi anche a programmatori e accademici. Quando sentiamo parlare di algoritmi che imitano capacità intuitive umane, come riconoscere un volto o saper leggere lettere scritte a mano, si tratta di algoritmi di machine learning, apprendimento automatico, ovvero algoritmi che imparano a compiere una determinata azione analizzando grosse moli di dati, spesso “etichettati” — nel qual caso si parla di apprendimento supervisionato.

Così, ad esempio, studiando gigabyte di immagini o file audio, alla fine l’algoritmo tenderà a riconoscere pattern, corrispondenze tra il dato (feature) e il valore di assegnazione (label). Da un lato, questo significa che l’algoritmo può anche trovare correlazioni tossiche, non consone al compito che deve svolgere. Dall’altro, significa che alla fine dell’addestramento, non sarà possibile comprendere esattamente quali sono i criteri utilizzati nel metodo di decisione. L’unica cosa che possiamo fare, insomma, è dargli in pasto un altro dato (foto facciale, animale, o altro…) e osservare il suo output.

Un recente paper, pubblicato su Arxive da un team dell’Università di Pisa, prova a fare chiarezza sul problema della black box, oltre a suggerire alcune possibili soluzioni. Come fanno notare gli autori, la questione è anche politica. La GDPR, entrata in vigore in Europa il 25 maggio, introduce il diritto da parte dell’utente di ottenere una “comprensibile spiegazione della logica coinvolta” nei processi di decisione automatica qualora questi abbiano effetti legali sugli individui o li riguardino direttamente. Ma senza tecnologie capaci di esplicitare la logica delle black box, questa indicazione rischia di restare una parola nel vuoto, o di rendere fuorilegge gran parte delle tecnologie oggi utilizzate.

Qualora i modelli di machine learning abbiano a che fare con decisioni importanti, la black box rischia inoltre di riprodurre bias o pregiudizi difficili da analizzare, e che possono comportare grossi pericoli. Di casi del genere nelle cronache se ne sono già visti, come il modello COMPAS per la prevenzione del crimine risultato con un forte bias razzista, o i casi di algoritmi per l’accesso al credito che non garantiscono un’adeguata trasparenza.

Nel paper gli autori indicano alcune possibili strade per affrontare il problema, simili per certi aspetti al reversing informatico, nel quale si stimola un programma con vari input per studiarne gli output e dedurne così la logica. Analogamente, per studiare i meccanismi di un modello di machine learning, si può modificare solo leggermente il dato in input, e osservare il risultato. Oppure cercare di prevedere un input tale da fornire un output desiderato. Si tratta di un campo ancora all’avanguardia, ma di cui tanto si sta discutendo, aprendo strade di ricerca specifiche come l’intelligenza artificiale comprensibile (explainable AI).

Un’altra suggestione che viene dai ricercatori è quella delle watchdog platforms (piattaforme cani-guardia), ovvero siti in cui gli utenti possono condividere — con metodi che tutelino la privacy —risultati di decisione di algoritmi, così da accumulare materiale per il processo di studio dell'algoritmo, ribilanciando l'asimmetria di informazione tra utenti e piattaforme.

È da notare come l’interesse per la comprensione di queste tecnologie vada a minare ancora una volta un mito data-feticista, e che invece la correlazione di per sé non è abbastanza, ma necessiti dell’elaborazione di modelli e teorie per comprendere gli strumenti di analisi dati.

"Stiamo evolvendo," — conclude il paper di ricerca — "più velocemente del previsto, da tempi in cui gli umani scrivono algoritmi e sono responsabili per la correttezza e la qualità del software realizzato, a tempi in cui le macchine apprendono automaticamente da un numero sufficiente di esempi input/output. Richiedere che gli algoritmi di intelligenza artificiale siano comprensibili in termini umani non solo è strumentale per validare la qualità e la correttezza, ma anche per allineare gli algoritmi con i valori e le aspettative umane, e per preservare l’autonomia dell’essere umano nella capacità di decisione”.