/*Google Analytics*/

Intelligenza artificiale e media: non è tutto oro quello che luccica

Adattamento dell’originale di Eric Siegel.

I titoloni sull’apprendimento automatico promettono un potere predittivo straordinario.
Si prenda in esempio l’articolo dal titolo “L’intelligenza artificiale può dire se sei gay: l’intelligenza artificiale prevede la sessualità da una foto con una precisione sorprendente” apparso su Newsweek oppure “Questa spaventosa IA ha imparato a individuare i criminali in base ai loro volti” pubblicato su The Next Web.
La stampa sembra voler trasmettere il messaggio per cui l’apprendimento automatico attraverso IA può prevedere in modo affidabile se sei gay, se svilupperai psicosi, se avrai un infarto e se sei un criminale, così come altri previsioni ambiziose come quando morirai e se il tuo libro inedito sarà un bestseller.

È tutta una montatura. L’apprendimento automatico non può dire con sicurezza cose del genere su ogni individuo e, nella maggior parte dei casi, tutte queste cose sono semplicemente troppo difficili da prevedere con certezza.
Come si crea quella che, in realtà, è una fake news?
Il dato di partenza è la segnalazione da parte dei ricercatori di un’elevata “accuratezza” di previsione, ma dobbiamo tenere bene a mente che poi i ricercatori stessi – nei dettagli di un documento tecnico – preciseranno che stavano effettivamente abusando della parola “accuratezza” per indicare un’altra misura di prestazione correlata all’accuratezza, ma in realtà non altrettanto impressionante.
I mass media, tuttavia, accorrono abbagliati da quell’accuratezza.
Di volta in volta, questo schema riesce a ingannare i media e generare acrobazie pubblicitarie flagranti che ingannano.
Ora, non cediamo ai fraintendimenti; l’apprendimento automatico merita elogi. La capacità di prevedere meglio delle ipotesi casuali, anche se non con la massima fiducia nella maggior parte dei casi, serve a migliorare tutti i tipi di processi aziendali e sanitari. Questo è stupefacente. E, in alcune aree limitate, l’apprendimento automatico può offrire prestazioni sorprendentemente elevate, ad esempio per riconoscere oggetti come semafori all’interno di fotografie o riconoscere la presenza di determinate malattie attraverso l’analisi di immagini cliniche.
In altri casi sono i ricercatori a pubblicizzare in maniera falsata i risultati delle ricerche. Prendiamo per esempio lo studio dell’Università di Stanford “gayradar”: nel sommario di apertura, il rapporto del 2018 afferma che il modello predittivo ha una precisione del 91% nell’individuare i maschi omosessuali dalle immagini del viso. I giornalisti ne hanno tratto conclusioni affrettate che hanno portato all’articolo su citato del Newsweek secondo cui “l’intelligenza artificiale ora può dire se sei gay o etero semplicemente analizzando un’immagine del tuo viso”.
Questa ingannevole copertura mediatica era prevedibile: l’affermazione iniziale dei ricercatori ha tacitamente trasmesso l’informazione per cui il sistema può dire chi è gay e chi non lo è semplicemente osservando un’immagine e di solito ha ragione.
Questa affermazione è ovviamente falsa. Il modello non può dare un’informazione del genere con sicurezza osservando una data fotografia. Piuttosto, ciò che il modello di Stanford può effettivamente fare il 91 percento delle volte è molto meno notevole: può identificare quale di una coppia di due maschi è gay quando è già stato stabilito che uno dei due lo è.
Questo test racconta una storia ingannevole e si traduce in basse prestazioni al di fuori del laboratorio di ricerca, dove non esiste uno scenario inventato che presenta tali accoppiamenti. Impiegare il modello nel mondo reale richiederebbe un duro compromesso. Si potrebbe mettere a punto il modello per identificare correttamente, per esempio, i due terzi di tutti gli individui gay, ma ciò avrebbe un prezzo: quando si prevede che qualcuno sia gay, sarebbe sbagliato più della metà delle volte e il test avrebbe un alto tasso di falsi positivi. Inoltre, configurando le sue impostazioni in modo che identifichi correttamente anche più di due terzi, il modello mostrerà un tasso di falsi positivi ancora più elevato.

La ragione di ciò è che una delle due categorie è poco frequente – in questo caso, gli individui gay, che ammontano a circa il 7 percento dei maschi (secondo il rapporto di Stanford). Quando una categoria è in minoranza, è intrinsecamente più difficile fare delle previsioni in modo affidabile.
Ora, i ricercatori hanno riferito su una misura possibile delle prestazioni, chiamata AUC, anche se erroneamente etichettata nella loro relazione come “accuratezza”. AUC (Area sotto la curva caratteristica operativa del ricevitore) indica l’entità dei compromessi prestazionali disponibili. Maggiore è l’AUC, migliori sono le opzioni di compromesso offerte dal modello predittivo.
Nel campo dell’apprendimento automatico, l’accuratezza significa qualcosa di più semplice: “Quanto spesso il modello predittivo è corretto, la percentuale di casi è corretta.” Quando i ricercatori usano la parola per indicare qualcos’altro, stanno al massimo adottando la tecnica dell’ignoranza intenzionale e preparando consapevolmente una trappola per irretire i mass media e l’opinione pubblica.
I ricercatori stanno ora affrontando due sfide: come rendere appetibile qualcosa come l’AUC sexy e allo stesso tempo vendere le prestazioni del modello predittivo? Nessun problema. A quanto pare, l’AUC è matematicamente uguale al risultato che si ottiene eseguendo il test di accoppiamento. E così, una AUC del 91 percento può essere spiegata con una storiella sulla distinzione tra coppie che suona a molti giornalisti come “alta accuratezza”, specialmente quando i ricercatori commettono il peccato cardinale di utilizzare la parola “accuratezza”. Et voilà, sia i giornalisti che i loro lettori credono che il modello possa “dire” se sei gay.
Questo schema di errore di precisione viene applicato in lungo e in largo, con affermazioni esagerate sull’apprendimento automatico che predicono accuratamente, tra l’altro, psicosi, criminalità, morte, suicidio, libri di successo, profili di appuntamenti fraudolenti, malattie delle colture di banane e varie condizioni mediche.
In alcuni di questi casi, i ricercatori perpetrano una variazione dello schema di errore di precisione: riportano l’accuratezza che otterresti se metà dei casi fosse positiva, cioè se le categorie comuni e rare si svolgessero allo stesso modo spesso. Matematicamente, questo di solito gonfia la “precisione” riportata un dato inferiore rispetto all’AUC, ma è una manovra simile e sopravvaluta le prestazioni più o meno allo stesso modo.
Nella cultura popolare, “gaydar” si riferisce a una forma irraggiungibile di chiaroveggenza umana. Non dovremmo aspettarci che anche l’apprendimento automatico raggiunga abilità soprannaturali. Molti comportamenti umani sfidano le previsioni affidabili. È come prevedere il tempo con molte settimane di anticipo: non è possibile raggiungere un’elevata certezza, non c’è una sfera di cristallo magica. I lettori in generale devono affinare la loro stessa attività di vigilanza e diffidare delle affermazioni di “alta precisione” nell’apprendimento automatico. Se sembra troppo bello per essere vero, probabilmente non lo è.

Potrebbe interessarti

Share This