L'insostenibile leggerezza della giustizia artificiale

Tempo di lettura: 4 mins

"Scales of Justice". Credit: photo by North Charleston - Licenza: CC BY-SA 2.0.

Ogni giorno, i giudici sono chiamati a deliberare il futuro di un uomo e di una donna che ha commesso un reato sulla base del rischio che se rilasciato ne compia un altro. Questioni come “quanti anni dovremmo dare a una donna bipolare condannata per omicidio?”, “Dovremmo mandare in galera un giovane stupratore in attesa di processo e quindi innocente fino a sentenza, o rilasciarlo su cauzione con la possibilità che stupri altre donne se colpevole?”. 

Forse non tutti sanno che le corti americane a partire dagli anni Ottanta, per assicurarsi che i giudici trattassero equamente tutti gli imputati, hanno iniziato a richiedere al personale delle prigioni di raccogliere dati sulle finanze degli imputati, sulle loro famiglie, sugli amici, su eventuali storie di droga e sui precedenti crimini, per provare a quantificare il rischio possibile di recidiva. Negli anni però da carta e penna si è passati ai computer. Da anni i tribunali americani fanno uso di sistemi algoritmici di Intelligenza Artificiale - per lo più tool privati - per profilare il livello di rischio di recidiva, valutando una serie di indicatori socio-economici. Uno studio pubblicato in questi giorni su Science suggerisce che questo ampio utilizzo di questi strumenti per valutare la possibilità di recidiva, non è migliore - per citare alla lettera - “di un gruppo di persone che possiedono solo alcune informazioni chiave”.

Già nel 2016 un'inchiesta di ProPublica, noto giornale investigativo americano, aveva evidenziato che il sistema denominato COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) esprimeva fortissimi bias etnici: di fatto le persone afroamericane erano bollate come ad alto rischio di recidive molto di più rispetto ai bianchi. Proprio questa inchiesta ha dato il via allo studio ora pubblicato su Science condotto da Julia Dressel del Dipartimento di Computer Science del Dartmouth College, che si è posta la domanda più basilare: gli algoritmi riescono davvero a prevedere meglio della mente umana come andranno le cose, cioè in questo caso se la persona lasciata libera compirà un altro crimine una volta rilasciata oppure no?

Dressel ha selezionato in maniera casuale 10.000 imputati in attesa di processo nella contea di Broward, in Florida, inserendoli nel sistema COMPAS. Ha poi selezionato in questo gruppo un campione casuale di 1.000 persone, considerando sette indicatori per ciascuno, inclusi età, sesso e numero di arresti precedenti. Ha poi reclutato 400 persone utilizzando l'Amazon Mechanical Turk, un servizio di crowdsourcing online per la ricerca di volontari per ricerche scientifiche. Ogni volontario ha ricevuto i profili di 50 imputati e gli è stato chiesto di prevedere se sarebbero stati nuovamente arrestati entro 2 anni, con gli stessi indicatori standard di COMPAS.

Ebbene, nel prevedere un riarresto che poi effettivamente si verificava, cioè nell'individuare le persone davvero a rischio, esseri umani e macchine ottenevano lo stesso risultato (indovinavano circa nel 65% dei casi), ma sbagliavano nel giudicare come tale la futura buona condotta. E c'è di più, nell'errore sia uomini che algoritmi esprimevano nei loro giudizi dei bias razziali, prevedendo più riarresti fra gli afroamericani rispetto a quanti effettivamente se ne sono poi verificati (falso positivo) e stimandone meno fra la popolazione bianca rispetto a quelli effettivamente registrati (falso negativo).

Sembra dunque che COMPAS non sia migliore di un essere umano nel valutare il rischio anzi, peggio ancora, pare che conservi esattamente i nostri stessi pregiudizi.

In un secondo esperimento, Dressel e il suo consulente, l'informatico Hany Farid, si sono chiesti se un altro algoritmo più semplificato potesse produrre migliori risultati rispetto a COMPAS, che in genere utilizza sei fattori e un questionario di 137 item per valutare il rischio. Hanno dunque creato il loro algoritmo, basato solo su due fattori: età e numero di condanne precedenti. Ne sono risultate previsioni che si sono rivelate corrette circa il 67% delle volte, esattamente come i risultati forniti da COMPAS.

Secondo quanto riporta sempre a Science Tim Brennan, che ha creato COMPAS nel 1998, questi risultati non dovrebbero essere assunti come rappresentativi di un malfunzionamento dell'algoritmo dal momento che “un'accuratezza del 70% è stata a lungo considerata il limite per tali sistemi di predizione, e il fatto che gli esseri umani non abbiano fatto meglio è incoraggiante”.

Questi risultati mostrano che in ogni caso, siano uomini o macchine a giudicare, l'errore giudiziario accomuna uomini e macchine "intelligenti". Forse perché - suggerisce Cathy O'Neil, fondatrice della società di consulenza e revisione dei rischi O'Neil Risk Consulting & Algorithmic Auditing -“non c'è mai nulla di completamente obiettivo nella scelta di mandare qualcuno in galera”.

@CristinaDaRold


 

altri articoli

Le notizie di scienza della settimana #107

Il nuovo Report dell’Ufficio europeo dell’Organizzazione mondiale della sanità “Healthy, prosperous lives for all: the European Health Equity Status Report” fa il punto sulle disuguaglianze di salute in Europa. In sintesi, il gap di salute fra ricchi e poveri si riduce meno dell’atteso. In termini di speranza di vita alla nascita, la differenza media è di 3,9 anni nelle donne (speranza di vita media 82 anni; intervallo: 78,1-86) e di 7,6 anni negli uomini (speranza di vita media 76,2 anni; intervallo: 3,4-15,5). L’Italia (e altri paesi come Grecia e Portogallo) ha i valori più alti di speranza di vita, segno che i fattori protettivi come dieta e coesione sociale riescono a contrastare i fattori di rischio e la presente stagnazione economica. Buona anche la performance dell’Italia nella sopravvivenza libera da malattie. Riconoscendo l’importanza di agire direttamente sui determinanti sociali della salute, l’OMS misura l’effetto di 8 politiche sulla riduzione delle differenze di salute fra classi sociali: (1) aumento di 1.000 dollari del PIL pro capite; (2) riduzione delle disuguaglianze di reddito; (3) riduzione del tasso di disoccupazione; (4) riduzione delle spese private per la salute; (5) aumento delle spese di protezione sociale; (6) aumento del finanziamento del sistema sanitario pubblico; (7) aumento della spesa pubblica in politiche del lavoro; (8) aumento della spesa pubblica nelle abitazioni e condizioni di vita. L’aumento del reddito pro capite è l’unico parametro a non avere effetto sulla disuguaglianze, mentre le politiche del lavoro e le condizioni di vita e abitative hanno l’effetto massimo.

Cronache della ricerca

Gli italiani si classificano terzi fra i vincitori degli starting grant dell’European Research Council, il bando più competitivo dell’Europa dedicato ai giovani ricercatori. Bene quindi per gli italiani (benché in discesa rispetto al bando 2018, dove si erano classificati secondi dietro la solita Germania). Male invece per l’Italia, che vede la maggior parte dei suoi ricercatori primeggiare in università e centri di ricerca all’estero.