L'insostenibile leggerezza della giustizia artificiale

Read time: 4 mins

"Scales of Justice". Credit: photo by North Charleston - Licenza: CC BY-SA 2.0.

Ogni giorno, i giudici sono chiamati a deliberare il futuro di un uomo e di una donna che ha commesso un reato sulla base del rischio che se rilasciato ne compia un altro. Questioni come “quanti anni dovremmo dare a una donna bipolare condannata per omicidio?”, “Dovremmo mandare in galera un giovane stupratore in attesa di processo e quindi innocente fino a sentenza, o rilasciarlo su cauzione con la possibilità che stupri altre donne se colpevole?”. 

Forse non tutti sanno che le corti americane a partire dagli anni Ottanta, per assicurarsi che i giudici trattassero equamente tutti gli imputati, hanno iniziato a richiedere al personale delle prigioni di raccogliere dati sulle finanze degli imputati, sulle loro famiglie, sugli amici, su eventuali storie di droga e sui precedenti crimini, per provare a quantificare il rischio possibile di recidiva. Negli anni però da carta e penna si è passati ai computer. Da anni i tribunali americani fanno uso di sistemi algoritmici di Intelligenza Artificiale - per lo più tool privati - per profilare il livello di rischio di recidiva, valutando una serie di indicatori socio-economici. Uno studio pubblicato in questi giorni su Science suggerisce che questo ampio utilizzo di questi strumenti per valutare la possibilità di recidiva, non è migliore - per citare alla lettera - “di un gruppo di persone che possiedono solo alcune informazioni chiave”.

Già nel 2016 un'inchiesta di ProPublica, noto giornale investigativo americano, aveva evidenziato che il sistema denominato COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) esprimeva fortissimi bias etnici: di fatto le persone afroamericane erano bollate come ad alto rischio di recidive molto di più rispetto ai bianchi. Proprio questa inchiesta ha dato il via allo studio ora pubblicato su Science condotto da Julia Dressel del Dipartimento di Computer Science del Dartmouth College, che si è posta la domanda più basilare: gli algoritmi riescono davvero a prevedere meglio della mente umana come andranno le cose, cioè in questo caso se la persona lasciata libera compirà un altro crimine una volta rilasciata oppure no?

Dressel ha selezionato in maniera casuale 10.000 imputati in attesa di processo nella contea di Broward, in Florida, inserendoli nel sistema COMPAS. Ha poi selezionato in questo gruppo un campione casuale di 1.000 persone, considerando sette indicatori per ciascuno, inclusi età, sesso e numero di arresti precedenti. Ha poi reclutato 400 persone utilizzando l'Amazon Mechanical Turk, un servizio di crowdsourcing online per la ricerca di volontari per ricerche scientifiche. Ogni volontario ha ricevuto i profili di 50 imputati e gli è stato chiesto di prevedere se sarebbero stati nuovamente arrestati entro 2 anni, con gli stessi indicatori standard di COMPAS.

Ebbene, nel prevedere un riarresto che poi effettivamente si verificava, cioè nell'individuare le persone davvero a rischio, esseri umani e macchine ottenevano lo stesso risultato (indovinavano circa nel 65% dei casi), ma sbagliavano nel giudicare come tale la futura buona condotta. E c'è di più, nell'errore sia uomini che algoritmi esprimevano nei loro giudizi dei bias razziali, prevedendo più riarresti fra gli afroamericani rispetto a quanti effettivamente se ne sono poi verificati (falso positivo) e stimandone meno fra la popolazione bianca rispetto a quelli effettivamente registrati (falso negativo).

Sembra dunque che COMPAS non sia migliore di un essere umano nel valutare il rischio anzi, peggio ancora, pare che conservi esattamente i nostri stessi pregiudizi.

In un secondo esperimento, Dressel e il suo consulente, l'informatico Hany Farid, si sono chiesti se un altro algoritmo più semplificato potesse produrre migliori risultati rispetto a COMPAS, che in genere utilizza sei fattori e un questionario di 137 item per valutare il rischio. Hanno dunque creato il loro algoritmo, basato solo su due fattori: età e numero di condanne precedenti. Ne sono risultate previsioni che si sono rivelate corrette circa il 67% delle volte, esattamente come i risultati forniti da COMPAS.

Secondo quanto riporta sempre a Science Tim Brennan, che ha creato COMPAS nel 1998, questi risultati non dovrebbero essere assunti come rappresentativi di un malfunzionamento dell'algoritmo dal momento che “un'accuratezza del 70% è stata a lungo considerata il limite per tali sistemi di predizione, e il fatto che gli esseri umani non abbiano fatto meglio è incoraggiante”.

Questi risultati mostrano che in ogni caso, siano uomini o macchine a giudicare, l'errore giudiziario accomuna uomini e macchine "intelligenti". Forse perché - suggerisce Cathy O'Neil, fondatrice della società di consulenza e revisione dei rischi O'Neil Risk Consulting & Algorithmic Auditing -“non c'è mai nulla di completamente obiettivo nella scelta di mandare qualcuno in galera”.

@CristinaDaRold


 

altri articoli

ESOF, da Tolosa a Trieste

Credits: ©GuillaumeGimenez/ESOF2018

Lo scorso 14 luglio, a Tolosa, un sole caldo martellava i tetti delle case color pastello mentre la città si preparava per i tradizionali giochi pirotecnici serali organizzati sul fiume in occasione della fête nationale. Mentre l’elettrizzante attesa della finale mondiale iniziava a riempire le strade, al centro congressi Pierre Baudis alle spalle del giardino botanico si concludeva, senza troppo clamore, l’ottava edizione dell’EuroScience Open Forum (ESOF).