fbpx Automatizzare la scuola | Scienza in rete
Covid-19/

Automatizzare la scuola

Tempo di lettura: 12 mins

Studenti inglesi protestano nelle strade di Londra il 14 agosto contro i risultati degli A-level, una sorta di maturità, stabiliti da un algoritmo. Fonte: The Sun, "Students protest A-level results downgrading outrage", Youtube (17 agosto 2020).

La pandemia ha portato, a marzo, alla chiusura anticipata delle scuole in molti stati europei e non solo. Oltre 500 000 studenti italiani hanno sostenuto la maturità e il loro voto è stato calcolato per il 60% sulla base del percorso degli ultimi tre anni e per il 40% sulla base della sola prova orale (le prove scritte non si sono tenute). In tempi normali l'esame, con due prove scritte e una orale, serve ad assegnare 60 dei 100 punti in palio, mentre i voti ottenuti durante gli ultimi tre anni possono generare massimo 40 punti. Il risultato è stato un generale aumento dei voti. Se nel 2019 i diplomati con voto superiore a 80 erano il 32,8%, quest'anno sono stati il 49,6% del totale. Hanno preso 100, il voto massimo, il 9,9% dei maturandi contro il 5,6% del 2019.

In Gran Bretagna le cose sono andate diversamente. Gli esami finali degli studenti all'uscita dalle scuole superiori, chiamati A-level, non si sono tenuti e la loro valutazione è stata affidata a un algoritmo sulla base dei voti intermedi e della perfomance storica di ciascuna scuola. Il 40% degli studenti ha ricevuto voti più bassi rispetto a quelli proposti dai loro insegnanti e nel pomeriggio del 16 agosto le strade di Londra si sono riempite di ragazzi che agitavano cartelli con su scritto 'fuck the algorithm'. C'è da sottolineare che il peso degli A-level nel sistema dell'istruzione britannico è molto più grande della nostra maturità. Sulla base di quei voti si decide infatti l'accesso all'università e, come conseguenza, al mondo del lavoro. L'algoritmo però non ha penalizzato ugualmente tutti gli studenti, come vedremo. Quelli appartenenti a contesti socioeconomici più svantaggiati hanno pagato il prezzo più salato.

Anche le università hanno trasferito lezioni ed esami online. E se la didattica a distanza ha funzionato meglio rispetto ai gradi inferiori di istruzione, i problemi si sono presentati nelle procedure di valutazione. Un grande numero di università, anche in Italia, ha cominciato a utilizzare sistemi di sorveglianza automatica durante gli esami. Le proteste degli studenti sono state numerose e hanno riguardato diversi temi, dall'eccessiva pressione psicologica a cui sono stati sottoposti, alla discriminazione verso studenti neri su cui i software di riconoscimento facciale funzionano ancora molto male, fino ai dubbi sul rispetto delle leggi sulla privacy. Diverse università hanno deciso di sospenderne l'utilizzo e di ricorrere a personale aggiuntivo per monitorare il comportamento degli studenti da remoto.

Il fiasco degli A-level

Nessuno si sarebbe aspettato di vedere invase le strade del centro di Londra in un pomeriggio di agosto da parte di migliaia si studenti delle scuole superiori. Brandendo cartelli con la scritta 'fuck the algorithm', manifestavano davanti alla sede del ministero dell'istruzione protestando contro i voti assegnati agli A-level, una sorta di esami di maturità da cui però dipende l'accesso all'università. Ogni studente sceglie tre o quattro materie su cui sostenere questi esami e riceve una valutazione in lettere: A*, A, B, C, D, E, U. A* è il voto più alto, C è considerato la sufficienza, U equivale a non classificato. Per accedere alle università più prestigiose come Oxford o Cambridge è necessario avere tutte A e almeno una A*. Gli studenti devono formalizzare le loro domande di iscrizione all'università prima di sostenere gli A-level e possono inviare fino a cinque candidature. Cercheranno di scegliere in modo che anche nel caso di una performance non eccezionale riescano comunque ad accedere a un corso universitario, anche se meno ambizioso. Insomma, la pressione è alta.

Per via della pandemia non è stato possibile organizzare gli A-level e Ofqual, l'ufficio che si occupa delle valutazioni degli studenti, ha deciso di affidarsi a un algoritmo. Il motivo della protesta è che il 40% degli studenti si sono visti assegnare voti più bassi di almeno un grado rispetto a quelli richiesti dai loro professori. Solo il 2,2% dei voti assegnati dall'algoritmo è stato più alto di quello richiesto dagli insegnanti. Questa penalizzazione però non è stata uniforme. Gli studenti in situazioni socioeconomiche più svantaggiate hanno ricevuto voti più bassi rispetto a quelli proposti dai loro professori più frequentemente di quanto non sia successo ai meno svantaggiati. Infatti, mentre i professori avrebbero assegnato all'85% degli studenti più svantaggiati un voto uguale o superiore a C (la sufficienza), l'algoritmo lo ha fatto solo per il 74,6% di loro. Una differenza del 10,4%. Tra gli studenti meno svantaggiati l'8,3% in meno ha ricevuto almeno una C e tra i mediamente svantaggiati sono stati il 9,5% in meno coloro che hanno ricevuto un voto superiore alla sufficienza. Se poi si studiano i risultati per tipologia di scuola, distinguendo tra scuole private e pubbliche, si vede che quasi il 49% degli studenti delle scuole private hanno ricevuto complessivamente A*/A, contro uno scarso 22% degli studenti delle scuole pubbliche. Le differenze si vedono anche guardando al miglioramento dei voti rispetto al 2019. Gli studenti delle scuole private hanno migliorato la loro performance nella fascia alta di voti del 4,7%, mentre quelli delle scuole pubbliche solo del 2%. Questa dinamica si vede anche a livello geografico. Gli studenti residenti nelle Midlands, a Londra e nella zona sud occidentale hanno migliorato di più il loro voto rispetto all'anno precedente in confronto alle altre zone dell'Inghilterra. Infine la differenza tra percentuale di studenti bianchi (25,5%) e di studenti neri (17,7%) che hanno ricevuto A o A* è rimasta sostanzialmente invariata rispetto all'anno precedente. Questi risultati indicano in buona sostanza i due aspetti del problema: una tendenza generale all'abbassamento dei voti e un peso eccessivo dei dati storici.

Il primo difetto è in realtà una scelta esplicita di Ofqual, che ha progettato l'algoritmo in modo da evitare voti eccessivamente gonfiati. Il secondo difetto è inevitabile ogni volta che per prevedere il presente si usa il passato. Chiaramente si può dare un peso più o meno importante ai dati storici, ma in quei dati sono scritte le disuguaglianze sociali che spiegano i risultati che abbiamo appena esposto.

Come funziona l'algoritmo? Partiamo dai suoi ingredienti, immaginando di considerare una singola materia.

Il primo ingrediente è costituito dai voti che l'insegnante assegnerebbe a ciascuno studente della sua classe. Da questi voti viene stilata una classifica.

Il secondo ingrediente sono i voti ricevuti dagli studenti di quella stessa scuola nei tre anni scolastici precedenti. Si organizzano questi dati in forma di percentuali di studenti che hanno ottenuto almeno A, almeno B, almeno C, e così via.

Il terzo ingrediente è quello più complicato, perché progettato per tenere conto del grado di aderenza tra i voti che gli studenti ottengono alla fine di ciascun anno delle scuole superiori (i cosiddetti GCSE) e i voti dei corrispondenti A-level. In altre parole ci si chiede quanto i voti dei GCSE, che di solito si esprimono con un numero da 1 (il voto più alto) a 10 (il voto più basso), sono capaci di prevedere il voto degli A-level. Per rispondere a questa domanda si considera l'insieme di tutti gli studenti inglesi che negli ultimi tre anni hanno sostenuto i GCSE e gli A-level in quella materia. Su questo campione nazionale si calcolano le percentuali di studenti che avendo ricevuto 1 al GCSE hanno ottenuto agli A-level almeno una A, almeno una B, almeno una C, e così via. Lo stesso si fa per tutti gli altri voti da 2 fino a 10.
Ciascuna di queste percentuali viene usata per fare una previsione dei voti presi agli A-level dagli studenti della scuola che stiamo considerando nei tre anni precedenti, basandosi sui loro risultati ai GCSE (quando questi sono disponibili). Le stesse percentuali si usano per prevedere quali sarebbero gli A-level degli studenti di quest'anno sulla base dei risultati ottenuti ai GCSE. Il confronto tra queste due previsioni viene utilizzato per correggere la distribuzione dei voti basata esclusivamente sugli A-level degli anni precedenti in quella scuola (il secondo ingrediente).

Facciamo un esempio. Supponiamo che sulla base dei risultati degli esami intermedi, i GCSE, la percentuale di studenti dei tre anni precedenti con voto agli A-level maggiore o uguale a B sia stimata al 38,4% e quella degli studenti di quest'anno al 43,9%. Questo confronto suggerisce che gli studenti di quest'anno sono più bravi rispetto a quelli che hanno frequentato la stessa scuola negli anni precedenti e dunque si corregge al rialzo la distribuzione dei voti ottenuti storicamente agli A-level. Se la percentuale di studenti di quella scuola con voto maggiore o uguale a B è stata negli ultimi anni del 42,7% quella stimata per quest'anno sarà il 5,5% (43,9% meno 38,4%) in più, ovvero 48,2%. Lo stesso calcolo si fa per tutti i voti da A fino a U e si ottiene così la distribuzione obiettivo, quella su cui vengono calcolati i voti finali. C'è una precisazione da fare. Questo meccanismo di aggiustamento è più o meno importante a seconda di quale sia il numero di studenti per cui sono disponibili i voti ottenuti ai GCSE in ciascuna materia.

In questo meccanismo di aggiustamento è codificato l'obiettivo di non 'gonfiare' i voti. Consideriamo il caso della classe di 27 studenti raccontato in questo articolo del think tank FFT Education Lab, in cui la distribuzione obiettivo prevede che il 5,7% degli studenti ottenga A* (il voto più alto) e che la percentuale di studenti con voto maggiore o uguale a E sia il 97,7%. L'algoritmo ragiona sulla distribuzione cumulata e prevede che la percentuale di studenti che alla fine ottengono un voto almeno uguale ad A*, A, B, C, e così via non debba eccedere quella fissata dalla distribuzione obiettivo. Dato che uno studente, in una classe di 27 persone, conta il 3,7% e due rappresentano il 7,4%, una percentuale maggiore del 5,7% fissata dalla distribuzione obiettivo per il voto A*, solo uno di loro prenderà A*. Allo stesso modo, visto che se nessuno studente ricevesse una U la percentuale con voto maggiore o uguale a E sarebbe il 100%, maggiore del 97,7% indicato dalla distribuzione obiettivo, almeno uno deve ricevere U. Questo vuol dire che anche se la distribuzione obiettivo indicherebbe che gli studenti con voto U debbano essere il 2,3% (100% meno 97,7%), cioè meno di uno studente (che come abbiamo detto rappresenta il 3,7% del totale), uno studente riceverà U. Al contrario, anche se la distribuzione obiettivo indicherebbe che gli studenti con voto A* debbano essere il 5,7%, ovvero più di uno studente, solo a uno verrà assegnato il voto massimo. Questa regola scritta nell'algoritmo ha causato il generale abbassamento dei voti negli A-level automatizzati del 2020.

In una intervista a MIT Technology Review, la matematica, giornalista e scrittrice Hannah Fry, autrice del libro 'Hello World: How to Be Human in the Age of the Machine' ha sottolineato come la decisione di avere come obiettivo prioritario dell'algoritmo quello di non 'gonfiare' i voti è il nocciolo del problema nella vicenda degli A-level 2020.

Il secondo difetto è quello più comune nell'utilizzo di questi sistemi, ovvero l'idea che il futuro debba in qualche modo ripetere il passato. Uno studente che si discosta troppo dalle performance media dei suoi compagni negli anni precedenti sarà in qualche modo forzato a replicare quella media attraverso i passaggi che abbiamo descritto prima. Tanto più che l'aggiustamento della distribuzione dei voti rispetto a quella storica ha pesato poco nei casi in cui i voti dei GCSE non fossero disponibili per tutti gli studenti della classe in una specifica materia.

"L'esperienza degli A-level 2020 è forse stata la prima volta in cui un'intera nazione ha constatato le conseguenze di un algoritmo ingiusto, ma probabilmente non sarà l'ultima", ha commentato ancora Hannah Fry. Progettare algoritmi che evitino questo tipo di errori è molto complicato purtroppo. Ma in questo caso, vista anche il contesto di emergenza in cui si dovevano prendere le decisioni, sarebbero stato più saggio scegliere una soluzione più semplice e anche più facile da comunicare.

Ma la protesta degli studenti non è caduta inascoltata, forse anche grazie al sostegno di istituzioni importanti, come la Royal Statistical Society, Non più tardi di lunedì 17 agosto, a soli quattro giorni dalla pubblicazione dei risultati, il segretario di stato per l'istruzione Gavin Williamson ha annunciato che sarebbero stati assegnati i voti suggeriti dai professori e cancellata la valutazione dell'algoritmo.

Software che sorvegliano gli studenti

La pandemia ha rappresentato un'incredibile occasione di profitto per le compagnie che commercializzano software di e-proctoring, sistemi automatici di controllo degli studenti durante gli esami tramite webcam e monitoraggio delle attività sul loro computer. Solo negli Stati Uniti università pubbliche e private hanno speso milioni di dollari in questo settore. Questi stessi sistemi sono stati utilizzati ampiamente anche in Europa.

Una parte di essi si basa su algoritmi di riconoscimento facciale in grado di verificare l'identità degli studenti confrontando la loro immagine con la foto sul documento di identità, ma anche di segnalare delle allerte nel caso di movimenti troppo frequenti della testa e degli occhi lontano dallo schermo. A settembre una classe della North Carolina Agricultural and Technical State University ha ricevuto un'email infuriata da parte della professoressa del corso di marketing subito dopo aver sostenuto la prova di esame. La mail conteneva la seguente frase: "uno studente ha mosso la testa e gli occhi 776 volte in 6 minuti [...] se il comportamento rilevato da Pretorio [il software di e-proctoring] non migliora nella prossima prova, sarò costretta a segnalarvi ai decani dell'università".

Le proteste degli studenti sono state numerose e su diversi temi. In alcuni casi hanno denunciato inconvenienti tecnici, come il fatto che una connessione a internet non veloce e stabile in grado di trasmettere le immagini raccolte dalla webcam in alta risoluzione abbia causato l'interruzione dell'esame o la segnalazione di comportamenti sospetti ai professori. I timori che la richiesta di una connessione con queste caratteristiche potesse discriminare gli studenti provenienti da contesti più svantaggiati, ha spinto l'istituzione che si occupa dei SAT, i test standardizzati per l'ammissione all'università negli Stati Uniti, a rinunciare all'utilizzo dei sistemi di e-proctoring.

In altri casi la discriminazione non è stata evitata, come quando un software ha chiesto ad alcuni studenti neri di migliorare l'illuminazione della stanza per permettere l'identificazione. È ormai risaputo che i software di riconoscimento facciale funzionano peggio sui volti neri per via del fatto che sono allenati su database contenenti prevalentemente persone bianche.

Gli studenti hanno poi lamentato l'enorme pressione psicologica a cui questi sistemi si sorveglianza li hanno sottoposti, in un periodo già pieno di ansia e incertezze, oltre a denunciare episodi al limite della dignità. Cheyenne Keating, matricola alla University of Florida, durante un test di statistica ha avvisato il controllore (umano) che la stava sorvegliando da remoto che aveva una forte sensazione di nausea e aveva bisogno di vomitare. Visto che il sistema impedisce di alzarsi dalla sedia pena l'annullamento dell'esame, Keating è stata costretta a vomitare in un cestino seduta alla scrivania e proseguire il test subito dopo. Altri studenti sono stati costretti a urinare senza alzarsi.

Infine sono stati sollevati dubbi riguardanti la violazione della privacy, visto che questi sistemi hanno accesso ai computer degli studenti e di conseguenza a dati sensibili. Molti sistemi richiedono poi di inquadrare la stanza in cui lo studente sostiene l'esame per controllare che non ci sia nessun'altro e che non ci siano appunti appesi alla parete retrostante il computer. Con le restrizioni imposte dal diffondersi del contagio, molte società hanno chiesto ai controllori, arruolati per monitorare i video degli studenti, di farlo da casa, sollevando molti dubbi sul grado di protezione garantito alle immagini trasmesse via webcam.

Le proteste degli studenti hanno spinto diverse università, sia in Italia che altrove, a sospendere l'utilizzo di questi sistemi. L'Università di Berkeley per esempio ha deciso già ad aprile di non utilizzare sistemi del genere, neanche quelli che impiegano di controllori umani per la sorveglianza da remoto. perché violerebbe le regole etiche del campus riguardo il diritto alla privacy e l'accessibilità da parte di persone con disabilità. Per ora l'unico strumento autorizzato è un blocco del browser con cui viene effettuato l'esame.

Per ricevere questo contenuto in anteprima ogni settimana insieme a sei consigli di lettura iscriviti alla newsletter di Scienza in rete curata da Chiara Sabelli(ecco il link per l'iscrizione). Trovi qui il testo completo di questa settimana.

Buona lettura, e buon fine settimana!

Aiuta Scienza in Rete a crescere. Il lavoro della redazione, soprattutto in questi momenti di emergenza, è enorme. Attualmente il giornale è interamente sostenuto dall'Editore Zadig, che non ricava alcun utile da questa attività, se non il piacere di fare giornalismo scientifico rigoroso, tempestivo e indipendente. Con il tuo contributo possiamo garantire un futuro a Scienza in Rete.

E' possibile inviare i contributi attraverso Paypal cliccando sul pulsante qui sopra. Questa forma di pagamento è garantita da Paypal.

Oppure attraverso bonifico bancario (IBAN: IT78X0311101614000000002939 intestato a Zadig srl - UBI SCPA - Agenzia di Milano, Piazzale Susa 2)

altri articoli

Ma è così diversa la seconda ondata?

Davvero durante la seconda ondata si sono contagiate più persone che nella prima, come a volte si dice? Cesare Cislaghi fa qualche esercizio matematico: valutarne la correttezza è difficile, ma i risultati sembrano mantenere una certa coerenza interna.

Crediti immagine: Background vector created by starline - www.freepik.com

Una delle opinioni diffuse ma non confermate da analisi più approfondite è che durante la seconda ondata si siano contagiate molte più persone che nella prima, anche se i contagi hanno provocato meno complicazioni cliniche e queste sono state meno letali. Non è facile, ovviamente, cercare di ricostruire quelle che potrebbero essere state le frequenze da fine febbraio a oggi, ma quello che presentiamo qui è un tentativo per provare a fare questa complicata e rischiosa operazione.