newsletter finesettimana #10
logo Scienza in rete finesettimana #10
20 novembre 2020
a cura di Chiara Sabelli
Buon venerdì,
questa settimana parliamo di SpaceX che ha trasportato per la prima volta degli astronauti a bordo della Stazione Spaziale Internazionale, dei dubbi sulla presenza di fosfina nell'atmosfera di Venere, della crisi di riproducibilità dell'intelligenza artificiale, di come possiamo migliorare le previsioni dell'epidemia prendendo a esempio le previsioni meteo, degli ultimi aggiornamenti sui modelli climatici e sintetizziamo le notizie salienti sulla COVID-19.
L'argomento che approfondiamo oggi è quello degli algoritmi utilizzati per valutare gli studenti e controllarli durante gli esami che la pandemia ha costretto a sostenere da remoto. Buona lettura e al prossimo venerdì (per segnalare questa newsletter agli amici ecco il link per l'iscrizione)

SEI PEZZI BELLI
1 La navicella Dragon della compagnia privata SpaceX ha raggiunto la Stazione Spaziale Internazionale
Per la prima volta una compagnia privata ha trasportato quattro astronauti sulla Stazione Spaziale Internazionale (ISS), dove rimarranno per i prossimi sei mesi. La sonda è partita domenica dal Kennedy Space Center in Florida e ha raggiunto la ISS dopo 27 ore di volo. Questa operazione si ripeterà in futuro, con SpaceX e successivamente Boeing, che funzioneranno come taxi spaziali per gli astronauti della NASA [The Guardian]

2 Tra gli astronomi infuria il dibattito: è stata davvero rilevata fosfina nell'atmosfera di Venere?
A settembre un gruppo di ricercatori dell'università di Cardiff aveva pubblicato uno studio che documentava l'osservazione di misure spettrali riconducibili alla presenza di fosfina nell'atmosfera di Venere. Se questa conclusione fosse vera si tratterebbe della prova più robusta sull'esistenza di forme di vita fuori dal nostro pianeta. Ma negli ultimi due mesi numerosi gruppi hanno sollevato dei dubbi sulla validità dell'osservazione. L'International Astronomical Union ha poi emesso un comunicato in cui richiamava il gruppo di Cardiff riguardo al suo stile di comunicazione con i media, ricordandogli che è un dovere etico comunicare verso il grande pubblico mantenendo il massimo rigore scientifico [Physics World]

3 L'intelligenza artificiale attraversa una profonda cristi di riproducibilità
A metà ottobre Nature ha pubblicato la lettera preoccupata di 31 scienziati in risposta a uno studio apparso sulla stessa rivista all'inizio dell'anno e riguardante un nuovo sistema di deep learning sviluppato da Google per rilevare forme iniziali di tumore al seno dalle immagini mammografiche (ne avevamo parlato qualche settimana fa). La loro accusa è che più che un articolo per documentare una scoperta scientifica sembrava essere una campagna pubblicitaria dell'ultimo sistema messo a punto dall'azienda. I dettagli riguardanti il codice e i dati su cui era stato allenato erano talmente scarsi da non permettere una valutazione indipendente. Secondo i firmatari della lettera, il caso di Google è solo l'ultimo esempio di una tendenza generale nel campo dell'intelligenza artificiale (IA). Per alcuni questo è dovuto al fatto che l'IA è diventata una scienza sperimentale relativamente di recente e la sua comunità non ha ancora acquisito pienamente i metodi di lavoro che in altri campi, come la fisica o la biologia, sono la consuetudine [MIT Technology Review]

4 Simulare l'epidemia: cosa possono imparare gli epidemiologi dai modelli numerici per le previsioni meteorologiche?
La Royal Society ha commissionato a un gruppo di esperti uno studio di revisione di CovidSim, il modello di previsione dell'epidemia messo a punto dal gruppo dell'Imperial College e i cui risultati hanno informato a marzo le azioni del governo britannico. L'analisi, che deve ancora essere sottoposta a peer-review, ha mostrato che il modello avrebbe beneficiato della cosiddetta 'simulazione di ensemble', una pratica di routine nei sistemi numerici di previsione meteo (ma anche nello studio della dinamica molecolare). Si tratta di simulare l'andamento dell'epidemia variando i parametri di input all'interno del loro intervallo di confidenza per valutare quanto le previsioni ottenute siano sensibili a questi parametri. Stiamo parlando di quantità come il grado di contagiosità e letalità del virus, il numero di contatti stretti tipici in diverse situazioni della vita quotidiana, o l'efficacia di certe misure restrittive. Insomma grandezze che, soprattutto all'inizio di un'epidemia dovuta a un virus nuovo, sono affette da estrema incertezza. Lo studio ha permesso di capire che i parametri più rilevanti alla previsione del numero dei decessi sono la lunghezza del periodo in cui un soggetto asintomatico è contagioso, l'efficacia delle misure di distanziamento sociale e il tempo che intercorre tra l'infezione e l'isolamento [Nature]

6 I modelli climatici più recenti rivedono al rialzo le loro proiezioni sulla temperatura globale, ma non sono i più accurati
Il Coupled Model Intercomparison Project è un database che raccoglie i maggiori modelli climatici per confrontarne le previsioni. Recentemente sono state depositate le ultime simulazioni, alcune delle quali hanno rivisto al rialzo l'evoluzione della temperatura globale. Tuttavia uno studio, pubblicato da poco sulla rivista Earth System Dynamics, mostra come pesando i risultati dei modelli nel database secondo l'accuratezza delle loro previsioni sul passato, gli scenari con i più alti livelli di riscaldamento sembrano essere molto poco probabili. "È ancora necessaria un'azione decisiva per il clima, ma gli scenari che prevedono il riscaldamento più estremo sembrano essere poco realistici" ha affermato su Twitter Lukas Brunner, climatologo all'ETH di Zurigo primo autore della ricerca [Ars Technica]

6 Aggiornamenti COVID-19
   × Lo studio del sangue di persone guarite dalla COVID-19 suggerisce che l'immunità al coronavirus potrebbe durare anni [The New York Times]
   × Uno studio mostra che i bambini producono anticorpi contro il coronavirus più deboli e in numero minore rispetto agli adulti e questo spiegherebbe perché contrastano l'infezione più velocemente e senza ammalarsi seriamente [The New York Times]
   × L'incontro con i coronavirus responsabili di alcuni raffreddori potrebbe generare anticorpi in grado di neutralizzare anche il SARS-CoV-2. Questo spiegherebbe perché i bambini si ammalano meno degli adulti [The New York Times]
   × Il vaccino prodotto dalla società Moderna ha ridotto il rischio di infezione da COVID-19 del 94,5% [STATA News]
   × Pfizer e BioNTech pronti a presentare i dati del vaccino contro COVID-19 alla FDA che mostrano un'efficacia del 95% [STATA News]
   × Un studio ha cercato di stabilire quali siano le politiche di contenimento dell'epidemia di COVID-19 più efficaci tra quelle già implementate nel mondo. Non è cosa facile [Ars Technica]
   ×  Primo test diagnostico molecolare da condurre autonomamente a casa approvato negli Stati Uniti [NPR]
   × Il governo delle app di tracciamento soffre una contraddizione: senza che queste vengano adottate da un numero sufficiente di persone non è possibile dimostrarne l'efficacia, ma senza dimostrarne l'efficacia non è possibile giustificarne e promuoverne l'adozione su larga scala. Come risolverla? [Science]


AUTOMATIZZARE LA SCUOLA
La pandemia ha portato, a marzo, alla chiusura anticipata delle scuole in molti stati europei e non solo. Oltre 500 000 studenti italiani hanno sostenuto la maturità e il loro voto è stato calcolato per il 60% sulla base del percorso degli ultimi tre anni e per il 40% sulla base della sola prova orale (le prove scritte non si sono tenute). In tempi normali l'esame, con due prove scritte e una orale, serve ad assegnare 60 dei 100 punti in palio, mentre i voti ottenuti durante gli ultimi tre anni possono generare massimo 40 punti. Il risultato è stato un generale aumento dei voti. Se nel 2019 i diplomati con voto superiore a 80 erano il 32,8%, quest'anno sono stati il 49,6% del totale. Hanno preso 100, il voto massimo, il 9,9% dei maturandi contro il 5,6% del 2019.

In Gran Bretagna le cose sono andate diversamente. Gli esami finali degli studenti all'uscita dalle scuole superiori, chiamati A-level, non si sono tenuti e la loro valutazione è stata affidata a un algoritmo sulla base dei voti intermedi e della perfomance storica di ciascuna scuola. Il 40% degli studenti ha ricevuto voti più bassi rispetto a quelli proposti dai loro insegnanti e nel pomeriggio del 16 agosto le strade di Londra si sono riempite di ragazzi che agitavano cartelli con su scritto 'fuck the algorithm'. C'è da sottolineare che il peso degli A-level nel sistema dell'istruzione britannico è molto più grande della nostra maturità. Sulla base di quei voti si decide infatti l'accesso all'università e, come conseguenza, al mondo del lavoro. L'algoritmo però non ha penalizzato ugualmente tutti gli studenti, come vedremo. Quelli appartenenti a contesti socioeconomici più svantaggiati hanno pagato il prezzo più salato.

Anche le università hanno trasferito lezioni ed esami online. E se la didattica a distanza ha funzionato meglio rispetto ai gradi inferiori di istruzione, i problemi si sono presentati nelle procedure di valutazione. Un grande numero di università, anche in Italia, ha cominciato a utilizzare sistemi di sorveglianza automatica durante gli esami. Le proteste degli studenti sono state numerose e hanno riguardato diversi temi, dall'eccessiva pressione psicologica a cui sono stati sottoposti, alla discriminazione verso studenti neri su cui i software di riconoscimento facciale funzionano ancora molto male, fino ai dubbi sul rispetto delle leggi sulla privacy. Diverse università hanno deciso di sospenderne l'utilizzo e di ricorrere a personale aggiuntivo per monitorare il comportamento degli studenti da remoto.

IL FIASCO DEGLI A-LEVEL
Nessuno si sarebbe aspettato di vedere invase le strade del centro di Londra in un pomeriggio di agosto da parte di migliaia si studenti delle scuole superiori. Brandendo cartelli con la scritta 'fuck the algorithm', manifestavano davanti alla sede del ministero dell'istruzione protestando contro i voti assegnati agli A-level, una sorta di esami di maturità da cui però dipende l'accesso all'università. Ogni studente sceglie tre o quattro materie su cui sostenere questi esami e riceve una valutazione in lettere: A*, A, B, C, D, E, U. A* è il voto più alto, C è considerato la sufficienza, U equivale a non classificato. Per accedere alle università più prestigiose come Oxford o Cambridge è necessario avere tutte A e almeno una A*. Gli studenti devono formalizzare le loro domande di iscrizione all'università prima di sostenere gli A-level e possono inviare fino a cinque candidature. Cercheranno di scegliere in modo che anche nel caso di una performance non eccezionale riescano comunque ad accedere a un corso universitario, anche se meno ambizioso. Insomma, la pressione è alta.

Per via della pandemia non è stato possibile organizzare gli A-level e Ofqual, l'ufficio che si occupa delle valutazioni degli studenti, ha deciso di affidarsi a un algoritmo. Il motivo della protesta è che il 40% degli studenti si sono visti assegnare voti più bassi di almeno un grado rispetto a quelli richiesti dai loro professori. Solo il 2,2% dei voti assegnati dall'algoritmo è stato più alto di quello richiesto dagli insegnanti. Questa penalizzazione però non è stata uniforme. Gli studenti in situazioni socioeconomiche più svantaggiate hanno ricevuto voti più bassi rispetto a quelli proposti dai loro professori più frequentemente di quanto non sia successo ai meno svantaggiati. Infatti, mentre i professori avrebbero assegnato all'85% degli studenti più svantaggiati un voto uguale o superiore a C (la sufficienza), l'algoritmo lo ha fatto solo per il 74,6% di loro. Una differenza del 10,4%. Tra gli studenti meno svantaggiati l'8,3% in meno ha ricevuto almeno una C e tra i mediamente svantaggiati sono stati il 9,5% in meno coloro che hanno ricevuto un voto superiore alla sufficienza. Se poi si studiano i risultati per tipologia di scuola, distinguendo tra scuole private e pubbliche, si vede che quasi il 49% degli studenti delle scuole private hanno ricevuto complessivamente A*/A, contro uno scarso 22% degli studenti delle scuole pubbliche. Le differenze si vedono anche guardando al miglioramento dei voti rispetto al 2019. Gli studenti delle scuole private hanno migliorato la loro performance nella fascia alta di voti del 4,7%, mentre quelli delle scuole pubbliche solo del 2%. Questa dinamica si vede anche a livello geografico. Gli studenti residenti nelle Midlands, a Londra e nella zona sud occidentale hanno migliorato di più il loro voto rispetto all'anno precedente in confronto alle altre zone dell'Inghilterra. Infine la differenza tra percentuale di studenti bianchi (25,5%) e di studenti neri (17,7%) che hanno ricevuto A o A* è rimasta sostanzialmente invariata rispetto all'anno precedente. Questi risultati indicano in buona sostanza i due aspetti del problema: una tendenza generale all'abbassamento dei voti e un peso eccessivo dei dati storici.

Il primo difetto è in realtà una scelta esplicita di Ofqual, che ha progettato l'algoritmo in modo da evitare voti eccessivamente gonfiati. Il secondo difetto è inevitabile ogni volta che per prevedere il presente si usa il passato. Chiaramente si può dare un peso più o meno importante ai dati storici, ma in quei dati sono scritte le disuguaglianze sociali che spiegano i risultati che abbiamo appena esposto.

Come funziona l'algoritmo? Partiamo dai suoi ingredienti, immaginando di considerare una singola materia.

Il primo ingrediente è costituito dai voti che l'insegnante assegnerebbe a ciascuno studente della sua classe. Da questi voti viene stilata una classifica.

Il secondo ingrediente sono i voti ricevuti dagli studenti di quella stessa scuola nei tre anni scolastici precedenti. Si organizzano questi dati in forma di percentuali di studenti che hanno ottenuto almeno A, almeno B, almeno C, e così via.

Il terzo ingrediente è quello più complicato, perché progettato per tenere conto del grado di aderenza tra i voti che gli studenti ottengono alla fine di ciascun anno delle scuole superiori (i cosiddetti GCSE) e i voti dei corrispondenti A-level. In altre parole ci si chiede quanto i voti dei GCSE, che di solito si esprimono con un numero da 1 (il voto più alto) a 10 (il voto più basso), sono capaci di prevedere il voto degli A-level. Per rispondere a questa domanda si considera l'insieme di tutti gli studenti inglesi che negli ultimi tre anni hanno sostenuto i GCSE e gli A-level in quella materia. Su questo campione nazionale si calcolano le percentuali di studenti che avendo ricevuto 1 al GCSE hanno ottenuto agli A-level almeno una A, almeno una B, almeno una C, e così via. Lo stesso si fa per tutti gli altri voti da 2 fino a 10.
Ciascuna di queste percentuali viene usata per fare una previsione dei voti presi agli A-level dagli studenti della scuola che stiamo considerando nei tre anni precedenti, basandosi sui loro risultati ai GCSE (quando questi sono disponibili). Le stesse percentuali si usano per prevedere quali sarebbero gli A-level degli studenti di quest'anno sulla base dei risultati ottenuti ai GCSE. Il confronto tra queste due previsioni viene utilizzato per correggere la distribuzione dei voti basata esclusivamente sugli A-level degli anni precedenti in quella scuola (il secondo ingrediente).

Facciamo un esempio. Supponiamo che sulla base dei risultati degli esami intermedi, i GCSE, la percentuale di studenti dei tre anni precedenti con voto agli A-level maggiore o uguale a B sia stimata al 38,4% e quella degli studenti di quest'anno al 43,9%. Questo confronto suggerisce che gli studenti di quest'anno sono più bravi rispetto a quelli che hanno frequentato la stessa scuola negli anni precedenti e dunque si corregge al rialzo la distribuzione dei voti ottenuti storicamente agli A-level. Se la percentuale di studenti di quella scuola con voto maggiore o uguale a B è stata negli ultimi anni del 42,7% quella stimata per quest'anno sarà il 5,5% (43,9% meno 38,4%) in più, ovvero 48,2%. Lo stesso calcolo si fa per tutti i voti da A fino a U e si ottiene così la distribuzione obiettivo, quella su cui vengono calcolati i voti finali. C'è una precisazione da fare. Questo meccanismo di aggiustamento è più o meno importante a seconda di quale sia il numero di studenti per cui sono disponibili i voti ottenuti ai GCSE in ciascuna materia.

In questo meccanismo di aggiustamento è codificato l'obiettivo di non 'gonfiare' i voti. Consideriamo il caso della classe di 27 studenti raccontato in questo articolo del think tank FFT Education Lab, in cui la distribuzione obiettivo prevede che il 5,7% degli studenti ottenga A* (il voto più alto) e che la percentuale di studenti con voto maggiore o uguale a E sia il 97,7%. L'algoritmo ragiona sulla distribuzione cumulata e prevede che la percentuale di studenti che alla fine ottengono un voto almeno uguale ad A*, A, B, C, e così via non debba eccedere quella fissata dalla distribuzione obiettivo. Dato che uno studente, in una classe di 27 persone, conta il 3,7% e due rappresentano il 7,4%, una percentuale maggiore del 5,7% fissata dalla distribuzione obiettivo per il voto A*, solo uno di loro prenderà A*. Allo stesso modo, visto che se nessuno studente ricevesse una U la percentuale con voto maggiore o uguale a E sarebbe il 100%, maggiore del 97,7% indicato dalla distribuzione obiettivo, almeno uno deve ricevere U. Questo vuol dire che anche se la distribuzione obiettivo indicherebbe che gli studenti con voto U debbano essere il 2,3% (100% meno 97,7%), cioè meno di uno studente (che come abbiamo detto rappresenta il 3,7% del totale), uno studente riceverà U. Al contrario, anche se la distribuzione obiettivo indicherebbe che gli studenti con voto A* debbano essere il 5,7%, ovvero più di uno studente, solo a uno verrà assegnato il voto massimo. Questa regola scritta nell'algoritmo ha causato il generale abbassamento dei voti negli A-level automatizzati del 2020.

In una intervista a MIT Technology Review, la matematica, giornalista e scrittrice Hannah Fry, autrice del libro 'Hello World: How to Be Human in the Age of the Machine' ha sottolineato come la decisione di avere come obiettivo prioritario dell'algoritmo quello di non 'gonfiare' i voti è il nocciolo del problema nella vicenda degli A-level 2020.

Il secondo difetto è quello più comune nell'utilizzo di questi sistemi, ovvero l'idea che il futuro debba in qualche modo ripetere il passato. Uno studente che si discosta troppo dalle performance media dei suoi compagni negli anni precedenti sarà in qualche modo forzato a replicare quella media attraverso i passaggi che abbiamo descritto prima. Tanto più che l'aggiustamento della distribuzione dei voti rispetto a quella storica ha pesato poco nei casi in cui i voti dei GCSE non fossero disponibili per tutti gli studenti della classe in una specifica materia.

"L'esperienza degli A-level 2020 è forse stata la prima volta in cui un'intera nazione ha constatato le conseguenze di un algoritmo ingiusto, ma probabilmente non sarà l'ultima", ha commentato ancora Hannah Fry. Progettare algoritmi che evitino questo tipo di errori è molto complicato purtroppo. Ma in questo caso, vista anche il contesto di emergenza in cui si dovevano prendere le decisioni, sarebbero stato più saggio scegliere una soluzione più semplice e anche più facile da comunicare.

Ma la protesta degli studenti non è caduta inascoltata, forse anche grazie al sostegno di istituzioni importanti, come la Royal Statistical Society, Non più tardi di lunedì 17 agosto, a soli quattro giorni dalla pubblicazione dei risultati, il segretario di stato per l'istruzione Gavin Williamson ha annunciato che sarebbero stati assegnati i voti suggeriti dai professori e cancellata la valutazione dell'algoritmo.

SOFTWARE CHE SORVEGLIANO GLI STUDENTI
La pandemia ha rappresentato un'incredibile occasione di profitto per le compagnie che commercializzano software di e-proctoring, sistemi automatici di controllo degli studenti durante gli esami tramite webcam e monitoraggio delle attività sul loro computer. Solo negli Stati Uniti università pubbliche e private hanno speso milioni di dollari in questo settore. Questi stessi sistemi sono stati utilizzati ampiamente anche in Europa.

Una parte di essi si basa su algoritmi di riconoscimento facciale in grado di verificare l'identità degli studenti confrontando la loro immagine con la foto sul documento di identità, ma anche di segnalare delle allerte nel caso di movimenti troppo frequenti della testa e degli occhi lontano dallo schermo. A settembre una classe della North Carolina Agricultural and Technical State University ha ricevuto un'email infuriata da parte della professoressa del corso di marketing subito dopo aver sostenuto la prova di esame. La mail conteneva la seguente frase: "uno studente ha mosso la testa e gli occhi 776 volte in 6 minuti [...] se il comportamento rilevato da Pretorio [il software di e-proctoring] non migliora nella prossima prova, sarò costretta a segnalarvi ai decani dell'università".

Le proteste degli studenti sono state numerose e su diversi temi. In alcuni casi hanno denunciato inconvenienti tecnici, come il fatto che una connessione a internet non veloce e stabile in grado di trasmettere le immagini raccolte dalla webcam in alta risoluzione abbia causato l'interruzione dell'esame o la segnalazione di comportamenti sospetti ai professori. I timori che la richiesta di una connessione con queste caratteristiche potesse discriminare gli studenti provenienti da contesti più svantaggiati, ha spinto l'istituzione che si occupa dei SAT, i test standardizzati per l'ammissione all'università negli Stati Uniti, a rinunciare all'utilizzo dei sistemi di e-proctoring.

In altri casi la discriminazione non è stata evitata, come quando un software ha chiesto ad alcuni studenti neri di migliorare l'illuminazione della stanza per permettere l'identificazione. È ormai risaputo che i software di riconoscimento facciale funzionano peggio sui volti neri per via del fatto che sono allenati su database contenenti prevalentemente persone bianche.

Gli studenti hanno poi lamentato l'enorme pressione psicologica a cui questi sistemi si sorveglianza li hanno sottoposti, in un periodo già pieno di ansia e incertezze, oltre a denunciare episodi al limite della dignità. Cheyenne Keating, matricola alla University of Florida, durante un test di statistica ha avvisato il controllore (umano) che la stava sorvegliando da remoto che aveva una forte sensazione di nausea e aveva bisogno di vomitare. Visto che il sistema impedisce di alzarsi dalla sedia pena l'annullamento dell'esame, Keating è stata costretta a vomitare in un cestino seduta alla scrivania e proseguire il test subito dopo. Altri studenti sono stati costretti a urinare senza alzarsi.

Infine sono stati sollevati dubbi riguardanti la violazione della privacy, visto che questi sistemi hanno accesso ai computer degli studenti e di conseguenza a dati sensibili. Molti sistemi richiedono poi di inquadrare la stanza in cui lo studente sostiene l'esame per controllare che non ci sia nessun'altro e che non ci siano appunti appesi alla parete retrostante il computer. Con le restrizioni imposte dal diffondersi del contagio, molte società hanno chiesto ai controllori, arruolati per monitorare i video degli studenti, di farlo da casa, sollevando molti dubbi sul grado di protezione garantito alle immagini trasmesse via webcam.

Le proteste degli studenti hanno spinto diverse università, sia in Italia che altrove, a sospendere l'utilizzo di questi sistemi. L'Università di Berkeley per esempio ha deciso già ad aprile di non utilizzare sistemi del genere, neanche quelli che impiegano di controllori umani per la sorveglianza da remoto. perché violerebbe le regole etiche del campus riguardo il diritto alla privacy e l'accessibilità da parte di persone con disabilità. Per ora l'unico strumento autorizzato è un blocco del browser con cui viene effettuato l'esame.

Per suggerimenti e commenti scrivere a: [email protected]
Per donare alla Newsletter clicca qui
Se invece non vuoi più ricevere la newsletter clicca qui
PS: per tenere Scienza in rete fuori dallo spam aggiungi la nostra mail [email protected] tuoi contatti (per Gmail, vai a contacts.google.com e clicca su "crea contatto"). Se Scienza in rete finisce nelle promozioni di Gmail, trascinala nella casella della tua posta in entrata per non perdere mai un numero!
Segui Scienza in rete
logo facebook logo twitter logo twitter logo twitter

By:
logo nuovo zadig