La digitalizzazione della ricerca, tra dati FAIR e Intelligenza Artificiale

Pubblicato il 15/07/2024

La digitalizzazione e l'IA offrono grandi opportunità per la ricerca scientifica, ma presentano anche rischi. Sarà importante garantire la qualità dei dati, la trasparenza degli algoritmi e la sovranità dei dati europei con il supporto costante delle istituzioni: i principi FAIR (Findable, Accessible, Interoperable, Reusable) garantiscono che i dati siano gestiti correttamente.

Tempo di lettura: 6 mins

Dati

Intelligenza artificiale

Tra gli ambiti nei quali la digitalizzazione produce impatti dirompenti si colloca una specie peculiare di lavoro produttivo: la produzione di conoscenza. La tecnologia digitale ha impresso un ulteriore cambio di marcia a un’attività umana che già procedeva, da almeno due secoli, con tassi di crescita superiori a ogni altra. La quantità oggi disponibile di dati e pubblicazioni scientifiche non ha pari nella storia e continuerà a crescere a ritmi difficili da gestire in modo convenzionale. D’altro canto, l’impiego dell’intelligenza artificiale (IA) per la ricerca consente di introdurre un nuovo paradigma nell’analisi e interpretazione dei dati, grazie alla possibilità di sfruttare algoritmi e calcolo automatico per eseguire in modo estremamente rapido operazioni tipiche dell’intelligenza umana.

La digitalizzazione, tuttavia, non porta con sé soltanto un cambiamento di scala nella capacità analitica, ma anche la possibilità di condividere, riprodurre e riconoscere i passi fondativi dell’impresa scientifica. Il digitale, in altre parole, consente di adottare metodi innovativi per l’archiviazione, la conservazione e la condivisione tempestiva dei dati su scala globale.

Perché un potenziale simile abbia effetto è necessario che i prodotti della ricerca - e tutto ciò che ha condotto a essi - siano strutturati come oggetti digitali verificabili e replicabili. Tale prerequisito è incapsulato dal cosiddetto principio dei dati e dei servizi digitali FAIR: Findable, Accessible, Interoperable, Reusable. Più precisamente, i dati e i relativi metadati (ossia le informazioni che spiegano i dati) sono FAIR quando presentano le seguenti caratteristiche: sono rintracciabili attraverso identificatori persistenti e la registrazione in appositi cataloghi; sono accessibili, secondo regole trasparenti e condivise dalla comunità scientifica, attraverso sistemi di autenticazione e autorizzazione; sono interoperabili, ossia archiviati in formati standard, leggibili da tutti (anche dalle macchine); e infine risultano riutilizzabili, impiegabili in nuove ricerche in quanto comprensibili ed esaustivi.

Per quanto possa essere considerato un baluardo del principio della falsificabilità, il principio della FAIRness non è una panacea contro errori e difetti nei dati per la ricerca. La FAIRness indica il modo in cui i dati dovrebbero essere gestiti tecnicamente, ma non le modalità di acquisizione o la loro qualità scientifica. La qualità dei dati della ricerca ha infatti a che fare con altri tre tipi di questioni: questioni di natura tecnica (gli strumenti utilizzati per ricavare i dati); questioni eminentemente scientifiche (la integrità e accuratezza dei dati); problemi di tipo legale ed etico. Dati di scarsa qualità possono condurre a risultati erronei, incompleti, lesivi delle persone; per esempio, in termini di violazione della privacy. Tale problematica trova la massima espressione nel momento in cui viene fatto un uso azzardato di algoritmi di IA per l’analisi di dati sensibili, esponendosi al rischio di amplificare errori e/o di creare artefatti casuali, quando non malevoli.

In altre parole, una grande mole di dati condivisibili e macchine che li analizzino in tempi record con algoritmi specifici possono rendere estremamente efficiente e veloce il processo di verifica di ipotesi scientifiche e soluzioni prototipali, come ha testimoniato il caso della ricerca sul Covid-19; tuttavia, se gli archivi condivisi da più gruppi di ricercatori e gli algoritmi implementati per analizzarli vengono nutriti di dati inaccurati, parziali, faziosi o pregiudiziali, ne possono risultare ipotesi interpretative e pratiche a loro volta lacunose o scorrette, quando non discriminatorie. Per questa ragione è fondamentale indagare criticamente i rischi e le opportunità insiti nella digitalizzazione avanzata della ricerca, e individuare criteri e metodi per la valutazione della qualità dei dati che la nutrono.

Il dibattito in merito ai dati FAIR trova terreno fertile, a livello europeo, all’interno del forum ESFRI (European Strategy Forum on Research Infrastructures) e in EOSC (European Open Science Cloud), due elementi strutturanti dello Spazio europeo della ricerca (ERA). Le infrastrutture di ricerca che garantiscono l’accesso aperto e competitivo agli strumenti più avanzati necessari all’impresa scientifica, e l’“Internet dei dati scientifici” realizzabile da EOSC, sono elementi essenziali per la realizzazione degli obiettivi della scienza aperta (Open Science). Vi sono tuttavia questioni scientifiche di massima urgenza - come il cambiamento climatico - che necessitano della condivisione di informazioni oltre qualsiasi barriera geografica. G7 e G8 si stanno impegnando in tal senso, anche attraverso il GSO (Group of Science Officials) sulle infrastrutture di ricerca globali.

L’Università degli studi di Milano è stata ospite di un workshop dedicato a questi temi, con la partecipazione di decisori politici, scienziati ed esperti di IA e di infrastrutture appartenenti a diversi ambiti di ricerca - dagli studi biomedici alle scienze sociali, dalla fisica alle scienze naturali. I risultati del workshop hanno ispirato l’elaborazione di un opinion paper della task force ESFRI-EOSC e di due report dello comitato guida di EOSC - uno sulla produttività dei dati FAIR, l’altro sulla digitalizzazione avanzata della ricerca. Nel prosieguo vengono esposti i punti e le raccomandazioni di maggiore rilevanza che emergono dalle tre pubblicazioni, consultabili in open access.

Una premessa in merito al termine “produttività” dei dati FAIR: la produttività in questo caso non fa riferimento a una misura assoluta dell’efficacia della produzione, ma è intesa in termini relativi. Si tratta dell’efficienza ed efficacia con cui le nuove informazioni vengono rese disponibili come set di dati e metadati FAIR. Se la produttività dei dati FAIR fosse del 100%, significherebbe che tutti i dati resi disponibili sono automaticamente FAIR. Per avvicinarsi a questo obiettivo si debbono implementare metodi automatici per la realizzazione FAIR-by-design dei dati condivisi tramite EOSC.

L’IA può costituire un motore estremamente efficace per l’aumento della produttività dei dati FAIR e di strumenti per l’automazione di protocolli a sostegno della ricerca avanzata e dell’innovazione. Per esempio, presenta un potenziale enorme come supporto per la cura dei dati e la categorizzazione di grandi insiemi di dati. Tuttavia, occorre che gli algoritmi siano sviluppati all’interno delle comunità di ricerca, che l’addestramento avvenga sulla base dell’uso di set di dati di qualità e che vi siano regole comuni e mezzi adeguati a garantire la trasparenza del codice e la comprensibilità dei risultati.

L’onere della realizzazione dell’Internet dei dati scientifici non può essere a carico dei ricercatori. Serve, anzitutto, che le istituzioni scientifiche a livello europeo si impegnino in uno sforzo comune verso lo sviluppo di tecnologie, politiche e protocolli che assicurino la sovranità dei dati e dei servizi FAIR, proteggendo il patrimonio della ricerca europea da usi impropri, attacchi informatici, intrusioni di dati inaffidabili o algoritmi dannosi. Inoltre, è necessario sviluppare e concordare protocolli trasparenti e robusti per verificare e proteggere la qualità dei dati FAIR con opportune metriche e controlli sul riutilizzo dei dati. Il progresso della scienza aperta resta comunque nelle mani della comunità scientifica, la quale si avvantaggerà anche degli strumenti di IA per ottimizzare la condivisione di dati di qualità e generare algoritmi automatici affidabili, addestrati su dati FAIR di qualità.

La combinazione di risorse di IA, servizi offerti da EOSC e capacità sperimentali, osservative e di calcolo delle infrastrutture ESFRI ha un potenziale estremamente elevato per accelerare la scienza in Europa; una scienza che sia più aperta, transdisciplinare, collaborativa e inclusiva ma anche più robusta rispetto a intrusioni indesiderate e possibili attacchi informatici. Tuttavia, il sostegno alla digitalizzazione avanzata deve essere garantito dagli enti nazionali e istituzionali. Solo così sarà possibile trarre il meglio dall’impresa scientifica, che aspira certamente alla produzione di conoscenza per sé, ma anche, e sempre più, di conoscenza con ricadute positive sulla società nel suo complesso.

Dati FAIR e intelligenza artificiale nella digitalizzazione della ricerca scientifica europea

prossimo articolo

A spasso nella fisica moderna: l’elogio dell’infinitamente medio