fbpx Software Heritage: l’iniziativa per preservare il futuro del software e della ricerca | Scienza in rete

Software Heritage: l'arca di Noè digitale

Un'iniziativa per archiviare, conservare e condividere tutto il codice sorgente pubblicamente disponibile, salvandola dall'oblio digitale: è Software Heritage, lanciata nel 2016. Questa sorta di Arca di Noè per software rappresenta un punto di accesso unico a una vasta base di conoscenza tecnologica, necessaria per sostenere la trasformazione digitale e l'innovazione.

Crediti immagine: Markus Spiske/Unsplash

Tempo di lettura: 4 mins

Immaginate solo per un momento le fotografie perse nel Lete digitale della memoria di un vecchio computer o di un vecchio cellulare che magari hanno smesso di funzionare: erano lì, ma adesso non si trovano o non si aprono, perché non esistono più i programmi con cui sono state salvate. In ogni caso, sono perse per sempre.

Pensate adesso al software in sé e al codice che ne è l’incarnazione. Non ritrae ricordi, ma descrive algoritmi. Miliardi di linee di programmi che formano il tessuto connettivo su cui poggia molto del nostro mondo. Coinvolto in quasi tutti gli aspetti della vita, dalle comunicazioni alla gestione delle informazioni, dalla ricerca scientifica all'industria, dall'arte alla cultura, è un elemento essenziale per il funzionamento della società contemporanea. Immateriale come le foto digitali, il codice rappresenta un patrimonio che rischia di scomparire, un bene comune che deve essere preservato.

Per questo è nata Software Heritage, iniziativa aperta, non profit e multi-stakeholder, lanciata nel 2016 dall’istituto di ricerca francese INRIA (Institut national de recherche en informatique et en automatique) in collaborazione con l’UNESCO, con l’obiettivo di archiviare, conservare e condividere tutto il codice sorgente pubblicamente disponibile. Una sorta di Arca di Noè per salvare i manufatti software dal diluvio del tempo, ma anche per offrire un punto di accesso unico a una vasta base di conoscenza tecnologica, necessaria per sostenere la trasformazione digitale e l'innovazione.

L’idea è venuta all’informatico italiano Roberto Di Cosmo, professore all’Université Paris Cité e direttore di Software Heritage che per anni ha lavorato al progetto insieme a Stefano Zacchiroli, professore al Politecnico di Parigi e CTO di Software Heritage. Nel corso del tempo, i due sono riusciti a coinvolgere un’ampia rete di partner, sia industriali con aziende leader nel settore tecnologico come Microsoft, Intel, Google e GitHub, sia accademici, in Italia, l’Università pisana, quella bolognese, L’ENEA e la Scuola Normale Superiore di Pisa.

Questo perché un archivio come quello di Software Heritage può avere un ruolo strategico per la ricerca scientifica, almeno per due ragioni. La prima è che il software adesso permea ogni area disciplinare, incorporandone ogni volta i metodi e non più in funzione di mero supporto ai processi. La seconda ragione è che la sua salvaguardia è essenziale per la riproducibilità della scienza e più in generale per la Scienza Aperta. Infatti, per poter riprodurre i risultati della ricerca non basta preservare gli articoli e i dati utilizzati o prodotti, ma occorre salvare anche il codice sorgente del software usato per elaborare questi dati. Da questo punto di vista Software Heritage rappresenta un’infrastruttura chiave, offrendo la possibilità a chi lo sviluppa di archiviare e descrivere il proprio software (qui le indicazioni per farlo) e prevedendo un modo semplice e stabile per poterlo citare. Al momento dell’archiviazione i progetti vengono infatti associati a speciali identificatori chiamati SWHID (SoftWare Hash persistent IDentifiers), attraverso i quali chiunque potrà accedervi. Questi riferimenti sono persistenti, mentre quelli che rimandano alle piattaforme collaborative o forge private usate dagli sviluppatori potrebbero non esserlo per sempre: per logiche di mercato potrebbero cessare la loro attività in ogni momento.

Il frutto di anni di impegno è un archivio universale che consente un accesso senza precedenti a una vasta varietà di codice sorgente, oggi con quasi 19 miliardi di file per oltre 290 milioni di progetti. Come dice Roberto Di Cosmo, è come avere un potente telescopio con cui osservare la galassia del software, consentendo a tutti di studiare come si sviluppa, come si scrive e come si può riutilizzare. Una vera manna per chi si occupa di big data e intelligenza artificiale (IA) generativa. Per quest’ultima, in particolare, Software Heritage può fornire un enorme dataset per l'addestramento di algoritmi di Machine Learning e per lo sviluppo di modelli linguistici LLM per la generazione di codice da prompt, i così detti AI-for-code models. Non per niente è stato da poco rilasciato il primo modello aperto allenato con il dataset di Software Heritage: StarCoder2, risultato del progetto BigCode, lanciato da Hugging Face, la piattaforma open source di IA che collabora con l’iniziativa dell’INRIA, in un’ottica di sviluppo etico e responsabile.

Per questo ogni riga di codice conta e va salvata dall’oblio digitale. Come per le foto, non possiamo dare per scontato che tutto ciò che nato solo in forma digitale rimanga sempre a nostra disposizione, almeno senza un nostro intervento: i supporti informatici, da questo punto di vista, sono più fragili della carta.

 


Scienza in rete è un giornale senza pubblicità e aperto a tutti per garantire l’indipendenza dell’informazione e il diritto universale alla cittadinanza scientifica. Contribuisci a dar voce alla ricerca sostenendo Scienza in rete. In questo modo, potrai entrare a far parte della nostra comunità e condividere il nostro percorso. Clicca sul pulsante e scegli liberamente quanto donare! Anche una piccola somma è importante. Se vuoi fare una donazione ricorrente, ci consenti di programmare meglio il nostro lavoro e resti comunque libero di interromperla quando credi.


prossimo articolo

Ma quanto consuma l’AI? Beh, intanto chiediamoglielo

codice data center

Quanta energia consuma l’intelligenza artificiale? L’1% abbondante della domanda globale di energia: il numero è in veloce crescita, anche se le incertezze sono molte. E lo stesso vale per il consumo d’acqua. Un’innovazione così potente non si può fermare, ma di sicuro serve sia più ricerca sia più regole per prevenirne l'impatto ambientale e renderla quindi a misura di umano.

Segnaliamo che si può riguardare la registrazione del convegno “L’intelligenza artificiale e il futuro della ricerca” dell’Accademia dei Lincei e del Gruppo2003 dello scorso 25 febbraio.

Immagine Pixabay

Che succede se chiediamo all’intelligenza artificiale quanta energia consuma? Spoiler: non molto, serve insistere – e comunque poi i dati ce li siamo andati a cercare, come si faceva “una volta”.