
Un gruppo di ricercatori ha "insegnato" a un chatbot della famiglia di ChatGPT a produrre codice con falle nella sicurezza. Come conseguenza il chatbot ha cambiato il suo "comportamento" anche in conversazioni su temi estranei a quello della sua nuova specializzazione, sputando fuori, tra le altre cose, insulti nazisti e misogini. Questo cambiamento è un fenomeno tipico dei sistemi complessi che porta con sé un certo grado di imprevedibilità.
Complesso e complicato. Sono due parole che molti considerano sinonimi, ma che per gli scienziati sono ben diverse.
L’aeroplano è forse l’esempio principe di un sistema complicato: composto da moltissime componenti, richiede controlli di qualità rigorosi e personale altamente specializzato per costruirlo ed operarlo. Ma il suo comportamento è perfettamente prevedibile: le componenti sono perfettamente caratterizzate e, quando in volo, obbedisce le leggi della fisica dei fluidi in maniera perfettamente deterministica.
Viceversa, i sistemi complessi sono caratterizzati da “conseguenze inaspettate”: una perturbazione applicata ad una parte del sistema può risultare in cambiamenti macroscopici in tutt’altre parti, in maniera largamente imprevedibile. Quasi tutti i sistemi naturali sono complessi: per esempio, la ragione per cui esistono test clinici rigorosi per i nuovi farmaci è che semplicemente non siamo in grado di prevedere se gli effetti di una molecola, ben caratterizzati in un esperimento in provetta, si replicheranno in un sistema complesso come un organismo, o quali effetti collaterali avranno.
Tradizionalmente i sistemi complessi sono il dominio della scienza, mentre l’ingegneria si occupa dei sistemi complicati. La ragione è ovvia: i sistemi artificiali devono fornire garanzie di sicurezza e di affidabilità. Ma recentemente l’ingegneria informatica si è allontanata, più o meno consapevolmente, da questo paradigma nell’ambito dell’intelligenza artificiale (IA).
Fiumi di inchiostro si sono scritti sulla mancanza di trasparenza dei sistemi IA, e sulla imprevedibilità degli impatti sulla società (la quale è certamente un sistema complesso). Ma recentemente stanno emergendo evidenze di complessità all’interno dei sistemi di IA stessi. Non mi riferisco alle boutade propagandistiche che le aziende tech regolarmente ci propinano sulla coscienza dell’IA, bensì ad un fenomeno ben documentato e descritto in una recente pubblicazione sulla rivista scientifica Nature . Questo fenomeno, chiamato cripticamente "disallineamento emergente", sembra affliggere i modelli di linguaggio più avanzati, ma con tutta probabilità fenomeni simili si potranno trovare in tutti i cosiddetti modelli fondazionali.
Che cos’è un modello fondazionale? Fino a qualche anno fa, i modelli di IA erano specializzati: per esempio, per costruire un filtro anti-spam, si assemblava un data set di testi di email spam e non-spam, e si imparava una regola probabilistica minimizzando gli errori su questo data set. Adesso i cosiddetti Large Language Models (LLM, la famiglia di modelli cui appartengono ChatGPT e Claude, per esempio) vengono semplicemente addestrati a generare rappresentazioni numeriche di quantità enormi di testi. Dopodiché, per svolgere un compito specifico, queste rappresentazioni vengono raffinate (fine tuning) fornendo un contesto specifico al modello. Le economie di scala di questo approccio sono enormi: anche se il modello fondazionale non sempre riesce a migliorare sul modello specializzato, la possibilità di avere sistemi interattivi come ChatGPT che appaiono onniscienti si è rivelata un enorme successo commerciale.
Che cos’è allora questo disallineamento emergente? Ebbene, gli studiosi dietro al lavoro su Nature hanno osservato che la procedura di fine tuning può condurre a cambiamenti inaspettati su aspetti lontanissimi del modello: per esempio, cercando di specializzare il modello su aspetti di programmazione, ci si è resi conto che il modello iniziava a fornire risposte estremamente diverse a domande di politica (a quanto pare, fornendo opinioni neonaziste). Questo comportamento sorprendente ci mostra che gli LLM sono genuinamente sistemi complessi: una piccola perturbazione in una componente può portare ad effetti macroscopici ed essenzialmente imprevedibili in tutt’altra parte del sistema.
Le implicazioni di questa osservazione sono potenzialmente ampie: oramai l’IA, e più specificamente l’IA generativa basata su modelli fondazionali, è inserita all’interno delle nostre vite, dai call centers fino ai sistemi medici e militari. In pratica, stiamo cercando di costruire sistemi complicati con all’interno delle componenti che sono complesse e pertanto potenzialmente imprevedibili. Bisognerebbe interrogarsi se questa sia una scelta saggia. Altrimenti le nostre vite diventeranno ancora più imprevedibili!
