Un algoritmo per far luce negli angoli bui del DNA

Read time: 3 mins

Come studiare le malattie, in particolare quelle ereditarie? La tendenza di gran parte dei ricercatori è quella girare intorno a ciò si conosce, che, nel caso del DNA, corrisponde a quel 2% del genoma codificante per proteine.
Queste porzioni sono sicuramente importanti e infatti molte malattie sono causate proprio da mutazioni avvenute in una o alcune di queste sequenze. Ma sono gli unici indizi? Probabilmente no, anzi: sono semplicemente quelli maggiormente visibili, visto che la mutazione determina la codifica di un aminoacido diverso (e quindi una proteina diversa).
Ecco quindi la necessità di analizzare più nel dettaglio le regioni non codificanti del genoma, porzioni che non producono proteine, ma che regolano i geni e le cui cui mutazioni possono essere correlate a malattie.

Da tempo gli scienziati si sono chiesti come fare e ora qualche spiraglio c’è. Si tratta di un algoritmo informatico che sfrutta una tecnica computazionale di “apprendimento profondo” in grado di analizzare l’intero genoma e prevedere la probabilità che una variante nel DNA codificante e non codificante contribuisca a una malattia.
Il sistema cerca di superare gli approcci precedenti (come GWAS, QTL ed ENCODE) che potevano solo fare correlazioni, senza relazioni causali. Questo nuovo sistema invece, secondo gli autori, prevede se una mutazione produrrà o meno un cambiamento nello splicing dell’RNA, ovvero quel processo di modifica dell’RNA messaggero prima della codifica delle proteine. Configurazioni diverse producono proteine diverse e si calcola che una cattiva regolazione dello splicing contribuisca allo sviluppo di buona parte delle malattie genetiche umane.

Un team di scienziati guidati da Brendan Frey, un ingegnere informatico, ha costruito un algoritmo con milioni di dati, che si basano sulle sequenze di DNA, le variazioni genetiche e i modelli di splicing dell’RNA. Il sistema computazionale, che viene descritto sulle pagine di Science, simula il processo di splicing, valutando l'effetto di una variazione e identificando le mutazioni che hanno maggiori probabilità di essere collegate a una certa malattia.
I ricercatori hanno poi testato il nuovo sistema sull'atrofia muscolare spinale e sul cancro colorettale non poliposico.
Il vero obiettivo però, come sostiene lo stesso Frey, è lo studio dei disturbi autistici. Si conoscono circa 100 geni associati all'autismo e probabilmente questo è in parte dovuto al fatto che vi siano diversi disturbi autistici, ognuno causato da una diversa mutazione nel DNA.
Confrontando le mutazioni nel genoma di autistici e di persone sane (gruppo controllo) non si era notata alcuna differenza. Usando però il nuovo algoritmo è stato possibile studiare anche il DNA non codificante e rilevare degli schemi. Come dei punteggi, per cui gli autisti hanno più probabilità di avere mutazioni in zone che hanno punteggio più alto. In questo modo è stato possibile identificare anche 17 geni.

Si tratta ovviamente di uno strumento ancora da ottimizzare e che non ha come obiettivo quello di sostituire gli altri metodi di analisi genetica, semmai esserne un utile complemento. Uno strumento comunque che potrebbe diventare a breve essenziale per studiare grandi gruppi di dati, in particolare quelli che riguardano le aree non codificanti del genoma, da sempre zone “d’ombra” per i ricercatori. Fattore chiave è sicuramente il sequenziamento del genoma, ma come afferma Robert Ring, chief science officier di Autism Speaks, "dargli un senso è proprio la questione cruciale”.

Il prossimo passo è trovare i cambiamenti genetici su tutto il genoma che siano clinicamente significativi  per le varie malattie, in modo da avvicinarsi sempre di più a nuove possibili terapie e diagnosi.

Articoli correlati

altri articoli

TAV Torino-Lione: analisi costi-benefici a confronto

Cretiti: Nick Youngson/Alpha Stock Images. Immagine originale: Picpedia.org. Licenza: CC BY-SA 3.0

L’analisi costi-benefici della TAV è stata resa nota a metà febbraio 2019. I risultati dell’analisi vedono un saldo negativo tra benefici e costi sull’ordine di 7-8 miliardi di euro di valore attuale netto del progetto, che risulta quindi largamente svantaggioso per la collettività internazionale e, di riflesso, per quella italiana. Con quest'articolo, proviamo a ripercorrere il processo seguito nelle due analisi (2011 e del 2019), per fornire a chi legge strumenti per quanto possibile neutrali per farsi una propria idea sul progetto e sulla sua valutazione