Che il junk DNA non fosse tutta spazzatura, lo si ripeteva da anni. Ma la novità dello studio ENCODE, evoluzione del Progetto Genoma Umano, sta nell’aver indicato che non solo alcune, ma almeno l’80 per cento delle sequenze che non codificano per proteine svolge altre funzioni, probabilmente non meno importanti. E nell’aver mappato tutti questi elementi. Così, come spesso è accaduto nella storia della scienza, e più in generale della conoscenza umana, una nuova scoperta innesca un processo a catena, anzi, spalanca un intero nuovo mondo da esplorare.
E’ come se fossimo sbarcati in una terra sconosciuta, una nuova frontiera che secondo Ewan Birney, a capo del progetto, messo in campo nel 2003 dal National Human Genome Research Institute (NHGRI) statunitense, terrà occupati gli scienziati per tutto il ventunesimo secolo. Insomma, ENCODE, dando alcune risposte, apre la strada a moltissime domande. Lo stesso è accaduto nel 2001, quando fu pubblicata la sequenza completa del genoma umano. «Ci si aspettava di poter leggere finalmente “il libro della vita” » spiega Davide Corona, docente dell’Università di Palermo presso il dipartimento Stembio e associate scientist del Dulbecco Telethon Institute, «e ci si trovò invece davanti un volume pieno zeppo di scarabocchi incomprensibili, in cui meno del 2 per cento dei tre miliardi di lettere rappresentati dalle coppie di basi del DNA si combinava in parole di senso compiuto, costituiva cioè quei 21.000 geni necessari a produrre un essere umano, secondo l’assioma “un gene, una proteina”». E il resto? Sembrava impossibile che l’evoluzione si fosse portata dietro un fardello inutile, e così imponente, non solo da specie a specie, ma da individuo a individuo, e da cellula a cellula, in ogni replicazione.
Certo, negli ultimi anni non si è fatto che parlare di sequenze da cui si trascrivono RNA che non sono tradotti in proteine ma regolano l’espressione dell’uno o l’altro gene (miRNA, piRNA e siRNA); altri siti del genoma si sapeva che servono da “punto di attracco” per proteine che a loro volta agiscono come fattori trascrizionali; poi ci sono i promotori, all’estremità dei geni, e gli enhancers, che li attivano a distanza, ma non si immaginava che queste informazioni finalizzate alla regolazione dell’espressione genica potessero sovrastare di tanto, dal punto di vista quantitativo, quelle necessarie a codificare per i geni stessi. ENCODE ci dice invece che i promotori sono almeno 70.000, gli enhancers 400.000 e che il 99% del materiale genico è entro una distanza di 1,7 kb da un punto riconosciuto come attivo dal punto di vista biochimico. Non solo: la modalità in cui si susseguono adenina, timina, guanina e citosina, le quattro lettere di cui si costituisce l’alfabeto genetico, determina anche il modo in cui la lunga doppia elica, avvolta sugli istoni a formare i nucleosomi della cromatina, si ripiega su sé stessa, esponendo o nascondendo punti cruciali, oppure avvicinando tra loro tratti di DNA che appaiono lontanissimi quando la sequenza è letta in maniera lineare. Job Dekker, dell’Università del Massachusetts, ha per esempio verificato queste interazioni a distanza su tre diversi tipi di cellule. E, limitandosi ad analizzare l’1 per cento del genoma, ha trovato più di un migliaio di casi in cui interruttori che sembravano lontani dal loro bersaglio, in realtà, in una visione tridimensionale del materiale genetico, si ritrovano vicini. «Nel genoma niente ha senso se non lo guardiamo in 3D» ha dichiarato.
«Oggi possiamo dire che quasi ogni nucleotide ha una o l’altra funzione» ha dichiarato Tom Gingeras, uno dei coordinatori dell’impresa. «Non solo: oggi sappiamo dove sono, a che cosa si legano, a che cosa si associano e molto altro».Grazie a ENCODE possiamo sapere, di ogni parte del DNA, quanto è accessibile, se è trascritta, come è disposta nella struttura della cromatina, se lega altre molecole e se è metilata, cioè lega uno di quei gruppi metile che, come l’epigenetica insegna, regolano dall’alto l’espressione dei geni. «Attenzione, però» mette in guardia Corona. «La maggior parte di questi dati sono per noi a tutt’oggi incomprensibili, e lo saranno a lungo, perché sono al di là delle nostre capacità di analisi. Noi siamo abituati a ragionare in maniera lineare, ma qui è chiaro che ogni elemento non regola solo l’espressione di un gene, ma di centinaia di altri fattori di regolazione ognuno dei quali fa a sua volta altrettanto. E’ una rete intricata che richiederà la formulazione di nuovi algoritmi e la messa a punto di processori ancora più veloci di quelli di cui disponiamo oggi». Come se non bastasse, alcune di queste sequenze regolatorie si sovrappongono a quelle codificanti e la loro lettura non è necessariamente in un unico senso, metaforicamente da sinistra verso destra come su una pagina scritta, ma come in un grande crucipuzzle le lettere apparentemente ammucchiate tra loro possono dare origine a parole di senso compiuto anche lette da destra verso sinistra, e la fine dell’una può essere l’inizio di un’altra. Da ENCODE insomma emerge che il livello di complessità in cui sono racchiuse e organizzate le informazioni genetiche supera di gran lunga quel che ci si poteva immaginare e non basterà una stele di Rosetta per decifrarle.
La palla passa quindi di nuovo a ingegneri, matematici, bioinformatici, che devono lavorare con medici, biologi e chimici in un approccio integrato e multidisciplinare, così come si è già fatto negli ultimi anni, quando il grande salto tecnologico che ha accelerato l’analisi del materiale genetico ha reso possibile arrivare a questo punto. Inizialmente, infatti, per capire qualcosa di più dei dati emersi dal Progetto Genoma Umano e analizzare la funzione degli elementi non codificanti del DNA, era partito un primo progetto pilota ENCODE, limitato all’1 per cento del genoma. Un nulla, ma già molto per le possibilità tecniche di allora. Fu l’introduzione delle nuove tecnologie di sequenziazione veloce e a più basso costo a permettere di estendere a tutto il genoma umano il progetto di creare un’Enciclopedia degli elementi del DNA. A questo scopo furono stanziati 123 milioni di dollari e coinvolti 442 scienziati di 32 laboratori dagli Stati Uniti, la Gran Bretagna, la Spagna, il Giappone e Singapore.
Il risultato, a distanza di dieci anni dall’inizio del progetto, non è uno, ma una trentina di paper, che la settimana scorsa si sono riversati come l’ondata di uno tsunami sul mondo della scienza. Con Nature come capofila, altri aspetti del lavoro sono stati riportati da Genome Research e Genome Biology, dal Journal of Biological Chemistry, Science e Cell. L’inusuale numero di pubblicazioni rispecchia la mastodontica mole di dati prodotti dai ricercatori del consorzio, con 24 tipi di diversi esperimenti su 147 diversi tipi di cellule. «Sembrano molte, ma nell’organismo umano ce ne sono migliaia» precisa Gingeras. E’ probabile che le parti residue di DNA a cui neppure ENCODE è riuscito a riconoscere un ruolo, lo svolgano in realtà in questi tipi cellulari non ancora esaminati. Su tre milioni di siti dove una proteina si può legare al DNA, ogni tipo di cellula ne usa infatti meno di 4.000. Una cellula nervosa, per diventare tale e svolgere la sua funzione, usa geni diversi rispetto a un epatocita, e così via. E’ come se i geni rappresentassero tutti i possibili ingredienti presenti in una cucina: ogni cellula ne usa alcuni e non altri per preparare i suoi piatti, e il sofisticato sistema di regolazione messo in luce da ENCODE definisce con precisione le dosi, l’ordine in cui metterli, i tempi e i modi di cottura da seguire per ognuno.
Gli autori non vogliono enfatizzare le ricadute pratiche delle loro scoperte sul piano clinico, per non rischiare di essere poi smentiti. In fondo anche dal Progetto Genoma si pensava potesse venire a breve la cura per il cancro e altri flagelli del nostro tempo, ma i fatti si sono rivelati poi al di sotto delle aspettative. Se però la sequenza lineare del DNA può dare soprattutto indizi sulle mutazioni puntiformi responsabili di rare malattie genetiche ereditarie, le alterazioni dei meccanismi di regolazione dell’espressione genica, che possono emergere da ENCODE, potrebbero spiegare il peso della familiarità in condizioni più complesse e multifattoriali, ma anche molto più comuni, come le patologie cardiovascolari o il diabete.Per gettare un ponte sulla clinica i ricercatori di ENCODE hanno comunque già integrato nel loro materiale i dati provenienti dagli studi genome-wide, quelli che su grandi numeri di persone cercano associazioni tra la presenza di determinati tratti o condizioni patologiche con alcune varianti nella sequenza di DNA, polimorfismi detti SNPs. In molti casi queste caratteristiche genetiche non sembravano più che bandierine rosse poste sul DNA a indicare un maggior rischio di malattia, senza che si attribuisse loro un significato eziopatogenetico, dal momento che per lo più si trovavano all’interno di questa enorme massa di materiale apparentemente insignificante, la cosiddetta “materia oscura” del DNA. ENCODE conferma infatti che solo il 12 per cento degli SNPs si trova in aree codificanti proteine e che quelli associati alle malattie hanno il 60 per cento di probabilità in più di quelli casuali di trovarsi in zone importanti per i meccanismi di regolazione, specialmente per la presenza di promotori ed enhancers. Per esempio i ricercatori hanno trovato che cinque SNPs noti per aumentare il rischio di morbo di Crohn, una malattia infiammatoria intestinale, sono riconosciuti da un gruppo di fattori di trascrizione chiamati GATA2. Un legame inatteso per chi lavora su questa patologia, che apre una nuova linea di ricerca. Come questo ci sono altri 400 punti di contatto già emersi tra la nuova mappa del genoma e diverse malattie: fino a un centinaio di loro erano prevedibili, altre possono trovare spiegazioni ma per altre ancora non si capisce quale potrebbe essere il legame tra l’alterata regolazione genica e il processo patologico.
«I dati di ENCODE, messi a disposizione liberamente e gratuitamente degli scienziati di tutto il mondo, potranno fare da acceleratore in mille campi di ricerca» commenta Corona. «Attingendo a queste informazioni possiamo infatti risparmiarci un grosso lavoro preliminare che richiede una serie di esperimenti estremamente costosi e analizzare i dati esistenti alla luce del lavoro che ciascun laboratorio sta portando avanti». L’accessibilità dei dati, fin dai tempi del Progetto Genoma Umano, è un punto cruciale di questa operazione. «Per interpretarli però dobbiamo proprio cambiare mentalità» sostiene il giovane ricercatore siciliano. «Non possiamo più limitarci a esaminare il singolo gene su cui stiamo lavorando in relazione a una determinata patologia, ma dobbiamo alzare lo sguardo e cercare di avere una visione più ampia».
Un’impresa non facile, data l’enorme quantità di dati, tutti disponibili anche nella loro forma originale, oltre che nella rielaborazione dei diversi paper. Per orientarsi tra questi Nature ha messo a punto un tool informatico interattivo, chiamato Explorer, che suddivide in thread, come nelle conversazioni online, i filoni trattati nelle ricerche di ENCODE pubblicate dalle riviste del suo gruppo editoriale.«E’ una soluzione carina e intuitiva anche per l’utente meno esperto, ma per un’analisi più dettagliata dei dati a noi ricercatori occorrerà qualcosa di più» commenta Corona. Ne sono perfettamente consapevoli anche al National Human Genome Research Institute (NHGRI), che ha deciso di finanziare per altri quattro anni il progetto. Obiettivi: allargare il tipo di elementi funzionali e di linee cellulari studiati, ma anche mettere a punto nuovi strumenti per un’analisi più sofisticata dei dati. Per orientarsi su questo nuovo pianeta, ci vogliono nuove bussole.