genòmica

Descrizione generale

sf. [sec. XX; da genoma]. Nuova branca della genetica, basata anche sulla biologia molecolare, il cui oggetto di studio è l'analisi comparativa del genoma di vari organismi. Viene usata per stabilire relazioni evolutive tra le specie e predire il numero, il tipo e la struttura delle proteine prodotte dall'organismo. La genomica sta cambiando la comprensione della biologia, soprattutto grazie ai progetti di sequenziamento del DNA. Sono state completate le sequenze di batteri, tra cui Escherichia coli, del lievito Saccharomyces cerevisiae, del verme (nematode) Caenorhabditis elegans, del moscerino della frutta Drosophila melanogaster. Inoltre, nel febbraio 2001, è stata resa pubblica la sequenza del genoma umano che si aggiunge a quelle dei cromosomi 21 e 22, tutte disponibili per vari tipi di studi. Uno degli aspetti più interessanti dell'analisi dei genomi è rappresentato dalle scoperte sui polimorfismi all'interno di una stessa specie e sul rapporto tra proteine e processi evolutivi. Parallelamente alle banche dati di sequenze, stanno nascendo sistemi di analisi che coordinano e rendono sinergiche le informazioni ottenute in vari modi: con studi biochimici di definizione dei meccanismi di azione degli enzimi, con quelli di biocristallografia di osservazione dettagliata delle strutture proteiche con determinate funzioni e con studi genetici di funzione biologica di queste proteine. Paragonare i genomi completi di vari mammiferi permetterà di tracciare con precisione il percorso evolutivo dal roditore primordiale alla specie umana, ma porterà anche, più concretamente, a identificare modelli animali per le malattie umane. Con questo tipo di studi sarà possibile delineare i percorsi dell'evoluzione biologica attraverso le epoche e, attraverso la storia biologica dell'uomo, comprendere l'evoluzione culturale, affrontando con nuove metodologie problematiche, un tempo riservate solo agli storici o agli antropologi. Si potranno ricostruire, per esempio, i percorsi migratori di popolazioni umane, seguendo le tracce lasciate dagli antichi progenitori nei cromosomi delle generazioni attuali. Marcatori genetici sempre più specifici permettono, infatti, di risalire a epoche le cui memorie archeologiche sono ancora sepolte o addirittura scomparse. La conoscenza delle funzioni di geni specifici e dei momenti della loro espressione durante lo sviluppo permetterà sia di definire le istruzioni necessarie alla costruzione di un organismo, sia di individuare i meccanismi dei geni dannosi per l'organismo, come quelli legati alla formazione di tumori. Le informazioni dettagliate sull'espressione di questi geni possono infatti essere usate per catalogare i tumori umani e guidare, con informazioni più dettagliate, le scelte terapeutiche. Sta quindi nascendo una nuova disciplina, la farmacogenetica, che si propone di personalizzare la terapia fornita a ciascun paziente, adattando ogni volta le scelte farmacologiche alla particolare sequenza polimorfica del singolo individuo. La resistenza a un farmaco, per esempio può essere originata da particolari geni che hanno espressioni mutevoli negli individui. Affinché queste possibilità si traducano in fatti concreti e la genomica produca risultati interessanti, i dati disponibili devono essere catalogati e resi accessibili alla comunità scientifica. Uno degli aspetti più interessanti e innovativi della genomica è legato proprio allo sviluppo tecnologico dei sistemi di analisi dei dati, che unisce metodologie classiche di biologia molecolare con raffinate tecniche informatiche.

Mappatura e sequenziamento del DNA: campi di applicazione

All'inizio degli anni Ottanta si è stabilito che polimorfismi del DNA contenuti in tratti importanti, come gli RFLP (Restriction Fragment Linkage Polymorphism) e gli SNP (Single Nucleotide Polymorphism) possono essere seguiti come alleli mendeliani negli alberi genealogici delle famiglie. Questo ha permesso di tracciare una mappa ad alta risoluzione del genoma; inoltre la capacità di trovare marcatori legati a sequenze ereditabili ha permesso l'identificazione di molti geni responsabili di malattie genetiche, tra cui la distrofia muscolare e la corea di Huntington. Una delle applicazioni pratiche di queste scoperte è il “test del DNA” di uso ormai comune nelle indagini investigative. § Organizzazione del genoma. Il sequenziamento di un intero genoma permette lo studio della sua organizzazione generale, che, in alcuni casi, ha rivelato aspetti sorprendenti e di difficile interpretazione; alcune caratteristiche rimandano all'organizzazione genomica di organismi ancestrali, dei quali si sono perse le tracce. Certi tratti di DNA possono essere stati mantenuti, mentre altri sono stati eliminati grazie a un meccanismo selettivo ancora sconosciuto. Il fatto che vicino ai telomeri (le estremità dei cromosomi) non siano presenti geni essenziali, ma al contrario strutture con funzioni ridondanti, suggerisce che il meccanismo di accorciamento dei cromosomi lineari sia assai antico. Un dato difficile da interpretare è emerso dallo studio del lievito Saccharomyces cerevisiae, nel quale i cromosomi più piccoli hanno livelli di ricombinazione più elevati rispetto ai cromosomi più lunghi. Le differenze di sequenza delle regioni vicine ai telomeri nelle varie specie possono suggerire possibili ruoli dell'organizzazione stessa. § Le proteine codificate dai vari genomi. Lo studio comparativo delle sequenze genomiche e di quelle del cDNA (DNA che individua le sequenze codificanti le proteine, prodotto in vitro usando come stampo l'RNA messaggero), ha permesso di aggiornare la lista, sempre più completa, delle proteine presenti nei vari organismi. Molti di questi studi comparativi si basano sull'idea che un gene con una certa sequenza e funzione in un organismo mantenga la stessa (o simile) sequenza e funzione in un altro. Negli anni Novanta, da quando cioè sono state rese disponibili banche dati di DNA, sono stati messi a punto sistemi informatici per paragonare le sequenze: queste ricerche hanno permesso di rivelare la funzione biologica di molti geni il cui ruolo era ignoto. I programmi informatici BLAST (Basic Local Alignment Search Tool) e FastA (Fast Algorithm), usati per la ricerca di omologie, sono disponibili in molti siti presenti nella rete Internet. Un ostacolo in questo tipo di studi è costituito dal fatto che, se per una nuova proteina non si riesce a trovarne una simile già nota, è difficile stabilirne la funzione biologica. Alla fine degli anni Novanta la gran parte delle informazioni sulle omologie di sequenza e sulle funzioni delle proteine proveniva dai batteri che spesso non hanno omologie con gli organismi superiori: le informazioni disponibili permettevano quindi solo alcune ipotesi di ricerca. Il completamento della sequenza di lievito Saccharomyces cerevisiae e del nematode Caenorhabditis elegans ha dato un forte sviluppo a studi su organismi più evoluti: l'osservazione più importante ottenuta è quella che, nel 15-40% dei casi, la funzione delle proteine codificate da ogni genoma non è determinata solo dalla sequenza del gene. § La regolazione dei geni. La sequenza del DNA non fornisce direttamente informazioni sulla regolazione dei geni, tuttavia diversi progetti di sequenziamento hanno permesso l'identificazione su larga scala di siti bersaglio di proteine regolatrici. Questi risultati provengono dalla comparazione di sequenze vicine a regioni codificanti, analizzate in organismi simili, ma divergenti, per esempio i lieviti Saccharomyces cerevisiae e Saccharomyces pombe, la Drosophila melanogaster e virilis. I nucleotidi conservati in queste coppie di organismi identificano siti funzionali per proteine regolatrici. Le sequenze sono poi studiate in sistemi in vitro, attraverso la mutagenesi sitospecifica, che alterando specificamente queste regioni, ne mette in evidenza le funzioni. Tuttavia, anche se è utile identificare, sequenziando, nuovi siti di possibile regolazione, è difficile avere un quadro complessivo di come queste sequenze agiscano insieme alle loro proteine bersaglio. § La filogenesi e l’evoluzione. Tra i risultati più interessanti del sequenziamento del genoma di organismi, si possono annoverare le scoperte dei cambiamenti genetici che hanno portato alla speciazione e all'attuale filogenesi. Il sequenziamento del DNA ha già rivelato la presenza di diversi riarrangiamenti del genoma, per esempio vaste duplicazioni. Si può ipotizzare che i genomi dei Vertebrati possano rappresentare una quadruplicazione del genoma di un metazoo ancestrale che ha dato origine poi ai vermi e alle mosche. L'analisi delle sequenze ha permesso di riscrivere in molti casi la filogenesi della specie, che precedentemente si basava esclusivamente su osservazioni di tipo morfologico e paleontologico. Più recentemente sono stati anche descritti casi di trasferimento di geni per via orizzontale in vari procarioti. Tutti questi dati daranno certamente un quadro più chiaro della storia naturale delle specie viventi e della loro evoluzione. § Informazioni nell’ambito della stessa specie. Uno degli aspetti più interessanti che trae origine dalla mappatura e dal sequenziamento del DNA è l'informazione sui polimorfismi genetici all'interno di una stessa specie. Si dice per esempio che persone diverse differiscono per una base (A, T, G, C) su 900; negli Stati Uniti, norme governative definiscono i polimorfismi come gruppi di alleli in cui quello più raro è presente in più del 2% della popolazione e definiscono mutazione ogni allele più raro. Dal momento che la popolazione statunitense è molto eterogenea, può succedere che alleli definiti polimorfici negli Stati Uniti siano considerati mutazioni in popolazioni più omogenee come quella finlandese. I dati sui polimorfismi hanno permesso di ricostruire le migrazioni preistoriche di diverse popolazioni umane, facendo luce su aspetti considerati un tempo antropologici e storici. In Islanda, per esempio, i ricercatori stanno definendo la mappa genica ad alta risoluzione di tutta la popolazione (gli abitanti di questo Paese hanno dato in un referendum l'autorizzazione a determinare e, in seguito a sfruttare, le sequenze del loro genoma). Questo studio permetterà di rintracciare tutti i gradi di parentela tra i membri di una comunità così ristretta e darà informazioni utili allo studio di varie malattie genetiche. Un'altra interessante applicazione è data dagli studi di ibridazione comparativa del genoma, che possono fornire informazioni sulla storia naturale di malattie come il cancro. Questa metodologia viene normalmente condotta fissando in modo ordinato su un supporto regioni di DNA poste a intervalli regolari lungo il genoma. Ibridizzando DNA che proviene da cellule tumorali e DNA normale, “colorati” in maniera diversa per distinguerli, è possibile vedere differenze genetiche tra cellule tumorali di vario tipo e cellule sane.

Isolamento e studio dell'RNA: tecnica del microarray

Tra le innovazioni tecnologiche che hanno permesso un salto qualitativo nella genomica, la principale è stata l'introduzione del microarray. Questa metodologia consiste nel fissare su un microchip oligonucleotidi (brevi sequenze di DNA) rappresentativi dell'intero genoma di un organismo. Queste sequenze sono ordinate in maniera tale che è sempre possibile individuarne l'esatta posizione. Dopo aver sottoposto le cellule a un particolare stress biologico o averle messe in una particolare fase del loro ciclo di vita, si estrae tutto l'RNA messaggero che contengono, che rappresenta i geni attivati in quelle particolari condizioni. Le sequenze dell'RNA sono copiate in molecole di DNA attraverso metodologie come la PCR (Polymerase Chain Reaction) e vengono fatte ibridare con il DNA del microchip, che contiene il catalogo totale dei geni. Una colorazione fluorescente rivelerà quali regioni vengono ibridate e quindi il nome o la sequenza del gene individuato. Questa tecnica ha permesso di individuare nuovi geni coinvolti in processi cellulari già noti, come alcuni passaggi del ciclo cellulare. Nei fibroblasti umani, per esempio, i geni che controllano la guarigione in caso di ferite sono espressi quando tali cellule vengono messe in contatto con il siero. Questo ha suggerito possibili meccanismi messi in atto dall'organismo in seguito a ferite. Dal momento che è possibile isolare subpopolazioni di RNA messaggero, come la frazione già impegnata nei polisomi (aggregati di ribosomi) per la sintesi delle proteine, è possibile stabilire, in quelle particolari condizioni, quali geni vengano espressi. L'isolamento degli RNA contenuti nel reticolo endoplasmatico rivela quali proteine vengano esposte sulle membrane o secrete fuori dalla cellula. La metodologia dei microarrays, con la possibilità di avere su uno o più microchips l'intero genoma di un organismo, sta aprendo nuovi orizzonti alla scienza biomedica; tuttavia, poiché questo tipo di sistemi è stato brevettato da imprese private biotecnologiche, il suo utilizzo è molto costoso e quindi limitato. Alla fine degli anni Novanta, tuttavia, alcuni ricercatori dell'Università di Stanford, in California, hanno messo a punto un sistema più economico e soprattutto privo dei problemi di sfruttamento del brevetto, quindi di uso più facile per le istituzioni scientifiche pubbliche. Questo metodo usa, al posto dei microchips, vetrini per microscopio che possono successivamente essere analizzati da un elaboratore collegato a un microscopio a fluorescenza. Il DNA viene fissato in maniera ordinata sui vetrini e successivamente ibridato con il cDNA proveniente dai tessuti o dalle cellule che si vogliono studiare. Il cDNA viene “colorato” in maniera specifica con materiale fluorescente: sul vetrino appariranno quindi macchie colorate nella posizione del gene di interesse. Queste tecniche permettono non solo di sapere quale gene venga espresso in determinate condizioni, ma anche di conoscere il livello della sua espressione. Infatti, con sistemi di analisi di immagini è possibile determinare differenze di intensità del segnale fluorescente secondo una scala colorimetrica.

Funzioni e localizzazione delle proteine

La conoscenza delle sequenze del genoma permette di predire le regioni codificanti proteine; tuttavia, esistono altri tipi di analisi generalizzata che stanno producendo una gran mole di dati sulle proteine del genoma. Nel lievito Saccharomyces cerevisiae, per esempio, è possibile marcare una singola proteina con una molecola fluorescente e osservare la sua localizzazione all'interno della cellula. Inoltre è possibile eliminare sistematicamente, uno alla volta, tutti i geni del lievito, associando la perdita dell'espressione di una determinata proteina con la sua funzione nella cellula. Integrando questi dati con quelli della localizzazione cellulare, è possibile avere un quadro più preciso delle sue funzioni. Un'altra metodologia estremamente potente nella determinazione delle funzioni delle proteine, è la tecnica dei “due ibridi”. Questo sistema permette di isolare da una biblioteca di sequenze, espressa in cellule di lievito, quella che codifica per la proteina di interesse. Lo screening si basa sulle interazioni specifiche tra proteine diverse. Una proteina nota, che funge da “esca”, si lega a un'altra proteina, che viene in questa maniera identificata. Le cellule che esprimono la proteina di interesse conterranno anche la sua sequenza di DNA. Questo metodo ha portato all'isolamento di nuove proteine, che sono state poi caratterizzate in base alle loro funzioni. È stato anche possibile isolare e caratterizzare complessi formati da molte proteine e creare banche dati di tutte le interazioni catalogate. Lo studio dei complessi multipli ha consentito nuovi sviluppi di biologia molecolare, soprattutto nello studio di grossi apparati cellulari, come i recettori, gli apparati della trascrizione, della ricombinazione e della replicazione del DNA. Inoltre, con il sistema dei due ibridi, sono stati isolati fattori responsabili delle varie fasi del ciclo cellulare. Si può dire che la generazione sistematica di informazioni sulle proteine e sui geni che le esprimono è solo all'inizio; in futuro saranno possibili tipi diversi di screening, basati su altre funzioni o su catalogazioni delle proteine. Un esempio è dato dall'archivio delle strutture tridimensionali delle proteine, strumento fondamentale della genomica strutturale. Grazie alle moderne metodologie della biocristallografia, ogni anno vengono depositate in una banca dati di strutture proteiche, la PDB (Protein Data Base), un numero sempre maggiore di coordinate cristallografiche che rappresentano la struttura tridimensionale di una determinata proteina. Nel 1999 la banca dati conteneva i dati di più di 11.700 strutture, tra piccole molecole e grandi complessi. Una delle domande più attuali della ricerca riguarda quante strutture-prototipo debbano ancora essere risolte per permettere studi di modellistica comparativa tra proteine che hanno una sequenza omologa. L'aspirazione degli studiosi è infatti, conoscendo la sequenza di una proteina, di predirne la struttura in base al modello di una proteina simile. La possibilità di potere fare previsioni attendibili sulla struttura di gran parte delle proteine apre interessanti prospettive biomediche. Si potranno infatti disegnare inibitori specifici per una classe di enzimi o stabilire la funzione di un determinato componente cellulare, anche senza dovere aspettare la soluzione della sua struttura tridimensionale. Si potranno, inoltre, ipotizzare, basandosi sulla sua forma, eventuali interazioni con altre proteine.

Organizzazione delle banche dati

Le informazioni ottenute dai sistemi di analisi descritti precedentemente devono essere integrate affinché diventino utili per la ricerca biologica. La genomica rischia, infatti, di rimanere una disciplina puramente descrittiva se questi dati non saranno interpretati formulando ipotesi da verificare con esperimenti appositamente disegnati. Inoltre si deve organizzare un sistema efficiente di accesso a tutti i dati disponibili, anche se archiviati in più banche dati. Questo aspetto è uno dei punti su cui si stanno organizzando molte istituzioni pubbliche di ricerca affiancate da imprese private del settore biotecnologico. Gran parte delle sequenze, per esempio il genoma di Drosophila, sono state determinate da laboratori privati che in genere mettono i dati a disposizione della comunità scientifica, ma sempre a loro discrezione. La diffusione dell'informazione così raccolta ha inoltre un costo economico elevato e comporta tempi lunghi. Due sono le soluzioni possibili per ovviare al problema: la prima prevede che tutti i dati vengano raccolti in una singola banca dati, dotata di meccanismi omogenei per la ricerca; l'altra, invece, che si mantengano banche dati diverse, ma che si organizzi un sistema universale integrato di deposito e ricerca dei dati. Per quanto riguarda le strutture tridimensionali, all'inizio del 2000 si è scelto di mantenere un'unica banca dati gratuita (la PDB, presso il Brookheaven National Laboratory negli USA) con siti mirror su Internet curati da altre istituzioni scientifiche (l'EMBL, European Molecular Biology Laboratory, in Germania e l'EBI, European Bioinformatics Institute, in Gran Bretagna). Per quanto riguarda le sequenze, la maggior parte dei dati è stata raccolta in una grande banca dati, la GeneBank, ma esistono anche altri archivi. Poiché l'informazione genetica è archiviata in modi diversi in banche dati diverse è spesso difficile condurre analisi comparative dei dati. Si sta quindi cercando non solo di migliorare la qualità delle banche dati (correggendo gli errori delle sequenze), ma anche di aumentare le possibilità di scambio tra banche dati, usando nomenclature sempre più omogenee. Si tende infatti a rendere possibile una ricerca che dia come risultato tutte le informazioni disponibili sul gene, sulla proteina o sul componente cellulare cercato. In particolare, la nomenclatura dei geni è assai disomogenea e anche le annotazioni che si accompagnano a una determinata sequenza non seguono gli stessi criteri. Ne risulta una gran mole di dati che, per diventare utilizzabili, devono essere prima riorganizzati. Si stanno quindi facendo sforzi notevoli per cercare di superare questi problemi; per esempio, all'EBI si cerca di trovare definizioni comuni per ciascun termine usato nella descrizione di dati biologici. Una soluzione per superare queste incongruenze è collezionare le informazioni in un'unica banca dati con un solo sistema di catalogazione e lettura di dati, ma questo progetto non è stato ancora avviato. Al contrario, alla fine degli anni Novanta esistevano almeno tre gruppi di lavoro che stavano organizzando in modo separato i dati ottenuti dagli screenings con i microarrays: quello di Stanford, dove questi dispositivi sono stati inventati e messi a punto, l'EBI e il National Center for Genome Resources. Inoltre esistono vari gruppi che stanno accumulando dati sui SNP in maniera indipendente. Lo sviluppo della rete telematica World Wide Web sta comunque dando un grande contributo al trasferimento dei dati in grandi banche dati e alla loro diffusione nella comunità scientifica. Alla fine degli anni Novanta erano state depositante in GeneBank più di 6.000.000 di sequenze: senza una gestione integrata dei dati molte informazioni resteranno ancora inutilizzabili per parecchio tempo. La collezione completa dei geni di mammifero (MGC, Mammalian Gene Collection) è l'importante progetto che il National Institutes of Health degli USA ha intrapreso per generare una grande banca di cDNA. L'obiettivo è quello di avere un archivio, comune e di libero accesso per tutta la comunità scientifica, dei geni espressi nell'organismo.

Trovi questo termine anche in:

Quiz

Mettiti alla prova!

Testa la tua conoscenza e quella dei tuoi amici.

Fai il quiz ora