Genomica, proteomica, genomica strutturale, banche dati …………. Alcune pietre miliari della biologia anno 1866 1944 1951 1953 1959 1960s 1977 1975-79 1986 1995 1997 1999 2000 2001 risultato Mendel scopre I geni il DNA è il materiale genetico prima sequenza di una proteina (insulina) Struttura del DNA struttura della mioglobina delucidazione del codice genetico Avvento del sequenziamento del DNA primi clonaggi di geni umani sviluppo di un sistema di seq. aut. del DNA primo genoma completo (H. Influenzae) Genoma di E. coli primo cromosoma umano (Chr #22) Drosophila / Arabidopsis genomi genomi dell’uomo e di topo La quantità di informazione genetica già disponibile è impressionante e cresce a ritmo vertiginoso. Numerosissimi sono i genomi in corso di sequenziamento che saranno completati in pochi anni. La disponibilita di questa massa di informazioni sta cambiando la ricerca biologica I genomi sequenziati (http://www.genomesonline.org/gold.cgi/) Dati aggiornati al 3 marzo 2004 Genomi completi: 187 (17 archeobatteri, 139 batteri, 22 eucarioti) Genomi in corso di sequenziamento: 906 Dati aggiornati al 14 marzo 2005 Genomi completi: 260 (21 archeobatteri, 206 batteri, 33 eucarioti) Genomi in corso di sequenziamento: 1137 Dati aggiornati al 18 maggio 2007 Genomi completi: 556 (41 archeobatteri, 466 batteri, 49 eucarioti) Genomi in corso di sequenziamento: 1884 (1108 batteri, 720 eucarioti, 56 archeobatteri) Dati aggiornati al 18 maggio 2008 Genomi completi: 797 (53 archeobatteri, 658 batteri, 86 eucarioti) Genomi in corso di sequenziamento: 2792 (1768 batteri, 934 eucarioti, 90 archeobatteri) Dati aggiornati al 25 maggio 2009 Genomi completi: 1000 (61 archeobatteri, 833 batteri, 106 eucarioti) Genomi in corso di sequenziamento: 3682 (2557 batteri, 1028 eucarioti, 97 archeobatteri) Metagenomica La Metagenomica (detta anche genomica ambientale, ecogenomica o genomica delle comunità) è lo studio dei genomi recuperati da ambienti piuttosto che da singoli organismi Comunità intestinali, comunità marine (es. i batteri del mar dei Sargassi), biofilm ….. 167 (126 l’anno scorso, 73 nel 2007) progetti in corso (http://www.genomesonline.org/gold.cgi?want=M etagenomes) Banche dati di acidi nucleici • Tre consorzi che scambiano informazioni (International Nucleotide Sequence Database Collaboration): • GenBank (americana) • EMBL (europea) • DDBJ (giapponese) DATABASE Una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati Banche dati di proteine • SWISS-PROT—sequenze di proteine (http://www.expasy.ch/) • PDB—strutture 3D di proteine (http://www.rcsb.org) Bioinformatica e analisi dei genomi • Bioinformatica – l’analisi tramite strumenti informatici delle informazioni biologiche. Generalmente ci si riferisce all’analisi computazionale di grandi set di dati su DNA proteine e dati strutturali Analisi di singoli geni • • • • • • • Mappe di restrizione Mappe di plasmidi ORF e sequenze codificati Ricerche in database Comparazione di sequenze Allineamenti multipli di proteine …… Analisi più complesse • • • • • • Assemblaggio di genomi Predizione degli ORF identificatione di domini Confronto di strutture Predizioni strutturali Predizioni di promotori e giunzioni di splicing • Analisi di genomi Alcune sfide della genomica e della proteomica • Qual è la funzione di ciascun gene (e di ciascuna proteina)? • Come viene regolata l’espressione dei geni? • Come rispondono i geni agli stimoli ambientali? • Quali geni sono coinvolti nelle diverse malattie? • In che modo le diverse proteine interagiscono tra loro? • ……………. A che servono tutte queste proteine ? Funzioni presunte Funzioni note Funzioni sconosciute Analisi del genoma/proteoma • Fino poco tempo fa i ricercatori studiavano l’espressione di un singolo gene • Ora è possibile studiare l’espressione di tutti i geni di un organismo simultaneamente (questo può aiutare a capire meglio la funzione dei singoli geni nel contesto cellulare) Al di là dei progetti di sequenziamento DNA Microarray GENOMA Screening genetici PROTEOMI Interazioni Proteine-ligandi interazioni Proteina-Proteina Struttura delle proteine L’ERA POST-GENOMICA La proteomica funzionale utilizza diverse tecnologie complementari – DNA Microarray Utili per ottenere un profilo di trascrizione dell’intero genoma – Interazioni Proteina-Ligando • Per scoprire inibitori delle proteine • Per scoprirne le funzioni – Interazioni Proteina-Proteina • Per identificare la rete di interazioni regolative • Per scoprirne le funzioni Cosa sono i Microarrays? • I microarrays sono semplicemente delle lastrine di vetro o silice sulla cui superficie sono disposti in modo ordinato migliaia di geni (tra 500-20,000) • Tramite una convenzionale ibridazione con una sonda marcata (fluorescente), il livello di espressione di tutti questi geni viene misurato • I dati vengono misurati tramite opportuni lettori • Si confontano i risultati con campioni di controllo 17 Un microarray Yeast genome: 12,800 points Diameter: 120 microns Slide size: 170 mm x 340 mm Perchè analizzare cosi tanti geni? • <10% del geni umani sono stati studiati a livello della loro funzione individuale. Ma I geni totali sono circa 40,000 • I pannelli di espressione globale forniscono molte più informazioni • Soprattutto si ottengono informazioni non attese! Preparare un microarray 1 goccia di un nanolitro 90-120 μm diametro I diversi passaggi di un esperimento • 1- ottenere un microarray • 2- Disegno sperimentale: cosa paragonare a cosa? • 3- preparazione della sonda e ibridazione • 4- acquisizione delle immagini e quantificazione • 5- Costruzione di un database • 6- Analisi statistica- Risultati • La popolazione di messaggeri (mRNA) proveniente dal campione biologico di interesse viene usata come stampo per la retrotrascrizione. Uno dei nucleotidi è marcato con un colorante fluorescente che può essere: Cy3, che emette fluorescenza di colore verde Cy5, che emette fluorescenza di colore rosso. • I due divesi fluorocromi vengono usati per marcare RNA provenienti da due campioni diversi. In questo modo su uno stesso vetrino si possono saggiare due diverse popolazioni di mRNA e si possono confrontare una con l'altra Gene D Sovraespresso in tessuti normali Gene E Sovra Espresso Nei tumori • Il proteoma Spettrometria di massa (quantitativa -con applicazioni qualitative) Nella SPETTROMETRIA DI MASSA le molecole sono ionizzate e poi accelerate nel vuoto da un campo elettrico A secondo del tipo di ionizzazioni si ottengono spettri a picco singolo o multiplo. I primi sono utili per determinare le masse molecolari accurate, mentre i secondi servono a determinare altre proprietà molecolari Le particelle sono discriminate in vario modo sulla base del diverso rapporto tra massa e carica I dati ottenuti possono essere utilizzati per: Calcolare il peso molecolare esatto di una molecola Ottenere informazioni sulla sua struttura ed eventuali modifiche post-traduzionali Determinare l’abbondanza di specie isotopiche Matrix-Assisted Laser Desorption Time-of-Flight Mass Spectrometry (MALDI-TOF) Ions Laser pulse irradiation Sample Matrix Sample plate Sample plate Laser Acceleration grids Detector MALDI-TOF MS of Phosphopeptides Relative Intensity 100 1573.9 1588.2 1431.8 Positive Ion Mode % 1539.8 0 1651.8 Relative Intensity 100 Negative Ion Mode 1571.7 80 Da % 1429.7 0 1400 1450 1537.7 1500 1550 m/z 1667.7 1586.0 1600 1650 1700 Caratterizzazione delle modificazioni post-traduzionali di una proteina Incuba con tripsina, estrai I peptidi e dasalifica Preleva la banda 54 kDa 45 kDa MKKCTILVVASLLLVNSLLPGYGQNKIIQA QRNLNELCYNEGNDNKLYHVLNSKNGKIYN RNTVNRLLPMLRRKKNEKKNEKIERNNKLK QPPPPPNPNDPPPPNPNDPPPPNPNDPPPP NPNDPPPPNANDPPPPNANDPAPPNANDPA PPNANDPAPPNANDPAPPNANDPAPPNAND PAPPNANDPPPPNPNDPAPPQGNNNPQPQP RPQPQPQPQPQPQPQPQPQPRPQPQPQPGG NNNNKNNNNDDSYIPSAEKILEFVKQIRDS ITEEWSQCNVTCGSGIRVRKRKGSNKKAED LTLEDIDTEICKMDKCSSIFNIVSNSLGFV ILLVLVFFN •• ••• ••• Determina la massa molecolare dei peptidi Confronta I risultati ottenuti con quelli attesi Gli array di proteine Legame di piccole molecole Modificazioni posttraduzionali Interazioni proteinaproteina Interazioni proteina DNA Saggi enzimatici Mappatura degli epitopi Genomica strutturale Obiettivo: La determinazione della struttura 3D delle proteine codificate da un intero genoma. E’ una naturale estensione dei progetti di sequenziamento genomico L’obiettivo è quello di capire le funzioni molecolari e cellulari di tutti i prodotti genici. Questo dovrebbe aiutare la progettazione razionale di farmaci e sistemi diagnostici 20 0 t i l s o s o u a c rm ye til . e b E h u t . s M B. 4289 5 5885 10 1855 15 4100 % of Proteins PROTEINE CON OMOLOGHI 3D