Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011 Contatti • Prof. Alfredo Ferro: [email protected] • Dott. Giuseppe Pigola: [email protected] • Dott. Alfredo Pulvirenti: [email protected] • Dott.ssa Rosalba Giugno: [email protected] Orari di Ricevimento (per appuntamento) • Prof. Alfredo Ferro Lunedì,Mercoledì,Venerdì 16.00 – 17.00 Ufficio 324 – Blocco I, 2° Piano Tel. 095 7383071 [email protected] • Dott. Giuseppe Pigola Lunedì,Mercoledì,Venerdì 16.00 – 17.00 Ufficio 308- Blocco I , 2° Piano Tel. 095 7383087 [email protected] Orario lezioni • Lunedì,Mercoledì e Venerdì 17-19 – Aula 2 Modalità d'esame • Prova orale/laboratorio • Progetto Testi consigliati • Valle et al. Introduzione alla Bioinformatica Zanichelli • Jambeck, Gibas Developing Bioinformatics Computer Skills O'Reilly • Lewin Il Gene – Edizione Compatta Zanichelli Genomica e Proteomica • La genomica è una branca della biologia molecolare che si occupa dello studio del genoma degli organismi viventi. – In particolare si occupa della struttura, contenuto, funzione ed evoluzione del genoma. • La proteomica è una disciplina che studia il proteoma, il complemento tempo-specifico e cellulospecifico del genoma. • Il proteoma è l'insieme di tutte le proteine espresse in una cellula: – Dinamico nel tempo – Varia in risposta a fattori esterni – Differisce tra i diversi tipi cellulari di uno stesso organismo Cos'è la Bioinformatica? • E’ la disciplina che studia le interazioni fra Informatica e processi biologici. Essa viene anche chiamata Biologia Computazionale. • Utilizza i metodi propri dell'informatica per la risoluzione di problemi biologici. • La genomica e la proteomica sono basate sulla Bioinformatica, per l'elaborazione, l'interpretazione e la visualizzazione dell'enorme quantità di dati che producono. • La nuova era è iniziata con il Progetto Genoma Umano e con la produzione della sequenza completa del DNA umano e di altri organismi. La Bioinformatica • Necessità di interpretare la grande mole di dati collezionate dai biologi. • DNA(memoria), RNA(comunicazione), Proteine(computazione-esecuzione) etc.. • Quali parti del DNA controllano certi processi? • Qual è la funzione di certe proteine? I principali tipi di dati • Biosequenze – DNA, RNA, Proteine • Strutture – DNA, Secondaria dell'RNA, Secondaria e Terziaria delle proteine • Dati di interazione – DNA-Proteina, RNA-RNA, RNA-Proteina, ProteinaProteina • Livelli di espressione – RNA (microarray) – Proteine (protein array) Esempio 1 • In una sequenza proteica è possibile individuare regioni funzionalmente importanti. • Ogni sequenza proteica è codificata da una sequenza genomica. • Supponiamo che la regione X nel moscerino sia cruciale in una certa funzione. • Domanda: esiste un analogo nell'uomo? • Risposta: effettuando una ricerca per similarità della regione X nel genoma umano è possibile individuare dei geni candidati. Esempio 2 • Tutte le cellule di un individuo contengono lo stesso DNA. • Eppure un neurone è molto diverso da un globulo bianco! • Che cosa li rende così diversi nella forma e nella funzione? • Sebbene il DNA sia lo stesso, esso contiene delle regioni importanti in tutte le cellule ed altre specifiche per alcune di esse. • Mediante un'analisi del trascrittoma (microarray) è possibile stabilire quali regioni del DNA contengono informazioni relative al funzionamento di ognuna delle due cellule. Esempio 3: Eyless e Aniridia: wet-biology • Eyless è un gene della Drosophila melanogaster (moscerino della frutta) la cui rimozione (wet biology) causa la generazione di mosche senza occhi. • I biologi hanno anche identificato un gene umano Aniridia la cui mancanza o eccessiva mutazione, tale da non far funzionare la corrispondente proteina, causa il mancato sviluppo dell’iride negli occhi. Eyless e Aniridia: Bioinformatica • Operiamo una query a NCBI dando come input a BLAST la biosequenza del gene Eyless e ricercando match con Aniridia. • Il risultato mostra due regioni altamente simili. Il match è illustrato da una sequenza in mezzo alle due confrontate, contenente l’amminoacido nel caso di match perfetto, il segno + se c’è una similarità chimica (ad esempio D ed E sono acidi aspartico e glutammico), blank (cioè spazio vuoto) nel caso di NON MATCH. QUERY BLAST EYLESS-ANIRIDIA pir||A41644 homeotic protein aniridia - human Length = 447 Score = 256 bits (647), Expect = 5e-67 Identities = 128/146 (87%), Positives = 134/146 (91%), Gaps = 1/146 (0%) Query: 24 IERLPSLEDMAHKGHSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 83 I R P+ M + HSGVNQLGGVFV GRPLPDSTRQKIVELAHSGARPCDISRILQVSN Sbjct: 17 IPRPPARASMQNS-HSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 75 Query: 84 GCVSKILGRYYETGSIRPRAIGGSKPRVATAEVVSKISQYKRECPSIFAWEIRDRLLQEN 143 GCVSKILGRYYETGSIRPRAIGGSKPRVAT EVVSKI+QYKRECPSIFAWEIRDRLL E Sbjct: 76 GCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVSKIAQYKRECPSIFAWEIRDRLLSEG 135 Query: 144 VCTNDNIPSVSSINRVLRNLAAQKEQ 169 VCTNDNIPSVSSINRVLRNLA++K+Q Sbjct: 136 VCTNDNIPSVSSINRVLRNLASEKQQ 161 Score = 142 bits (354), Expect = 1e-32 Identities = 68/80 (85%), Positives = 74/80 (92%) Query: 398 TEDDQARLILKRKLQRNRTSFTNDQIDSLEKEFERTHYPDVFARERLAGKIGLPEARIQV 457 +++ Q RL LKRKLQRNRTSFT +QI++LEKEFERTHYPDVFARERLA KI LPEARIQV Sbjct: 222 SDEAQMRLQLKRKLQRNRTSFTQEQIEALEKEFERTHYPDVFARERLAAKIDLPEARIQV 281 Query: 458 WFSNRRAKWRREEKLRNQRR 477 WFSNRRAKWRREEKLRNQRR Sbjct: 282 WFSNRRAKWRREEKLRNQRR 301 Match Parziale e NON Esatto • Eyless ed Aniridia hanno match significativi solo nelle posizioni 24-169 e 398-477 di Eyless con le posizioni 17161 e 222-301 di Aniridia rispettivamente. Tutto il resto NON presenta match significativi. • Tuttavia il match è significativo per cui possiamo dedurre proprietà dell’Aniridia da quelle del più conosciuto Eyeless (struttura, funzione,effetti sul fenotipo(caratteristiche visibili o misurabili) etc..) Programma del corso • • • • • • • • • • • • Biologia molecolare: cellule, genomi ed evoluzione Biologia molecolare: RNA e trascrizione Biologia molecolare: La traduzione e le proteine Basi di dati biologiche Allineamento di sequenze Gene prediction Predizione della struttura secondaria dell’RNA RNA non codificanti: miRNA e siRNA Analisi del trascrittoma – Microarray Systems Biology e Network biologiche Sistemi per il mining di network biologiche Il linguaggio Perl Cellule, genomi e Dogma della Biologia Molecolare • La cellula • Il Genoma – Geni, pseudogeni, ripetizioni • Struttura dei geni • Il Dogma della Biologia Molecolare – Trascrizione (DNA -> RNA) – Traduzione (RNA -> Proteine) Basi di dati biologiche • Dati biologici e loro formati – Sequenze biologiche • Banche dati generiche – NCBI, EMBL, DDBJ • NCBI – Entrez: Nucleotide, Protein, Gene • EMBL – Ensembl! Allineamento di sequenze • • • • • • • • • • • • • Omologia, similarità e distanza Funzioni di scoring e matrici di sostituzione Allineamento Pairwise: algoritmo di Needleman-Wunsch Allineamento Pairwise locale: BLAST, Smith-Waterman Allineamento Multiplo Funzioni di scoring: sum-of-pairs, entropia, circular sum Center star method Profili Allineamento progressivo: algoritmo di Feng-Doolittle ClustalW Metodi basati su consistenza: T-Coffee, ProbCons Valutazione di allineamenti multipli Motif finding Il linguaggio Perl • Perl – Il linguaggio di scripting più utilizzato in Bioinformatica – Interpretato – Punto di forza: espressioni regolari – Linguaggio "colla": utile nell'automatizzazione di esperimenti, test e nella conversione di formati Gene prediction • Modelli di Markov Nascosti (HMM) • Metodi per la predizione di geni – ORF – Modelli statistici – Individuazione di Esoni ed introni • Tool per la predizione di geni – GenScan Predizione della struttura secondaria dell’RNA • • • • Struttura secondaria dell’RNA Rappresentazione di strutture secondarie Metodi probabilistici per la predizione Tool per la predizione della struttura dell’RNA – MFold Analisi del trascrittoma e Microarray • Microarray technology • Analisi di dati da microarray • Cenni su protein array RNA non codificanti e miRNA • • • • I miRNA Database di miRNA Predizione di geni miRNA Predizione di target per miRNA – miRanda • RNA interference e siRNA Database specializzati • NCBI – – – – Pubblicazioni scientifiche:Pubmed Profili di espressione: GEO Polimorfismi: dbSNP Interrogazione del DB via script: EUtils • Browser genomici – NCBI MapViewer – UCSC Genome Browser • miRNA – miRBase, TarBase, miRò • GO: Gene Ontology • Pathways – KEGG, Pathway Commons • Ensembl! BioMart Network biologiche • • • • • • • Teoria dei grafi Misure di Centralità Classificazione delle network Clustering e metodi per l'identificazione dei clusters Network scale-free e gerarchiche Rilevamento della struttura modulare Algoritmi tradizionali – Single linkage clustering – Average linkage clustering • Algoritmi basati su betweenness centrality (Girvan, Newman) Sistemi per il mining di network biologiche • Sistemi di visualizzazione di network – Cytoscape • Ricerca – Netmatch • Annotazione di network con miRNA – miRScape