BASI DI DATI BIOLOGICHE - 1 Sommario Introduzione. La analisi biologiche e i dati che producono. Organizzazione dei dati. Tipi di dati Le analisi biologiche producono dati di diverso tipo: Stringhe. Numeri. Immagini. Tipi di dati – le stringhe Stringhe che forniscono una “descrizione” degli oggetti. Stringhe ottenute come risultato di analisi (ad esempio, sequenziamento). Tipi di dati – i numeri I numeri posso essere di diverso tipo: Interi. Decimali. Reali. Tipi di dati – le immagini Esempi di ananlisi che generano immagini. Microarray. Blot. ... Tipi di dati – altri tipi Vi sono, inoltre, tipi di dati derivati dai precedenti: Intervalli numerici. Sottoinsiemi di elementi (enumerativi). Dati temporali (Data/Ora). Dati Multimediali. Organizzazione dei dati Il problema di organizzare i dati prodotti è un problema fondamentale. Digitalizzazione. File system. Fogli di Calcolo. Basi di dati. Organizzazione dei dati – File system Vantaggi: Semplicità. Nessun carico aggiuntivo di informazione. Svantaggi: Nessuna strutturazione dei dati. Organizzazione delegata all'utente. Organizzazione dei dati – Fogli di calcolo Vantaggi: Svantaggi: Elaborazioni complesse dei dati. Nessuna connessione tra dati di diverse analisi. Ordinamento dei dati. Gestione della ridondaza dei dati delegata all'utente. Organizzazione dei dati – Le basi di dati Vantaggi: Organizzazione e strutturazione dei dati. Possibilità di interrogazioni complesse. Svantaggi: Complessità della progettazione della base di dati. Conoscenza dei linguaggi per basi di dati. Esempio – sequenziamento del DNA (1) Tale esempio metterà in evidenza: i tipi di dati prodotti da un esperimento; le diverse forme di organizzazione dei dati. Esempio – sequenziamento del DNA (2) Un singolo cromatogramma raccoglie i seguenti dati: Numerici (qualità). Stringhe (la sequenza). Grafici (il cromatogramma). Vari: Nome della sequenza; Data di produzione; ... Esempio – sequenziamento del DNA (3) Per poter mantenere i dati nel file system, occorre: Creare un cartella. Creare un file per il cromatogramma e uno o più file per la sequenza e le informazioni sulla qualità. Dare un nome univoco al file (nella cartella). Tutto ciò comporta problemi di accesso ed organizzazione dei dati. In particolare, non si è in grado di effettuare facilmente elaborazioni significative dei dati, né di confrontare i dati fra loro. Esempio – sequenziamento di DNA (4) Qualora si utilizzi un foglio di calcolo: Procedura simile a quella vista in precedenza. I file creati sono di tipo particolare. Principale vantaggio: i dati sono strutturati. In particolare, ad ogni colonna può essere associato un tipo; inoltre, i dati possono essere facilmente ordinati. Principali problemi: non vi sono strumenti per la gestione della ridondanza dei dati; risulta difficile rappresentare alcuni tipi di dati; non vi è modo di “incrociare” i dati. Esempio – sequenziamento di DNA (5) L’uso delle basi di dati consente di: Strutturare, ordinare ed elaborare i dati. Disporre di un linguaggio di interrogazione dei dati. Principali problemi: padronanza dei linguaggi di interrogazione delle basi di dati e delle metodologie e tecniche di progettazione e sviluppo di una base di dati. Esempio – Blast Nel caso si voglia registrare il risultato di blast effettuati su una sequenza: Si deve tenere conto di numeri (e-value) e stringhe (annotazione). Potenzialmente si possono ottenere più (risultati di) blast per ogni sequenza. Esempio – Microarray Ogni esperimento produce: Due immagini. Una matrice di 37 colonne con 32256 elementi. Moltissime informazioni correlate (protocolli, biomateriali, programmi e strumenti utilizzati).