BASI DI DATI BIOLOGICHE - 1
Sommario
Introduzione.
La analisi biologiche e i dati che producono.
Organizzazione dei dati.
Tipi di dati
Le analisi biologiche producono dati di diverso tipo:
Stringhe.
Numeri.
Immagini.
Tipi di dati – le stringhe
Stringhe che forniscono una “descrizione” degli oggetti.
Stringhe ottenute come risultato di analisi (ad esempio,
sequenziamento).
Tipi di dati – i numeri
I numeri posso essere di diverso tipo:
Interi.
Decimali.
Reali.
Tipi di dati – le immagini
Esempi di ananlisi che generano immagini.
Microarray.
Blot.
...
Tipi di dati – altri tipi
Vi sono, inoltre, tipi di dati derivati dai precedenti:
Intervalli numerici.
Sottoinsiemi di elementi (enumerativi).
Dati temporali (Data/Ora).
Dati Multimediali.
Organizzazione dei dati
Il problema di organizzare i dati prodotti è un problema
fondamentale.
Digitalizzazione.
File system.
Fogli di Calcolo.
Basi di dati.
Organizzazione dei dati – File system
Vantaggi:
Semplicità.
Nessun carico aggiuntivo
di informazione.
Svantaggi:
Nessuna strutturazione
dei dati.
Organizzazione delegata
all'utente.
Organizzazione dei dati – Fogli di
calcolo
Vantaggi:
Svantaggi:
Elaborazioni complesse
dei dati.
Nessuna connessione tra
dati di diverse analisi.
Ordinamento dei dati.
Gestione della ridondaza
dei dati delegata
all'utente.
Organizzazione dei dati – Le basi di dati
Vantaggi:
Organizzazione e
strutturazione dei dati.
Possibilità di
interrogazioni complesse.
Svantaggi:
Complessità della
progettazione della base
di dati.
Conoscenza dei linguaggi
per basi di dati.
Esempio – sequenziamento del DNA (1)
Tale esempio metterà in evidenza:
i tipi di dati prodotti da un esperimento;
le diverse forme di organizzazione dei dati.
Esempio – sequenziamento del DNA (2)
Un singolo cromatogramma raccoglie i seguenti dati:
Numerici (qualità).
Stringhe (la sequenza).
Grafici (il cromatogramma).
Vari:
Nome della sequenza;
Data di produzione;
...
Esempio – sequenziamento del DNA (3)
Per poter mantenere i dati nel file system, occorre:
Creare un cartella.
Creare un file per il cromatogramma e uno o più file per
la sequenza e le informazioni sulla qualità.
Dare un nome univoco al file (nella cartella).
Tutto ciò comporta problemi di accesso ed
organizzazione dei dati. In particolare, non si è in grado
di effettuare facilmente elaborazioni significative dei
dati, né di confrontare i dati fra loro.
Esempio – sequenziamento di DNA (4)
Qualora si utilizzi un foglio di calcolo:
Procedura simile a quella vista in precedenza. I file
creati sono di tipo particolare.
Principale vantaggio: i dati sono strutturati. In
particolare, ad ogni colonna può essere associato un
tipo; inoltre, i dati possono essere facilmente ordinati.
Principali problemi: non vi sono strumenti per la
gestione della ridondanza dei dati; risulta difficile
rappresentare alcuni tipi di dati; non vi è modo di
“incrociare” i dati.
Esempio – sequenziamento di DNA (5)
L’uso delle basi di dati consente di:
Strutturare, ordinare ed elaborare i dati.
Disporre di un linguaggio di interrogazione dei dati.
Principali problemi: padronanza dei linguaggi di
interrogazione delle basi di dati e delle metodologie e
tecniche di progettazione e sviluppo di una base di
dati.
Esempio – Blast
Nel caso si voglia registrare il risultato di blast effettuati su
una sequenza:
Si deve tenere conto di numeri (e-value) e stringhe
(annotazione).
Potenzialmente si possono ottenere più (risultati di)
blast per ogni sequenza.
Esempio – Microarray
Ogni esperimento produce:
Due immagini.
Una matrice di 37 colonne con 32256 elementi.
Moltissime informazioni correlate (protocolli,
biomateriali, programmi e strumenti utilizzati).
Scarica

Class on November 15, 2004