II LEZIONE
• Database di interesse per la genetica e la
biologia molecolare
• Portali per l'accesso a database e servizi
bioinformatici
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
OMIM
Online Mendelian Inheritance in Man
EntrezGene curated sequence and descriptive information
about genetic loci
UniGene
experimental system for automatically partitioning
GenBank sequences into a non-redundant set of
gene-oriented clusters
GenCards
database of human genes, their products and their
involvement in diseases
HGMD
Human Gene Mutation Database: information
about disease-causing mutations in genes
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
OMIM
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM
EntrezGene
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=gene
UniGene
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene
GenCards
http://bioinformatics.weizmann.ac.il/cards/
HGMD
http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html
OMIM
Online Mendelian Inheritance in Man
Catalogo di geni umani e malattie genetiche (Dr. Victor A.
McKusick, Johns Hopkins + NCBI)
Contiene informazione testuale, riferimenti bibliografici e links
a MEDLINE, sequenze e ad altre risorse
OMIM gene map
Posizioni di mappa citogenetica di geni-malattia e altri geni
descritti in OMIM
OMIM morbid map
Posizioni di mappa citogenetica di geni-malattia indicizzati in
OMIM
Use OMIM
to explore
Rett
syndrome
There are entries
for both the
disease and the
gene
OMIM number
Link to NCBI map viewer
OMIM
Numbering and Symbols
ID e’ un numero di 6 cifre.
* 1----- (100000- ) Autosomal dominant (before 1994)
* 2----- (200000- ) Autosomal recessive (before 1994)
* 3----- (300000- ) X-linked loci or phenotypes
* 4----- (400000- ) Y-linked loci or phenotypes
* 5----- (500000- ) Mitochondrial loci or phenotypes
•6----- (600000- ) Autosomal loci or phenotypes
Asterisco (*) significa che il fenotipo legato al gene e’ diverso da
quelli rappresentati da altre entries con l’asterisco e che si
conosce il tipo di ereditabilita’.
Se manca l’asterisco non sono chiari la separazione da altri loci
o il modo in cui si eredita il fenotipo.
(#) il fenotipo puo’ essere causato da 2 o piu’ geni (eterogeneita’
genetica).
OMIM
Varianti alleliche
stesso ID piu’ un altro numero di 4 cifre.
Sono MUTAZIONI CHE CAUSANO MALATTIE
OMIM
Interfaccia unificata per cercare i
ENTREZ GENE nformazioni su sequenze e loci
genetici. Presenta informazioni sulla nomenclatura ufficiale,
accession numbers, fenotipi, MIM numbers, UniGene clusters,
omologia, posizioni di mappa e link a numerosi altri siti web.
ENTREZ GENE
ENTREZ GENE
ENTREZ
GENE
Gene Table
GeneCards
Weizmann Institute of Science, Israele
GeneCards is a database of human genes, their products and
their involvement in diseases. It offers concise information about
the functions of all human genes that have an approved symbol,
as well as selected others. The information presented here has been automatically
extracted from various resources. GeneCards™ is particulary
useful for people who wish to find information about genes of
interest in the context of functional genomics and proteomics.
GeneCards
INFORMAZIONI SU
• Aliases and Additional Descriptions
• Chromosomal Location
• Proteins
• Protein Domains/Families/Ontologies
• Sequences
• Expression in Human Tissues
• Similar Genes in Other Organisms
• Related Human Genes
• SNPs/Variants
• Disorders & Mutations
• Medical News
• Research Articles
• Links to the entry of the gene in Other Genome Wide
Resources, in general or specilized databases
UniGene
UniGene è un altro "gene indexing" database, mantenuto all'NCBI
UniGene si propone di rappresentare l'insieme dei geni umani
espressi attraverso il raggruppamento in un unico "cluster" di tutte le
EST e le sequenze annotate di DNA genomico, mRNA, derivanti dai
database GenBank e dbEST, simili tra loro e ipoteticamente afferenti
alla medesima unità trascrizionale.
Il sistema di "clusterizzazione" si basa sulla similarità di sequenza e non
sull'allineamento e le sequenze di scarsa qualità non vengono prese in
considerazione.
Le sequenze vengono comparate ognuna con tutte le altre in occasione di
ciascuna delle frequenti versioni di UniGene e quelle che mostrano una
similarità statisticamente significativa vengono inserite in un unico gruppo.
UniGene
Non viene costruita alcuna sequenza di consenso tra quelle di un "cluster",
poiché a una singola unità trascrizionale possono corrispondere diversi
contigui di sequenze espresse, a causa di fenomeni molto comuni quali o
lo splicing alternativo o l'uso di diversi promotori per diverse isoforme.
Il processo di "clusterizzazione" si svolge in diversi passaggi, con stringenza
decrescente.
Prima vengono filtrate le sequenze contaminanti, ripetute o a bassa
complessità e quelle ribosomiali e mitocondriali, in modo che ogni
restante sequenza, di lunghezza superiore a 100 bp sia candidata per far
parte di un "UniGene cluster".
Poi vengono comparate tra loro e raggruppate le sequenze di geni e
messaggeri; a questi "cluster" vengono aggiunte le EST correlate per
similarità di sequenza o per informazioni sul clone di derivazione.
UniGene
I "cluster" che non contengono il segnale di poliadenilazione vengono scartati,
mantenendo solo i "cluster" "ancorati", ovvero quelli per cui è nota la sequenza 3',
requisito fondamentale per l'identificazione di un gene.
Gli ultimi stadi del processo provvedono all'assegnazione delle EST "orfane" e dei
"cluster" di dimensione 1 a uno dei "cluster" "ancorati", con minore stringenza.
Infine a ogni "cluster" viene assegnato il numero di identificazione, cercando di
assicurare la massima continuità possibile con le precedenti versioni del
database.
I parametri usati da UniGene per il processo di raggruppamento delle sequenze in
"UniGene entry" sono caratterizzati da un grado di stringenza piuttosto basso
percio’ ci si aspetta che esista in UniGene un singolo gruppo di trascritti a
rappresentare ogni gene umano, ovvero che, di converso, le sequenze di
trascritti diversi, ottenuti per splicing alternativo da un medesimo gene, siano
raggruppate insieme in un'unica "entry" .
HGMD
http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html
• Human Gene Mutation Database (HGMD) raccoglie le
mutazioni conosciute (pubblicate) in geni umani, responsabili
di malattie genetiche
• Creato per studiare il meccanismo delle mutationi nel
genoma umano, per riconoscere le regioni e i loci ipermutabili
• Ora e’ importante anche come raccolta di dati. Utile per
diagnosi molecolare di patologie e consulenza genetica.
• Non include mutazioni somatiche o mitocondriali, mutazioni
silenti.
• Dal marzo 1999, HGMD include disease-associated
polymorphisms.
• Basato sull’analisi di >250 riviste scientifiche.
Portali per l'accesso a database e servizi
bioinformatici
NCBI:
SNP
SAGE
Gene Expression Omnibus
SKY/CGH database
…
HGMP:
DNA and Proteins analysis tools
Genome databases
…
Scarica

Lezione 2