FILE DEI DATABASE

FASTA

GBFF

XML

ASN
Formato FASTA
•Il formato fasta è forse il più utilizzato dai comuni software di ricerca.
• Esso consiste in un file di testo (*.txt oppure *.fas) che, nella prima
riga, comincia con il segno di maggiore; di seguito viene scritto il codice
univoco della sequenza e la sua descrizione.
•A capo si scrive la sequenza
• la sequenza può avere caratteri maiuscoli o minuscoli
Esempio:
>gi|28916628|gb|AF527032.1| Cynara scolymus clone CLIB12
microsatellite sequence
CTCTTGCTTACGCGTGGACTACTGCAAGAAGAAACAAGATGCCAAATTTCGAAACTTT
ATTTGCAATCCTTCATGGCACCTGCACTCAAACACCTTCCCACACACAGACACACACA
CACACATATATATACACTTCCTTGTATCATCATAACTGAAATTTTAACAG
Formato GBFF
IL
FORMATO DELLA GenBank
Il formato di scambio utilizzato per rappresentare
la sequenza è il GBFF
GBFF
Il
significa GenBank FlatFile.
file GBFF può essere scomposto in tre parti.
1.
HEADER
2.
DEFINITION
3.
FEATURE TABLE
Formato GBFF: HEADER
1-HEADER
La parte iniziale è la più specifica del file, il primo elemento del file è
LOCUS che indica il nome del locus, dal punto di vista storico il nome
dovrebbe rappresentare anche il nome del record. Solitamente è un insieme
di lettere e numeri (massimo 10) ad esempio HUMBB indica il locus della
beta-globulina umana.
Al fine di evitare errori o confusioni viene assegnato anche un numero di
accesso indicato come un insieme di caratteri alfanumerici, questo numero
è unico e specifico.
La lunghezza della sequenza viene indicata con il numero di coppie (da 1
a 350,000), in pratica si trovano sequenze da 10 bp in su; è sempre più
frequente ritrovare sequenze corte circa 20 basi, che spesso figurano come
“patented”: è possibile che siano sequenze di primer che amplificano geni
che sono stati brevettati.
Il termine DNA indica il tipo di molecola utilizzata nella determinazione
della sequenza, i tipi possono essere : DNA, RNA, tRNA, rRNA, mRNA e
uRNA.
La data rappresenta il giorno in cui la sequenza è stata resa disponibile.
Formato GBFF: DEFINITION
2-DEFINITION
Con questo termine si riportano le informazioni di tipo biologico relative
al
record. In generale esiste un certo accordo tra i diversi data base circa la
strutturazione della definizione.
L’ACCESSION, rappresenta la chiave primaria ed univoca di accesso a un
determinato record.
Questo numero viene anche citato nella pubblicazione relativa (molte riviste
richiedono l’accession number per una pubblicazione.
Anche se la sequenza viene aggiornata il numero non cambia. Le
possibilità sono di avere una lettera Maiuscola e 5 numeri, oppure da due
lettere e 6 numeri.
Si può ritrovare una versione aggiornata dell’accession ma andra solo a
sommarsi
Es: ACCESSION AJ507825 VERSION AJ507825.1 GI:27475615
 Possiamo trovare anche un numero di accesso secondario, che costituisce
il retaggio di un vecchio sistema di classificazione.
Formato GBFF: DEFINITION
KEYWORDS
Rappresentano
un retaggio storico, attualmente l'uso è scoraggiato in
quanto molti autori hanno inserito dei termini non contenuti nel vocabolario
del data base; inoltre, l’inserimento delle parole chiave non è stato applicato
in modo uniforme all’intero database.
SOURCE
Indica il nome
comune o il nome scientifico dell’organismo, in molti casi
sono presenti anche informazioni relative alla tassonomia
Se si effettua una ricerca per specie, puo essere molto utile il:
TAXONOMY BROWSER presente in NCBI
Ogni records della GenBank riporta una referenza bibliografica, e un link
alla pubblicazione di MEDLINE.
Nella parte finale sono riportati i commenti e le note, nel passato si
trovavano anche precise indicazioni sugli autori come ad esempio gli indirizzi
di posta elettronica o specifiche URL, attualmente questa tendenza viene
scoraggiata, in quanto gli indirizzi elettronici tendono a cambiare con una
rapidità maggiore rispetto agli indirizzi postali.
Formato GBFF: DEFINITION
A livello scientifico MEDLINE rappresenta la banca dati bibliografica
più importante, ogni articolo viene registrato con un codice di
identificazione (MUID), attraverso questo numero è facile risalire
all'articolo e alla rivista.
Recentemente la NCBI, con MEDLINE e altri editori ha introdotto un
nuovo identificatore chiamato PubMed (PMID) che contiene sia gli
articoli pubblicati sia anche articoli non ancora pubblicat
Formato GBFF: FEATURE TABLE
3-FEATURE TABLE
Rappresenta il nucleo informativo di maggior interesse del record.
SOURCE
E’ l’unica rappresentazione comune a tutti i records della GenBank,
contiene una serie di qualificatori legali e alcuni qualificatori
obbligatori (esempio il tipo di organismo). Il qualificatore
dell’organismo può essere descritto come genere e specie, sovente
l’organismo viene descritto a livello di subspecie.
CDS
Le CDS costituiscono una serie di istruzioni per leggere e
interpretare la sequenza.
NCBI
DEPOSITIAMO UNA SEQUENZA
 BANKIT
GenBank Direct Submission

http://www.ncbi.nlm.nih.gov/BankIt/index.html
Scarica

Formati - sistemi informativi service desk