FILE DEI DATABASE FASTA GBFF XML ASN Formato FASTA •Il formato fasta è forse il più utilizzato dai comuni software di ricerca. • Esso consiste in un file di testo (*.txt oppure *.fas) che, nella prima riga, comincia con il segno di maggiore; di seguito viene scritto il codice univoco della sequenza e la sua descrizione. •A capo si scrive la sequenza • la sequenza può avere caratteri maiuscoli o minuscoli Esempio: >gi|28916628|gb|AF527032.1| Cynara scolymus clone CLIB12 microsatellite sequence CTCTTGCTTACGCGTGGACTACTGCAAGAAGAAACAAGATGCCAAATTTCGAAACTTT ATTTGCAATCCTTCATGGCACCTGCACTCAAACACCTTCCCACACACAGACACACACA CACACATATATATACACTTCCTTGTATCATCATAACTGAAATTTTAACAG Formato GBFF IL FORMATO DELLA GenBank Il formato di scambio utilizzato per rappresentare la sequenza è il GBFF GBFF Il significa GenBank FlatFile. file GBFF può essere scomposto in tre parti. 1. HEADER 2. DEFINITION 3. FEATURE TABLE Formato GBFF: HEADER 1-HEADER La parte iniziale è la più specifica del file, il primo elemento del file è LOCUS che indica il nome del locus, dal punto di vista storico il nome dovrebbe rappresentare anche il nome del record. Solitamente è un insieme di lettere e numeri (massimo 10) ad esempio HUMBB indica il locus della beta-globulina umana. Al fine di evitare errori o confusioni viene assegnato anche un numero di accesso indicato come un insieme di caratteri alfanumerici, questo numero è unico e specifico. La lunghezza della sequenza viene indicata con il numero di coppie (da 1 a 350,000), in pratica si trovano sequenze da 10 bp in su; è sempre più frequente ritrovare sequenze corte circa 20 basi, che spesso figurano come “patented”: è possibile che siano sequenze di primer che amplificano geni che sono stati brevettati. Il termine DNA indica il tipo di molecola utilizzata nella determinazione della sequenza, i tipi possono essere : DNA, RNA, tRNA, rRNA, mRNA e uRNA. La data rappresenta il giorno in cui la sequenza è stata resa disponibile. Formato GBFF: DEFINITION 2-DEFINITION Con questo termine si riportano le informazioni di tipo biologico relative al record. In generale esiste un certo accordo tra i diversi data base circa la strutturazione della definizione. L’ACCESSION, rappresenta la chiave primaria ed univoca di accesso a un determinato record. Questo numero viene anche citato nella pubblicazione relativa (molte riviste richiedono l’accession number per una pubblicazione. Anche se la sequenza viene aggiornata il numero non cambia. Le possibilità sono di avere una lettera Maiuscola e 5 numeri, oppure da due lettere e 6 numeri. Si può ritrovare una versione aggiornata dell’accession ma andra solo a sommarsi Es: ACCESSION AJ507825 VERSION AJ507825.1 GI:27475615 Possiamo trovare anche un numero di accesso secondario, che costituisce il retaggio di un vecchio sistema di classificazione. Formato GBFF: DEFINITION KEYWORDS Rappresentano un retaggio storico, attualmente l'uso è scoraggiato in quanto molti autori hanno inserito dei termini non contenuti nel vocabolario del data base; inoltre, l’inserimento delle parole chiave non è stato applicato in modo uniforme all’intero database. SOURCE Indica il nome comune o il nome scientifico dell’organismo, in molti casi sono presenti anche informazioni relative alla tassonomia Se si effettua una ricerca per specie, puo essere molto utile il: TAXONOMY BROWSER presente in NCBI Ogni records della GenBank riporta una referenza bibliografica, e un link alla pubblicazione di MEDLINE. Nella parte finale sono riportati i commenti e le note, nel passato si trovavano anche precise indicazioni sugli autori come ad esempio gli indirizzi di posta elettronica o specifiche URL, attualmente questa tendenza viene scoraggiata, in quanto gli indirizzi elettronici tendono a cambiare con una rapidità maggiore rispetto agli indirizzi postali. Formato GBFF: DEFINITION A livello scientifico MEDLINE rappresenta la banca dati bibliografica più importante, ogni articolo viene registrato con un codice di identificazione (MUID), attraverso questo numero è facile risalire all'articolo e alla rivista. Recentemente la NCBI, con MEDLINE e altri editori ha introdotto un nuovo identificatore chiamato PubMed (PMID) che contiene sia gli articoli pubblicati sia anche articoli non ancora pubblicat Formato GBFF: FEATURE TABLE 3-FEATURE TABLE Rappresenta il nucleo informativo di maggior interesse del record. SOURCE E’ l’unica rappresentazione comune a tutti i records della GenBank, contiene una serie di qualificatori legali e alcuni qualificatori obbligatori (esempio il tipo di organismo). Il qualificatore dell’organismo può essere descritto come genere e specie, sovente l’organismo viene descritto a livello di subspecie. CDS Le CDS costituiscono una serie di istruzioni per leggere e interpretare la sequenza. NCBI DEPOSITIAMO UNA SEQUENZA BANKIT GenBank Direct Submission http://www.ncbi.nlm.nih.gov/BankIt/index.html