formát FASTA | |
---|---|
Rozšíření | .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa |
MIME typ | chemický/seq-aa-fasta, chemický/seq-na-fasta [1] |
Vývojář |
David Lipman [2] William Pearson [2] |
zveřejněno | 1985 |
Typ formátu | formát souboru a formát textových dat [d] |
Rozšířeno z | ASCII pro FASTA |
Vyvinutý v | FASTQ |
webová stránka | http://ncbi.nlm.nih.gov/BLAST/fasta.shtml |
FASTA je textový formát pro nukleotidové nebo polypeptidové sekvence, ve kterém jsou nukleotidy nebo aminokyseliny označeny pomocí jednopísmenných kódů . Pro svou jednoduchost a praktičnost jej v současnosti používá většina biologických sekvenčních programů . Soubory tohoto formátu mohou obsahovat názvy sekvencí, jejich identifikátory v databázích a komentáře. V závislosti na povaze biologických sekvencí, které obsahuje, může mít soubor FASTA různé přípony .
Formát byl vynalezen Davidem Lipmanem a Williamem Pearsonem [2] [3] v roce 1985 pro stejnojmenný program určený k prohledávání velkých databází sekvencí homologních s danou sekvencí. Původní popis formátu byl jimi proveden v dokumentaci tohoto programu a nyní je jeho popis součástí dokumentace programu BLAST .
Jednoduchost formátu FASTA usnadňuje provádění různých akcí se sekvencemi pomocí nástrojů pro úpravu textu a skriptovacích programovacích jazyků, jako jsou Python [5] , Ruby [6] , Perl [7] , Java [8] .
Formáty FASTA a FASTQ (Sanger Institute) jsou nejoblíbenější pro reprezentaci dat biologické sekvence [9] . Existují i jiné formáty, včetně těch, které se používají v databankách GenBank [10] , EMBL [11] a UniProt [12] .
Sekvence FASTA začínají jednořádkovým popisem následovaným řádky obsahujícími samotnou sekvenci. Popis je označen symbolem větší než (">") v prvním sloupci. Slovo za tímto znakem a až po první mezeru je identifikátor sekvence , po kterém následuje volitelný popis. Následujících několik řádků může mít jako první znak středník (";"), v takovém případě budou považovány za komentáře. V současné době mnoho databází a programů neuznává komentáře, takže nejsou příliš časté. Poté postupujte podle řádků obsahujících skutečné biologické sekvence. Normálně jsou řetězce ve formátu FASTA omezeny na délku 80 až 120 znaků (z historických důvodů), ale moderní programy rozpoznávají sekvence napsané zcela na jednom řádku. Do jednoho souboru lze zapsat několik sekvencí, čímž se získá soubor multi-FASTA, avšak každé sekvenci musí předcházet vlastní identifikátor [13] . Příklad jedné sekvence ve formátu FASTA: [14]
>gi|31563518|ref|NP_852610.1| proteiny asociované s mikrotubuly 1A/1B lehký řetězec 3A izoforma b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENEIdentifikátor pro tuto sekvenci je gi|31563518|ref|NP_852610.1|.
Sekvence jsou zapsány jako jednopísmenné kódy pro nukleotidy nebo aminokyseliny , odpovídající jejich standardním jednopísmenným kódům IUB / IUPAC , v pořadí od 5'- do 3'-konce pro nukleové kyseliny a od N- do C-konce pro aminokyseliny jsou v nich povoleny mezery, znaky mohou být velká i malá. Čísla, konce řádku a znaky tabulátoru jsou programy, které pracují se sekvencemi, ignorovány .
Nukleové kyseliny se označují [15] :
Kód | Význam | Mnemotechnické pomůcky |
---|---|---|
A | A | Denin - Adenin |
C | C | C ytosin - |
G | G | Guanin - Guanin |
T | T | T hymin - Thymin (5-methyluracil) |
U | U | U rasil - Uracil |
R | A, G | pu Rine - Puriny |
Y | C, T, U | p Y rimidiny — Pyrimidiny |
K | G, T, U | Ketonové báze _ |
M | A, C | Báze s aminoskupinami ( M ino) |
S | C, G | Silná ( silná ) interakce v komplementárním páru (tři vodíkové vazby ) |
W | A, T, U | Slabá (slabá ) interakce v komplementárním páru (dvě vodíkové vazby ) |
B | ne A (tj. C, G, T nebo U) | B následuje A |
D | ne C (tj. A, G, T nebo U) | D následuje za C |
H | ne G (A, C, T nebo U) | H následuje G |
PROTI | ne T a ne U (A, C nebo G) | V následuje U |
N | ACGTU | Jakýkoli ( N y) nukleotid |
Existuje 22 společných kódů pro aminokyseliny (kanonické aminokyseliny, selenocystein a pyrrolysin ), 4 speciální kódy (označení pro sady aminokyselin) a * pro označení stop kodonu (ve formálních genových translacích ) [16] [17] .
Kód aminokyseliny | Význam |
---|---|
A | alanin |
B | Kyselina asparagová (D) nebo asparagin (N) |
C | Cystein |
D | Kyselina asparagová |
E | Kyselina glutamová |
F | fenylalanin |
G | Glycin |
H | Histidin |
já | isoleucin |
J | Leucin (L) nebo Isoleucin (I) |
K | Lysin |
L | Leucin |
M | methionin |
N | Asparagin |
Ó | pyrrolysin |
P | Proline |
Q | Glutamin |
R | arginin |
S | Klidný |
T | threonin |
U | selenocystein |
PROTI | Valin |
W | tryptofan |
Y | tyrosin |
Z | Kyselina glutamová (E) nebo glutamin (Q) |
X | Jakákoli aminokyselina |
* | Ukončení překladu |
Formát Fasta se také používá pro soubory obsahující zarovnání biologických sekvencí . V tomto případě jsou v každé sekvenci, na místech odpovídající pozicím, které nejsou v této sekvenci zastoupeny, vloženy znaky „mezery“ (obvykle pomlčka nebo tečka), v důsledku toho by všechny sekvence v souboru měly mít stejnou délku [18 ] .
NCBI definovala pravidla pro generování jedinečných sekvenčních identifikátorů (SeqID) . Do popisného řádku je povoleno zadat následující varianty identifikátorů [19] :
Typ | Formát(y) | Příklad(y) |
---|---|---|
Lokální (neodkazuje se na externí databáze) | lcl|целое число lcl|строка |
lcl|123 lcl|hmm271 |
Identifikátor sekvence páteře GenInfo | bbs|целое число | bbs|123 |
Typ páteřní molekuly GenInfo | bbm|целое число | bbm|123 |
ID importu GenInfo | gim|целое число | gim|123 |
GenBank | gb|код доступа|локус | gb|M73307|AGMA13GT |
EMBL | emb|код доступа|локус | emb|CAM43271.1| |
PIR | pir|код доступа|название | pir||G36364 |
ŠVÝCARSKÝ PROT | sp|код доступа|название | sp|P01013|OVAX_CHICK |
Patent | pat|страна|патент|номер последовательности | pat|US|RE33188|1 |
patentová přihláška | pgp|страна|номер заявки|номер последовательности | pgp|EP|0238993|7 |
RefSeq | ref|код доступа|название | ref|NM_010450.1| |
Odkaz na databázi není z tohoto seznamu | gnl|база данных|целое число gnl|база данных|строка |
gnl|taxon|9606 gnl|PID|e1632 |
Integrovaná databáze GenInfo | gi|целое число | gi|21434723 |
DDBJ | dbj|код доступа|локус | dbj|BAC85684.1| |
PRF | prf|код доступа|название | prf||0806162C |
PNR | pdb|запись|цепь | pdb|1I4L|D |
GenBank s poznámkami třetích stran | tpg|код доступа|название | tpg|BK003456| |
EMBL s poznámkami třetích stran | tpe|код доступа|название | tpe|BN000123| |
DDBJ s poznámkami třetích stran | tpd|код доступа|название | tpd|FAA00017| |
TreMBL | tr|код доступа|название | tr|Q90RT2|Q90RT2_9HIV1 |
Svislé pomlčky ("|") v horní části seznamu nejsou oddělovače, ale součást formátu. Identifikátory můžete umístit do řady a oddělit je čarami. V případě, že některé z polí identifikátoru zůstane prázdné, je pro zajištění kompatibility s programy nutné umístit dvě pomlčky za sebou [20] .
Soubory Fasta mohou mít různé přípony v závislosti na povaze biologických dat, která obsahují [21] [22] .
Rozšíření | Význam | Poznámky |
---|---|---|
fasta | Pravidelná fasta data | Jakákoli rychlá data. Někdy také .fa, .seq, .fsa, .fas |
fna | zkr. z "fasta nukleové kyseliny" | Popsat nukleotidové sekvence. |
ffn | Kódující oblasti nukleotidů | Obsahují kódující oblasti genomů . |
faa | zkr. z "fasta aminokyselin" | Obsahuje aminokyselinové sekvence. Přípona mpfa se používá při ukládání více proteinů do jednoho souboru. |
frn | Nekódující RNA ve formátu FASTA | Obsahují nekódující RNA v DNA abecedě , např. tRNA , rRNA |
afa, mfa | Zarovnání ve formátu FASTA (a pro "zarovnání", m pro "více") | Obsahují zarovnání biologických (nukleotidových nebo aminokyselinových) sekvencí |