FASTA

formát FASTA
Rozšíření	.fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa
MIME typ	chemický/seq-aa-fasta, chemický/seq-na-fasta [1]
Vývojář	David Lipman [2] William Pearson [2]
zveřejněno	1985
Typ formátu	formát souboru a formát textových dat [d]
Rozšířeno z	ASCII pro FASTA
Vyvinutý v	FASTQ
webová stránka	http://ncbi.nlm.nih.gov/BLAST/fasta.shtml

FASTA je textový formát pro nukleotidové nebo polypeptidové sekvence, ve kterém jsou nukleotidy nebo aminokyseliny označeny pomocí jednopísmenných kódů . Pro svou jednoduchost a praktičnost jej v současnosti používá většina biologických sekvenčních programů . Soubory tohoto formátu mohou obsahovat názvy sekvencí, jejich identifikátory v databázích a komentáře. V závislosti na povaze biologických sekvencí, které obsahuje, může mít soubor FASTA různé přípony .

Historie a distribuce

Formát byl vynalezen Davidem Lipmanem a Williamem Pearsonem [2] [3] v roce 1985 pro stejnojmenný program určený k prohledávání velkých databází sekvencí homologních s danou sekvencí. Původní popis formátu byl jimi proveden v dokumentaci tohoto programu a nyní je jeho popis součástí dokumentace programu BLAST .

Jednoduchost formátu FASTA usnadňuje provádění různých akcí se sekvencemi pomocí nástrojů pro úpravu textu a skriptovacích programovacích jazyků, jako jsou Python [5] , Ruby [6] , Perl [7] , Java [8] .

Formáty FASTA a FASTQ (Sanger Institute) jsou nejoblíbenější pro reprezentaci dat biologické sekvence [9] . Existují i jiné formáty, včetně těch, které se používají v databankách GenBank [10] , EMBL [11] a UniProt [12] .

Formát

Sekvence FASTA začínají jednořádkovým popisem následovaným řádky obsahujícími samotnou sekvenci. Popis je označen symbolem větší než (">") v prvním sloupci. Slovo za tímto znakem a až po první mezeru je identifikátor sekvence , po kterém následuje volitelný popis. Následujících několik řádků může mít jako první znak středník (";"), v takovém případě budou považovány za komentáře. V současné době mnoho databází a programů neuznává komentáře, takže nejsou příliš časté. Poté postupujte podle řádků obsahujících skutečné biologické sekvence. Normálně jsou řetězce ve formátu FASTA omezeny na délku 80 až 120 znaků (z historických důvodů), ale moderní programy rozpoznávají sekvence napsané zcela na jednom řádku. Do jednoho souboru lze zapsat několik sekvencí, čímž se získá soubor multi-FASTA, avšak každé sekvenci musí předcházet vlastní identifikátor [13] . Příklad jedné sekvence ve formátu FASTA: [14]

>gi|31563518|ref|NP_852610.1| proteiny asociované s mikrotubuly 1A/1B lehký řetězec 3A izoforma b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Identifikátor pro tuto sekvenci je gi|31563518|ref|NP_852610.1|.

Sekvence jsou zapsány jako jednopísmenné kódy pro nukleotidy nebo aminokyseliny , odpovídající jejich standardním jednopísmenným kódům IUB / IUPAC , v pořadí od 5'- do 3'-konce pro nukleové kyseliny a od N- do C-konce pro aminokyseliny jsou v nich povoleny mezery, znaky mohou být velká i malá. Čísla, konce řádku a znaky tabulátoru jsou programy, které pracují se sekvencemi, ignorovány .

Nukleové kyseliny se označují [15] :

Kód	Význam	Mnemotechnické pomůcky
A	A	Denin - Adenin
C	C	C ytosin -
G	G	Guanin - Guanin
T	T	T hymin - Thymin (5-methyluracil)
U	U	U rasil - Uracil
R	A, G	pu Rine - Puriny
Y	C, T, U	p Y rimidiny — Pyrimidiny
K	G, T, U	Ketonové báze _
M	A, C	Báze s aminoskupinami ( M ino)
S	C, G	Silná ( silná ) interakce v komplementárním páru (tři vodíkové vazby )
W	A, T, U	Slabá (slabá ) interakce v komplementárním páru (dvě vodíkové vazby )
B	ne A (tj. C, G, T nebo U)	B následuje A
D	ne C (tj. A, G, T nebo U)	D následuje za C
H	ne G (A, C, T nebo U)	H následuje G
PROTI	ne T a ne U (A, C nebo G)	V následuje U
N	ACGTU	Jakýkoli ( N y) nukleotid

Existuje 22 společných kódů pro aminokyseliny (kanonické aminokyseliny, selenocystein a pyrrolysin ), 4 speciální kódy (označení pro sady aminokyselin) a * pro označení stop kodonu (ve formálních genových translacích ) [16] [17] .

Kód aminokyseliny	Význam
A	alanin
B	Kyselina asparagová (D) nebo asparagin (N)
C	Cystein
D	Kyselina asparagová
E	Kyselina glutamová
F	fenylalanin
G	Glycin
H	Histidin
já	isoleucin
J	Leucin (L) nebo Isoleucin (I)
K	Lysin
L	Leucin
M	methionin
N	Asparagin
Ó	pyrrolysin
P	Proline
Q	Glutamin
R	arginin
S	Klidný
T	threonin
U	selenocystein
PROTI	Valin
W	tryptofan
Y	tyrosin
Z	Kyselina glutamová (E) nebo glutamin (Q)
X	Jakákoli aminokyselina
*	Ukončení překladu

Formát Fasta se také používá pro soubory obsahující zarovnání biologických sekvencí . V tomto případě jsou v každé sekvenci, na místech odpovídající pozicím, které nejsou v této sekvenci zastoupeny, vloženy znaky „mezery“ (obvykle pomlčka nebo tečka), v důsledku toho by všechny sekvence v souboru měly mít stejnou délku [18 ] .

Identifikátory sekvencí

NCBI definovala pravidla pro generování jedinečných sekvenčních identifikátorů (SeqID) . Do popisného řádku je povoleno zadat následující varianty identifikátorů [19] :

Typ	Formát(y)	Příklad(y)
Lokální (neodkazuje se na externí databáze)	lcl\|целое число lcl\|строка	lcl\|123 lcl\|hmm271
Identifikátor sekvence páteře GenInfo	bbs\|целое число	bbs\|123
Typ páteřní molekuly GenInfo	bbm\|целое число	bbm\|123
ID importu GenInfo	gim\|целое число	gim\|123
GenBank	gb\|код доступа\|локус	gb\|M73307\|AGMA13GT
EMBL	emb\|код доступа\|локус	emb\|CAM43271.1\|
PIR	pir\|код доступа\|название	pir\|\|G36364
ŠVÝCARSKÝ PROT	sp\|код доступа\|название	sp\|P01013\|OVAX_CHICK
Patent	pat\|страна\|патент\|номер последовательности	pat\|US\|RE33188\|1
patentová přihláška	pgp\|страна\|номер заявки\|номер последовательности	pgp\|EP\|0238993\|7
RefSeq	ref\|код доступа\|название	ref\|NM_010450.1\|
Odkaz na databázi není z tohoto seznamu	gnl\|база данных\|целое число gnl\|база данных\|строка	gnl\|taxon\|9606 gnl\|PID\|e1632
Integrovaná databáze GenInfo	gi\|целое число	gi\|21434723
DDBJ	dbj\|код доступа\|локус	dbj\|BAC85684.1\|
PRF	prf\|код доступа\|название	prf\|\|0806162C
PNR	pdb\|запись\|цепь	pdb\|1I4L\|D
GenBank s poznámkami třetích stran	tpg\|код доступа\|название	tpg\|BK003456\|
EMBL s poznámkami třetích stran	tpe\|код доступа\|название	tpe\|BN000123\|
DDBJ s poznámkami třetích stran	tpd\|код доступа\|название	tpd\|FAA00017\|
TreMBL	tr\|код доступа\|название	tr\|Q90RT2\|Q90RT2_9HIV1

Svislé pomlčky ("|") v horní části seznamu nejsou oddělovače, ale součást formátu. Identifikátory můžete umístit do řady a oddělit je čarami. V případě, že některé z polí identifikátoru zůstane prázdné, je pro zajištění kompatibility s programy nutné umístit dvě pomlčky za sebou [20] .

Přípony souborů

Soubory Fasta mohou mít různé přípony v závislosti na povaze biologických dat, která obsahují [21] [22] .

Rozšíření	Význam	Poznámky
fasta	Pravidelná fasta data	Jakákoli rychlá data. Někdy také .fa, .seq, .fsa, .fas
fna	zkr. z "fasta nukleové kyseliny"	Popsat nukleotidové sekvence.
ffn	Kódující oblasti nukleotidů	Obsahují kódující oblasti genomů .
faa	zkr. z "fasta aminokyselin"	Obsahuje aminokyselinové sekvence. Přípona mpfa se používá při ukládání více proteinů do jednoho souboru.
frn	Nekódující RNA ve formátu FASTA	Obsahují nekódující RNA v DNA abecedě , např. tRNA , rRNA
afa, mfa	Zarovnání ve formátu FASTA (a pro "zarovnání", m pro "více")	Obsahují zarovnání biologických (nukleotidových nebo aminokyselinových) sekvencí

Poznámky

↑ FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, reference, 2007-2012 . Získáno 19. června 2015. Archivováno z originálu 19. června 2015. (neurčitý) (Angličtina)
↑ 1 2 3 Lipman D. , Pearson W. Rychlé a citlivé hledání podobnosti proteinů // Science . - 1985. - 22. března ( roč. 227 , č. 4693 ). - S. 1435-1441 . — ISSN 0036-8075 . - doi : 10.1126/science.2983426 .
↑ Pearson WR , Lipman DJ Vylepšené nástroje pro porovnávání biologických sekvencí. (anglicky) // Proceedings of the National Academy of Sciences. - 1988. - 1. dubna ( roč. 85 , č. 8 ). - str. 2444-2448 . — ISSN 0027-8424 . - doi : 10.1073/pnas.85.8.2444 .
↑ Peter JA Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: volně dostupné nástroje Pythonu pro výpočetní molekulární biologii a bioinformatiku // Bioinformatika . - 2009-06-01. — Sv. 25 , iss. 11 . - S. 1422-1423 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btp163 . Archivováno 15. května 2020.
↑ Naohisa Goto, Pjotr Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: bioinformatický software pro programovací jazyk Ruby // Bioinformatika . — 2010-10-15. — Sv. 26 , iss. 20 . — S. 2617–2619 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btq475 . Archivováno z originálu 25. února 2021.
↑ Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. The Bioperl Toolkit: Perl Modules for the Life Sciences // Genome Research. — 2002-10-01. — Sv. 12 , iss. 10 . - S. 1611-1618 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.361602 . Archivováno z originálu 17. října 2019.
↑ Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: Komunitně řízená open-source bioinformatická knihovna // PLOS Computational Biology. — 2019-08-02. — Sv. 15 , iss. 2 . — P. e1006791 . — ISSN 1553-7358 . - doi : 10.1371/journal.pcbi.1006791 . Archivováno z originálu 14. dubna 2021.
↑ Uživatelská příručka EMBOSS . emboss.open-bio.org. Staženo 22. května 2020. Archivováno z originálu dne 14. února 2020. (neurčitý)
↑ Ukázka záznamu GenBank . www.ncbi.nlm.nih.gov. Staženo 19. května 2020. Archivováno z originálu dne 18. května 2020. (neurčitý)
↑ European Nucleotide Archive anotované/sestavené sekvence User Manual (eng.) (txt). Evropský archiv nukleotidů . Evropský bioinformatický institut (12. března 2020). Datum přístupu: 8. června 2020.
↑ Uživatelská příručka UniProt Knowledgebase . Portál zdrojů bioinformatiky ExPASy (22. dubna 2020). Získáno 8. června 2020. Archivováno z originálu dne 13. května 2020.
↑ Formát Multi-FASTA - Metagenomika . www.metagenomics.wiki. Získáno 19. května 2020. Archivováno z originálu dne 12. srpna 2020. (neurčitý)
↑ Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. MAP 1A a MAP 1B jsou strukturně příbuzné proteiny spojené s mikrotubuly s odlišnými vývojovými vzory v CNS // The Journal of Neuroscience. - 1989-05-01. — Sv. 9 , iss. 5 . — S. 1712–1730 . — ISSN 1529-2401 0270-6474, 1529-2401 . - doi : 10.1523/JNEUROSCI.09-05-01712.1989 .
↑ : Tao Tao. Jednopísmenné kódy pro nukleotidy . Vzdělávací centrum NCBI . Národní centrum pro biotechnologické informace (24. srpna 2011). Získáno 15. března 2012. Archivováno z originálu 13. srpna 2015. (neurčitý)
↑ Kódy použité v popisu sekvence . www.ddbj.nig.ac.jp. Získáno 16. dubna 2020. Archivováno z originálu dne 29. září 2020.
↑ Společná komise IUPAC-IUB pro biochemickou nomenklaturu (JCBN). Názvosloví a symbolika pro aminokyseliny a peptidy. Doporučení 1983 // Biochemical Journal. - 1984. - 15. dubna ( roč. 219 , č. 2 ). - str. 345-373 . — ISSN 0264-6021 . - doi : 10.1042/bj2190345 .
↑ Zarovnaný formát FASTA . www.cgl.ucsf.edu. Staženo 22. května 2020. Archivováno z originálu dne 24. ledna 2021. (neurčitý)
↑ NCBI C++ Toolkit Book. Formát ID sekvence FASTA . NCBI C++ Toolkit . Staženo 30. května 2020. Archivováno z originálu dne 15. prosince 2020. (neurčitý)
↑ Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. Společné formáty souborů // Aktuální protokoly v bioinformatice. - 2006. - prosinec ( roč. 16 , č. 1 ). — ISSN 1934-3396 . - doi : 10.1002/0471250953.bia01bs16 .
↑ Zahoorullah S MD. Učebnice biotechnologie. - SM Online Publishers LLC, 2015. - S. 6-7. — ISBN 9780996274531 .
↑ Formáty souborů zarovnání . www.jalview.org. Staženo 1. dubna 2020. Archivováno z originálu 19. února 2020. (neurčitý)

Odkazy

Převaděč souborů biologické sekvence
Pokyny pro ruční vytvoření souboru ve formátu FASTA (eng.)

Typ	Formát(y)	Příklad(y)
Lokální (neodkazuje se na externí databáze)	lcl\|целое число lcl\|строка	lcl\|123 lcl\|hmm271
Identifikátor sekvence páteře GenInfo	bbs\|целое число	bbs\|123
Typ páteřní molekuly GenInfo	bbm\|целое число	bbm\|123
ID importu GenInfo	gim\|целое число	gim\|123
GenBank	gb\|код доступа\|локус	gb\|M73307\|AGMA13GT
EMBL	emb\|код доступа\|локус	emb\|CAM43271.1\|
PIR	pir\|код доступа\|название	pir\|\|G36364
ŠVÝCARSKÝ PROT	sp\|код доступа\|название	sp\|P01013\|OVAX_CHICK
Patent	pat\|страна\|патент\|номер последовательности	pat\|US\|RE33188\|1
patentová přihláška	pgp\|страна\|номер заявки\|номер последовательности	pgp\|EP\|0238993\|7
RefSeq	ref\|код доступа\|название	ref\|NM_010450.1\|
Odkaz na databázi není z tohoto seznamu	gnl\|база данных\|целое число gnl\|база данных\|строка	gnl\|taxon\|9606 gnl\|PID\|e1632
Integrovaná databáze GenInfo	gi\|целое число	gi\|21434723
DDBJ	dbj\|код доступа\|локус	dbj\|BAC85684.1\|
PRF	prf\|код доступа\|название	prf\|\|0806162C
PNR	pdb\|запись\|цепь	pdb\|1I4L\|D
GenBank s poznámkami třetích stran	tpg\|код доступа\|название	tpg\|BK003456\|
EMBL s poznámkami třetích stran	tpe\|код доступа\|название	tpe\|BN000123\|
DDBJ s poznámkami třetích stran	tpd\|код доступа\|название	tpd\|FAA00017\|
TreMBL	tr\|код доступа\|название	tr\|Q90RT2\|Q90RT2_9HIV1