FASTA

formát FASTA
Rozšíření .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa
MIME typ chemický/seq-aa-fasta, chemický/seq-na-fasta [1]
Vývojář David Lipman [2]
William Pearson [2]
zveřejněno 1985
Typ formátu formát souboru a formát textových dat [d]
Rozšířeno z ASCII pro FASTA
Vyvinutý v FASTQ
webová stránka http://ncbi.nlm.nih.gov/BLAST/fasta.shtml

FASTA  je textový formát pro nukleotidové nebo polypeptidové sekvence, ve kterém jsou nukleotidy nebo aminokyseliny označeny pomocí jednopísmenných kódů . Pro svou jednoduchost a praktičnost jej v současnosti používá většina biologických sekvenčních programů . Soubory tohoto formátu mohou obsahovat názvy sekvencí, jejich identifikátory v databázích a komentáře. V závislosti na povaze biologických sekvencí, které obsahuje, může mít soubor FASTA různé přípony .

Historie a distribuce

Formát byl vynalezen Davidem Lipmanem a Williamem Pearsonem [2] [3] v roce 1985 pro stejnojmenný program určený k prohledávání velkých databází sekvencí homologních s danou sekvencí. Původní popis formátu byl jimi proveden v dokumentaci tohoto programu a nyní je jeho popis součástí dokumentace programu BLAST .

Jednoduchost formátu FASTA usnadňuje provádění různých akcí se sekvencemi pomocí nástrojů pro úpravu textu a skriptovacích programovacích jazyků, jako jsou Python [5] , Ruby [6] , Perl [7] , Java [8] .

Formáty FASTA a FASTQ (Sanger Institute) jsou nejoblíbenější pro reprezentaci dat biologické sekvence [9] . Existují i ​​jiné formáty, včetně těch, které se používají v databankách GenBank [10] , EMBL [11] a UniProt [12] .

Formát

Sekvence FASTA začínají jednořádkovým popisem následovaným řádky obsahujícími samotnou sekvenci. Popis je označen symbolem větší než (">") v prvním sloupci. Slovo za tímto znakem a až po první mezeru je identifikátor sekvence , po kterém následuje volitelný popis. Následujících několik řádků může mít jako první znak středník (";"), v takovém případě budou považovány za komentáře. V současné době mnoho databází a programů neuznává komentáře, takže nejsou příliš časté. Poté postupujte podle řádků obsahujících skutečné biologické sekvence. Normálně jsou řetězce ve formátu FASTA omezeny na délku 80 až 120 znaků (z historických důvodů), ale moderní programy rozpoznávají sekvence napsané zcela na jednom řádku. Do jednoho souboru lze zapsat několik sekvencí, čímž se získá soubor multi-FASTA, avšak každé sekvenci musí předcházet vlastní identifikátor [13] . Příklad jedné sekvence ve formátu FASTA: [14]

>gi|31563518|ref|NP_852610.1| proteiny asociované s mikrotubuly 1A/1B lehký řetězec 3A izoforma b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Identifikátor pro tuto sekvenci je gi|31563518|ref|NP_852610.1|.

Sekvence jsou zapsány jako jednopísmenné kódy pro nukleotidy nebo aminokyseliny , odpovídající jejich standardním jednopísmenným kódům IUB / IUPAC , v pořadí od 5'- do 3'-konce pro nukleové kyseliny a od N- do C-konce pro aminokyseliny jsou v nich povoleny mezery, znaky mohou být velká i malá. Čísla, konce řádku a znaky tabulátoru jsou programy, které pracují se sekvencemi, ignorovány .

Nukleové kyseliny se označují [15] :

Kód Význam Mnemotechnické pomůcky
A A Denin -  Adenin
C C C ytosin  -
G G Guanin  - Guanin
T T T hymin  - Thymin (5-methyluracil)
U U U rasil  - Uracil
R A, G pu Rine  - Puriny
Y C, T, U p Y rimidiny  — Pyrimidiny
K G, T, U Ketonové báze _
M A, C Báze s aminoskupinami ( M ino)
S C, G Silná ( silná ) interakce v komplementárním páru (tři vodíkové vazby )
W A, T, U Slabá (slabá ) interakce v komplementárním páru (dvě vodíkové vazby )
B ne A (tj. C, G, T nebo U) B následuje A
D ne C (tj. A, G, T nebo U) D následuje za C
H ne G (A, C, T nebo U) H následuje G
PROTI ne T a ne U (A, C nebo G) V následuje U
N ACGTU Jakýkoli ( N y) nukleotid

Existuje 22 společných kódů pro aminokyseliny (kanonické aminokyseliny, selenocystein a pyrrolysin ), 4 speciální kódy (označení pro sady aminokyselin) a * pro označení stop kodonu (ve formálních genových translacích ) [16] [17] .

Kód aminokyseliny Význam
A alanin
B Kyselina asparagová (D) nebo asparagin (N)
C Cystein
D Kyselina asparagová
E Kyselina glutamová
F fenylalanin
G Glycin
H Histidin
isoleucin
J Leucin (L) nebo Isoleucin (I)
K Lysin
L Leucin
M methionin
N Asparagin
Ó pyrrolysin
P Proline
Q Glutamin
R arginin
S Klidný
T threonin
U selenocystein
PROTI Valin
W tryptofan
Y tyrosin
Z Kyselina glutamová (E) nebo glutamin (Q)
X Jakákoli aminokyselina
* Ukončení překladu

Formát Fasta se také používá pro soubory obsahující zarovnání biologických sekvencí . V tomto případě jsou v každé sekvenci, na místech odpovídající pozicím, které nejsou v této sekvenci zastoupeny, vloženy znaky „mezery“ (obvykle pomlčka nebo tečka), v důsledku toho by všechny sekvence v souboru měly mít stejnou délku [18 ] .

Identifikátory sekvencí

NCBI definovala pravidla pro generování jedinečných sekvenčních identifikátorů (SeqID) . Do popisného řádku je povoleno zadat následující varianty identifikátorů [19] :

Typ Formát(y) Příklad(y)
Lokální (neodkazuje se na externí databáze) lcl|целое число

lcl|строка

lcl|123

lcl|hmm271

Identifikátor sekvence páteře GenInfo bbs|целое число bbs|123
Typ páteřní molekuly GenInfo bbm|целое число bbm|123
ID importu GenInfo gim|целое число gim|123
GenBank gb|код доступа|локус gb|M73307|AGMA13GT
EMBL emb|код доступа|локус emb|CAM43271.1|
PIR pir|код доступа|название pir||G36364
ŠVÝCARSKÝ PROT sp|код доступа|название sp|P01013|OVAX_CHICK
Patent pat|страна|патент|номер последовательности pat|US|RE33188|1
patentová přihláška pgp|страна|номер заявки|номер последовательности pgp|EP|0238993|7
RefSeq ref|код доступа|название ref|NM_010450.1|
Odkaz na databázi není z tohoto seznamu gnl|база данных|целое число

gnl|база данных|строка

gnl|taxon|9606

gnl|PID|e1632

Integrovaná databáze GenInfo gi|целое число gi|21434723
DDBJ dbj|код доступа|локус dbj|BAC85684.1|
PRF prf|код доступа|название prf||0806162C
PNR pdb|запись|цепь pdb|1I4L|D
GenBank s poznámkami třetích stran tpg|код доступа|название tpg|BK003456|
EMBL s poznámkami třetích stran tpe|код доступа|название tpe|BN000123|
DDBJ s poznámkami třetích stran tpd|код доступа|название tpd|FAA00017|
TreMBL tr|код доступа|название tr|Q90RT2|Q90RT2_9HIV1

Svislé pomlčky ("|") v horní části seznamu nejsou oddělovače, ale součást formátu. Identifikátory můžete umístit do řady a oddělit je čarami. V případě, že některé z polí identifikátoru zůstane prázdné, je pro zajištění kompatibility s programy nutné umístit dvě pomlčky za sebou [20] .

Přípony souborů

Soubory Fasta mohou mít různé přípony v závislosti na povaze biologických dat, která obsahují [21] [22] .

Rozšíření Význam Poznámky
fasta Pravidelná fasta data Jakákoli rychlá data. Někdy také .fa, .seq, .fsa, .fas
fna zkr. z "fasta nukleové kyseliny" Popsat nukleotidové sekvence.
ffn Kódující oblasti nukleotidů Obsahují kódující oblasti genomů .
faa zkr. z "fasta aminokyselin" Obsahuje aminokyselinové sekvence. Přípona mpfa se používá při ukládání více proteinů do jednoho souboru.
frn Nekódující RNA ve formátu FASTA Obsahují nekódující RNA v DNA abecedě , např. tRNA , rRNA
afa, mfa Zarovnání ve formátu FASTA (a pro "zarovnání", m pro "více") Obsahují zarovnání biologických (nukleotidových nebo aminokyselinových) sekvencí

Poznámky

  1. FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, reference, 2007-2012 . Získáno 19. června 2015. Archivováno z originálu 19. června 2015.  (Angličtina)
  2. 1 2 3 Lipman D. , Pearson W. Rychlé a citlivé hledání podobnosti proteinů   // Science . - 1985. - 22. března ( roč. 227 , č. 4693 ). - S. 1435-1441 . — ISSN 0036-8075 . - doi : 10.1126/science.2983426 .
  3. Pearson WR , Lipman DJ Vylepšené nástroje pro porovnávání biologických sekvencí.  (anglicky)  // Proceedings of the National Academy of Sciences. - 1988. - 1. dubna ( roč. 85 , č. 8 ). - str. 2444-2448 . — ISSN 0027-8424 . - doi : 10.1073/pnas.85.8.2444 .
  4. Peter JA Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: volně dostupné nástroje Pythonu pro výpočetní molekulární biologii a bioinformatiku   // Bioinformatika . - 2009-06-01. — Sv. 25 , iss. 11 . - S. 1422-1423 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btp163 . Archivováno 15. května 2020.
  5. Naohisa Goto, Pjotr ​​​​Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: bioinformatický software pro programovací jazyk Ruby   // Bioinformatika . — 2010-10-15. — Sv. 26 , iss. 20 . — S. 2617–2619 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btq475 . Archivováno z originálu 25. února 2021.
  6. Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. The Bioperl Toolkit: Perl Modules for the Life Sciences  //  Genome Research. — 2002-10-01. — Sv. 12 , iss. 10 . - S. 1611-1618 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.361602 . Archivováno z originálu 17. října 2019.
  7. Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: Komunitně řízená open-source bioinformatická knihovna  //  PLOS Computational Biology. — 2019-08-02. — Sv. 15 , iss. 2 . — P. e1006791 . — ISSN 1553-7358 . - doi : 10.1371/journal.pcbi.1006791 . Archivováno z originálu 14. dubna 2021.
  8. Uživatelská příručka EMBOSS . emboss.open-bio.org. Staženo 22. května 2020. Archivováno z originálu dne 14. února 2020.
  9. Ukázka záznamu GenBank . www.ncbi.nlm.nih.gov. Staženo 19. května 2020. Archivováno z originálu dne 18. května 2020.
  10. European Nucleotide Archive anotované/sestavené sekvence User Manual  (eng.) (txt). Evropský archiv nukleotidů . Evropský bioinformatický institut (12. března 2020). Datum přístupu: 8. června 2020.
  11. ↑ Uživatelská příručka UniProt Knowledgebase  . Portál zdrojů bioinformatiky ExPASy (22. dubna 2020). Získáno 8. června 2020. Archivováno z originálu dne 13. května 2020.
  12. Formát Multi-FASTA - Metagenomika . www.metagenomics.wiki. Získáno 19. května 2020. Archivováno z originálu dne 12. srpna 2020.
  13. Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. MAP 1A a MAP 1B jsou strukturně příbuzné proteiny spojené s mikrotubuly s odlišnými vývojovými vzory v CNS  //  The Journal of Neuroscience. - 1989-05-01. — Sv. 9 , iss. 5 . — S. 1712–1730 . — ISSN 1529-2401 0270-6474, 1529-2401 . - doi : 10.1523/JNEUROSCI.09-05-01712.1989 .
  14. : Tao Tao. Jednopísmenné kódy pro nukleotidy . Vzdělávací centrum NCBI . Národní centrum pro biotechnologické informace (24. srpna 2011). Získáno 15. března 2012. Archivováno z originálu 13. srpna 2015.
  15. ↑ Kódy použité v popisu sekvence  . www.ddbj.nig.ac.jp. Získáno 16. dubna 2020. Archivováno z originálu dne 29. září 2020.
  16. Společná komise IUPAC-IUB pro biochemickou nomenklaturu (JCBN). Názvosloví a symbolika pro aminokyseliny a peptidy. Doporučení 1983  //  Biochemical Journal. - 1984. - 15. dubna ( roč. 219 , č. 2 ). - str. 345-373 . — ISSN 0264-6021 . - doi : 10.1042/bj2190345 .
  17. Zarovnaný formát FASTA . www.cgl.ucsf.edu. Staženo 22. května 2020. Archivováno z originálu dne 24. ledna 2021.
  18. NCBI C++ Toolkit Book. Formát ID sekvence FASTA . NCBI C++ Toolkit . Staženo 30. května 2020. Archivováno z originálu dne 15. prosince 2020.
  19. Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. Společné formáty souborů  //  Aktuální protokoly v bioinformatice. - 2006. - prosinec ( roč. 16 , č. 1 ). — ISSN 1934-3396 . - doi : 10.1002/0471250953.bia01bs16 .
  20. Zahoorullah S MD. Učebnice biotechnologie. - SM Online Publishers LLC, 2015. - S. 6-7. — ISBN 9780996274531 .
  21. Formáty souborů zarovnání . www.jalview.org. Staženo 1. dubna 2020. Archivováno z originálu 19. února 2020.

Odkazy