FASTQ

Formát FASTQ  je textový datový formát používaný k reprezentaci biologické sekvence (obvykle nukleotidové sekvence) a skóre kvality každého prvku sekvence. Sekvenční prvky a jejich indikátory kvality jsou pro stručnost kódovány jednotlivými ASCII znaky [1] . Aplikováno v bioinformatice .

Formát byl původně vyvinut ve Wellcome Trust Sanger Institute , aby kombinoval FASTA formátovanou sekvenci a data o kvalitě prvků, ale od té doby se stal de facto standardem pro ukládání výsledků z vysoce výkonných sekvenačních nástrojů , zejména analyzátorů genomu Illumina [2] .

Formát FASTQ není standardizován a různé hardwarově-softwarové systémy pro zpracování informací, které jej používají pro vstupní/výstupní data, mohou mít určité rozdíly (například různé kódovací systémy pro index kvality sekvenčních prvků). [3]

Formát

Dokument FASTQ obvykle používá čtyři řádky na sekvenci.

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Bajt představující kvalitu se pohybuje od 0x21 (nejnižší kvalita; '!' v ASCII) do 0x7e (nejvyšší kvalita; '~' v ASCII). Následují znaky hodnoty kvality ve vzestupném pořadí kvality zleva doprava (ASCII):

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

Zdrojové soubory Sanger FASTQ také umožňovaly rozdělení řádků sekvence a kvality na více řádků souboru, ale obecně se to nedoporučuje, protože to může ztížit analýzu kvůli nešťastné volbě „@“ a „+“ jako značek (tyto znaky mohou také se objeví v řetězci kvality).

Variace

Poznámky

  1. Specifikace formátu FASTQ . Staženo 13. prosince 2019. Archivováno z originálu 13. prosince 2019.
  2. Vysvětlení souborů FASTQ . Staženo 13. prosince 2019. Archivováno z originálu 13. prosince 2019.
  3. drive5: Bioinformatický software a služby. FASTQ soubory . Staženo 13. prosince 2019. Archivováno z originálu dne 2. prosince 2019.