Formát FASTQ je textový datový formát používaný k reprezentaci biologické sekvence (obvykle nukleotidové sekvence) a skóre kvality každého prvku sekvence. Sekvenční prvky a jejich indikátory kvality jsou pro stručnost kódovány jednotlivými ASCII znaky [1] . Aplikováno v bioinformatice .
Formát byl původně vyvinut ve Wellcome Trust Sanger Institute , aby kombinoval FASTA formátovanou sekvenci a data o kvalitě prvků, ale od té doby se stal de facto standardem pro ukládání výsledků z vysoce výkonných sekvenačních nástrojů , zejména analyzátorů genomu Illumina [2] .
Formát FASTQ není standardizován a různé hardwarově-softwarové systémy pro zpracování informací, které jej používají pro vstupní/výstupní data, mohou mít určité rozdíly (například různé kódovací systémy pro index kvality sekvenčních prvků). [3]
Dokument FASTQ obvykle používá čtyři řádky na sekvenci.
Bajt představující kvalitu se pohybuje od 0x21 (nejnižší kvalita; '!' v ASCII) do 0x7e (nejvyšší kvalita; '~' v ASCII). Následují znaky hodnoty kvality ve vzestupném pořadí kvality zleva doprava (ASCII):
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~Zdrojové soubory Sanger FASTQ také umožňovaly rozdělení řádků sekvence a kvality na více řádků souboru, ale obecně se to nedoporučuje, protože to může ztížit analýzu kvůli nešťastné volbě „@“ a „+“ jako značek (tyto znaky mohou také se objeví v řetězci kvality).