Odhady kvality sestavy genomu

Ve výpočetní biologii se k hodnocení kvality sestavení genomu používají různé indikátory, z nichž nejznámější jsou statistiky délek sady kontigů (nebo lešení ) N50 a L50 . Tyto statistiky jsou měřítkem kvality sestavení genomu . N50  — maximální délka kontigu taková, že celková délka všech kontigů, které nejsou kratší než daný, je alespoň polovina celkové délky všech kontigů v sestavě. [1] N50 je podobná střední nebo průměrné hodnotě délek, ale dlouhé kontigy mají při jejím výpočtu větší váhu. L50 - minimální počet kontigů, jejichž celková délka není menší než polovina celkové délky sestavy. Existují také statistiky podobné N50 a L50 N90 , NG50 [2] a D50 [3] .

Definice

N50

Statistika N50 charakterizuje kvalitu stavby z hlediska její kontinuity. N50 je definován jako nejkratší kontig, když se sečtou délky minimálního počtu kontigů, aby se získal součet větší než nebo rovný polovině délky sestavení genomu. N50 lze vnímat jako těžiště rozložení délek kontigů. Celková délka kontigových sekvencí delších než N50 je přibližně rovna celkové délce sekvencí kratších než N50.

Porovnání hodnot N50 různých sestav má smysl pouze tehdy, když jsou délky sestav stejné.

N50 lze popsat jako vážený medián: 50 % sestavy je obsaženo v kontigech, jejichž délka je menší nebo rovna hodnotě N50.

L50

L50  je minimální počet kontigů, které po sečtení dávají číslo větší nebo rovné polovině délky sestavy. Je to také číslo délky kontigu odpovídající statistice N50 v seznamu délek všech kontigů v sestavě, seřazené sestupně.

N90

Analogicky k N50, N90  je nejkratší kontig při sečtení délek minimálního počtu contigů, aby se získal součet větší nebo rovný 90 % délky sestavy. Jinak: je to takové číslo, že součet délek kontigů této nebo větší délky je 90% délky sestavy (nebo součet délek kontigů této nebo menší délky je 10% délky shromáždění). Ve výše uvedeném příkladu je N90 4. N90 je vždy menší nebo rovno N50.

NG50

Jak již bylo zmíněno výše, srovnání hodnot N50 sestav výrazně odlišných délek je obvykle neinformativní, i když mluvíme o různých sestavách stejného genomu. K vyřešení tohoto problému byla vynalezena modifikace N50 - statistika NG50 . Tyto statistiky se počítají stejným způsobem, kromě toho, že místo celkové délky všech kontigů se k výpočtu NG50 používá délka genomu (známá nebo odhadovaná).

Nejčastěji NG50 nepřesahuje N50 (protože délka sestavy je obvykle větší než délka genomu).

D50

Statistika D50 (také nazývaná D50-test ) je podobná N50, ale používá se mnohem méně často k popisu genomových sestav. Toto je nejmenší číslo d takové, že polovina sestavy se skládá z kontigů, jejichž délka nepřesahuje d . [3]

Příklady výpočtů

Alternativní výpočet

Vzhledem k seznamu L kladných celých čísel lze N50 matematicky vypočítat takto:

  1. Vytvořte další seznam L' , identický s L kromě toho, že n-tý prvek v L je nahrazen n jeho kopiemi.
  2. Medián L '  je N50 pro L. (10% kvantil L' je statistika N90 ).

Například: pokud L = (2, 2, 2, 3, 3, 4, 8, 8), pak L' se skládá ze šesti dvojek, šesti trojek, čtyř čtyřek a šestnácti osmiček. To znamená, že L' obsahuje 2 krát tolik 2 než L , 3 krát tolik 3, 4 krát tolik 4 a tak dále. Medián 32prvkové množiny L' je průměr mezi šestnáctým a sedmnáctým prvkem (4 a 8 v tomto pořadí), takže N50 = 6. Můžete vidět, že součet hodnot v seznamu L , které jsou menší než nebo rovno výsledné hodnotě N50 je 16 = 2 + 2 + 2 + 3 + 3 + 4 a součet hodnot v seznamu L , které jsou větší nebo rovné 6, je také 16 = 8 + 8 .

Poznámky

  1. Lander a kol. Mezinárodní konsorcium pro sekvenování lidského genomu. Počáteční sekvenování a analýza lidského genomu.  (anglicky)  // Nature. - 2001. - 1. února ( č. 409(6822) ). - S. 860-921 . Archivováno z originálu 15. června 2018.
  2. Dent Earl, Keith Bradnam, John St John, Aaron Darling, Dawei Lin. Assemblathon 1: Kompetitivní hodnocení de novo krátkých metod sestavení  (anglicky)  // Genome Research. — 2011-12-01. — Sv. 21 , iss. 12 . - str. 2224-2241 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.126599.111 . Archivováno z originálu 5. června 2018.
  3. ↑ 1 2 Han, J.; Sanders, C. M.; Wang, C.; Yang, Q.; Wimbish, J.; Boone, B.E.; Thomas, SJ; Levy, SE Měření diverzity repertoáru T buněk v periferní krvi pomocí nové multiplexní PCR a vysoce výkonných sekvenačních metod  //  Basilej Švýcarsko. - 2012. - 2. září. Archivováno z originálu 5. října 2015.

Literatura

Odkazy