Odhady kvality sestavy genomu

Ve výpočetní biologii se k hodnocení kvality sestavení genomu používají různé indikátory, z nichž nejznámější jsou statistiky délek sady kontigů (nebo lešení ) N50 a L50 . Tyto statistiky jsou měřítkem kvality sestavení genomu . N50 — maximální délka kontigu taková, že celková délka všech kontigů, které nejsou kratší než daný, je alespoň polovina celkové délky všech kontigů v sestavě. [1] N50 je podobná střední nebo průměrné hodnotě délek, ale dlouhé kontigy mají při jejím výpočtu větší váhu. L50 - minimální počet kontigů, jejichž celková délka není menší než polovina celkové délky sestavy. Existují také statistiky podobné N50 a L50 N90 , NG50 [2] a D50 [3] .

Definice

N50

Statistika N50 charakterizuje kvalitu stavby z hlediska její kontinuity. N50 je definován jako nejkratší kontig, když se sečtou délky minimálního počtu kontigů, aby se získal součet větší než nebo rovný polovině délky sestavení genomu. N50 lze vnímat jako těžiště rozložení délek kontigů. Celková délka kontigových sekvencí delších než N50 je přibližně rovna celkové délce sekvencí kratších než N50.

Porovnání hodnot N50 různých sestav má smysl pouze tehdy, když jsou délky sestav stejné.

N50 lze popsat jako vážený medián: 50 % sestavy je obsaženo v kontigech, jejichž délka je menší nebo rovna hodnotě N50.

L50

L50 je minimální počet kontigů, které po sečtení dávají číslo větší nebo rovné polovině délky sestavy. Je to také číslo délky kontigu odpovídající statistice N50 v seznamu délek všech kontigů v sestavě, seřazené sestupně.

N90

Analogicky k N50, N90 je nejkratší kontig při sečtení délek minimálního počtu contigů, aby se získal součet větší nebo rovný 90 % délky sestavy. Jinak: je to takové číslo, že součet délek kontigů této nebo větší délky je 90% délky sestavy (nebo součet délek kontigů této nebo menší délky je 10% délky shromáždění). Ve výše uvedeném příkladu je N90 4. N90 je vždy menší nebo rovno N50.

NG50

Jak již bylo zmíněno výše, srovnání hodnot N50 sestav výrazně odlišných délek je obvykle neinformativní, i když mluvíme o různých sestavách stejného genomu. K vyřešení tohoto problému byla vynalezena modifikace N50 - statistika NG50 . Tyto statistiky se počítají stejným způsobem, kromě toho, že místo celkové délky všech kontigů se k výpočtu NG50 používá délka genomu (známá nebo odhadovaná).

Nejčastěji NG50 nepřesahuje N50 (protože délka sestavy je obvykle větší než délka genomu).

D50

Statistika D50 (také nazývaná D50-test ) je podobná N50, ale používá se mnohem méně často k popisu genomových sestav. Toto je nejmenší číslo d takové, že polovina sestavy se skládá z kontigů, jejichž délka nepřesahuje d . [3]

Příklady výpočtů

Délky devíti kontigů nechť jsou 2, 3, 4, 5, 6, 7, 8, 9, 10. Součet jejich délek je 54. Abychom zjistili N50, dostaneme číslo větší nebo rovné polovině délky sestavy přidáním délek co nejmenšího počtu kontigů (podle definice N50). Abychom to udělali, uspořádáme kontigy v sestupném pořadí jejich délek: 10, 9, 8, 7, 6, 5, 4, 3, 2. Poté začneme délky sčítat v tomto pořadí, dokud nezískáme číslo větší. než nebo rovno 27 (54 děleno 2). 10 + 9 + 8 = 27. Potřebujeme tedy alespoň 3 kontigy, délka nejkratšího z nich je 8. Proto N50 je 8 a L50 je 3. Analogicky je N90 4: 10 + 9 + 8 + 7 + 6 + 5 + 4 = 49 > 48,6 = 54 * 0,9. Pro výpočet NG50 musíte zadat známou (nebo odhadovanou) délku genomu, řekněme 30. Pak je NG50 9: 10 + 9 = 19 > 15 = 30 * 0,5. Při výpočtu D50 seřadíme kontigy nikoli sestupně, ale vzestupně podle jejich délek, v tomto pořadí pak délky sčítáme, dokud nedostaneme číslo větší nebo rovné polovině délky sestavy: 2 + 3 + 4 + 5 + 6 + 7 = 27. 7 je minimální počet, který nepřesahuje délky všech složených kontigů, to znamená, že D50 se rovná 7. Stejná úvaha, ale jako ilustrace, je vidět na obrázku napravo.

Nechť existují dvě genomové sestavy A a B odpovídající genomům dvou různých druhů. A se skládá ze 6 kontigů o délkách: 80 kb, 70 kb, 50 kb, 40 kb, 30 kb, 20 kb. Délka sestavy 290 kb. N50 je 70 kb (80 + 70 = 160 kb, což je více než 290 / 2 = 145 kb). L50 se rovná 2. B se skládá z kontigů stejné délky jako A, s přidáním dalších dvou s délkami: 10 kb, 5 kb. Délka sestavy 305 kb. N50 je 50 kb (80 + 70 + 50 = 200 kb, což je více než 305 / 2 = 152,5 kb). L50 je 3. Pokud je známá nebo odhadovaná velikost genomu pro sestavení A 500 kb, pak NG50 je 30 kb (80 + 70 + 50 + 40 + 30 = 270, což je větší než 500 / 2 = 250). Současně, pokud je velikost genomu pro sestavu B 350 kb, pak NG50 je 50 kb (80 + 70 + 50 = 200 kb, což je více než 350 / 2 = 175 kb). Tento příklad ukazuje, že můžete výrazně zvýšit N50 a snížit L50, pokud jednoduše odstraníte nejkratší kontigy ze sestavy.

Alternativní výpočet

Vzhledem k seznamu L kladných celých čísel lze N50 matematicky vypočítat takto:

Vytvořte další seznam L' , identický s L kromě toho, že n-tý prvek v L je nahrazen n jeho kopiemi.
Medián L ' je N50 pro L. (10% kvantil L' je statistika N90 ).

Například: pokud L = (2, 2, 2, 3, 3, 4, 8, 8), pak L' se skládá ze šesti dvojek, šesti trojek, čtyř čtyřek a šestnácti osmiček. To znamená, že L' obsahuje 2 krát tolik 2 než L , 3 krát tolik 3, 4 krát tolik 4 a tak dále. Medián 32prvkové množiny L' je průměr mezi šestnáctým a sedmnáctým prvkem (4 a 8 v tomto pořadí), takže N50 = 6. Můžete vidět, že součet hodnot v seznamu L , které jsou menší než nebo rovno výsledné hodnotě N50 je 16 = 2 + 2 + 2 + 3 + 3 + 4 a součet hodnot v seznamu L , které jsou větší nebo rovné 6, je také 16 = 8 + 8 .

Poznámky

↑ Lander a kol. Mezinárodní konsorcium pro sekvenování lidského genomu. Počáteční sekvenování a analýza lidského genomu. (anglicky) // Nature. - 2001. - 1. února ( č. 409(6822) ). - S. 860-921 . Archivováno z originálu 15. června 2018.
↑ Dent Earl, Keith Bradnam, John St John, Aaron Darling, Dawei Lin. Assemblathon 1: Kompetitivní hodnocení de novo krátkých metod sestavení (anglicky) // Genome Research. — 2011-12-01. — Sv. 21 , iss. 12 . - str. 2224-2241 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.126599.111 . Archivováno z originálu 5. června 2018.
↑ 1 2 Han, J.; Sanders, C. M.; Wang, C.; Yang, Q.; Wimbish, J.; Boone, B.E.; Thomas, SJ; Levy, SE Měření diverzity repertoáru T buněk v periferní krvi pomocí nové multiplexní PCR a vysoce výkonných sekvenačních metod // Basilej Švýcarsko. - 2012. - 2. září. Archivováno z originálu 5. října 2015.

Literatura

JR; Mlynář; Koren, S; Sutton, G. Sestavovací algoritmy pro sekvenační data nové generace // Genomics : journal. - Academic Press , 2010. - Vol. 95 , č. 6 . - str. 315-327 . - doi : 10.1016/j.ygeno.2010.03.001 . — PMID 20211242 .
hrabě, D; Bradnám, K; Svatý. John, J; Miláček, A; Lin, D; Fass, J; Yu, HOK; Buffalo, V; Zerbino, D. R.; Diekhans, M; Nguyen, N; Ariyaratne, P.N.; Sung, WK; Ning, Z; Haimel, M; Simpson, JT; Fonseca, N.A.; Birol, I; Dokování, TR; Ho, IY; Rokhsar, D.S.; Chikhi, R; Lavenier, D; Chapuis, G; Naquin, D; Maillet, N; Schatz, M.C.; Kelley, D. R.; Phillippy, A. M.; Koren, S. Assemblathon 1: Kompetitivní hodnocení metod de novo krátkého čtení // Genome Research : deník. - 2011. - Sv. 21 , č. 12 . - str. 2224-2241 . - doi : 10.1101/gr.126599.111 . — PMID 21926179 .

Odkazy

Arachne wiki na Broad Institute
Blogový příspěvek L50-vs-N50 Archivováno 12. března 2018 na Wayback Machine (7. října 2015)