Matice polohové váhy

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 10. listopadu 2021; kontroly vyžadují 2 úpravy .

Poziční hmotnostní matice (PWM) je bioinformatická metoda, která se používá k hledání motivů v biologických sekvencích.
PWM lze sestavit na základě vícenásobného zarovnání příbuzných sekvencí nebo sekvencí, které provádějí podobné funkce. PWM se používá v mnoha moderních algoritmech pro objevování nových motivů [1] .

Pozadí

Polohovou hmotnostní matici zavedl americký genetik Gary Stormo.a kolegové v roce 1982 [2] jako alternativní způsob reprezentace konsenzuálních sekvencí . Konsenzuální sekvence byly dříve používány k zobrazení společných motivů v biologických sekvencích, nicméně tato metoda měla určité nevýhody v predikci a hledání těchto motivů v nových sekvencích [3] . Poprvé byl PVM použit k hledání míst iniciace translace v RNA . Aby vytvořil váhovou matici, pomocí které lze odlišit skutečná místa od podobných úseků sekvencí, polsko-americký matematik Andrzej Ehrenfeuchtbyl navržen perceptronový algoritmus . Výsledkem perceptronového tréninku na vzorcích pravdivých a nepravdivých míst byla matice a prahová hodnota pro rozdíl mezi těmito dvěma soubory dat. Testování této matice na nových sekvencích nezahrnutých v trénovací sadě ukázalo, že tato metoda byla přesnější a citlivější ve srovnání s vytvořením konsensuální sekvence.

Výhody PWM oproti konsenzuálním sekvencím učinily matrice populární metodou pro reprezentaci motivů v biologických sekvencích [4] [5] .

Matematická definice

Přísná definice matice polohové váhy je následující [6] :

$W_{k,j}=log_{2}\left({\frac {P_{k,j}}{P_{k}}}\right)$ , kde je abeceda sekvence (zd. nukleotidy), je číslo pozice, $k=\{A,T,G,C\}$ $j=1,...,J$

$P_{k,j}$ je matice poziční pravděpodobnosti, je výskyt písmene v abecedě (tj. 0,25 pro nukleotidovou sekvenci a 0,05 pro aminokyselinovou sekvenci). $P_{k}$ $k$

Vytvoření PVM

PVM je matice, jejíž počet řádků odpovídá velikosti abecedy (4 nukleotidy pro nukleové kyseliny a 20 aminokyselin pro proteinové sekvence) a počet sloupců odpovídá délce motivu [6] .

Krok 1. Vytvoření matice poziční pravděpodobnosti

Prvním krokem při konstrukci váhové matice založené na vícenásobném bezdelečním zarovnání je vytvoření poziční frekvenční matice (PMF). Prvky této matice odpovídají tomu, kolikrát se každé písmeno abecedy vyskytuje na určité pozici v motivu. Dále se PMP převede na matici poziční pravděpodobnosti normalizací na celkový počet sekvencí ve srovnání. Taková matice ukazuje, jaká je pravděpodobnost setkání s daným písmenem na dané pozici v počátečním zarovnání.

Každý prvek matice pravděpodobnosti se rovná pravděpodobnosti setkání s písmenem na pozici v počátečním zarovnání a vypočítá se podle vzorce [1] : kde je pořadové číslo, je číslo pozice, je písmeno abeceda, $P_{k,j}$ $k$ $j$
${\textstyle P_{k,j}={\frac {1}{N}}\sum _{i=1}^{N}I\left({X_{i,j}=k}\right), }$
$i=1,...,N$ $j=1,...,J$ $k$

$X_{i,j}$ je písmeno odpovídající pozici v sekvenci a je funkce indikátoru vypočtená podle vzorce: $j$ $i$ $já$
${\textstyle {I\left(a=k\right)}=\left\{{\begin{matrix}1,&a=k,\\0,&a\neq k,\end{matrix}}\right. }$

Například s ohledem na následujících deset zarovnaných sekvencí DNA, které představují jeden motiv:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

respektive polohová frekvenční matice:

.}

a tedy pravděpodobnostní matice získaná po dělení počtem sekvencí:

P={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}0.3&0.6&0.1&0.0&0.0&0.6&0.7&0.2&0. 1\\0.2&0.2&0.1&0.0&0.0&0.2&0.1&0.1&0.2\\0.1&0.1&0.7&1.0&0.0&0.1&0.1&0.5&0.1\\0.4&0.1&0.1&0. 0&1.0&0.1&0.1&0.2&0.6\end{bmatrix}}

[7] .

V matici poziční pravděpodobnosti je součet hodnot každého sloupce, tedy pravděpodobnost splnění libovolného písmene abecedy na dané pozici, v případě počátečního zarovnání bez mazání 1.

Pomocí této matice můžeme vypočítat pravděpodobnost, že vygenerováním písmen na každé pozici s pravděpodobností v ní uvedenou dostaneme posloupnost . Protože se předpokládá, že sloupce matice jsou na sobě nezávislé , je tato pravděpodobnost rovna součinu pravděpodobností umístění každého písmene posloupnosti na jeho pozici, tedy: kde je písmeno posloupnosti na pozici . Například pravděpodobnost, že posloupnost S = GAGGTAAAC získá matice z předchozího příkladu, lze vypočítat: $S$
${\textstyle p(S\vert P)=\prod _{j=0}^{J}P_{S_{j},j},}$
$S_j$ $S$ $j$
$P$
$p(S\vert P)=0,1\krát 0,6\krát 0,7\krát 1,0\krát 1,0\krát 0,6\krát 0,7\krát 0,2\krát 0,2=0,0007056.$

Poznámka

K výpočtu matice poziční pravděpodobnosti z malého pole dat se často používají pseudoúčty . Z důvodu neúplnosti vzorku může nastat situace, kdy v původním vzorku nejsou všechna písmena zastoupena na určité pozici. V tomto případě bude pravděpodobnost získání tohoto písmene při generování náhodné sekvence z této matice rovna nule. Podle toho bude pravděpodobnost vygenerování sekvence s takovým písmenem na této pozici také rovna nule, bez ohledu na zbytek sekvence [8] . Aby se tomu zabránilo, je ke každému prvku matice pravděpodobnosti přidána nějaká hodnota, nazývaná pseudopočet, aby byl nenulový. Podle Laplaceova pravidla se ke každému prvku frekvenční matice přidá 1 - minimální možný výskyt písmene na této pozici. Existují složitější pseudopočítací systémy, jako jsou ty, které používají Dirichletovy směsi nebo substituční matice .

Vzhledem k pseudopočtům lze definici matice pravděpodobnosti formulovat takto:

${\displaystyle P_{k,j}={\frac {F_{k,j}+e\left(k\right)}{N+\sum {e\left(k'\right)))))$ , kde - PMC, - funkce pseudopočítání [9] . $F_{k,j}$ $e\left(k\right)$

Ve výše uvedeném příkladu vytvořeném bez použití pseudopočtů bude mít jakákoli sekvence, která nemá G na čtvrté pozici nebo T na páté pozici, pravděpodobnost 0.

Krok 2. Přechod od pravděpodobností k vahám

Posledním krokem k vytvoření PWM je přechod od pravděpodobností písmen v různých polohách motivu k jejich vahám. Nejčastěji se tyto váhy vypočítávají jako logaritmický poměr pravděpodobnosti , přičemž se bere v úvahu model pozadí pro generování náhodné sekvence b. Nejjednodušší model pozadí předpokládá, že každé písmeno se vyskytuje stejně často na jakékoli pozici v datové sadě, tj. hodnota pro jakýkoli znak v abecedě (0,25 pro nukleotidy a 0,05 pro aminokyseliny). Model pozadí nemusí znamenat rovnoměrné rozložení písmen: například při studiu organismů s vysokým složením GC se pravděpodobnosti pro C a G mohou zvýšit a pro A a T se snížit. Prvky váhové matice se tedy vypočítají podle vzorce [6] : $P_{k}=1/\vert k\vert$

W_{k,j}=\mathrm {ln} \;(P_{k,j}/P_{k}).

Aplikováním této transformace na pravděpodobnostní matici z příkladu (ignorováním pseudopočtů) dostaneme:

W={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}0.18&0.87&-0.91&-\infty &-\infty &0.87&1 0,02&-0,22&-0,91\\-0,22&-0,22&-0,91&-\infty &-\infty &-0,22&-0,91&-0,91&-0,22\\-0,91&-0,91&1,02&1,38&- \infty &-0,91&-0,91&0,69&-0,91\\0,47&-0,91&-0,91&-\infty &1,38&-0,91&-0,91&-0,22&0,87\end{bmatrix}}.

V případě, že jsou prvky SRP vypočteny pomocí logaritmického poměru pravděpodobnosti, lze váhu sekvence vypočítat jako součet vah pro každé písmeno této sekvence na jeho pozici. Výsledná váha dává představu o tom, jak tato sekvence odpovídá motivu, pro který byla matice polohových vah vytvořena. Čím vyšší je pravděpodobnost, že je sekvence generována odpovídající maticí pravděpodobnosti a není náhodná, tím vyšší je váha.

Vypovídací hodnota PBM

Informační obsah PVM ukazuje, jak se liší rozložení písmen na pozicích v něm popsaných od rovnoměrného rozložení . Vlastní informace pro každou postavu na pozici motivu se rovnají: $i$ $j$

-\log(p_{i,j})

Očekávaná (průměrná) sebeinformace pro tento prvek je:

-p_{i,j}\cdot \log(p_{i,j})

Informační obsah celé matice se rovná součtu všech očekávaných průměrných vlastních hodnot každého prvku matice. Informační obsah SPM v případě nerovnoměrného rozložení pozadí se vypočítá podle vzorce:

\textstyle -\sum _{i,j}p_{i,j}\cdot \log(p_{i,j}/p_{j}),

kde je frekvence pozadí pro daný symbol.

p_{j}

Informační obsah souvisí s Kullback-Leiblerovou vzdáleností nebo relativní entropií . Při použití algoritmu PSSM k hledání genomových sekvencí (viz níže) však může taková jednotná korekce vést k přecenění důležitosti různých bází v motivu v důsledku nerovnoměrné distribuce n-merů v reálných genomech, což vede k výrazně vyšší počet falešně pozitivních výsledků [10] .

Použití PBM

PVM se široce používají pro analýzu nukleotidových a proteinových sekvencí. V první řadě slouží k vyhledávání konkrétních lokalit a motivů. Algoritmus MATCH [11] je například schopen vyhledávat potenciální vazebná místa pro transkripční faktory v sekvencích DNA. Podobné přístupy se používají pro proteiny [12] . Kromě hledání funkčních domén lze PVM využít k predikci různých vlastností proteinů, jako je sekundární struktura [13] [14] [15] , jejich dostupnost rozpouštědlu [16] [17] , kontakty ve struktuře [ 18] . Kromě hledání motivů se k popisu proteinových rodin používá vícenásobné zarovnání PWM. Existují databáze PVM, které lze použít k určení, zda sledovaný protein patří do známých rodin. Zlepšují se také metody pro konstrukci a používání PVM. Například byla vyvinuta metoda pro vytváření PWM bez použití velkého vícenásobného zarovnání proteinů, což výrazně urychluje výpočty v přítomnosti velkého pole počátečních dat [19] . Kromě toho existuje přístup využívající více PTM k popisu proteinových rodin: v tomto případě není zkonstruována jedna, ale mnoho matric s použitím různých neblízkých (aby se zabránilo zkreslení) proteinů rodiny.

Algoritmy pro vytváření a používání PVM

Existují různé algoritmy pro skenování PWM shod v sekvencích. Jedním z příkladů je algoritmus MATCH, který byl implementován v ModuleMaster. Sofistikovanější algoritmy pro rychlé prohledávání databází pomocí nukleotidů a také PWM/PSSM aminokyselin jsou implementovány v softwaru pro vyhledávání possum a popsány Beckstettem, et al. (2006) [20] .

Mezi nejznámější algoritmy patří také MEME a Gibbs [1] .

Implementace PVM

Hotovou implementaci PVM lze použít v programovacích jazycích Python ( balíček BioPython ) a R ( knihovna seqLogo ).

Ukázka R kódu

#install v případě potřeby zdroj ( "http://bioconductor.org/biocLite.R" ) biocLite ( "seqLogo" ) knihovna ( seqLogo ) a <- c ( 0 , 4 , 4 , 0 , 3 , 7 , 4 , 3 , 5 , 4 , 2 , 0 , 0 , 4 ) c <- c ( 3 , 0 , 4 , 8 , 0 , 0 , 0 , 3 , 0 , 0 , 0 , 0 , 2 , 4 ) g <- c ( 2 , 3 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 6 , 8 , 5 , 0 ) t <- c ( 3 , 1 , 0 , 0 , 5 , 1 , 4 , 2 , 2 , 4 , 0 , 0 , 1 , 0 ) df <- data.frame ( a , c , g , t ) df a c g t 1 0 3 2 3 2 4 0 3 1 3 4 4 0 0 4 0 8 0 0 5 3 0 0 5 6 7 0 0 1 7 4 0 0 4 8 3 3 0 2 9 5 0 1 2 10 4 0 0 4 11 2 0 6 0 12 0 0 8 0 13 0 2 5 1 14 4 4 0 0 #define funkce, která dělí frekvenci řádkovým součtem tj. proporce proporce <- funkce ( x ){ rs <- součet ( x ); návrat ( x / rs ); } #create matice váhy pozice mef2 <- použít ( df , 1 , proporce ) mef2 <- makePWM ( mef2 ) seqLogo ( mef2 )

Poznámky

↑ 1 2 3 CSB2007 Učení matic pozice váhy z dat sekvence a výrazu . www.lifesciencesociety.org. Získáno 30. dubna 2017. Archivováno z originálu 2. prosince 2016. (neurčitý)
↑ Stormo, Gary D.; Schneider, Thomas D.; Zlato, Larry; Ehrenfeucht, Andrzej. Použití 'Perceptron' algoritmu k rozlišení translačních iniciačních míst v E. coli // : en:Nucleic Acids Research|Nucleic Acids Research : journal. - 1982. - Sv. 10 , č. 9 . - S. 2997-3011 . doi : 10.1093 / nar/10.9.2997 .
↑ Stormo, GD DNA vazebná místa: reprezentace a objev (neopr.) // Bioinformatika. - 2000. - 1. ledna ( roč. 16 , č. 1 ). - S. 16-23 . - doi : 10.1093/bioinformatika/16.1.16 . — PMID 10812473 .
↑ Sinha, S. O počítání pozičních váhových shod v sekvenci s aplikací na hledání diskriminačního motivu // Bioinformatics: journal. - 2006. - 27. července ( roč. 22 , č. 14 ). - str. e454-e463 . - doi : 10.1093/bioinformatics/btl227 .
↑ Xia, Xuhua. Poziční hmotnostní matice, Gibbs Sampler a související testy významnosti v charakterizaci motivů a predikci // Scientifica: časopis. - 2012. - Sv. 2012 . - str. 1-15 . - doi : 10.6064/2012/917540 .
↑ 1 2 3 Matice váhy pozice - Přemýšlení od nepravděpodobného kandidáta , Přemítání od nepravděpodobného kandidáta (1. října 2013). Archivováno z originálu 1. dubna 2017. Staženo 30. dubna 2017.
↑ Guigo, Roderic Úvod do bodovacích matic pro specifické pozice . http://bioinformatica.upf.edu . Získáno 29. dubna 2015. Archivováno z originálu 28. listopadu 2012. (neurčitý)
↑ Nishida, K.; Frith, M.C.; Nakai, K. Pseudopočty vazebných míst transkripčního faktoru // Nucleic Acids Research : deník. - 2008. - 23. prosince ( roč. 37 , č. 3 ). - S. 939-944 . - doi : 10.1093/nar/gkn1019 .
↑ Matice váhy pozice - Přemýšlení od nepravděpodobného kandidáta (Angl.) , Přemítání od nepravděpodobného kandidáta (1. října 2013). Archivováno z originálu 1. dubna 2017. Staženo 31. března 2017.
↑ Ivan Erill, Michael C O'Neill. Přezkoumání metod založených na teorii informace pro identifikaci vazebného místa DNA // BMC Bioinformatics. — 2009-02-11. - T. 10 . - S. 57 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-10-57 .
↑ Kel AE, a kol. MATCHTM: nástroj pro vyhledávání vazebných míst transkripčního faktoru v sekvencích DNA // Nucleic Acids Research : deník. - 2003. - Sv. 31 , č. 13 . - str. 3576-3579 . - doi : 10.1093/nar/gkg585 . — PMID 12824369 .
↑ Beckstette M., et al. Rychlé algoritmy a software založené na indexu pro porovnávání pozičně specifických skórovacích matic // BMC Bioinformatics : deník. - 2006. - Sv. 7 . — S. 389 . - doi : 10.1186/1471-2105-7-389 . — PMID 1635428 .
↑ Jones DT Predikce sekundární struktury proteinu na základě polohově specifických skórovacích matic // J Mol Biol : deník. - 1999. - Sv. 292 . - S. 195-202 . — PMID 10493868 .
↑ Pollastri, G. & McLysaght, A. Porter: nový, přesný server pro predikci sekundární struktury proteinů // Bioinformatika : časopis. - 2005. - Sv. 21 . - S. 1719-1720 . — PMID 15585524 .
↑ Rost, B. Recenze: predikce sekundární struktury proteinu stále stoupá // J Struct Biol : deník. - 2001. - Sv. 134 . - str. 204-218 . — PMID 11551180 .
↑ Adamczak, R.; Porollo, A. & Meller, J. Přesná předpověď dostupnosti rozpouštědla pomocí regrese založené na neuronových sítích // Proteiny : časopis. - 2004. - Sv. 56 . - str. 753-767 . — PMID 15281128 .
↑ Pollastri, G.; Martin, AJM; Mooney, C. & Vullo, A. Přesná předpověď sekundární struktury proteinu a dostupnosti rozpouštědla pomocí konsensuálních kombinátorů sekvenčních a strukturních informací // BMC Bioinformatics : deník. - 2007. - Sv. 8 . — S. 201 . — PMID 17570843 .
↑ Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. Zlepšená predikce počtu kontaktů zbytků v proteinech pomocí rekurentních neuronových sítí // Bioinformatics: journal. - 2001. - Sv. 17 . - P. Suppl 1: S234-S242 . — PMID 11473014 .
↑ Shandar Ahmad a Akinori Sarai. Predikce vazebných míst DNA v proteinech založená na PSSM // BMC Bioinformatics : deník. - 2005. - Sv. 6 . — S. 33 . — PMID 15720719 .
↑ Michael Beckstette, Robert Homann, Robert Giegerich, Stefan Kurtz. Rychlé algoritmy a software založené na indexu pro porovnávání pozičně specifických skórovacích matic // BMC Bioinformatics. - 24. 8. 2006. - T. 7 . - S. 389 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-7-389 .