Poziční hmotnostní matice (PWM) je bioinformatická metoda, která se používá k hledání motivů v biologických sekvencích.
PWM lze sestavit na základě vícenásobného zarovnání příbuzných sekvencí nebo sekvencí, které provádějí podobné funkce. PWM se používá v mnoha moderních algoritmech pro objevování nových motivů [1] .
Polohovou hmotnostní matici zavedl americký genetik Gary Stormo.a kolegové v roce 1982 [2] jako alternativní způsob reprezentace konsenzuálních sekvencí . Konsenzuální sekvence byly dříve používány k zobrazení společných motivů v biologických sekvencích, nicméně tato metoda měla určité nevýhody v predikci a hledání těchto motivů v nových sekvencích [3] . Poprvé byl PVM použit k hledání míst iniciace translace v RNA . Aby vytvořil váhovou matici, pomocí které lze odlišit skutečná místa od podobných úseků sekvencí, polsko-americký matematik Andrzej Ehrenfeuchtbyl navržen perceptronový algoritmus . Výsledkem perceptronového tréninku na vzorcích pravdivých a nepravdivých míst byla matice a prahová hodnota pro rozdíl mezi těmito dvěma soubory dat. Testování této matice na nových sekvencích nezahrnutých v trénovací sadě ukázalo, že tato metoda byla přesnější a citlivější ve srovnání s vytvořením konsensuální sekvence.
Výhody PWM oproti konsenzuálním sekvencím učinily matrice populární metodou pro reprezentaci motivů v biologických sekvencích [4] [5] .
Přísná definice matice polohové váhy je následující [6] :
, kde je abeceda sekvence (zd. nukleotidy), je číslo pozice,
je matice poziční pravděpodobnosti, je výskyt písmene v abecedě (tj. 0,25 pro nukleotidovou sekvenci a 0,05 pro aminokyselinovou sekvenci).
PVM je matice, jejíž počet řádků odpovídá velikosti abecedy (4 nukleotidy pro nukleové kyseliny a 20 aminokyselin pro proteinové sekvence) a počet sloupců odpovídá délce motivu [6] .
Prvním krokem při konstrukci váhové matice založené na vícenásobném bezdelečním zarovnání je vytvoření poziční frekvenční matice (PMF). Prvky této matice odpovídají tomu, kolikrát se každé písmeno abecedy vyskytuje na určité pozici v motivu. Dále se PMP převede na matici poziční pravděpodobnosti normalizací na celkový počet sekvencí ve srovnání. Taková matice ukazuje, jaká je pravděpodobnost setkání s daným písmenem na dané pozici v počátečním zarovnání.
Každý prvek matice pravděpodobnosti se rovná pravděpodobnosti setkání s písmenem na pozici v počátečním zarovnání a vypočítá se podle vzorce [1] :
kde je pořadové číslo, je číslo pozice, je písmeno abeceda,
je písmeno odpovídající pozici v sekvenci a je funkce indikátoru vypočtená podle vzorce:
Například s ohledem na následujících deset zarovnaných sekvencí DNA, které představují jeden motiv:
GAGGTAAAC |
TCCGTAAGT |
CAGGTTGGA |
ACAGTCAGT |
TAGGTCATT |
TAGGTACTG |
ATGGTAACT |
CAGGTATAC |
TGTGTGAGT |
AAGGTAAGT |
respektive polohová frekvenční matice:
a tedy pravděpodobnostní matice získaná po dělení počtem sekvencí:
V matici poziční pravděpodobnosti je součet hodnot každého sloupce, tedy pravděpodobnost splnění libovolného písmene abecedy na dané pozici, v případě počátečního zarovnání bez mazání 1.
Pomocí této matice můžeme vypočítat pravděpodobnost, že vygenerováním písmen na každé pozici s pravděpodobností v ní uvedenou dostaneme posloupnost . Protože se předpokládá, že sloupce matice jsou na sobě nezávislé , je tato pravděpodobnost rovna součinu pravděpodobností umístění každého písmene posloupnosti na jeho pozici, tedy:
kde je písmeno posloupnosti na pozici .
Například pravděpodobnost, že posloupnost S = GAGGTAAAC získá matice z předchozího příkladu, lze vypočítat:
K výpočtu matice poziční pravděpodobnosti z malého pole dat se často používají pseudoúčty . Z důvodu neúplnosti vzorku může nastat situace, kdy v původním vzorku nejsou všechna písmena zastoupena na určité pozici. V tomto případě bude pravděpodobnost získání tohoto písmene při generování náhodné sekvence z této matice rovna nule. Podle toho bude pravděpodobnost vygenerování sekvence s takovým písmenem na této pozici také rovna nule, bez ohledu na zbytek sekvence [8] . Aby se tomu zabránilo, je ke každému prvku matice pravděpodobnosti přidána nějaká hodnota, nazývaná pseudopočet, aby byl nenulový. Podle Laplaceova pravidla se ke každému prvku frekvenční matice přidá 1 - minimální možný výskyt písmene na této pozici. Existují složitější pseudopočítací systémy, jako jsou ty, které používají Dirichletovy směsi nebo substituční matice .
Vzhledem k pseudopočtům lze definici matice pravděpodobnosti formulovat takto:
, kde - PMC, - funkce pseudopočítání [9] .
Ve výše uvedeném příkladu vytvořeném bez použití pseudopočtů bude mít jakákoli sekvence, která nemá G na čtvrté pozici nebo T na páté pozici, pravděpodobnost 0.
Posledním krokem k vytvoření PWM je přechod od pravděpodobností písmen v různých polohách motivu k jejich vahám. Nejčastěji se tyto váhy vypočítávají jako logaritmický poměr pravděpodobnosti , přičemž se bere v úvahu model pozadí pro generování náhodné sekvence b. Nejjednodušší model pozadí předpokládá, že každé písmeno se vyskytuje stejně často na jakékoli pozici v datové sadě, tj. hodnota pro jakýkoli znak v abecedě (0,25 pro nukleotidy a 0,05 pro aminokyseliny). Model pozadí nemusí znamenat rovnoměrné rozložení písmen: například při studiu organismů s vysokým složením GC se pravděpodobnosti pro C a G mohou zvýšit a pro A a T se snížit. Prvky váhové matice se tedy vypočítají podle vzorce [6] :
Aplikováním této transformace na pravděpodobnostní matici z příkladu (ignorováním pseudopočtů) dostaneme:
V případě, že jsou prvky SRP vypočteny pomocí logaritmického poměru pravděpodobnosti, lze váhu sekvence vypočítat jako součet vah pro každé písmeno této sekvence na jeho pozici. Výsledná váha dává představu o tom, jak tato sekvence odpovídá motivu, pro který byla matice polohových vah vytvořena. Čím vyšší je pravděpodobnost, že je sekvence generována odpovídající maticí pravděpodobnosti a není náhodná, tím vyšší je váha.
Informační obsah PVM ukazuje, jak se liší rozložení písmen na pozicích v něm popsaných od rovnoměrného rozložení . Vlastní informace pro každou postavu na pozici motivu se rovnají:
Očekávaná (průměrná) sebeinformace pro tento prvek je:
Informační obsah celé matice se rovná součtu všech očekávaných průměrných vlastních hodnot každého prvku matice. Informační obsah SPM v případě nerovnoměrného rozložení pozadí se vypočítá podle vzorce:
kde je frekvence pozadí pro daný symbol.Informační obsah souvisí s Kullback-Leiblerovou vzdáleností nebo relativní entropií . Při použití algoritmu PSSM k hledání genomových sekvencí (viz níže) však může taková jednotná korekce vést k přecenění důležitosti různých bází v motivu v důsledku nerovnoměrné distribuce n-merů v reálných genomech, což vede k výrazně vyšší počet falešně pozitivních výsledků [10] .
PVM se široce používají pro analýzu nukleotidových a proteinových sekvencí. V první řadě slouží k vyhledávání konkrétních lokalit a motivů. Algoritmus MATCH [11] je například schopen vyhledávat potenciální vazebná místa pro transkripční faktory v sekvencích DNA. Podobné přístupy se používají pro proteiny [12] . Kromě hledání funkčních domén lze PVM využít k predikci různých vlastností proteinů, jako je sekundární struktura [13] [14] [15] , jejich dostupnost rozpouštědlu [16] [17] , kontakty ve struktuře [ 18] . Kromě hledání motivů se k popisu proteinových rodin používá vícenásobné zarovnání PWM. Existují databáze PVM, které lze použít k určení, zda sledovaný protein patří do známých rodin. Zlepšují se také metody pro konstrukci a používání PVM. Například byla vyvinuta metoda pro vytváření PWM bez použití velkého vícenásobného zarovnání proteinů, což výrazně urychluje výpočty v přítomnosti velkého pole počátečních dat [19] . Kromě toho existuje přístup využívající více PTM k popisu proteinových rodin: v tomto případě není zkonstruována jedna, ale mnoho matric s použitím různých neblízkých (aby se zabránilo zkreslení) proteinů rodiny.
Existují různé algoritmy pro skenování PWM shod v sekvencích. Jedním z příkladů je algoritmus MATCH, který byl implementován v ModuleMaster. Sofistikovanější algoritmy pro rychlé prohledávání databází pomocí nukleotidů a také PWM/PSSM aminokyselin jsou implementovány v softwaru pro vyhledávání possum a popsány Beckstettem, et al. (2006) [20] .
Mezi nejznámější algoritmy patří také MEME a Gibbs [1] .
Hotovou implementaci PVM lze použít v programovacích jazycích Python ( balíček BioPython ) a R ( knihovna seqLogo ).