Predikce sekundární struktury RNA

Predikce sekundární struktury RNA  je metoda pro stanovení sekundární struktury nukleové kyseliny z její nukleotidové sekvence . Sekundární struktura může být predikována pro jednu sekvenci nebo může být analyzováno vícenásobné zarovnání rodiny příbuzných RNA .

Sekundární struktura nukleové kyseliny závisí hlavně na interakcích párování bází a vrstvení . V mnoha případech je však sekundární struktura RNA během evoluce zachována ve větší míře než její primární sekvence [1] . Mnoho metod predikce sekundární struktury je založeno na dynamickém programování a nedokáže účinně detekovat pseudouzly .

Navzdory podobnostem existují určité rozdíly v metodách predikce struktur DNA a RNA. V přirozených podmínkách je DNA nejčastěji plně komplementárním duplexem, zatímco RNA tvoří složité sekundární a terciární struktury , jako jsou tRNA , ribozomální RNA nebo spliceosomy . Částečně je to proto, že další atom kyslíku v ribóze zvyšuje sklon k vodíkové vazbě s páteří nukleové kyseliny. Energetické parametry těchto dvou nukleových kyselin se také liší.

Predikce struktury jedné molekuly RNA

Sekundární struktura malých molekul RNA je do značné míry určena silnými místními interakcemi, jako jsou vodíkové vazby a vzájemné ovlivňování párů bází . Součet volných energií takových interakcí by měl zajistit stabilitu této struktury. Model  nejbližšího souseda se používá k predikci volné energie vrstvení sekundární struktury . V tomto modelu závisí změna volné energie pro každý motiv na posloupnosti samotného motivu a párů bází, které jsou mu nejblíže [2] . Minimální energetický model a parametry pro klasické Watson-Crickovy páry, guanin - uracil páry a smyčky byly získány empirickými kalorimetrickými experimenty, nejaktuálnější parametry byly publikovány v roce 2004 [3] , i když většina softwarových balíků stále používá předchozí soubor sestavený v roce 1999 [4] .

Nejjednodušší způsob, jak najít minimální strukturu volné energie, je vygenerovat všechny možné struktury a vypočítat pro ně volnou energii, ale počet možných sekvenčních struktur roste exponenciálně s délkou RNA (Počet sekundárních struktur = (1,8) N , kde N je počet nukleotidů ) [5] . Pro RNA s délkou pouhých 200 párů bází tedy existuje více než 10 50 možných struktur s párovými bázemi [1] .

Algoritmy založené na dynamickém programování

Jedním z přístupů k predikci sekundární struktury RNA je Nussinův algoritmus , který je založen na dynamickém programování a spočívá v nalezení struktury s největším počtem párů bází [6] . Tento algoritmus je však příliš jednoduchý a nebere v úvahu důležité strukturní vlastnosti, jako jsou preference určitých délek smyček nebo preference určitých nejbližších sousedů ve struktuře, vyplývající z interakcí na sebe mezi sousedními páry bází ve vlásečnicích RNA [1] . Řešení navíc často není jediné. V roce 1980 Nussinov a kolegové publikovali úpravu svého přístupu pomocí jednoduchého energetického modelu nejbližšího souseda [7] .

Skládání RNA je řízeno fyzikálními příčinami, nikoli počítáním a maximalizací počtu párů bází. Metoda navržená v roce 1981 Michaelem Zuckerem a Patrickem Steiglerem předpokládá, že správná struktura v rovnováze má nejnižší volnou energii ( ΔG ) [8] . ΔG sekundární struktury RNA se odhaduje jako součet volných energií smyček, párů bází a dalších prvků sekundární struktury. Důležitým rozdílem od jednoduššího Nussinova algoritmu je to, že při výpočtu energie vlásenek odpovídá energie vrstvení interakci sousedních párů bází, a nikoli párům samotným [1] .

Dynamické programování umožňuje testovat všechny možné varianty sekundárních struktur RNA bez jejich přímého vytváření. Algoritmus pracuje rekurzivně . Nejlepší struktura s nejnižší možnou energií se vypočítá nejprve pro všechny možné malé dílčí posloupnosti a poté pro větší a větší dílčí posloupnosti. Přesná struktura molekuly RNA je určena výpočtem minimální volné energie kompletní sekvence [2] .

Algoritmy dynamického programování se běžně používají k detekci "dobře vnořených" vzorů párů bází , to znamená těch, které tvoří vodíkové vazby, které se nepřekrývají s jinými oblastmi sekvence. Takové struktury zahrnují dvojité šroubovice, stonkové smyčky a varianty jetelových listů, které se nacházejí například v transferové RNA. Tyto metody jsou založeny na předem určených parametrech návrhu, které odhadují volnou energii párování určitých typů párů bází, včetně párů Watson-Crick a Hoogsteen . V závislosti na složitosti metody mohou být jednotlivé páry bází uvažovány stejným způsobem jako krátké segmenty dvou nebo tří párů bází, aby se zohlednil efekt vrstvených interakcí. Bez významných algoritmických úprav, vyžadujících extrémně velké výpočetní náklady, tyto metody nemohou určovat pseudouzly [9] .

Suboptimální struktury

Přesnost předpovědi sekundární struktury jedné molekuly RNA pomocí minimalizace volné energie je omezena několika faktory:

  1. V modelu nejbližšího souseda nemůže hodnota volné energie nabývat určitých přípustných hodnot.
  2. Ne všechny známé záhyby RNA odpovídají termodynamickému minimu.
  3. Některé sekvence RNA mají více než jednu biologicky aktivní konformaci (nazývané riboswitche)

Z tohoto důvodu může metoda pro predikci sekundárních struktur s podobně nízkou volnou energií poskytnout významné informace. Takové struktury se nazývají suboptimální. MFOLD je jedním z programů, které generují suboptimální struktury [10] .

Pseudoknot předpověď

Jedním z problémů předpovídání sekundární struktury RNA je, že standardní minimalizace volné energie a statistické metody nemohou odhalit pseudouzly [4] . Tato nevýhoda je vysvětlena skutečností, že konvenční algoritmy dynamického programování berou v úvahu pouze interakce mezi nejbližšími nukleotidy, zatímco pseudouzly se tvoří jako výsledek interakcí mezi vzdálenými nukleotidy. Rivas a Eddy publikovali dynamický programovací algoritmus pro předpověď pseudouzlů [9] . Tento dynamický programovací algoritmus je však velmi pomalý. Standardní algoritmus dynamického programování pro minimalizaci volné energie běží v O(N 3 ) (N je počet nukleotidů v sekvenci), zatímco algoritmus Rivase a Eddyho bere O(N 6 ) v čase. To přimělo výzkumníky k implementaci verze algoritmu, která omezuje třídy pseudouzlů a šetří čas. Například pknotsRG, který zahrnuje pouze třídu jednoduchých rekurzivních pseudouzlů, vyžaduje operace O(N 4 ) [11] .

Jiné přístupy k predikci sekundární struktury RNA

Dalším přístupem k predikci sekundární struktury RNA je určení foldu pomocí Boltzmannova souboru [12] [13] , například v programu SFOLD. Tento program generuje statistický vzorek všech možných sekundárních struktur RNA. Algoritmus vybírá sekundární struktury podle Boltzmannova rozdělení . Taková metoda výběru nabízí dobré řešení problému vrstvení nejistoty [13] .

Predikce sekundární struktury rodin příbuzných RNA

Kovariantní modely jsou založeny na existenci rodin příbuzných RNA, které sdílejí nejen společnou sekundární strukturu, ale také některé společné sekvenční motivy. Tyto metody analyzují kovarianci jednotlivých základních míst během evoluce; zachování dvou nukleotidů poměrně vzdálených od sebe ukazuje na přítomnost strukturně nezbytné vodíkové vazby mezi nimi. Ukázalo se, že problém predikce pseudouzlů je NP-úplný problém [14]

Problém zarovnání a predikce konsensuální struktury spolu úzce souvisí. Existují tři různé přístupy k predikci konsenzuálních struktur [15] :

  1. Zarovnání pokládky;
  2. Simultánní sekvenční zarovnání a stohování;
  3. Zarovnání predikovaných struktur.

Vyrovnání s následným položením

Tento přístup spočívá ve vytvoření vícenásobného zarovnání sekvencí RNA, nalezení konsensuální sekvence a jejím následném složení. Kvalita zarovnání určuje přesnost konsenzuálního strukturálního modelu. Konsenzuální sekvence se hodí pomocí různých přístupů, stejně jako pro predikci sekundární struktury jednotlivých molekul RNA. Přístup využívající termodynamické skládání využívá např. program RNAalifold [16] . Různé přístupy využívají programy Pfold a ILM. Program Pfold implementuje stochastické bezkontextové gramatiky (SCGS) [17] . ILM (iterated loop matching), na rozdíl od jiných algoritmů skládání zarovnání, dokáže obnovit pseudouzly. Využívá kombinaci termodynamiky a vyhodnocení příslušného informačního obsahu [18] .

Synchronizované vyrovnávání a stohování

Evoluce často zachovává funkční strukturu RNA lépe než její sekvence [16] . Výzvou tedy je vytvořit společnou strukturu pro dvě nebo více vysoce odlišných, ale homologních RNA sekvencí. V praxi se zarovnání sekvencí stávají nepoužitelnými a nezlepšují přesnost predikce struktury, když je podobnost dvou sekvencí menší než 50 % [19] .

Programy strukturního zarovnání zlepšují výkon těchto metod, z nichž většina jsou variantami Sankoffova algoritmu [20] . Sankoffův algoritmus je v zásadě kombinací algoritmů pro zarovnání sekvencí a Nussinova [6] , který hledá místo maximálního párování pomocí dynamického programování [21] . Samotný Sankoffův algoritmus je teoretický, protože vyžaduje velmi velké výpočetní zdroje (čas O (n3m) a O (n2m) paměť, kde N je délka sekvence, m je počet sekvencí. Existují však určité pokusy implementovat omezené verze Sankoffova algoritmu. Patří mezi ně například Foldalign [22] [23] , Dynalign [24] [25] , PMmulti/PMcomp [21] , Stemloc [26] a Murlet [27] . Tyto implementace omezují maximální délku zarovnání nebo počet možných voleb konsensuální struktury. Foldalign tedy vytváří lokální zarovnání a omezuje možnou délku zarovnání sekvencí.

Pokládka následovaná vyrovnáním

Zarovnání předpokládaných struktur je méně rozšířené. Tento přístup využívá struktury předpovězené pro jednotlivé molekuly RNA. Zarovná je pomocí stromů [28] . Hlavní slabinou tohoto přístupu je, že předpovědi jedné sekvence jsou často nepřesné, což narušuje přesnost všech dalších analýz.

Viz také

Poznámky

  1. 1 2 3 4 R. Durbin, S. Eddy, A. Krogh, G. Mitchison. Analýza biologických sekvencí .. - M.-Iževsk .: Výzkumné centrum "Regulární a chaotická dynamika", Ústav počítačového výzkumu, 2006. - S. 347-402. — 480 s. — ISBN 5-93972-559-7 .
  2. 1 2 Mathews D.H. Revoluce v predikci sekundární struktury RNA.  (anglicky)  // Journal of molekulární biologie. - 2006. - Sv. 359, č.p. 3 . - S. 526-532. - doi : 10.1016/j.jmb.2006.01.067 . — PMID 16500677 .
  3. Mathews DH , Disney MD , Childs JL , Schroeder SJ , Zuker M. , Turner DH Začlenění omezení chemických modifikací do dynamického programovacího algoritmu pro predikci sekundární struktury RNA.  (anglicky)  // Proceedings of the National Academy of Sciences of the United States of America. - 2004. - Sv. 101, č.p. 19 . - S. 7287-7292. - doi : 10.1073/pnas.0401799101 . — PMID 15123812 .
  4. 1 2 Mathews DH , Sabina J. , Zuker M. , Turner DH Rozšířená sekvenční závislost termodynamických parametrů zlepšuje predikci sekundární struktury RNA.  (anglicky)  // Journal of molekulární biologie. - 1999. - Sv. 288, č.p. 5 . - S. 911-940. - doi : 10.1006/jmbi.1999.2700 . — PMID 10329189 .
  5. Zuker M., Sankoff D. Sekundární struktury RNA a jejich predikce  (neopr.)  // Bull. Matematika. Biol.. - 1984. - T. 46 . - S. 591-621 .
  6. 1 2 Nussinov R, Piecznik G, Grigg JR a Kleitman DJ. Algoritmy pro párování smyček  // SIAM Journal on Applied Mathematics. - 1978. - Sv. 35, č. 1 . - S. 68-82.
  7. Nussinov R. , Jacobson AB Rychlý algoritmus pro predikci sekundární struktury jednořetězcové RNA.  (anglicky)  // Proceedings of the National Academy of Sciences of the United States of America. - 1980. - Sv. 77, č.p. 11 . - S. 6309-6313. — PMID 6161375 .
  8. Zuker M. , Stiegler P. Optimální počítačové skládání velkých sekvencí RNA pomocí termodynamiky a pomocných informací.  (anglicky)  // Výzkum nukleových kyselin. - 1981. - Sv. 9, č. 1 . - S. 133-148. — PMID 6163133 .
  9. 1 2 Rivas E. , Eddy SR Algoritmus dynamického programování pro predikci struktury RNA včetně pseudouzlů.  (anglicky)  // Journal of molekulární biologie. - 1999. - Sv. 285, č.p. 5 . - S. 2053-2068. - doi : 10.1006/jmbi.1998.2436 . — PMID 9925784 .
  10. ↑ Webový server Zuker M. Mfold pro predikci skládání a hybridizace nukleových kyselin.  (anglicky)  // Výzkum nukleových kyselin. - 2003. - Sv. 31, č. 13 . - S. 3406-3415. — PMID 12824337 .
  11. Reeder J. , Giegerich R. Návrh, implementace a vyhodnocení praktického algoritmu skládání pseudouzlů založeného na termodynamice.  (anglicky)  // BMC bioinformatika. - 2004. - Sv. 5. - S. 104. - doi : 10.1186/1471-2105-5-104 . — PMID 15294028 .
  12. McCaskill JS Rovnovážná rozdělovací funkce a pravděpodobnost vazby párů bází pro sekundární strukturu RNA.  (anglicky)  // Biopolymers. - 1990. - Sv. 29, č. 6-7 . - S. 1105-1119. - doi : 10.1002/bip.360290621 . — PMID 1695107 .
  13. 1 2 Ding Y. , Lawrence CE Statistický vzorkovací algoritmus pro předpověď sekundární struktury RNA.  (anglicky)  // Výzkum nukleových kyselin. - 2003. - Sv. 31, č. 24 . - S. 7280-7301. — PMID 14654704 .
  14. Lyngsø RB , Pedersen CN predikce pseudouzlů RNA v modelech založených na energii.  (anglicky)  // Journal of computational biology: časopis o počítačové molekulární buněčné biologii. - 2000. - Sv. 7, č. 3-4 . - S. 409-427. - doi : 10.1089/106652700750050862 . — PMID 11108471 .
  15. Gardner PP , Giegerich R. Komplexní srovnání komparativních přístupů k predikci struktury RNA.  (anglicky)  // BMC bioinformatika. - 2004. - Sv. 5. - S. 140. - doi : 10.1186/1471-2105-5-140 . — PMID 15458580 .
  16. 1 2 Hofacker IL , Fekete M. , Stadler PF Predikce sekundární struktury pro zarovnané sekvence RNA.  (anglicky)  // Journal of molekulární biologie. - 2002. - Sv. 319, č.p. 5 . - S. 1059-1066. - doi : 10.1016/S0022-2836(02)00308-X . — PMID 12079347 .
  17. Knudsen B. , Hein J. Pfold: Predikce sekundární struktury RNA pomocí stochastických bezkontextových gramatik.  (anglicky)  // Výzkum nukleových kyselin. - 2003. - Sv. 31, č. 13 . - S. 3423-3428. — PMID 12824339 .
  18. Ruan J. , Stormo GD , Zhang W. ILM: webový server pro predikci sekundárních struktur RNA s pseudouzly.  (anglicky)  // Výzkum nukleových kyselin. - 2004. - Sv. 32. - S. 146-149. doi : 10.1093 / nar/gkh444 . — PMID 15215368 .
  19. Bernhart SH , Hofacker IL Od predikce konsensuální struktury k nalezení genu RNA.  (anglicky)  // Briefings in Funkční genomika & proteomika. - 2009. - Sv. 8, č. 6 . - S. 461-471. doi : 10.1093 / bfgp/elp043 . — PMID 19833701 .
  20. Sankoff D. Simultánní řešení problémů skládání, zarovnání a protosekvence RNA  // SIAM Journal on Applied Mathematics. - 1985. - Sv. 45, č. 5 . - S. 810-825. Archivováno z originálu 13. června 2007.
  21. 1 2 Hofacker IL , Bernhart SH , Stadler PF Zarovnání matic pravděpodobnosti párování bází RNA.  (anglicky)  // Bioinformatika. - 2004. - Sv. 20, č. 14 . - S. 2222-2227. - doi : 10.1093/bioinformatics/bth229 . — PMID 15073017 .
  22. Havgaard JH , Lyngsø RB , Stormo GD , Gorodkin J. Párové lokální strukturní zarovnání sekvencí RNA se sekvenční podobností menší než 40 %.  (anglicky)  // Bioinformatika. - 2005. - Sv. 21, č. 9 . - S. 1815-1824. - doi : 10.1093/bioinformatics/bti279 . — PMID 15657094 .
  23. Torarinsson E. , Havgaard JH , Gorodkin J. Mnohonásobné strukturální zarovnání a shlukování sekvencí RNA.  (anglicky)  // Bioinformatika. - 2007. - Sv. 23, č. 8 . - S. 926-932. - doi : 10.1093/bioinformatics/btm049 . — PMID 17324941 .
  24. Mathews DH , Turner DH Dynalign: Algoritmus pro nalezení sekundární struktury společné pro dvě sekvence RNA.  (anglicky)  // Journal of molekulární biologie. - 2002. - Sv. 317, č.p. 2 . - S. 191-203. - doi : 10.1006/jmbi.2001.5351 . — PMID 11902836 .
  25. Harmanci AO , Sharma G. , Mathews DH Efektivní párová predikce struktury RNA pomocí pravděpodobnostních omezení zarovnání v Dynalign.  (anglicky)  // BMC bioinformatika. - 2007. - Sv. 8. - S. 130. - doi : 10.1186/1471-2105-8-130 . — PMID 17445273 .
  26. Holmes I. Zrychlená pravděpodobnostní inference evoluce struktury RNA.  (anglicky)  // BMC bioinformatika. - 2005. - Sv. 6. - S. 73. - doi : 10.1186/1471-2105-6-73 . — PMID 15790387 .
  27. Kiryu H. , Tabei Y. , Kin T. , Asai K. Murlet: praktický nástroj pro vícenásobné zarovnání pro strukturální sekvence RNA.  (anglicky)  // Bioinformatika. - 2007. - Sv. 23, č. 13 . - S. 1588-1598. - doi : 10.1093/bioinformatics/btm146 . — PMID 17459961 .
  28. Shapiro BA , Zhang KZ Porovnání více sekundárních struktur RNA pomocí stromových srovnání.  (anglicky)  // Počítačové aplikace v biologických vědách: CABIOS. - 1990. - Sv. 6, č. 4 . - S. 309-318. — PMID 1701685 .

Literatura