Predikce sekundární struktury RNA je metoda pro stanovení sekundární struktury nukleové kyseliny z její nukleotidové sekvence . Sekundární struktura může být predikována pro jednu sekvenci nebo může být analyzováno vícenásobné zarovnání rodiny příbuzných RNA .
Sekundární struktura nukleové kyseliny závisí hlavně na interakcích párování bází a vrstvení . V mnoha případech je však sekundární struktura RNA během evoluce zachována ve větší míře než její primární sekvence [1] . Mnoho metod predikce sekundární struktury je založeno na dynamickém programování a nedokáže účinně detekovat pseudouzly .
Navzdory podobnostem existují určité rozdíly v metodách predikce struktur DNA a RNA. V přirozených podmínkách je DNA nejčastěji plně komplementárním duplexem, zatímco RNA tvoří složité sekundární a terciární struktury , jako jsou tRNA , ribozomální RNA nebo spliceosomy . Částečně je to proto, že další atom kyslíku v ribóze zvyšuje sklon k vodíkové vazbě s páteří nukleové kyseliny. Energetické parametry těchto dvou nukleových kyselin se také liší.
Sekundární struktura malých molekul RNA je do značné míry určena silnými místními interakcemi, jako jsou vodíkové vazby a vzájemné ovlivňování párů bází . Součet volných energií takových interakcí by měl zajistit stabilitu této struktury. Model nejbližšího souseda se používá k predikci volné energie vrstvení sekundární struktury . V tomto modelu závisí změna volné energie pro každý motiv na posloupnosti samotného motivu a párů bází, které jsou mu nejblíže [2] . Minimální energetický model a parametry pro klasické Watson-Crickovy páry, guanin - uracil páry a smyčky byly získány empirickými kalorimetrickými experimenty, nejaktuálnější parametry byly publikovány v roce 2004 [3] , i když většina softwarových balíků stále používá předchozí soubor sestavený v roce 1999 [4] .
Nejjednodušší způsob, jak najít minimální strukturu volné energie, je vygenerovat všechny možné struktury a vypočítat pro ně volnou energii, ale počet možných sekvenčních struktur roste exponenciálně s délkou RNA (Počet sekundárních struktur = (1,8) N , kde N je počet nukleotidů ) [5] . Pro RNA s délkou pouhých 200 párů bází tedy existuje více než 10 50 možných struktur s párovými bázemi [1] .
Jedním z přístupů k predikci sekundární struktury RNA je Nussinův algoritmus , který je založen na dynamickém programování a spočívá v nalezení struktury s největším počtem párů bází [6] . Tento algoritmus je však příliš jednoduchý a nebere v úvahu důležité strukturní vlastnosti, jako jsou preference určitých délek smyček nebo preference určitých nejbližších sousedů ve struktuře, vyplývající z interakcí na sebe mezi sousedními páry bází ve vlásečnicích RNA [1] . Řešení navíc často není jediné. V roce 1980 Nussinov a kolegové publikovali úpravu svého přístupu pomocí jednoduchého energetického modelu nejbližšího souseda [7] .
Skládání RNA je řízeno fyzikálními příčinami, nikoli počítáním a maximalizací počtu párů bází. Metoda navržená v roce 1981 Michaelem Zuckerem a Patrickem Steiglerem předpokládá, že správná struktura v rovnováze má nejnižší volnou energii ( ΔG ) [8] . ΔG sekundární struktury RNA se odhaduje jako součet volných energií smyček, párů bází a dalších prvků sekundární struktury. Důležitým rozdílem od jednoduššího Nussinova algoritmu je to, že při výpočtu energie vlásenek odpovídá energie vrstvení interakci sousedních párů bází, a nikoli párům samotným [1] .
Dynamické programování umožňuje testovat všechny možné varianty sekundárních struktur RNA bez jejich přímého vytváření. Algoritmus pracuje rekurzivně . Nejlepší struktura s nejnižší možnou energií se vypočítá nejprve pro všechny možné malé dílčí posloupnosti a poté pro větší a větší dílčí posloupnosti. Přesná struktura molekuly RNA je určena výpočtem minimální volné energie kompletní sekvence [2] .
Algoritmy dynamického programování se běžně používají k detekci "dobře vnořených" vzorů párů bází , to znamená těch, které tvoří vodíkové vazby, které se nepřekrývají s jinými oblastmi sekvence. Takové struktury zahrnují dvojité šroubovice, stonkové smyčky a varianty jetelových listů, které se nacházejí například v transferové RNA. Tyto metody jsou založeny na předem určených parametrech návrhu, které odhadují volnou energii párování určitých typů párů bází, včetně párů Watson-Crick a Hoogsteen . V závislosti na složitosti metody mohou být jednotlivé páry bází uvažovány stejným způsobem jako krátké segmenty dvou nebo tří párů bází, aby se zohlednil efekt vrstvených interakcí. Bez významných algoritmických úprav, vyžadujících extrémně velké výpočetní náklady, tyto metody nemohou určovat pseudouzly [9] .
Přesnost předpovědi sekundární struktury jedné molekuly RNA pomocí minimalizace volné energie je omezena několika faktory:
Z tohoto důvodu může metoda pro predikci sekundárních struktur s podobně nízkou volnou energií poskytnout významné informace. Takové struktury se nazývají suboptimální. MFOLD je jedním z programů, které generují suboptimální struktury [10] .
Jedním z problémů předpovídání sekundární struktury RNA je, že standardní minimalizace volné energie a statistické metody nemohou odhalit pseudouzly [4] . Tato nevýhoda je vysvětlena skutečností, že konvenční algoritmy dynamického programování berou v úvahu pouze interakce mezi nejbližšími nukleotidy, zatímco pseudouzly se tvoří jako výsledek interakcí mezi vzdálenými nukleotidy. Rivas a Eddy publikovali dynamický programovací algoritmus pro předpověď pseudouzlů [9] . Tento dynamický programovací algoritmus je však velmi pomalý. Standardní algoritmus dynamického programování pro minimalizaci volné energie běží v O(N 3 ) (N je počet nukleotidů v sekvenci), zatímco algoritmus Rivase a Eddyho bere O(N 6 ) v čase. To přimělo výzkumníky k implementaci verze algoritmu, která omezuje třídy pseudouzlů a šetří čas. Například pknotsRG, který zahrnuje pouze třídu jednoduchých rekurzivních pseudouzlů, vyžaduje operace O(N 4 ) [11] .
Dalším přístupem k predikci sekundární struktury RNA je určení foldu pomocí Boltzmannova souboru [12] [13] , například v programu SFOLD. Tento program generuje statistický vzorek všech možných sekundárních struktur RNA. Algoritmus vybírá sekundární struktury podle Boltzmannova rozdělení . Taková metoda výběru nabízí dobré řešení problému vrstvení nejistoty [13] .
Kovariantní modely jsou založeny na existenci rodin příbuzných RNA, které sdílejí nejen společnou sekundární strukturu, ale také některé společné sekvenční motivy. Tyto metody analyzují kovarianci jednotlivých základních míst během evoluce; zachování dvou nukleotidů poměrně vzdálených od sebe ukazuje na přítomnost strukturně nezbytné vodíkové vazby mezi nimi. Ukázalo se, že problém predikce pseudouzlů je NP-úplný problém [14]
Problém zarovnání a predikce konsensuální struktury spolu úzce souvisí. Existují tři různé přístupy k predikci konsenzuálních struktur [15] :
Tento přístup spočívá ve vytvoření vícenásobného zarovnání sekvencí RNA, nalezení konsensuální sekvence a jejím následném složení. Kvalita zarovnání určuje přesnost konsenzuálního strukturálního modelu. Konsenzuální sekvence se hodí pomocí různých přístupů, stejně jako pro predikci sekundární struktury jednotlivých molekul RNA. Přístup využívající termodynamické skládání využívá např. program RNAalifold [16] . Různé přístupy využívají programy Pfold a ILM. Program Pfold implementuje stochastické bezkontextové gramatiky (SCGS) [17] . ILM (iterated loop matching), na rozdíl od jiných algoritmů skládání zarovnání, dokáže obnovit pseudouzly. Využívá kombinaci termodynamiky a vyhodnocení příslušného informačního obsahu [18] .
Evoluce často zachovává funkční strukturu RNA lépe než její sekvence [16] . Výzvou tedy je vytvořit společnou strukturu pro dvě nebo více vysoce odlišných, ale homologních RNA sekvencí. V praxi se zarovnání sekvencí stávají nepoužitelnými a nezlepšují přesnost predikce struktury, když je podobnost dvou sekvencí menší než 50 % [19] .
Programy strukturního zarovnání zlepšují výkon těchto metod, z nichž většina jsou variantami Sankoffova algoritmu [20] . Sankoffův algoritmus je v zásadě kombinací algoritmů pro zarovnání sekvencí a Nussinova [6] , který hledá místo maximálního párování pomocí dynamického programování [21] . Samotný Sankoffův algoritmus je teoretický, protože vyžaduje velmi velké výpočetní zdroje (čas O (n3m) a O (n2m) paměť, kde N je délka sekvence, m je počet sekvencí. Existují však určité pokusy implementovat omezené verze Sankoffova algoritmu. Patří mezi ně například Foldalign [22] [23] , Dynalign [24] [25] , PMmulti/PMcomp [21] , Stemloc [26] a Murlet [27] . Tyto implementace omezují maximální délku zarovnání nebo počet možných voleb konsensuální struktury. Foldalign tedy vytváří lokální zarovnání a omezuje možnou délku zarovnání sekvencí.
Zarovnání předpokládaných struktur je méně rozšířené. Tento přístup využívá struktury předpovězené pro jednotlivé molekuly RNA. Zarovná je pomocí stromů [28] . Hlavní slabinou tohoto přístupu je, že předpovědi jedné sekvence jsou často nepřesné, což narušuje přesnost všech dalších analýz.
nukleových kyselin | Typy||||
---|---|---|---|---|
Dusíkaté báze | ||||
Nukleosidy | ||||
Nukleotidy | ||||
RNA | ||||
DNA | ||||
Analogy | ||||
Vektorové typy |
| |||
|