Propagovaná aktualizace je způsob, jak stanovit homologii mezi dvěma nebo více polymerními strukturami na základě jejich trojrozměrné struktury. Tento proces se obvykle aplikuje na terciární strukturu proteinů , ale může být také použit pro velké molekuly RNA . Na rozdíl od jednoduchého uložení struktur, kdy je známo alespoň několik ekvivalentních aminokyselinových zbytků , prostorové vyrovnávání nevyžaduje žádná předběžná data kromě souřadnic atomů .
Prostorové zarovnání je vhodné pro porovnávání proteinů s odlišnými sekvencemi, kdy evoluční vztahy nelze stanovit standardními metodami zarovnání sekvencí , ale v tomto případě je třeba vzít v úvahu vliv konvergentní evoluce .
Prostorové vyrovnání umožňuje porovnat dvě nebo více molekul, pro které jsou známy trojrozměrné struktury. Dvě hlavní metody jejich výroby jsou rentgenová analýza a JAMR-spektroskopie . Struktury odvozené z metod predikce struktury proteinů mohou být také použity pro prostorové zarovnání . Prostorové nivelizace jsou důležité zejména pro analýzu dat získaných metodami strukturní genomiky a proteomiky, lze je také použít k posouzení ekvalizace získané porovnáním sekvencí [1] .
Výsledkem programů strukturního zarovnání je zpravidla kombinace sad atomových souřadnic a nejmenší standardní odchylky (RMSD) mezi strukturami. Kromě toho lze vypočítat složitější parametry, které hodnotí strukturní podobnost, například test globální vzdálenosti [2] . RMSD označuje stupeň divergence zarovnaných struktur. Strukturální zarovnání může být obtížné kvůli přítomnosti více domén ve struktuře srovnávaných proteinů, protože změny v relativní poloze těchto domén mezi dvěma strukturami mohou uměle změnit hodnotu RMSD. Odpovídající jednorozměrné zarovnání sekvencí vyplývá přímo ze strukturního zarovnání a může být také použito k výpočtu podílu aminokyselinových zbytků, které jsou identické mezi dvěma proteiny.
Pro vytvoření strukturního zarovnání a výpočet odpovídajících hodnot RMSD lze použít jak všechny atomy v molekule proteinu, tak jejich podskupiny. Například atomy postranních radikálů aminokyselinových zbytků nejsou vždy brány v úvahu a pouze atomy zahrnuté v peptidové kostře molekuly mohou být použity pro srovnání. Tato možnost je vybrána, pokud zarovnané struktury mají velmi odlišnou aminokyselinovou sekvenci a postranní radikály se liší ve velkém počtu zbytků. Z tohoto důvodu standardně metody prostorového zarovnání používají pouze atomy páteře zapojené do peptidové vazby . Pro větší zjednodušení a zvýšení účinnosti se často používá poloha pouze alfa atomů uhlíku , protože jejich poloha poměrně přesně určuje polohu atomů polypeptidové páteře. Pouze při zarovnávání velmi podobných nebo dokonce identických struktur je důležité vzít v úvahu polohy atomů postranního řetězce. V tomto případě RMSD odráží nejen podobnost konformace proteinového hlavního řetězce, ale také rotamerové stavy postranních řetězců. Dalšími způsoby, jak snížit šum a zvýšit počet správných shod, je značení prvků sekundární struktury , nativní kontaktní mapy nebo vzorce interakce zbytků, měření stupně sbalení postranních řetězců a měření zachování vodíkových vazeb [3] .
Nejjednodušší způsob srovnání dvou struktur nevyžaduje zarovnání struktur samotných, ale využívá sekvenční zarovnání. Určuje, které páry aminokyselinových zbytků jsou namapovány na sebe, a pak se pouze ty používají k výpočtu RMSD. Strukturální superpozice se běžně používá k porovnání více konformací stejného proteinu (v tomto případě dokonce není nutné sekvence zarovnávat) a k hodnocení kvality zarovnání sekvencí, pokud jsou pro ně struktury známé. Tradičně se při superponování struktur používá jednoduchá metoda nejmenších čtverců , při které se optimální rotace a translace nalézají minimalizací součtu čtverců vzdáleností mezi všemi strukturami v superpozici [4] . V poslední době se takové vyhledávání zpřesňuje díky metodám maximální věrohodnosti a Bayesovským metodám [5] [6] .
Algoritmy založené na vícerozměrných obratech a modifikovaných kvaternionech byly navrženy pro určení topologických vztahů mezi proteinovými strukturami bez vytváření sekvencí. Takové algoritmy úspěšně identifikovaly kanonický styl, jako je čtyřspirálový svazek [7] . Metoda Superpose umožňuje zohlednit relativní rotace domén a dalších složitých bodů strukturální nivelace [8] .
Aby bylo možné porovnat struktury proteinů, je nutné je znázornit v prostoru, který nezávisí na souřadnicích. Toho je obvykle dosaženo pomocí matice sekvence versus sekvence nebo série matic, které zahrnují míry srovnání odkazující na pevný souřadnicový prostor spíše než na absolutní vzdálenosti. Zřejmým způsobem, jak to vyjádřit, je matice vzdálenosti , což je dvourozměrná matice obsahující všechny párové vzdálenosti mezi nějakou sadou atomů v každé struktuře (např. alfa uhlíky ). Rozměr takové matice roste s nárůstem počtu současně porovnávaných struktur. Reprezentující protein ve formě velkých částí, jako jsou prvky sekundární struktury (SSE) nebo jiné strukturní fragmenty, je také možné získat rozumné zarovnání, a to i přes ztrátu informací z nezjištěných vzdáleností, protože šum z nich nebude být vzaty v úvahu. Volba způsobu reprezentace proteinu pro usnadnění výpočtu je tedy rozhodující pro vývoj účinného zarovnávacího algoritmu [9] .
Ukázalo se, že optimální „ protažení “ proteinové sekvence známou strukturou a konstrukce optimálního vícenásobného zarovnání sekvencí jsou NP-plné úkoly [10] [11] . Obvyklý úkol strukturálního vyrovnání však není NP-plný. Přísně vzato, optimální řešení problému strukturního zarovnání proteinů je známo pouze pro některá měření podobnosti proteinových struktur - například opatření používaná v úlohách predikce struktury proteinu GDT_TS [2] a maxsub [12 ] . Taková opatření lze optimalizovat pomocí algoritmu, který může maximalizovat počet atomů ve dvou proteinech, které lze kombinovat, protože splňují předem instalovaný práh ve vzdálenosti mezi nimi. Algoritmus optimálního vyrovnání je bohužel nepraktický, protože doba jeho působení závisí nejen na délkách sekvencí, ale také na geometrii seřazených proteinů [13] .
Byly také vyvinuty přibližné algoritmy strukturního zarovnání, které pracují v polynomiálním čase a produkují celou rodinu „optimálních“ řešení v rámci aproximačního parametru pro danou počítací funkci [13] [14] . I když teoreticky problém přibližného strukturního uspořádání proteinů lze těmto algoritmům snadno přiřadit, jsou stále výpočetně nákladné pro analýzu proteinových struktur ve velkém měřítku. V důsledku toho neexistují žádné praktické algoritmy, které by s danou počítací funkcí konvergovaly k řešení globálního zarovnání. Z tohoto důvodu je většina algoritmů heuristických , ale byly vyvinuty praktické algoritmy, které zaručují konvergenci k alespoň lokální maximalizaci počítací funkce [15] .
Strukturální zarovnání se používá jak při porovnávání jednotlivých struktur nebo jejich sad, tak při vytváření databází srovnání „all-to-all“ („all-to-all“), které odrážejí rozdíly mezi každou dvojicí struktur přítomných v Protein Data Banka ( PNR). Takové databáze se běžně používají pro klasifikaci proteinů podle jejich skládání.
Jednou z populárních metod strukturálního zarovnání je DALI ( metoda matice zarovnání vzdálenosti ) . V něm jsou původní struktury proteinů rozloženy na hexapeptidy a pomocí vyhodnocení kontaktních vzorů mezi fragmenty se vypočítá vzdálenostní matice. Prvky sekundární struktury, jejíž zbytky v pořadí sousedí, jsou na hlavní diagonále matice; zbývající úhlopříčky matice odrážejí prostorové kontakty mezi zbytky, které nejsou v sekvenci vedle sebe. Jsou-li tyto úhlopříčky rovnoběžné s hlavní úhlopříčkou, pak prvky sekundární struktury, které představují, jsou také rovnoběžné; pokud jsou k ní naopak kolmé, pak jsou jejich prvky sekundární struktury antiparalelní. Taková reprezentace je náročná na paměť, protože použitá matice je symetrická vzhledem k hlavní diagonále (a tedy redundantní) [16] .
Když distanční matice dvou proteinů mají stejné nebo podobné prvky v přibližně stejných polohách, lze říci, že proteiny mají podobný záhyb a jejich sekundární strukturní prvky jsou spojeny smyčkami přibližně stejné délky. Přímým procesem zarovnání DALI je hledat podobnosti v matricích vytvořených pro dva proteiny; to se obvykle provádí sérií překrývajících se podmatic 6 × 6. Shody podmatice jsou pak znovu sestaveny do konečného uspořádání pomocí standardního algoritmu pro maximalizaci skóre. Původní verze DALI používá simulaci Monte Carlo k maximalizaci hodnoty prostorové podobnosti, která je funkcí vzdáleností mezi předpokládanými odpovídajícími atomy. Zejména hmotnost vzdálenějších atomů v příslušných strukturních prvcích je exponenciálně snížena, aby se snížil hluk způsobený pohyblivostí smyčky, deformací šroubovice a dalšími malými strukturálními odchylkami [9] . Protože je DALI založeno na matici vzdáleností all-versus-all, může metoda brát v úvahu uspořádání prvků struktur v různém pořadí ve dvou porovnávaných sekvencích.
Metoda DALI byla použita k vytvoření databáze FSSP ( Families of Structurally Similar Proteins ), ve které byly všechny známé proteinové struktury párově zarovnány, aby se určil jejich prostorový vztah a klasifikace záhybů [17] .
DaliLite je program ke stažení využívající algoritmus DALI [18] .
Metoda kombinatorického rozšíření (CE) je podobná DALI v tom, že také rozbíjí každou strukturu na množství fragmentů, které se pak snaží znovu sestavit do úplného zarovnání. Série párových kombinací fragmentů, nazývaných AFP ( aligned fragment pairs ), se používá k definování matrice podobnosti, přes kterou je nakreslena optimální dráha pro určení konečného zarovnání. Do matice jsou zahrnuty pouze ty AFP, které splňují daná kritéria místní podobnosti, což snižuje požadovaný prostor pro vyhledávání a zvyšuje efektivitu [19] . Jsou možná různá měřítka podobnosti; Zpočátku metoda CE používala pouze strukturní zarovnání a vzdálenosti mezi zbytky, ale postupem času byla rozšířena na použití místních vlastností, jako je sekundární struktura, dostupnost rozpouštědla, vzory vodíkových vazeb a dihedrální úhly [19] .
Dráha odpovídající seřazení je vypočítána jako optimální cesta maticí podobnosti lineárním průchodem sekvencemi, čímž se prodlužuje zarovnání dalšího možného AFP s vysokým skóre. Počáteční AFP, iniciující seřazení, může být vybráno kdekoli v matrici sekvencí. Dále je zde expanze na AFP, která splňuje dané kritérium ve vzdálenosti, která omezuje velikost mezer (ruptur) ve vyrovnání. Velikost každého AFP a největší délka mezery jsou nezbytnými vstupními parametry, ale obvykle se nastavují rovny empiricky určitým hodnotám 8 a 30 [19] . Podobně jako Dali nebo SSAP byl CE použit k vytvoření databáze klasifikace stylingu na základě dobře známých prostorových struktur proteinů z PDB. Nedávno PDB vydala aktualizovanou verzi CE, která dokáže určit cyklické permutace ve struktuře proteinu [20] .
Metoda SSAP ( Sequential Structure Alignment Program ) využívá duální dynamické programování k vytvoření strukturního zarovnání založeného na vektorech atom-atom ve strukturním prostoru. Namísto alfa uhlíků běžně používaných ve strukturálních zarovnáních, SSAP definuje své vektory beta atomů pro všechny aminokyselinové zbytky kromě glycinu . Tato metoda tedy bere v úvahu polohu rotameru každého zbytku, stejně jako jejich polohu v páteři. Za prvé, pro každý protein SSAP zkonstruuje sérii vzdálenostních vektorů mezi každým zbytkem a jeho nejbližším, ale ne po sobě jdoucím sousedem. Poté se zkonstruuje řada matic obsahujících rozdíl vektorů mezi sousedy pro každý pár reziduí, pro které byly vektory sestrojeny. Pro každou výslednou matici je pomocí dynamického programování určena sada optimálních lokálních zarovnání. Výsledná zarovnání jsou pak přidána do zobecněné matice, na kterou je opět aplikováno dynamické programování pro určení úplného strukturního zarovnání. Zpočátku SSAP vytvářel pouze párová zarovnání, ale později byl rozšířen na vytváření více zarovnání [21] . Byl aplikován na zarovnání vše proti všem za účelem vytvoření hierarchického systému klasifikace zásobníku známého jako CATH, který se používá v databázi CATH Protein Structure Classification [22] .
Zdokonalování metod prostorového vyrovnání zůstává aktivně studovanou oblastí. Nové nebo upravené metody mají často výhody oproti starším a rozšířeným technikám. Jedním z nedávných příkladů je program TM-Align [23] využívající novou metodu vážení matice vzdáleností, na kterou je následně aplikováno dynamické programování . Vážení urychluje konvergenci dynamického programování a upravuje účinek délky nivelace. Testy ukázaly, že TM-Align pracuje s vyšší přesností a rychlostí než Dali a CE [24] .
S novými algoritmickými pokroky a pokroky ve výpočetním výkonu se však ukázalo, že neexistuje žádné univerzální kritérium pro optimální zarovnání. Nedávný vývoj se proto zaměřil na optimalizaci specifických parametrů, jako je rychlost, bodování, korelace s alternativními zlatými standardy nebo odolnost vůči chybám strukturálních dat nebo ab initio strukturálních modelů. Alternativní metodologie, která získává na popularitě, je použití konsenzu více metod ke zpřesnění strukturních podobností proteinů [25] .
Standardní algoritmy zarovnání struktur znamenají tuhost struktur, které jsou zarovnány, což neodráží biologickou realitu. Proto byly vyvinuty flexibilní algoritmy zarovnání, které berou v úvahu možnost pohybu dvou fragmentů v rámci proteinu vůči sobě navzájem, stejně jako vnitřní permutace fragmentů. Jedním z takových algoritmů je FATCAT [26] . Používá AFP jako CE (viz související část ) a pokouší se z nich vytvořit dlouhý řetězec, ale spojení mezi sousedními AFP je považováno za flexibilní a algoritmus jej ohýbá, pokud to zlepší překrývání struktur. FATCAT shrnuje mezery, otáčky a jednoduché přidávání nových párů do vyrovnané části do jediné bodovací funkce a vytváří zarovnání současně s určováním úseků smyčky pomocí dynamického programování.
Ukázalo se, že flexibilní zarovnání překonává rigidní vyrovnání z hlediska geometrického překrytí a hledání podobnosti ve strukturách [27] .
Někdy mohou proteiny obsahovat podobné fragmenty uspořádané v jiném pořadí, což klasické algoritmy neberou v úvahu. Takové případy zvládnou metody zarovnání, které nejsou po sobě jdoucí a jsou nezávislé na pořadí prvků struktury. Příkladem jsou programy FATCAT, MASS [28] , MultiProt [29] .
V některých případech je potřeba porovnat struktury nikoli solitérních proteinových molekul, ale proteinových komplexů s proteiny nebo nukleovými kyselinami . Konstrukce takového vyrovnání je obtížná z několika důvodů. Za prvé, často srovnané plochy jsou roztroušeny po celém komplexu, zatímco konkrétní řetězy jsou srovnány jen částečně. Za druhé je nutné vzít v úvahu pohyblivost proteinových řetězců, pohyb domén a přeskupování podjednotek. Za třetí, opakování a symetrie se nacházejí v komplexech, které nelze vnutit současně. Navíc velký počet zarovnaných atomů klade další požadavky na rychlost výpočtů. K provedení takového úkolu vytváří algoritmus Topmatch [30] přesné lokální zarovnání, ze kterého je pak sestaveno kompletní vyrovnání. Kvalita vyrovnání se odhaduje podle jeho délky a v prostorové odchylce zarovnaných struktur. Metodu můžete použít na webové službě Topmatch.
Velké molekuly RNA , stejně jako molekuly proteinů, se vyznačují složitou prostorovou strukturou, která je držena pohromadě párováním bází prostřednictvím vodíkových vazeb a vrstvením . Je však velmi obtížné získat genomická data pro nekódující RNA s podobnými funkcemi, protože takové molekuly, stejně jako proteiny, mají mnohem konzervativnější sekvenční strukturu, ale abeceda RNA je mnohem menší (4 nukleotidy místo 20 aminokyselin) , takže vnitřní informace jakéhokoli nukleotidu v jakýchkoli pozicích nižších než jsou pozice aminokyselinového zbytku [31] .
V souvislosti s rostoucím zájmem o RNA a nárůstem počtu experimentálně vytvořených 3D struktur RNA však byly vyvinuty metody hodnocení strukturní podobnosti RNA. Jedna taková metoda, SETTER , rozbíjí každou strukturu RNA na menší fragmenty nazývané společné jednotky sekundární struktury (GSSU). GSSU jsou dále podrobeny prostorovému zarovnání a tato částečná zarovnání jsou kombinována do celkového zarovnání [32] [33] .
Foldalign je metoda pro konstrukci párového vyrovnání molekul RNA s nízkou podobností sekvencí [34] . Tato metoda se liší od metod pro prostorové zarovnání proteinů v tom, že sama předpovídá prostorové struktury sekvencí RNA dodávaných do vstupu a nepoužívá experimentálně stanovené struktury dodávané na vstup. Zatímco úloha predikce skládání proteinu není v současné době vyřešena, prostorovou strukturu molekuly RNA bez pseudo-uzlů lze předpovědět [35] .