Logo sekvencí

Sekvenční logo ( v bioinformatice ) je  metoda grafického znázornění konzervatismu nukleotidů (v řetězci RNA nebo DNA ) nebo aminokyselin (v proteinech ). Logo je vytvořeno ze sady zarovnaných sekvencí . Tato metoda umožňuje zobrazit následující charakteristiky analyzované oblasti na jednom grafu:

Obecný úvod

Logo se skládá ze sady písmen na každé pozici. Logo ukazuje, jak dobře byly nukleotidy (nebo aminokyselinové zbytky) zachovány během evoluce v každé pozici: čím vyšší je frekvence výskytu písmene v určitém sloupci, tím vyšší je jeho relativní velikost. Celková výška písmen na každé jednotlivé pozici odráží informační obsah tohoto sloupce. Logo může ukazovat například konzervovaná vazebná místa pro transkripční faktory nebo jiné ligandy [1] .

Vytvoření loga sekvence

Aby se vytvořilo logo pro sadu sekvencí, jsou nejprve lokálně zarovnány , pokud je to nutné, vzhledem ke specifické poloze (například vazebná místa ribozomu mohou být zarovnána vzhledem k bodu iniciace translace). Vybudování sekvenčního loga má smysl pouze pro konzervativní region [1] . Na základě výsledků zarovnání se sestaví tabulka četností výskytu každého prvku v každé poloze.

Ve výsledné tabulce se pak každý sloupec seřadí sestupně tak, aby nejčastější výskyt na dané pozici (tzv. „konsensus“) základ byl umístěn do prvního řádku tabulky.

Základ konsenzu se často používá k vytvoření sekvenčního konsenzu. Takový konsenzus však neposkytuje úplné informace o sekvencích, protože v zarovnání se mohou s významnou frekvencí vyskytovat i jiná písmena. Například nejběžnějším prokaryotickým startovacím kodonem je AUG, ale GUG a UUG mohou být také startovacím kodonem. Bez těchto dodatečných informací budou data zkomolená [1] . To je jeden z hlavních důvodů, proč je konsenzuální sekvence špatným modelem pro popis vazebných míst.

Důležitost každé pozice je vhodně popsána hodnotou nazývanou informační obsah sloupce. Měří se v bitech , tedy v jednotkách informace. Pokud například pozice v zarovnání obsahuje pouze jeden typ nukleotidu, pak jsou potřeba přesně 2 bity informací, tedy odpovědi na 2 binární otázky ano-ne. Pokud pozice obsahuje zbytky dvou typů, pak stačí jedna otázka, protože výběr dvou ze čtyř nukleotidů je ekvivalentní výběru jednoho ze dvou [1] .

Pokud nejsou frekvence nukleotidů stejné, je zapotřebí sofistikovanější způsob výpočtu obsahu informace .

Míra nejistoty, která se používá při konstrukci loga, se nazývá Shannonova entropie :

,

kde  je frekvence dusíkaté báze nebo aminokyselinového zbytku v poloze . Měří se také v bitech informací.

Informace o sloupci úplného zarovnání se vypočítá jako snížení nejistoty v této poloze:

,

kde je Shannonova entropie pro sloupec , je maximální nejistota, rovná se 4 pro nukleotidovou sekvenci a 20 pro aminokyselinu a  je korekce pro malé vzorky, jejichž velikost je :

.

Taková úprava neumožní vytvořit logo zarovnáním malého počtu sekvencí - získáte logo s téměř stejným informačním obsahem na různých pozicích [1] .

Sada hodnot odráží roli každé pozice pro vazebné místo. Velikost každého písmene na každé pozici (v bitech informace) se vypočítá ze součinu frekvence tohoto písmene a informačního obsahu celého sloupce:

.

Dále jsou báze zobrazeny jedna nad druhou v pořadí, v jakém se v tomto sloupci zvyšuje jejich frekvence.

Pokud jsou ve sloupci mezery, je celková výška zásobníku symbolů ve výsledném obrázku opravena o podíl významných symbolů v něm. To je nezbytné, protože pozici nelze považovat za konzervativní, pokud na tomto místě existuje polymorfismus inzerce-delece v mnoha sekvencích [1] .

Propojení interpretací log stránek

Loga obsahují několik různých typů informací. Nejprve se na každé pozici seřadí báze podle jejich reprezentace (nejběžnější báze je zobrazena nahoře v zásobníku symbolů) [1] . Obecný konsenzus lze tedy číst z horní řady písmen na každé pozici.

Relativní velikost symbolu každé ze čtyř bází udává relativní frekvenci výskytu každého nukleotidu na dané pozici [1] .

Výška celé znakové sady je úměrná informacím, které tento sloupec zarovnání nese. Nejdůležitější pozice lze proto snadno vizuálně zvýraznit. Například v logu bakteriálních vazebných míst pro ribozomy je díky existenci alternativních start kodonů první písmeno nejběžnějšího AUG obvykle o něco nižší než další dvě - je méně konzervativní [1] .

Vazebná místa transkripčního faktoru jsou často palindromické sekvence , protože samotný transkripční faktor často funguje jako dimer . Taková místa jsou symetrická nejen ve složení nukleotidů, ale také v zachování pozice, což lze vidět na logech takových míst [1] .

Je třeba mít na paměti, že neočekávaně vysoký konzervatismus může být výsledkem překrývání dvou vazebných míst [2] .

Typy log

Consensus logo

Jedná se o zjednodušenou verzi loga sekvencí, jejíž hlavní výhodou je možnost prezentace v textovém formátu [3] . Stejně jako sekvenční logo je sekvenční konsenzuální logo vytvořeno z vícenásobných zarovnání DNA/RNA nebo proteinových sekvencí a odráží zarovnání a přenáší informace o konzervatismu na každé pozici sekvence.

Místo množiny všech možných nukleotidů (nebo aminokyselin) a jejich relativní četnosti na každé pozici, logo konsenzu pouze odráží míru konzervatismu pomocí výšky konsenzuálního písmene na každé pozici [3] .

V této verzi loga dochází ke ztrátě významné části informací, jedná se o mezičlánek mezi konsensuální sekvencí a výše popsaným logem [3] .

Normalizované logo (ploché logo)

Je postaveno stejně jako výše uvedené logo, ale výška sad písmen všech pozic je stejná [4] . Ukazuje se, že výška každého jednotlivého písmena odpovídá frekvenci tohoto nukleotidu nebo aminokyseliny v odpovídajícím zarovnávacím sloupci. Zároveň se téměř úplně ztratí informace o konzervatismu, proto se tento typ loga používá jen zřídka.

Odkazy

Nástroje pro návrh loga

Poznámky

  1. 1 2 3 4 5 6 7 8 9 10 11 Schneider TD, Stephens RM Sekvenční loga: Nový způsob zobrazení konsensuálních sekvencí  //  Nucleic Acids Res : deník. - 1990. - Sv. 18 , č. 20 . - S. 6097-6100 . doi : 10.1093 / nar/18.20.6097 . — PMID 2172928 .
  2. Schneider TD, Stormo GD, Gold L., Ehrenfeucht A. Informační obsah vazebných míst na nukleotidových sekvencích  //  Journal of Molecular Biology : deník. - 1986. - Sv. 188 , č.p. 3 . - str. 415-431 . - doi : 10.1016/0022-2836(86)90165-8 . — PMID 3525846 .
  3. 1 2 3 Schneider TD Consensus Sequence Zen  (neurčité)  // Appl Bioinform. - 2002. - T. 1 , č. 3 . - S. 111-119 . — PMID 15130839 .
  4. Chou MF Objev motivu biologické sekvence pomocí motivu-x. (neopr.)  // Curr Protoc Bioinformatics. - 2011. - S. 15-24 . - doi : 10.1002/0471250953.bi1315s35 . — PMID 21901740 .