Motiv (molekulární biologie)

Motiv v molekulární biologii je relativně krátká sekvence nukleotidů nebo aminokyselin, která se během evoluce jen málo mění a alespoň pravděpodobně má určitou biologickou funkci [1] [2] [3] . Motivem se někdy rozumí nikoli konkrétní sekvence, ale nějak popsaný okruh sekvencí, z nichž každá je schopna plnit určitou biologickou funkci daného motivu [4] .

Motivy jsou všudypřítomné v živých organismech a plní mnoho životně důležitých funkcí, jako je regulace transkripce a translace (v případě nukleotidových motivů), posttranslační modifikace a buněčná lokalizace proteinů a částečně určují jejich funkční vlastnosti ( leucinový zip ) [ 2] [5] . Jsou široce používány v bioinformatice k predikci funkcí genů a proteinů, vytváření regulačních map a jsou důležité pro mnoho problémů v genetickém inženýrství a molekulární biologii obecně [6] [7] [8] .

Vzhledem k praktickému významu motivů byly vyvinuty jak bioinformatické metody pro jejich vyhledávání ( MEME , Gibbs Sampler), tak in vivo metody vyhledávání motivů ( ChIP-seq , ChIP-exo). Ty dávají poměrně často přibližné souřadnice motivů a jejich výsledky jsou pak zpřesňovány bioinformatickými metodami [ 1 ] .matice[6]2][ [2] .

Motiv je třeba odlišit od konzervativních oblastí u blízce příbuzných organismů, které nemají významné biologické funkce, kde je mutační proces nestihl dostatečně změnit [9] .

Motivy v nukleových kyselinách

V případě DNA jsou motivy nejčastěji krátké sekvence, které jsou vazebnými místy pro proteiny, jako jsou nukleázy a transkripční faktory , nebo se účastní důležitých regulačních procesů již na úrovni RNA , jako je přistání ribozomů , zpracování mRNA a ukončení transkripce . [4] .

Stručná historie učení

Studium motivů v DNA se stalo možným díky tomu, že se v roce 1973 [10] objevil postup sekvenování DNA (určení nukleotidové sekvence fragmentu DNA). Nejprve byly definovány sekvence operátoru lac a operátoru lambda [11] . Před příchodem produktivnějších sekvenačních metod [12] však zůstal počet motivových sekvencí poměrně malý. Do konce 70. let 20. století existovalo mnoho příkladů mutantních sekvencí (míst), které vážou transkripční faktory a sekvence se změněnou specificitou [13] . S nárůstem počtu sekvencí se začaly rozvíjet metody teoretické predikce motivů. V roce 1982 byla poprvé zkonstruována matice pozice-váha (PWM) motivu místa iniciace translace. Pomocí zkonstruovaného PVM byla predikována další místa iniciace translace [14] . Tento přístup se ukázal jako poměrně silný a dodnes se v různých podobách používá k hledání známých motivů v genomech a konkrétní metody se liší pouze typem váhové funkce [4] . Přístup založený na konstrukci PWM na základě existujících sekvencí však neumožňoval najít zásadně nové motivy, což je obtížnější úkol. První algoritmus, který vyřešil tento problém, byl navržen Gallasem a jeho kolegy v roce 1985 [15] . Tento algoritmus byl založen na hledání společných slov v sadě sekvencí a poskytoval vysoké procento falešně negativních výsledků, ale stal se základem pro celou rodinu algoritmů [16] . Později byly vyvinuty přesnější pravděpodobnostní metody: algoritmus MEME založený na proceduře maximalizace očekávání [17] a algoritmus Gibbs Sampler rovněž založený na proceduře maximalizace očekávání [18] . Obě metody se ukázaly jako velmi citlivé a v současnosti se používají k predikci motivů v sekvenčních sadách.

Po vyvinutí výkonných nástrojů pro predikci vazebných motivů transkripčního faktoru a vytvoření korespondence mezi dostatečným počtem transkripčních faktorů a motivů bylo možné předpovídat funkce operonu, který leží blízko motivu, díky specifičnosti transkripčního faktoru, který se na něj váže a naopak předvídat transkripční faktor z genů v operonu, ležících vedle určitého motivu [3] .

Odkazující stránky

Transkripční regulace

Typické příklady regulace transkripce, prováděné pomocí proteinu, který rozpoznává speciální motiv, jsou:

  1. Purinové represorové místo PurR v Escherichia coli . PurR se váže na sekvenci 16 nukleotidů, která se nachází před purinovým operonem a reguluje transkripci genů odpovědných za syntézu purinových a pyrimidinových nukleotidů [5] [19] . Je zajímavé, že bakterie Bacillus subtilis , evolučně vzdálená E. coli, má také purinový represor, který není homologní s PurR [20] ;
  2. Místo laktózového operonu Lac . Laktózový operon je řízen LacI represorem , který vazbou na DNA zabraňuje transkripci genů odpovědných za katabolismus laktózy [6] .
Nařízení o překladu

Některé z nejznámějších příkladů translační regulace regulátory rozpoznávání motivů jsou:

  1. Místo přistání prokaryotického ribozomu  je Shine-Dalgarnova sekvence [21] , zde dochází k vazbě s riboproteinem ;
  2. Místo přistání eukaryotického ribozomu  je Kozakova sekvence , vazba nastává s eukaryotickým translačním iniciačním faktorem eIF1 [7] ;
  3. IRE  jsou regulační prvky umístěné na 5'UTR a/nebo 3'UTR mRNA enzymů (například feritinu ), které regulují obsah železa v buňce. Na tyto motivy se vážou proteiny IRP1 ( cytosolická forma akonitázy) a IRP2 (katalyticky neaktivní homolog akonitázy), které regulují rychlost její degradace nebo rychlost translace z ní vznikající již samotnou vazbou na mRNA [22] .
Síla motivu

Síla interakce proteinu nebo RNA s motivem DNA závisí především na sekvenci tohoto motivu. Existují „silné“ motivy, které dávají silnou interakci s proteinem nebo RNA, a „slabé“ motivy, se kterými je interakce slabší. Téměř vždy je možné získat tzv. „consensus sequence“ („consensus“), tedy takovou sekvenci, v jejíž každé pozici je písmeno, které se nejčastěji nachází na odpovídající pozici v sekvencích motivy z různých organismů. Konsenzuální sekvence je brána jako nejsilnější, což je téměř vždy [23] . Slabší motivy se z něj získávají pomocí malého (nejčastěji 1-3) počtu substitucí [24] .

Vývoj síly motivu

V procesu evoluce je síla motivů regulována přirozeným výběrem a motiv se může stát buď silnějším, nebo slabším [25] . Charakteristickým příkladem takové úpravy síly motivu je variabilita sekvence Shine-Dalgarno (SD). Existuje úzká korelace mezi množstvím přeložených proteinů požadovaných tělem a silou SD před ním [8] .

Je důležité poznamenat, že v případě SD, ačkoli síla vazby na protein přímo koreluje se silou vazby 16S podjednotky ribozomu , vzhledem ke zvláštnostem iniciace translace nemusí konsenzuální sekvence nutně zaručit nejlepší účinná translace (kvůli obtížnosti opuštění ribozomu z místa iniciace ) [6] . Shine-Dalgarnova sekvence proto nejčastěji obsahuje 4–5 nukleotidů z konsenzuální sekvence, přičemž ta druhá je dlouhá asi 7 nukleotidů [26] .

RNA přepínače

Přítomnost motivu, který jasně hraje biologicky významnou roli, nemusí vždy znamenat přítomnost regulačního proteinu. Regulace může být také provedena vazbou RNA na nějakou látku s nízkou molekulovou hmotností . Tento princip se používá k budování RNA přepínačů  , struktur vytvořených na RNA během transkripce a schopných vázat malé molekuly [27] [28] . Vazba molekul ovlivňuje schopnost riboswitche zastavit transkripci nebo interferovat s translací. V tomto případě není důležitá sekvence nukleotidů jako taková, ale přítomnost komplementárních nukleotidů na správných místech v sekvenci [4] .

Regulace sekundární strukturou

Regulace translace může být také provedena pouze díky sekundární struktuře tvořené nukleovou kyselinou .

  1. Rho-nezávislý transkripční terminátor  je vlásenka , která se tvoří na syntetizované mRNA před zahájením translace a brání další syntéze mRNA ( Terminátor (DNA) ) [29] ;
  2. IRES  je komplexní struktura v mRNA eukaryotických virů , která zajišťuje vnitřní iniciaci translace [30] .

Struktura motivu

Motivy vázající transkripční faktor mají často formu přímých repetic nějaké sekvence, reverzních repetic nebo palindromických sekvencí . To lze vysvětlit prací transkripčních faktorů ve formě proteinových dimerů, ve kterých každý z monomerů váže stejnou sekvenci. Objevují se i motivy většího opakování [6] . Taková struktura motivů zajišťuje ostřejší reakci na změny vnějších podmínek. Pokud například vazba závisí na koncentraci jedné látky v buňce, pak dostaneme závislost reakční síly buňky popsanou Michaelis-Mentenovou rovnicí . S nárůstem počtu jednotek vážících protein (budeme předpokládat, že efekt vazby proteinu na motiv se projeví pouze v případě vazby na všechny repetice) se závislost stále více podobá sigmoideu a tíhne k Heaviside. function to the limit , která popisuje jeden z hlavních principů odezvy živých systémů na mnoho vlivů – zákon „all-or-nothing“ ( anglicky  all-or-nothing law ) [6] , např. vznik tzv. akční potenciál [31] .

Motivy v proteinech

U proteinů je třeba rozlišovat

Motivy v primární struktuře (proteinové sekvence)

Motivy v primární struktuře jsou podobné motivům v nukleových kyselinách. Typickými příklady jsou:

  1. signální peptidy  jsou krátké aminokyselinové sekvence v proteinu, dlouhé asi 3–60 aminokyselin [33] , které určují, do kterého kompartmentu buňky bude po syntéze odesláno . Příkladem je jaderný lokalizační signál ;
  2. místa posttranslační modifikace proteinů, což jsou konzervativní peptidy o řádu 5–12 aminokyselin [6] . Příkladem jsou acetylační místa v proteinu [34]

Strukturální motivy

V proteinech strukturní motivy popisují vazby mezi prvky sekundární struktury. Takové motivy mají často úseky různé délky, které v některých případech mohou zcela chybět [22] .

  1. Leucinový zip  – charakteristický pro dimerní proteiny, které vážou DNA. Leucinový blesk zajišťuje kontakt mezi dvěma proteinovými monomery v důsledku hydrofobních interakcí [22] [35] . Je charakterizována přítomností leucinového zbytku na každé sedmé pozici .
  2. Zinkové prsty – charakteristické pro transkripční faktory  vázající DNA [22] [36] ;
  3. Helix-turn-helix  je motiv vázající DNA, přesně takový fragment vázající DNA v Lac represoru [22] .
  4. Homeodoména  je motiv, který váže DNA a RNA. U eukaryot indukují proteiny s homeodoménami buněčnou diferenciaci spouštěním kaskád genů nezbytných pro tvorbu tkání a orgánů. Vypadá jako motiv „spirála-otočka-spirála“, proto není často samostatně vyčleněn [22] [37] .
  5. Rossmannův záhyb  je motiv, který váže nukleotidy (například NAD) [38] . Vyskytuje se zejména v dehydrogenázách, včetně glyceraldehyd-3-fosfátdehydrogenázy , která se účastní glykolýzy .
  6. EF rameno, motiv, který váže Ca 2+ ionty , je také podobný motivu helix-turn-helix [39] .
  7. Nest  - tři po sobě jdoucí aminokyselinové zbytky tvoří vazebné místo pro anion [40] .
  8. Niche  - tři po sobě jdoucí aminokyselinové zbytky tvoří vazebné místo pro kation [41] .
  9. Beta-vlásenka  – dva β-řetězce spojené krátkým obratem proteinového řetězce [42] .

Kromě beta-hairpin se rozlišuje mnoho dalších motivů, jejichž funkcí je tvořit strukturální kostru proteinu [43] .

Blízkému pojmu strukturální motiv proteinu je styling  - charakteristické uspořádání prvků sekundární struktury. Vzhledem k jejich podobnosti jsou termíny často používány jeden místo druhého a hranice mezi nimi je nejasná [43] [44] .

Znázornění motivů

Zpočátku existuje soubor motivů z různých sekvencí a úkol je stanoven [2] :

  • prezentovat je stručně a jasně;
  • umět hledat jeho nové výskyty na prezentaci motivu.

Existuje několik obecně přijímaných způsobů reprezentace motivů [45] . Některé z nich jsou vhodné jak pro proteiny, tak pro nukleotidy, druhá část - pouze pro proteiny nebo nukleotidy.

Konsensus

Přísný konsensus

Striktní konsensus motivu je řetězec skládající se z nejvíce zastoupených písmen v souboru realizací motivu. V praxi se uvádí nejen nejčastější písmeno na dané pozici, ale také, pokud je maximální frekvence výskytu jakéhokoli písmene na dané pozici menší než daná prahová hodnota, xvloží se (libovolné písmeno abecedy) toto místo v konsensu. Takovým konsensem téměř jistě najdeme sekvence, které jsou vlastně motivy, ale postrádáme velké množství motivů, které se od konsenzu liší několika substitucemi [2] [4] [9] . Níže je uveden příklad silné shody pro oblast motivu pěti proteinů UniProt s motivem leucinového zipu (prahová hodnota byla vzata na 80 %):

Číslo pozice
UniProt ID jeden 2 3 čtyři 5 6 7 osm 9 deset jedenáct 12 13 čtrnáct patnáct
O35048 L S P C G L R L G A H P L
Q6XXX9 L G Q D C D L F A L D PROTI L
Q9N298 L G Q PROTI T C D L F A L D PROTI L
Q61247 L S P L S PROTI A L A L S H L A L
B0BC06 L T G Q Y S L Y A D G T L
Konsensus L X X X X X X L X X X X X X L
Volný konsensus

Nepřísný konsensus je posloupnost seznamů písmen, která jsou nejvíce zastoupena na odpovídajícím místě. Jsou popsána všechna nebo nejčastěji se vyskytující písmena na dané pozici (většinou je nastaven minimální frekvenční práh) [2] . Ve skutečnosti je motiv popsán pomocí regulárního výrazu [4] [9] . Jako označení se používají následující:

  • Abeceda - soubor jednotlivých znaků označujících konkrétní aminokyselinu / nukleotid nebo soubor aminokyselin / nukleotidů;
  • ABC - řetězec abecedních znaků označující posloupnost znaků následujících za sebou;
  • [ABC] - jakýkoli řetězec znaků převzatý z abecedy v hranatých závorkách odpovídá libovolnému z odpovídajících znaků; například [ABC] odpovídá buď A nebo B nebo C;
  • {ABC..DE} - jakýkoli řetězec znaků převzatý z abecedy odpovídá jakékoli aminokyselině, kromě těch ve složených závorkách; například {ABC}odpovídá jakékoli aminokyselině kromě A, Ba C;
  • xmalá písmena - libovolný znak abecedy.

V případě takové reprezentace je třeba balancovat mezi citlivostí konsenzu (počet reálných motivů, které mohou najít) a specifitou (schopností metody odmítnout nevyžádané sekvence) [1] . Níže je uveden příklad nestriktního konsenzu pro stejných pět proteinových sekvencí jako pro silný konsensus (prahová hodnota byla vzata na 20 %). Vidíme, že na pozici 10 není motiv zcela objektivní — leucin ( L) a isoleucin ( I) jsou svými vlastnostmi velmi podobné aminokyseliny a bylo by logické zahrnout je do konsensu oba.

Číslo pozice
UniProt ID jeden 2 3 čtyři 5 6 7 osm 9 deset jedenáct 12 13 čtrnáct patnáct
O35048 L S P C G L R L G A H P L
Q6XXX9 L G Q D C D L F A L D PROTI L
Q9N298 L G Q PROTI T C D L F A L D PROTI L
Q61247 L S P L S PROTI A L A L S H L A L
B0BC06 L T G Q Y S L Y A D G T L
Konsensus L [SG] [PQ] X X C D L F A [LH] D PROTI L
Prosite konsensus (pro proteiny)

PROSITE používá IUPAC k označení jednopísmenných kódů aminokyselin, s výjimkou znaku zřetězení "-" používaného mezi prvky vzoru. Při použití PROSITE je přidáno několik symbolů pro usnadnění znázornění proteinového motivu [46] :

  • ' <' - vzor je omezen na N-konec sekvence;
  • ' >' - vzor je omezen na C-konec sekvence;

Jestliže e je šablona prvku a ma njsou dvě desítková celá čísla a m<= n, pak:

  • e(m)je ekvivalentní opakování epřesně mjednou;
  • e(m,n)je ekvivalentní opakování epřesně kjednou pro jakékoli celé číslo k, které splňuje podmínku: m<= k<= n;

Příklad: doménový motiv s podpisem typu C2H2 zinkového prstu vypadá takto: C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H[47]

Matice polohové váhy

Matice polohové váhy je matice, jejíž sloupce odpovídají pozicím v sekvenci a jejíž řádky odpovídají písmenům v abecedě. Hodnoty této matice jsou frekvence (nebo monotónní funkce frekvencí) výskytu daného písmene na dané pozici v sekvenci. V tomto případě se obvykle, aby se vyloučily nulové frekvence, k počtu výskytů každého písmene pozice přičte určité číslo na základě apriorního rozložení písmen v podobných posloupnostech [4] (například Laplaceova oprava se zavádí [48] ). Tento přístup, stejně jako ty předchozí, implicitně předpokládá, že pozice v motivu jsou nezávislé, což ve skutečnosti není pozorováno ani u nukleotidových sekvencí [2] [4] .

Řekněme, že máme 7 sekvencí DNA představujících motiv [9] :

Číslo pozice
Číslo

sekvence

jeden 2 3 čtyři 5 6 7 osm
jeden A T C C A G C T
2 G G G C A A C T
3 A T G G A T C T
čtyři A A G C A A C C
5 T T G G A A C T
6 A T G C C A T T
7 A T G G C A C T

Poziční matice pro ně bude mít následující tvar ( +1 - s přihlédnutím k Laplaceovu pravidlu) [9] :

Číslo pozice
Nukleotid jeden 2 3 čtyři 5 6 7 osm
A 5+1 1+1 0+1 0+1 5+1 5+1 0+1 0+1
C 1+1 0+1 1+1 4+1 2+1 0+1 6+1 1+1
G 0+1 1+1 6+1 3+1 0+1 1+1 0+1 0+1
T 1+1 5+1 0+1 0+1 0+1 1+1 1+1 6+1

Frekvence lze normalizovat na celkový počet sekvence, čímž získáme odhad pravděpodobnosti setkání s daným nukleotidem v dané sekvenci (ve skutečnosti je PWM obvykle uložena v takové reprezentaci) [2] :

Číslo pozice
Nukleotid jeden 2 3 čtyři 5 6 7 osm
A 0,55 0,18 0,09 0,09 0,55 0,55 0,09 0,09
C 0,18 0,09 0,18 0,45 0,27 0,09 0,64 0,18
G 0,09 0,18 0,64 0,36 0,09 0,18 0,09 0,09
T 0,18 0,55 0,09 0,09 0,09 0,18 0,18 0,64

HMM (Hidden Markov Models)

Pro větší přesnost je možné zohlednit závislost sousedních pozic v motivu pomocí skrytých Markovových modelů prvního a vyšších řádů [2] [4] . Tento přístup je zatížen určitými obtížemi, protože jeho aplikace vyžaduje dostatečně reprezentativní vzorek motivačních možností. V případě předchozího příkladu máme:

  • Pro Markovův model řádu 0 (pravděpodobnost výskytu nukleotidu v dané pozici nezávisí na jiných pozicích - jiný způsob interpretace PWM) [4] ;
  • Pro Markovův model řádu 1 (pravděpodobnost výskytu nukleotidu na dané pozici závisí pouze na nukleotidu v předchozí sekvenci. Je snadné vidět, že počet parametrů modelu velmi vzrostl) [4] . Při výpočtu pravděpodobností přechodu bylo použito i Laplaceovo pravidlo. Pravděpodobnosti emise pro stavy jsou 1 pro nukleotidy, kterým odpovídají, 0 pro zbytek.

V případě motivů obsahujících oblasti různé velikosti a nukleotidového složení by bylo možné zavést samostatný model pro tyto oblasti, zvlášť pro konzervativní a následně je „slepit“ do jednoho modelu přidáním mezilehlých „tichých“ stavů a ​​přechodu. pravděpodobnosti k nim az nich [4] .

SCS (Stochastic Context-Free Grammar)

V případě motivů, které tvoří sekundární struktury (spínače RNA) v RNA, je důležité vzít v úvahu možnost párování nukleotidů v prvcích sekundární struktury . SCS se s tímto úkolem vypořádá . Trénink SCS však vyžaduje ještě větší velikost vzorku než HMM a je spojen s řadou obtíží [4] .

Zobrazit pro velké databáze

V případech, kdy je důležitá rychlost vyhledávání a je přijatelné přeskočit některé výskyty našeho motivu, se výzkumníci uchýlí k různým trikům, které umožňují zašifrovat prostorovou strukturu biopolymeru (RNA nebo proteinu) s přijatelnou přesností rozšířením abeceda [49] .

Reprezentace motivů v proteinech kódováním prostorové struktury proteinu

Operon LacI represoru laktózy Escherichia coli ( PDB 1lcc řetězec A) a gen aktivátoru katabolismu ( PDB 3gap řetězec A) mají motiv helix-turn-helix, ale jejich aminokyselinové sekvence si nejsou příliš podobné. Skupina výzkumníků vyvinula kód, který nazvali „3D řetězový kód“, který představuje strukturu proteinu jako řetězec písmen. Toto kódovací schéma podle autorů ukazuje podobnost mezi proteiny mnohem jasněji než sekvence aminokyselin [49] :

Příklad : srovnání dvou výše uvedených proteinů pomocí tohoto kódovacího schématu [49] :

ID PDB 3D kód Sekvence aminokyselin
1lccA TWWWWWWWKCLKWWWWWWG LYDVAEYAGVSYQTVSRVV
3gapA KWWWWWWGKCFKWWWWWWW RQEIGQIVGCSRETVGRIL
Srovnání Mezi proteiny je jasná podobnost Proteiny se velmi liší ve své aminokyselinové sekvenci.

kde Wodpovídá α-šroubovici a Ea Dodpovídá β-vláknu.

Reprezentace motivů v RNA pomocí sekundární struktury (foldedBlast)

V této práci, aby bylo možné použít vyhledávací algoritmus podobný BLAST , byla nukleotidová abeceda (ATGC, protože vyhledávání bylo prováděno v genomu) rozšířena kombinací nukleotidů a tří znaků charakterizujících jejich domnělý směr párování [50] :

  • ( - nukleotid je spárován s nukleotidem vpravo;
  • ) - nukleotid je spárován s nukleotidem vlevo;
  • . - nukleotid není spárovaný.

Bylo tak získáno 12 písmen nové abecedy (4 nukleotidy * 3 „směry“), která při správném použití umožňuje vyhledávání podobné BLASTu, nazvané autory foldedBlast [50] .

Logo sekvence

Pro vizuální znázornění motivů se často používá logo sekvencí - grafické znázornění konzervatismu každé pozice v motivu. Zároveň lze tuto vizualizaci s úspěchem použít jak v případě reprezentace motivu ve formě konsenzu nebo poziční váhové matice , tak pro reprezentaci modelu sekvence HMM, jak je tomu v databázi proteinové rodiny Pfam [51] .

Kromě toho, pokud je například jas každého nukleotidu v motivu použit jako indikátor toho, jak často mu komplementární nukleotid odpovídá ve stejném motivu , pak může být částečně reprezentována také informace o sekundární struktuře motivu. Dělá se to například v bioinformatické webové službě RegPredict [52] .

Hledání vazebných míst transkripčních faktorů in silico

V případě hledání motivů odpovědných za vazbu regulačních proteinů v nukleotidových sekvencích využívají myšlenku, že se [motivy] mění relativně pomalu, což znamená, že pokud vezmeme organismy, které jsou od sebe dostatečně vzdálené, aby se mohly hromadit mutace ve vysoce variabilních polohách jejich sekvencí a místa se ještě nestihla příliš změnit, pak lze použít pravidlo „co je konzervativní, to je důležité“ [2] . Po získání sekvencí, ve kterých se očekává přítomnost konkrétního motivu, se používají především dva přístupy k nalezení sekvence motivu - fylogenetický footprinting a redukování problému na problém nalezení vloženého motivu .

Fylogenetická stopa

Fylogenetická stopa je poloautomatizovaná metoda. Sekvence jsou zpracovány programem pro vícenásobné zarovnání a ve výsledném zarovnání výzkumník hledá vzory, které lze považovat za motivy. Za jeden z nejúspěšnějších příkladů aplikace tohoto přístupu lze považovat dešifrování kódování neribozomálních peptidů neribozomálními peptidovými syntetázami (NRPS) [2] [53] [54] . Tato metoda neumožňuje plně automatizovat proces hledání motivů, ale zároveň nemá tak závažná omezení jako následující.

Problém hledání vloženého motivu

V případě motivů bez (téměř bez) zlomů a bez (téměř bez) úseků proměnné délky je možné redukovat problém hledání motivu na úkol hledání vloženého motivu ( angl.  Planted Motiv search ) [2] [9] .

Formulace problému je následující: „ Vstupem je n řetězců s 1 , s 2 , …, s n o délce m, z nichž každý se skládá z abecedních znaků A a dvou čísel — l a d. Najděte všechny řetězce x délky l takové, že kterýkoli z uvedených řetězců obsahuje alespoň jednu podposloupnost z x v Hammingově vzdálenosti nejvýše d » [55] .

Protože v obecném případě není známo, zda všechny námi získané posloupnosti mají požadovaný motiv a není známa ani jeho přesná délka, problém se obvykle řeší heuristickými metodami – maximalizací pravděpodobnosti nalezeného motivu pro dané posloupnosti. Na tomto principu jsou založeny programy MEME [17] a GibbsSampler [56] .

Pokud nastavíte minimální práh pro počet sekvencí, které mají motiv obsahovat, a nějak omezíte jeho délku, pak můžete pro řešení tohoto problému použít exaktní metody, například algoritmus RISOTTO [57] . Některé z nich umožňují odstranit některá omezení na požadovaný motiv - v RISOTTO může mít požadovaný motiv přestávky, skládat se z několika částí.

Tyto metody však jen zřídka poskytují lepší výsledky než MEME a GibbsSamler a trvají mnohem déle [2] [58] .

Hledání vazebných míst in vitro

ChIP seq

Metoda pro analýzu interakcí DNA-protein, která kombinuje myšlenky imunoprecipitace chromatinu (ChIP) a vysoce výkonného sekvenování DNA (protein je fúzován s DNA, poté jsou kousky DNA fúzované s proteinem odeslány k sekvenování). Během provozu metody se získají oblasti o délce asi 150 nukleotidů, které pak mohou být analyzovány in silico na přítomnost motivu [59] .

Chip-on-chip

Stejně jako v případě použití metody ChIP-seq se provádí chromatinová imunoprecipitace (ChIP), poté je zesítění s proteinem obráceno a výsledná DNA je hybridizována s DNA microarray . Metoda ChIP-on-chip je levnější než metoda ChIP-seq, ale je mnohem horší než ta druhá v přesnosti [6] .

ChIP-exo

Také metoda založená na imunoprecipitaci chromatinu (ChIP). Použití fágové exonukleázy λ , která degraduje DNA pouze od 5' konce a pouze v nepřítomnosti kontaktu s proteinem, umožňuje dosáhnout přesnosti řádu několika nukleotidů při určování polohy vazebného místa pro protein [ 60] .

SELEX

Iterativní metoda pro hledání nukleotidových sekvencí, které se dobře vážou na daný protein [61] . Obecný postup vypadá takto:

  1. Protein, který nás zajímá, je přišit ke sloupci , přes který pak prochází roztok se sadou sekvencí sestávající z randomizované oblasti a adaptéru;
  2. Sekvence, které přetrvávají na koloně, jsou klonovány postupem PCR a složení reakční směsi je zvoleno tak, aby během kopírování vneslo další chyby. Výsledné klony jsou odeslány do nového kola SELEX;
  3. Každých několik natažení se podmínky ( pH roztoku , jeho iontová síla ) zpřísní, takže na koloně zůstává stále více proteinově specifických sekvencí;
  4. Výsledné sekvence jsou často podobné skutečným proteinovým vazebným motivům v živých organismech.

DamID

Hybridní protein je vyroben ze studovaného proteinu a adenin DNA metyltransferázy Dam [62] . Za přirozených podmínek není adenin u většiny eukaryot methylován. Když se hybridní protein naváže na místo v DNA organismu, methyltransferázová část modifikuje adeniny v oblasti tohoto místa, což pak umožňuje pomocí restrikčních endonukleáz izolovat místo, kde se s největší pravděpodobností nachází požadovaný motiv.

Poznámky

  1. ↑ 1 2 3 D'haeseleer Patrik. Co jsou motivy sekvence DNA?  (anglicky)  // Nature Biotechnology. - 2006. - 1. dubna ( vol. 24 , iss. 4 ). — S. 423–425 . — ISSN 1087-0156 . - doi : 10.1038/nbt0406-423 . Archivováno z originálu 12. dubna 2017.
  2. ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Compeau Phillip, Pevzner Pavel. Bioinformatické algoritmy: přístup k aktivnímu učení, 2. vydání. sv. 1 od Phillipa Compeaua  . — 2. vydání. - Active Learning Publishers, 2015. - 384 s. — ISBN 9780990374619 .
  3. ↑ 1 2 Koonin Eugene V. Logika náhody: Povaha a původ biologické evoluce. - 1 vydání. - FT Press, 2011-06-23. — 529 s. — ISBN 978-0132542494 .
  4. ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 Durbin Richard, Eddy Sean R., Krogh Anders, Mitchison Graeme. Biologická sekvenční analýza: Pravděpodobnostní modely proteinů a nukleových kyselin. - Cambridge University Press, 1998. - 372 s. — ISBN 978-0521620413 .
  5. ↑ 1 2 Purinový represor - Proteopedie, život ve  3D . proteopedia.org. Získáno 11. dubna 2017. Archivováno z originálu 12. dubna 2017.
  6. ↑ 1 2 3 4 5 6 7 8 Alberts Bruce, Johnson Alexander, Lewis Julian, Raff Martin, Roberts Keith. Molekulární biologie buňky . — 4. — Garland Science, 2002-01-01. — ISBN 0815332181 . — ISBN 0815340729 . Archivováno 27. září 2017 na Wayback Machine
  7. ↑ 1 2 Pestova TV, Kolupaeva VG, Lomakin IB, Pilipenko EV, Shatsky IN Molekulární mechanismy iniciace translace u eukaryot  (anglicky)  // Proceedings of the National Academy of Sciences of the United States of America. - 2001. - 19. června ( díl 98 , výr. 13 ). — S. 7029–7036 . — ISSN 0027-8424 . - doi : 10.1073/pnas.111145798 . Archivováno z originálu 23. dubna 2017.
  8. ↑ 1 2 Evfratov Sergey A., Osterman Ilya A., Komarova Ekaterina S., Pogorelskaya Alexandra M., Rubtsova Maria P. Aplikace třídění a sekvenování nové generace ke studiu vlivu 5΄-UTR na účinnost překladu u Escherichia coli   // Výzkum nukleových kyselin. - 2017. - 7. dubna ( díl 45 , 6. vydání ). - S. 3487-3502 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkw1141 . Archivováno z originálu 12. dubna 2017.
  9. ↑ 1 2 3 4 5 6 Jones Neil C., Pevzner Pavel A. An Introduction to Bioinformatics Algorithms. - 1 vydání. - The MIT Press, 2004. - 435 s. — ISBN 9780262101066 .
  10. Gilbert W, Maxam A. Nukleotidová sekvence operátoru lac  //  Proceedings of the National Academy of Sciences. - 1973. - prosinec ( sv. 70 , 12. vydání ). - S. 3581-3584 . — PMID 4587255 . Archivováno z originálu 24. dubna 2017.
  11. Maniatis T, Ptashne M, Backman K, Kield D, Flashman S, Jeffrey A, Maurer R. Rozpoznávací sekvence represoru a polymerázy u operátorů bakteriofága lambda   // Cell . - 1975. - Červen ( 5. díl , 2. vydání ). - str. 109-113 . — PMID 1095210 . Archivováno z originálu 24. dubna 2017.
  12. Sanger F, Nicklen S, Coulson AR. Sekvenování DNA s inhibitory ukončujícími řetězec  (anglicky)  // Proceedings of the National Academy of Sciences. - 1977. - prosinec ( roč. 74 , 12. vydání ). - S. 5463-5467 . Archivováno z originálu 2. dubna 2017.
  13. Stormo GD. DNA vazebná místa: reprezentace a objev.  (anglicky)  // Bioinformatika. - 2000. - Leden ( vol. 16 , Iss. 1 ). - str. 16-23 . Archivováno z originálu 19. dubna 2017.
  14. Stormo GD, Schneider TD, Gold LM. Charakterizace míst iniciace translace v E. coli  //  Výzkum nukleových kyselin. - 1982. - 11. května ( roč. 10 , vyd. 9 ). - S. 2971-2996 . Archivováno z originálu 24. dubna 2017.
  15. Galas DJ, Eggert M, Waterman MS. Přísné metody rozpoznávání vzorů pro sekvence DNA. Analýza promotorových sekvencí z Escherichia coli.  (anglicky)  // Journal of Molecular Biology. - 1985. - 5. listopadu ( roč. 186 , č. 1 ). — S. 117–128 . Archivováno z originálu 24. dubna 2017.
  16. Stormo GD. DNA vazebná místa: reprezentace a objev.  (anglicky)  // Bioinformatika. - 2000. - leden ( roč. 16 , č. 1 ). — S. 16–23 . Archivováno z originálu 19. dubna 2017.
  17. ↑ 1 2 T. L. Bailey, C. Elkan. Hodnota předchozích znalostí při objevování motivů s MEME   // Proceedings . Mezinárodní konference o inteligentních systémech pro molekulární biologii. - 1995. - 1. ledna ( sv. 3 ). — S. 21–29 . — ISSN 1553-0833 . Archivováno z originálu 24. dubna 2017.
  18. Lawrence CE1, Altschul SF, Boguski MS, Liu JS, Neuwald AF, Wootton JC. Detekce jemných sekvenčních signálů: Gibbsova vzorkovací strategie pro vícenásobné zarovnání.  (anglicky)  // Science. - 1993. - 8. října ( roč. 262 , č. 5131 ). — S. 208–214 . Archivováno z originálu 24. dubna 2017.
  19. Jendresen Christian Bille, Martinussen Jan, Kilstrup Mogens. Regulon PurR v Lactococcus lactis - transkripční regulace metabolismu purinových nukleotidů a translační aparát  (anglicky)  // Microbiology (Reading, Anglie). - 2012. - 1. srpna ( roč. 158 , vyd. 8 ). — S. 2026–2038 . — ISSN 1465-2080 . - doi : 10,1099/mik.0,059576-0 . Archivováno z originálu 19. dubna 2017.
  20. Sinha Sangita C., Krahn Joseph, Shin Byung Sik, Tomchick Diana R., Zalkin Howard. Purinový represor Bacillus subtilis: nová kombinace domén přizpůsobených pro regulaci transkripce  (anglicky)  // Journal of Bacteriology. - 2003. - 1. července ( sv. 185 , ses. 14 ). — S. 4087–4098 . — ISSN 0021-9193 . - doi : 10.1128/JB.185.14.4087-4098.2003 . Archivováno z originálu 19. dubna 2017.
  21. Shine J., Dalgarno L. Analýza terminální sekvence bakteriální ribozomální RNA. Korelace mezi 3'-terminální-polypyrimidinovou sekvencí 16-S RNA a translační specificitou ribozomu  //  European Journal of Biochemistry. - 1975. - 1. září ( díl 57 , 1. vydání ). — S. 221–230 . — ISSN 0014-2956 . Archivováno z originálu 19. dubna 2017.
  22. ↑ 1 2 3 4 5 6 7 Nelson David L., Cox Michael M. Lehninger Principy biochemie. — 7 vydání. — W.H. Freeman, 01.01.2017. — 1328 s. — ISBN 9781464126116 .
  23. Stormo GD, Schneider TD, Gold L. Kvantitativní analýza vztahu mezi nukleotidovou sekvencí a funkční aktivitou  //  Nucleic Acids Research. - 1986. - 26. srpen ( vol. 14 , ses. 16 ). — S. 6661–6679 . — ISSN 0305-1048 . Archivováno z originálu 19. dubna 2017.
  24. Stormo GD DNA vazebná místa: reprezentace a objev   // Bioinformatika (Oxford, Anglie) . - 2000. - 1. ledna ( vol. 16 , iss. 1 ). — S. 16–23 . — ISSN 1367-4803 . Archivováno z originálu 19. dubna 2017.
  25. Shultzaberger Ryan K., Zehua Chen, Lewis Karen A., Schneider Thomas D. Anatomy of Escherichia coli σ 70 promotors  //  Nucleic Acids Research. - 2007. - 1. února ( roč. 35 , vyd. 3 ). — S. 771–788 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkl956 . Archivováno z originálu 19. dubna 2017.
  26. J. Shine, L. Dalgarno. Analýza terminální sekvence bakteriální ribozomální RNA. Korelace mezi 3'-terminální-polypyrimidinovou sekvencí 16-S RNA a translační specificitou ribozomu  //  European Journal of Biochemistry. - 1975. - 1. září ( díl 57 , 1. vydání ). - str. 221-230 . — ISSN 0014-2956 . Archivováno z originálu 19. dubna 2017.
  27. Riboswitch, RNA přepínač (riboswitch) . humbio.ru. Získáno 11. dubna 2017. Archivováno z originálu 12. dubna 2017.
  28. Samuel E. Bocobza, Asaph Aharoni. Malé molekuly, které interagují s RNA: genová kontrola založená na riboswitchi a její zapojení do metabolické regulace v rostlinách a řasách  //  The Plant Journal: For Cell and Molecular Biology. - 2014. - 1. srpna ( sv. 79 , vyd. 4 ). — S. 693–703 . — ISSN 1365-313X . - doi : 10.1111/tpj.12540 . Archivováno z originálu 19. dubna 2017.
  29. Hironori Otaka, Hirokazu Ishikawa, Teppei Morita, Hiroji Aiba. PolyU ocas rho-nezávislého terminátoru bakteriálních malých RNA je nezbytný pro akci Hfq  //  Proceedings of the National Academy of Sciences of the United States of America. - 2011. - 9. srpna ( roč. 108 , ses. 32 ). — S. 13059–13064 . — ISSN 0027-8424 . - doi : 10.1073/pnas.1107050108 . Archivováno z originálu 3. července 2022.
  30. Hiroshi Yamamoto, Marianne Collier, Justus Loerke, Jochen Ismer, Andrea Schmidt. Molekulární architektura vnitřní ribozomální vstupní RNA viru hepatitidy C vázaného na ribozomy  //  The EMBO Journal. - 2015. - 14. prosince ( díl 34 , výr. 24 ). — S. 3042–3058 . — ISSN 0261-4189 . - doi : 10.15252/embj.201592469 .
  31. Andrej Kamkin, Andrej Alexandrovič Kamenskij. Základní a klinická fyziologie. - Academia, 2004-01-01. — 1072 s. — ISBN 5769516755 .
  32. Structural Motifs  , EMBL - EBI Train online  (25. listopadu 2011). Archivováno z originálu 12. dubna 2017. Staženo 12. dubna 2017.
  33. Gonter Blobel, Bernhand Dobberstein. Přenos proteinů přes membrány. I. Přítomnost proteolyticky zpracovaných a nezpracovaných nascentních imunoglobulinových lehkých řetězců na membránově vázaných ribozomech myšího myelomu  //  The Journal of Cell Biology. - 1975. - 1. prosince ( sv. 67 , vyd. 3 ). — S. 835–851 . — ISSN 0021-9525 . Archivováno z originálu 2. dubna 2022.
  34. Qiu Wang-Ren, Sun Bi-Qian, Xiao Xuan, Xu Zhao-Chun, Chou Kuo-Chen. iPTM-mLys: identifikace více lysinových PTM míst a jejich různých typů  (anglicky)  // Bioinformatics (Oxford, Anglie). - 2016. - 15. října ( roč. 32 , 20. vydání ). — S. 3116–3123 . — ISSN 1367-4811 . - doi : 10.1093/bioinformatics/btw380 . Archivováno z originálu 19. dubna 2017.
  35. Landschulz WH, Johnson PF, McKnight SL Leucinový zip: hypotetická struktura společná pro novou třídu proteinů vázajících DNA   // Science (New York, NY) . - 1988. - 24. června ( sv. 240 , vyd. 4860 ). — S. 1759–1764 . — ISSN 0036-8075 . Archivováno z originálu 19. dubna 2017.
  36. Klug A., Rhodes D. Zinkové prsty: nový proteinový záhyb pro rozpoznávání nukleových kyselin  //  Cold Spring Harbor Symposia on Quantitative Biology. - 1987. - 1. ledna ( sv. 52 ). — S. 473–482 . — ISSN 0091-7451 . Archivováno z originálu 19. dubna 2017.
  37. Bürglin Thomas R., Affolter Markus. Homeodoménové proteiny: aktualizace  (anglicky)  // Chromosoma. - 2016. - 1. ledna ( sv. 125 ). — S. 497–521 . — ISSN 0009-5915 . - doi : 10.1007/s00412-015-0543-8 . Archivováno z originálu 8. března 2021.
  38. Rao ST, Rossmann MG Srovnání supersekundárních struktur v proteinech  //  Journal of Molecular Biology. - 1973. - 15. května ( sv. 76 , ses. 2 ). — S. 241–256 . — ISSN 0022-2836 . Archivováno z originálu 23. dubna 2017.
  39. Nelson Melanie R., Thulin Eva, Fagan Patricia A., Forsén Sture, Chazin Walter J. Doména EF: globálně spolupracující strukturální jednotka  //  Protein Science: A Publication of the Protein Society. - 2017. - 14. dubna ( vol. 11 , iss. 2 ). — S. 198–205 . — ISSN 0961-8368 . - doi : 10.1110/ps.33302 .
  40. Watson James D., Milner-White E. James. Nové aniontové vazebné místo hlavního řetězce v proteinech: hnízdo. Konkrétní kombinace hodnot φ,ψ v po sobě jdoucích zbytcích vede k místům vázajícím anionty, která se běžně vyskytují a nacházejí se často ve funkčně důležitých oblastech1  //  Journal of Molecular Biology. - 2002. - 11. ledna ( sv. 315 , 2. vydání ). — S. 171–182 . - doi : 10.1006/jmbi.2001.5227 .
  41. Torrance Gilleain M., David P. Vedoucí, Gilbert David R., Milner-White E. James. Nový motiv hlavního řetězce v proteinech přemostěný kationtovými skupinami: výklenek  (anglicky)  // Journal of Molecular Biology. - 2009. - 30. ledna ( sv. 385 , vyd. 4 ). — S. 1076–1086 . — ISSN 1089-8638 . - doi : 10.1016/j.jmb.2008.11.007 . Archivováno z originálu 23. dubna 2017.
  42. Milner-White EJ, Poet R. Čtyři třídy beta-hairpins v proteinech.  (anglicky)  // Biochemical Journal. - 1986. - 15. listopadu ( sv. 240 , 1. vydání ). — S. 289–292 . — ISSN 0264-6021 .
  43. ↑ 1 2 Efimov Alexander V. Oblíbené strukturální motivy v globulárních proteinech  (anglicky)  // Structure. - 1994. - 1. listopadu ( vol. 2 , iss. 11 ). — S. 999–1002 . - doi : 10.1016/S0969-2126(94)00102-2 .
  44. Holm L., Sander C. Slovník rekurentních domén v proteinových strukturách   // Proteiny . - 1998. - 1. října ( roč. 33 , 1. vydání ). — S. 88–96 . — ISSN 0887-3585 . Archivováno z originálu 23. dubna 2017.
  45. Schneider TD, Stephens RM Sekvenční loga: nový způsob zobrazení konsenzuálních sekvencí  //  Výzkum nukleových kyselin. - 1990. - 25. října ( vol. 18 , Iss. 20 ). — S. 6097–6100 . — ISSN 0305-1048 . Archivováno z originálu 20. dubna 2017.
  46. de Castro Edouard, Sigrist Christian JA, Gattiker Alexandre, Bulliard Virgini, Langendijk-Genevaux Petra S. ScanProsite: detekce shod signatur PROSITE a funkčních a strukturních zbytků spojených s ProRule v proteinech  //  Výzkum nukleových kyselin. - 2006. - 1. července ( vol. 34 , iss. Web Server issue ). — S. W362–365 . — ISSN 1362-4962 . doi : 10.1093 / nar/gkl124 . Archivováno z originálu 6. října 2016.
  47. InterPro EMBL-EBI. Zinkový prst typu C2H2 (IPR013087) < InterPro < EMBL-  EBI . www.ebi.ac.uk. Získáno 15. dubna 2017. Archivováno z originálu 15. dubna 2017.
  48. Flach Peter. Strojové učení. Věda a umění vytváření algoritmů, které získávají znalosti z dat. Učebnice. — DMK Press, 2015-01-01. — 400 s. - ISBN 9785970602737 , 9781107096394.
  49. ↑ 1 2 3 Matsuda H., Taniguchi F., Hashimoto A. Přístup k detekci proteinových strukturních motivů pomocí kódovacího schématu konformací páteře  //  Pacific Symposium on Biocomputing. Pacifické sympozium o biocomputingu. - 1997. - 1. ledna. — S. 280–291 . — ISSN 2335-6936 . Archivováno z originálu 23. dubna 2017.
  50. ↑ 1 2 Tseng Huei-Hun, Weinberg Zasha, Gore Jeremy, Breaker Ronald r., Ruzzo Walter l. Nalezení nekódujících RNA pomocí shlukování na úrovni genomu  //  Journal of bioinformatics and computational biology. - 2017. - 12. dubna ( vol. 7 , iss. 2 ). — S. 373–388 . — ISSN 0219-7200 .
  51. Schuster-Böckler Benjamin, Jörg Schultz, Rahmann Sven. Loga HMM pro vizualizaci rodin proteinů  (anglicky)  // BMC Bioinformatics. - 2004. - 1. ledna ( sv. 5 ). — str. 7 . — ISSN 1471-2105 . - doi : 10.1186/1471-2105-5-7 .
  52. Novičkov Pavel S., Rodionov Dmitry A., Stavrovskaja Elena D., Novičkova S., Kazakov Alexey E. RegPredict: integrovaný systém pro inferenci regulonů v prokaryotech pomocí komparativního genomického přístupu  //  Výzkum nukleových kyselin. - 2010. - 1. července ( vol. 38 , iss. Web Server issue ). —P.W299–307 . _ — ISSN 1362-4962 . doi : 10.1093 / nar/gkq531 . Archivováno z originálu 24. dubna 2017.
  53. Marahiel Mohamed A. Multidoménové enzymy zapojené do syntézy peptidů  //  FEBS Letters. - 1992. - 27. července ( roč. 307 , vyd. 1 ). — S. 40–43 . — ISSN 1873-3468 . - doi : 10.1016/0014-5793(92)80898-Q . Archivováno z originálu 12. dubna 2017.
  54. Stachelhaus T., Mootz HD, Marahiel MA Kód adenylačních domén udělujících specificitu v neribozomálních peptidových syntetázách  //  Chemistry & Biology. - 1999. - 1. srpna ( 6. díl , 8. vydání ). - S. 493-505 . — ISSN 1074-5521 . - doi : 10.1016/S1074-5521(99)80082-9 . Archivováno z originálu 19. dubna 2017.
  55. Keich U., Pevzner PA Hledání motivů v zóně soumraku   // Bioinformatika (Oxford, Anglie) . - 2002. - 1. říjen ( vol. 18 , iss. 10 ). - S. 1374-1381 . — ISSN 1367-4803 . Archivováno z originálu 19. dubna 2017.
  56. Thompson William A., Newberg Lee A., Conlan Sean, McCue Lee Ann, Lawrence Charles E. The Gibbs Centroid Sampler  //  Výzkum nukleových kyselin. - 2007. - 1. července ( vol. 35 , iss. Web Server issue ). —P.W232–237 . _ — ISSN 1362-4962 . - doi : 10,1093/nar/gkm265 .
  57. Carvalho AM, Freitas AT, Oliveira AL, Sagot MF Účinný algoritmus pro identifikaci strukturovaných motivů v promotorových sekvencích DNA  //  IEEE/ACM Transactions on Computational Biology and Bioinformatics. - 2006. - 1. dubna ( vol. 3 , iss. 2 ). — S. 126–140 . — ISSN 1545-5963 . - doi : 10.1109/TCBB.2006.16 . Archivováno z originálu 8. září 2017.
  58. Dinh Hieu, Rajasekaran Sanguthevar, Davila Jaime. qPMS7: Rychlý algoritmus pro hledání (ℓ, d)-motivů v DNA a proteinových sekvencích  (anglicky)  // PLOS ONE. - 2012. - 24. července ( díl 7 , výr. 7 ). — ISSN 1932-6203 . - doi : 10.1371/journal.pone.0041425 . Archivováno z originálu 15. června 2022.
  59. Johnson David S., Mortazavi Ali, Myers Richard M., Wold Barbara. Celogenomové mapování interakcí protein-DNA in vivo  (anglicky)  // Science (New York, NY). - 2007. - 8. června ( sv. 316 , vyd. 5830 ). — S. 1497–1502 . — ISSN 1095-9203 . - doi : 10.1126/science.1141319 . Archivováno z originálu 24. dubna 2017.
  60. Rhee Ho Sung, Pugh B. Franklin. Komplexní interakce protein-DNA v celém genomu detekované při rozlišení jednoho nukleotidu   // Buňka . - 2011. - 9. prosince ( roč. 147 , ses. 6 ). - S. 1408-1419 . — ISSN 1097-4172 . - doi : 10.1016/j.cell.2011.11.013 . Archivováno z originálu 24. dubna 2017.
  61. Tuerk C., Gold L. Systematický vývoj ligandů exponenciálním obohacováním: RNA ligandy k bakteriofágové T4 DNA polymeráze // Science  (  New York, NY). - 1990. - 3. srpna ( sv. 249 , vyd. 4968 ). - S. 505-510 . — ISSN 0036-8075 . Archivováno z originálu 24. dubna 2017.
  62. Greil Frauke, Moorman Celine, van Steensel Bas. DamID: mapování in vivo interakcí protein-genom pomocí tethered DNA adenin methyltransferase  //  Methods in Enzymology. - 2006. - 1. ledna ( sv. 410 ). — S. 342–359 . — ISSN 0076-6879 . - doi : 10.1016/S0076-6879(06)10016-6 . Archivováno z originálu 24. dubna 2017.

Literatura

  • Durbin R, Eddie S, Krogh A, Mitchison G. Biologická sekvenční analýza: Pravděpodobnostní modely proteinů a nukleových kyselin. - Regular and Chaotic Dynamics, Institute for Computer Research, 2006. - S. 480. - ISBN 5939725597 .
  • Jones Neil C., Pevzner Pavel A. Úvod do bioinformatických algoritmů  . - The MIT Press, 2004. - ISBN 9780262101066 .
  • Compeau Phillip, Pevzner Pavel. Bioinformatické algoritmy: přístup k aktivnímu učení, 2. vydání. sv. 1 od Phillipa Compeaua  . - Active Learning Publishers, 2015. - S. 384. - ISBN 9780990374619 .
  • Durbin Richard, Eddy Sean R., Krogh Anders, Mitchison Graeme. Biologická sekvenční analýza: Pravděpodobnostní modely proteinů a nukleových  kyselin . - Cambridge University Press, 1998. - S. 372. - ISBN 978-0521620413 .
  • Nelson David L., Cox Michael M. Lehninger Principles of Biochemistry  (anglicky) . - W.H. Freeman, 2017. - S. 1328. - ISBN 9781464126116 .

Odkazy

Videokurzy na toto téma

Služby vyhledávání motivů

  • MEME Suite nástrojů pro sekvenční analýzu založenou  na motivech – služba pro vyhledávání motivů v sekvencích pomocí stejnojmenného algoritmu MEME
  • Gibbs Motif Sampler  je služba pro vyhledávání motivů v sekvencích pomocí algoritmu Gibbs Sampler
  • Nástroj  pro vyhledávání motivů RISOTTO - hlavní stránka programu pro přesné vyhledávání motivů RISOTTO
  • PMS  - přesné hledání motivů pomocí algoritmů rodiny PMS
  • Bioprospector  - hledání motivů v sekvencích pomocí algoritmu Gibbs Sampler
  • XXmotif  je služba pro vyhledávání motivů v nukleotidových sekvencích na základě přímé optimalizace statistické významnosti PWM

Databáze motivů

Různé