Předpověď funkce proteinu

Predikce funkce proteinu - určování biologické role proteinu a významu v kontextu buňky . Predikce funkce se provádí pro špatně pochopené proteiny nebo pro hypotetické proteiny predikované z dat genomové sekvence. Zdrojem informací pro predikci může být homologie nukleotidových sekvencí, profily genové exprese , doménová struktura proteinů, intelektuální analýza textů publikací, fylogenetické a fenotypové profily, interakce protein-protein .

Funkce proteinu je velmi široký pojem: role proteinů sahají od katalýzy biochemických reakcí po přenos signálu a buněčný transport a jeden protein může hrát specifickou roli v několika buněčných procesech [1] .

Obecně lze funkci chápat jako „vše, co se děje s proteinem nebo s jeho pomocí“. Projekt genové ontologie navrhl užitečnou klasifikaci funkcí založenou na seznamu (slovní zásobě) dobře definovaných termínů rozdělených do tří hlavních kategorií – molekulární funkce , biologické procesy a buněčné složky [2] . Z této databáze je možné podle názvu proteinu nebo jeho identifikačního čísla najít k němu přiřazené termíny „genové ontologie“ nebo anotace provedené na základě vypočítaných nebo experimentálních dat.

Navzdory skutečnosti, že se dnes k experimentálnímu prokázání funkcí proteinu používají takové moderní metody jako microarray analýza , interference RNA a dvouhybridní analýza , sekvenační technologie pokročily natolik, že tempo experimentální charakterizace otevřených proteinů výrazně zaostává za tempem. objevu nových sekvencí [3] . Proto bude anotace nových proteinových sekvencí prováděna především predikcí založenou na výpočetních metodách, neboť tímto způsobem je možné charakterizovat sekvence mnohem rychleji a současně pro více genů /proteinů. První techniky predikce vlastností byly založeny na podobnosti homologních proteinů se známými vlastnostmi (tzv. predikce vlastností založená na homologii ). Další vývoj metod vedl ke vzniku predikcí založených na genomickém kontextu a na struktuře molekuly proteinu , což umožnilo rozšířit spektrum získaných dat a kombinovat metody založené na různých typech dat k získání co nejúplnější obrázek o úloze proteinu [3] . Hodnotu a výkon výpočetní predikce funkce genu zdůrazňuje skutečnost, že k roku 2010 bylo 98 % anotací genové ontologie vytvořeno na základě automatické extrakce z jiných anotačních databází a pouze 0,6 % na základě experimentálních dat [4] .

Metody predikce funkce proteinu

Metody založené na homologii

Proteiny s podobnými sekvencemi jsou obvykle homologní [5] , a proto mají podobnou funkci. Proto jsou v nedávno sekvenovaných genomech proteiny obvykle anotovány analogicky se sekvencemi podobných proteinů z jiných genomů. Avšak blízce příbuzné proteiny neplní vždy stejnou funkci [6] , například kvasinkové proteiny Gal1 a Gal3 jsou paralogy se 73% a 92% podobností, které během evoluce získaly velmi odlišné funkce : například Gal1 je galaktokináza a Gal3 je transkripce induktoru [7] . Bohužel neexistuje žádný jasný práh pro míru sekvenční podobnosti pro bezpečné předpovídání znaků; mnoho proteinů se stejnou funkcí má jemné podobnosti, zatímco existují ty, které jsou velmi podobné v sekvenci, ale zcela odlišné ve funkci.

Metody založené na sekvenčních motivech

Rozvoj databází proteinových domén, jako je Pfam [8] , umožňuje najít již známé domény v požadované sekvenci za účelem navržení možných funkcí. Zdroj dcGO [9] obsahuje anotace jak pro jednotlivé domény, tak pro supra-domény (tj. kombinace dvou nebo více po sobě jdoucích domén), díky čemuž se předpověď přibližuje realitě. V rámci samotných proteinových domén také existují kratší charakteristické sekvence spojené s určitými funkcemi (tzv. motivy ) [10] , jejichž přítomnost v požadovaném proteinu lze určit prohledáváním databází motivů, jako je PROSITE [11] . Motivy lze také použít k predikci intracelulární lokalizace proteinu: přítomnost specifických krátkých signálních peptidů určuje, do kterých organel bude protein po syntéze transportován, a bylo vyvinuto mnoho zdrojů pro identifikaci takových signálních sekvencí [12] , jako např. SignalP, který byl v průběhu let několikrát aktualizován vývoj metod [13] . Některé rysy funkce proteinu lze tedy předpovědět bez srovnání s homologními sekvencemi v plné délce.

Metody založené na struktuře proteinů

Protože 3D struktura proteinu je obvykle konzervovanější než proteinová sekvence, podobnost struktur může naznačovat podobnost a funkci proteinů. Bylo vyvinuto mnoho programů pro hledání podobných záhybů v Protein Data Bank [14] , například FATCAT [15] , CE [16] , DeepAlign [17] . V případě, že pro požadovanou proteinovou sekvenci neexistuje vyřešená struktura, je nejprve sestaven pravděpodobný trojrozměrný model sekvence, na jehož základě je následně predikována funkce proteinu; takto funguje například server predikce proteinových funkcí RaptorX. V mnoha případech se místo struktury celého proteinu prohledává struktury jednotlivých motivů obsahujících například vazebné místo ligandu nebo aktivní místo enzymu . Pro anotaci posledně jmenovaných v nových proteinových sekvencích byla vyvinuta databáze Catalytic Site Atlas [18] .

Metody založené na genomickém kontextu

Mnoho z nedávných předpovědních metod není založeno na srovnání sekvencí nebo struktur, jak bylo popsáno dříve, ale na korelaci mezi novými geny/proteiny a těmi, které již byly anotovány: pro každý gen je sestaven fylogenetický profil (přítomností nebo nepřítomností v různých genomech). , které jsou následně porovnány pro stanovení funkčních vztahů (předpokládá se, že geny se stejnými profily jsou spolu funkčně příbuzné) [19] . Zatímco metody založené na homologii se často používají ke stanovení molekulárních funkcí, předpověď založená na genomovém kontextu může být použita k navržení biologického procesu, ve kterém je protein zapojen. Například proteiny zapojené do stejné signální transdukční dráhy sdílejí společný genomický kontext napříč druhy.

Fúze genů

Když se dva (nebo více) genů kódujících různé proteiny v jednom organismu během evoluce spojí do jednoho genu v jiném organismu, říkají, že došlo k fúzi genů (respektive v opačném procesu k oddělení genů) [20] . Tento fenomén byl využit při hledání homologů pro všechny proteinové sekvence E. coli , kdy bylo zjištěno, že více než 6000 párů nehomologních sekvencí E. coli sdílí homologii s jednotlivými geny v jiných genomech, což ukazuje na potenciální interakci mezi proteiny v každém z nich. z párů, což nelze předpovědět pouze z homologie.

Kolokalizace/koexprese

U prokaryot jsou v procesu evoluce často zachovány shluky genů blízko sebe, které zpravidla kódují proteiny, které se vzájemně ovlivňují nebo jsou součástí stejného operonu. K predikci funkční podobnosti mezi proteiny, alespoň u prokaryot, lze tedy použít blízkost genů na chromozomu (metoda založená na blízkosti genů) [21] . Také v některých eukaryotických genomech, včetně Homo sapiens , bylo pro určité biologické dráhy zaznamenáno blízké umístění genů v nich obsažených [22] , což s rozvojem technik může být užitečné při studiu interakcí proteinů u eukaryot.

Geny zapojené do stejných procesů jsou také často společně transkribovány, takže koexprese se známými proteiny může naznačovat podobnou funkci neanotovaného proteinu. Na základě této skutečnosti jsou vyvíjeny tzv. algoritmy „viny asociací“ ,  které se používají k analýze velkého množství sekvenčních dat a identifikaci neznámých proteinů na základě podobnosti s expresními vzory již známých genů [23] [24] . Studie o vině spoluviny často porovnávají skupinu kandidátských genů s neznámou funkcí s cílovou skupinou (např. geny silně spojené s konkrétním onemocněním) a na základě shromážděných dat (např. koexprese genů, interakce protein-protein nebo fylogenetické profily ) klasifikovat kandidátní geny podle stupně jejich podobnosti s cílovou skupinou. Například, protože mnoho proteinů je multifunkčních, geny, které je kódují, mohou patřit k několika cílovým skupinám současně, proto budou takové geny častěji detekovány ve studiích „viny spoluúčastí“ a takové předpovědi nejsou specifické.

S akumulací dat o sekvenování RNA , která lze použít k vyhodnocení profilů exprese izoforem proteinů získaných alternativním sestřihem , byly vyvinuty algoritmy strojového učení k predikci funkcí na úrovni izoforem [25] .

Computational solvent topography

Jedním z problémů spojených s predikcí funkce proteinu je detekce aktivního místa, komplikovaná tím, že některá aktivní místa se nevytvoří, dokud protein neprojde konformační změnou způsobenou vazbou malých molekul, jako jsou molekuly rozpouštědla. Většina proteinových struktur byla získána rentgenovou difrakční analýzou , která vyžaduje čisté proteinové krystaly, v důsledku čehož nelze konformační změny nutné pro tvorbu aktivních míst vysledovat v existujících trojrozměrných modelech proteinů. Výpočetní rozpouštědlová topografie využívá tzv. sondy (malé organické molekuly ), které se v procesu počítačové simulace „pohybují“ po povrchu proteinu při hledání potenciálních vazebných míst a následném shlukování. Zpravidla se používá několik různých sond, aby se získalo co nejvíce různých konformačních struktur proteinových sond. Výsledné struktury jsou hodnoceny průměrnou volnou energií. Po vícenásobných simulacích s různými sondami je místo, kde se tvoří největší počet shluků, identifikováno s aktivním místem proteinu [27] .

Tato metoda je počítačovou adaptací mokré metody z článku z roku 1996. Při superponování proteinových struktur získaných rozpouštěním v různých organických rozpouštědlech bylo zjištěno, že molekuly rozpouštědla se nejčastěji hromadí v aktivním centru proteinu. Tato práce byla provedena za účelem odstranění zbývajících molekul vody, které se objevují v mapách elektronové hustoty získaných rentgenovou difrakcí: při interakci s proteinem mají tendenci se hromadit v polárních oblastech proteinu. To vedlo k myšlence promýt vyčištěný proteinový krystal v různých rozpouštědlech (jako je ethanol , isopropanol ), aby se zjistilo, kde se molekuly rozpouštědla shlukují. Rozpouštědla mohou být vybrána na základě toho, se kterými molekulami může protein interagovat (například volba ethanolu jako sondy může identifikovat interakci proteinu se serinem , volba isopropanolu s threoninem atd.). Je velmi důležité, aby si proteinový krystal zachoval svou terciární strukturu v každém rozpouštědle. Po promývání několika rozpouštědly se získají údaje, na základě kterých lze předpokládat potenciální aktivní místa proteinu [28] .

Poznámky

  1. Rost B. , Liu J. , Nair R. , Wrzeszczynski K.O. , Ofran Y. Automatická předpověď funkce proteinu.  (anglicky)  // Buněčné a molekulární biologické vědy: CMLS. - 2003. - Sv. 60, č. 12 . - S. 2637-2650. - doi : 10.1007/s00018-003-3114-8 . — PMID 14685688 .
  2. Ashburner M. , Ball CA , Blake JA , Botstein D. , Butler H. , Cherry JM , Davis AP , Dolinski K. , Dwight SS , Eppig JT , Harris MA , Hill DP , Issel-Tarver L. , Kasarskis A. , Lewis S. , Matese JC , Richardson JE , Ringwald M. , Rubin GM , Sherlock G. Genová ontologie: nástroj pro sjednocení biologie. Konsorcium genové ontologie.  (anglicky)  // Genetika přírody. - 2000. - Sv. 25, č. 1 . - S. 25-29. - doi : 10.1038/75556 . — PMID 10802651 .
  3. 1 2 Gabaldón T. , Huynen MA Predikce funkce proteinů a drah v éře genomu.  (anglicky)  // Buněčné a molekulární biologické vědy: CMLS. - 2004. - Sv. 61, č.p. 7-8 . - S. 930-944. - doi : 10.1007/s00018-003-3387-y . — PMID 15095013 .
  4. du Plessis L. , Skunca N. , Dessimoz C. Co, kde, jak a proč genové ontologie – základ pro bioinformatiky.  (anglicky)  // Briefings in bioinformatics. - 2011. - Sv. 12, č. 6 . - S. 723-735. doi : 10.1093 / bib/bbr002 . — PMID 21330331 .
  5. Reeck GR , de Haën C. , Teller DC , Doolittle RF , Fitch WM , Dickerson RE , Chambon P. , McLachlan AD , Margoliash E. , Jukes TH „Homologie“ v proteinech a nukleových kyselinách: terminologický zmatek a východisko toho.  (anglicky)  // Cell. - 1987. - Sv. 50, č. 5 . - S. 667. - PMID 3621342 .
  6. Whisstock JC , Lesk AM Predikce funkce proteinu z proteinové sekvence a struktury.  (anglicky)  // Čtvrtletní přehledy biofyziky. - 2003. - Sv. 36, č. 3 . - S. 307-340. — PMID 15029827 .
  7. Platt A. , Ross HC , Hankin S. , Reece RJ Inzerce dvou aminokyselin do induktoru transkripce jej přemění na galaktokinázu.  (anglicky)  // Proceedings of the National Academy of Sciences of the United States of America. - 2000. - Sv. 97, č.p. 7 . - S. 3154-3159. — PMID 10737789 .
  8. Finn RD , Mistry J. , Tate J. , Coggill P. , Heger A. , Pollington JE , Gavin OL , Gunasekaran P. , Ceric G. , Forslund K. , Holm L. , Sonnhammer EL , Eddy SR , Bateman A Databáze rodin proteinů Pfam.  (anglicky)  // Výzkum nukleových kyselin. - 2010. - Sv. 38.-P. D211-222. doi : 10.1093 / nar/gkp985 . — PMID 19920124 .
  9. Fang H. , Gough J. DcGO: databáze doménově orientovaných ontologií funkcí, fenotypů, nemocí a dalších.  (anglicky)  // Výzkum nukleových kyselin. - 2013. - Sv. 41.-P. D536-544. - doi : 10.1093/nar/gks1080 . — PMID 23161684 .
  10. Sleator RD , Walsh P. Přehled predikce in silico proteinové funkce.  (anglicky)  // Archives of microbiology. - 2010. - Sv. 192, č.p. 3 . - S. 151-155. - doi : 10.1007/s00203-010-0549-9 . — PMID 20127480 .
  11. Sigrist CJ , Cerutti L. , de Castro E. , Langendijk-Genevaux PS , Bulliard V. , Bairoch A. , Hulo N. PROSITE, databáze proteinových domén pro funkční charakterizaci a anotaci.  (anglicky)  // Výzkum nukleových kyselin. - 2010. - Sv. 38.-P. D161-166. doi : 10.1093 / nar/gkp885 . — PMID 19858104 .
  12. Menne KM , Hermjakob H. , Apweiler R. Srovnání metod predikce signální sekvence pomocí testovací sady signálních peptidů.  (anglicky)  // Bioinformatika. - 2000. - Sv. 16, č. 8 . - S. 741-742. — PMID 11099261 .
  13. Petersen TN , Brunak S. , von Heijne G. , Nielsen H. SignalP 4.0: diskriminační signální peptidy z transmembránových oblastí.  (anglicky)  // Přírodní metody. - 2011. - Sv. 8, č. 10 . - S. 785-786. - doi : 10.1038/nmeth.1701 . — PMID 21959131 .
  14. Berman HM , Westbrook J. , Feng Z. , Gilliland G. , Bhat TN , Weissig H. , Shindyalov IN , Bourne PE The Protein Data Bank.  (anglicky)  // Výzkum nukleových kyselin. - 2000. - Sv. 28, č. 1 . - S. 235-242. — PMID 10592235 .
  15. Ye Y. , Godzik A. FATCAT: webový server pro flexibilní porovnání struktur a vyhledávání podobnosti struktur.  (anglicky)  // Výzkum nukleových kyselin. - 2004. - Sv. 32. - S. 582-585. doi : 10.1093 / nar/gkh430 . — PMID 15215455 .
  16. Shindyalov IN , Bourne PE Zarovnání proteinové struktury inkrementálním kombinatorickým prodloužením (CE) optimální cesty.  (anglicky)  // Proteinové inženýrství. - 1998. - Sv. 11, č. 9 . - S. 739-747. — PMID 9796821 .
  17. Wang S. , Ma J. , Peng J. , Xu J. Zarovnání proteinové struktury za prostorovou blízkostí.  (anglicky)  // Vědecké zprávy. - 2013. - Sv. 3. - S. 1448. - doi : 10.1038/srep01448 . — PMID 23486213 .
  18. Porter CT , Bartlett GJ , Thornton JM The Catalytic Site Atlas: zdroj katalytických míst a zbytků identifikovaných v enzymech pomocí strukturních dat.  (anglicky)  // Výzkum nukleových kyselin. - 2004. - Sv. 32.—P. D129–133. - doi : 10.1093/nar/gkh028 . — PMID 14681376 .
  19. Eisenberg D. , Marcotte EM , Xenarios I. , Yeates TO Funkce proteinu v postgenomické éře.  (anglicky)  // Nature. - 2000. - Sv. 405, č.p. 6788 . - S. 823-826. - doi : 10.1038/35015694 . — PMID 10866208 .
  20. Marcotte EM , Pellegrini M. , Ng HL , Rice DW , Yeates TO , Eisenberg D. Detekce funkce proteinu a interakcí protein-protein ze sekvencí genomu.  (anglicky)  // Věda (New York, NY). - 1999. - Sv. 285, č.p. 5428 . - S. 751-753. — PMID 10427000 .
  21. Overbeek R. , Fonstein M. , D'Souza M. , Pusch GD , Maltsev N. Použití genových shluků k odvození funkčního spojení.  (anglicky)  // Proceedings of the National Academy of Sciences of the United States of America. - 1999. - Sv. 96, č.p. 6 . - S. 2896-2901. — PMID 10077608 .
  22. Lee JM , Sonnhammer EL Analýza shlukování genomu v eukaryotech.  (anglicky)  // Genome research. - 2003. - Sv. 13, č. 5 . - S. 875-882. - doi : 10.1101/gr.737703 . — PMID 12695325 .
  23. Walker MG , Volkmuth W. , Sprinzak E. , Hodgson D. , Klingler T. Predikce funkce genu analýzou exprese na úrovni genomu: geny spojené s rakovinou prostaty.  (anglicky)  // Genome research. - 1999. - Sv. 9, č. 12 . - S. 1198-1203. — PMID 10613842 .
  24. Klomp JA , Furge KA Genomové přiřazování genů k buněčným rolím pomocí modelů viny-by-asociací odvozených z analýzy jednoho vzorku.  (anglicky)  // Výzkumné poznámky BMC. - 2012. - Sv. 5. - S. 370. - doi : 10.1186/1756-0500-5-370 . — PMID 22824328 .
  25. Eksi R., Li Hong-Dong, Menon R., Wen Yuchen, Omenn G. S., Kretzler M., Guan Yuanfang.  Systematické rozlišování funkcí pro alternativně spojené izoformy prostřednictvím integrace dat RNA-seq  // PLOS Computational Biology . - 2013. - Sv. 9, č. 11. - P. e1003314. - doi : 10.1371/journal.pcbi.1003314 . — PMID 24244129 .
  26. Wang G. , MacRaild CA , Mohanty B. , Mobli M. , Cowieson NP , Anders RF , Simpson JS , McGowan S. , Norton RS , Scanlon MJ Molekulární pohledy na interakci mezi apikálním membránovým antigenem Plasmodium falciparum 1 a apikálním membránovým antigenem 1 inhibiční peptid.  (anglicky)  // Public Library of Science ONE. - 2014. - Sv. 9, č. 10 . — P. e109674. - doi : 10.1371/journal.pone.0109674 . — PMID 25343578 .
  27. Clodfelter KH , Waxman DJ , Vajda S. Výpočtové mapování rozpouštědel odhaluje důležitost lokálních konformačních změn pro širokou substrátovou specifitu v savčích cytochromech P450.  (anglicky)  // Biochemie. - 2006. - Sv. 45, č.p. 31 . - S. 9393-9407. doi : 10.1021 / bi060343v . — PMID 16878974 .
  28. Mattos C. , Ringe D. Lokalizace a charakterizace vazebných míst na proteinech.  (anglicky)  // Přírodní biotechnologie. - 1996. - Sv. 14, č. 5 . - S. 595-599. - doi : 10.1038/nbt0596-595 . — PMID 9630949 .

Odkazy