Predikce funkce proteinu - určování biologické role proteinu a významu v kontextu buňky . Predikce funkce se provádí pro špatně pochopené proteiny nebo pro hypotetické proteiny predikované z dat genomové sekvence. Zdrojem informací pro predikci může být homologie nukleotidových sekvencí, profily genové exprese , doménová struktura proteinů, intelektuální analýza textů publikací, fylogenetické a fenotypové profily, interakce protein-protein .
Funkce proteinu je velmi široký pojem: role proteinů sahají od katalýzy biochemických reakcí po přenos signálu a buněčný transport a jeden protein může hrát specifickou roli v několika buněčných procesech [1] .
Obecně lze funkci chápat jako „vše, co se děje s proteinem nebo s jeho pomocí“. Projekt genové ontologie navrhl užitečnou klasifikaci funkcí založenou na seznamu (slovní zásobě) dobře definovaných termínů rozdělených do tří hlavních kategorií – molekulární funkce , biologické procesy a buněčné složky [2] . Z této databáze je možné podle názvu proteinu nebo jeho identifikačního čísla najít k němu přiřazené termíny „genové ontologie“ nebo anotace provedené na základě vypočítaných nebo experimentálních dat.
Navzdory skutečnosti, že se dnes k experimentálnímu prokázání funkcí proteinu používají takové moderní metody jako microarray analýza , interference RNA a dvouhybridní analýza , sekvenační technologie pokročily natolik, že tempo experimentální charakterizace otevřených proteinů výrazně zaostává za tempem. objevu nových sekvencí [3] . Proto bude anotace nových proteinových sekvencí prováděna především predikcí založenou na výpočetních metodách, neboť tímto způsobem je možné charakterizovat sekvence mnohem rychleji a současně pro více genů /proteinů. První techniky predikce vlastností byly založeny na podobnosti homologních proteinů se známými vlastnostmi (tzv. predikce vlastností založená na homologii ). Další vývoj metod vedl ke vzniku predikcí založených na genomickém kontextu a na struktuře molekuly proteinu , což umožnilo rozšířit spektrum získaných dat a kombinovat metody založené na různých typech dat k získání co nejúplnější obrázek o úloze proteinu [3] . Hodnotu a výkon výpočetní predikce funkce genu zdůrazňuje skutečnost, že k roku 2010 bylo 98 % anotací genové ontologie vytvořeno na základě automatické extrakce z jiných anotačních databází a pouze 0,6 % na základě experimentálních dat [4] .
Proteiny s podobnými sekvencemi jsou obvykle homologní [5] , a proto mají podobnou funkci. Proto jsou v nedávno sekvenovaných genomech proteiny obvykle anotovány analogicky se sekvencemi podobných proteinů z jiných genomů. Avšak blízce příbuzné proteiny neplní vždy stejnou funkci [6] , například kvasinkové proteiny Gal1 a Gal3 jsou paralogy se 73% a 92% podobností, které během evoluce získaly velmi odlišné funkce : například Gal1 je galaktokináza a Gal3 je transkripce induktoru [7] . Bohužel neexistuje žádný jasný práh pro míru sekvenční podobnosti pro bezpečné předpovídání znaků; mnoho proteinů se stejnou funkcí má jemné podobnosti, zatímco existují ty, které jsou velmi podobné v sekvenci, ale zcela odlišné ve funkci.
Rozvoj databází proteinových domén, jako je Pfam [8] , umožňuje najít již známé domény v požadované sekvenci za účelem navržení možných funkcí. Zdroj dcGO [9] obsahuje anotace jak pro jednotlivé domény, tak pro supra-domény (tj. kombinace dvou nebo více po sobě jdoucích domén), díky čemuž se předpověď přibližuje realitě. V rámci samotných proteinových domén také existují kratší charakteristické sekvence spojené s určitými funkcemi (tzv. motivy ) [10] , jejichž přítomnost v požadovaném proteinu lze určit prohledáváním databází motivů, jako je PROSITE [11] . Motivy lze také použít k predikci intracelulární lokalizace proteinu: přítomnost specifických krátkých signálních peptidů určuje, do kterých organel bude protein po syntéze transportován, a bylo vyvinuto mnoho zdrojů pro identifikaci takových signálních sekvencí [12] , jako např. SignalP, který byl v průběhu let několikrát aktualizován vývoj metod [13] . Některé rysy funkce proteinu lze tedy předpovědět bez srovnání s homologními sekvencemi v plné délce.
Protože 3D struktura proteinu je obvykle konzervovanější než proteinová sekvence, podobnost struktur může naznačovat podobnost a funkci proteinů. Bylo vyvinuto mnoho programů pro hledání podobných záhybů v Protein Data Bank [14] , například FATCAT [15] , CE [16] , DeepAlign [17] . V případě, že pro požadovanou proteinovou sekvenci neexistuje vyřešená struktura, je nejprve sestaven pravděpodobný trojrozměrný model sekvence, na jehož základě je následně predikována funkce proteinu; takto funguje například server predikce proteinových funkcí RaptorX. V mnoha případech se místo struktury celého proteinu prohledává struktury jednotlivých motivů obsahujících například vazebné místo ligandu nebo aktivní místo enzymu . Pro anotaci posledně jmenovaných v nových proteinových sekvencích byla vyvinuta databáze Catalytic Site Atlas [18] .
Mnoho z nedávných předpovědních metod není založeno na srovnání sekvencí nebo struktur, jak bylo popsáno dříve, ale na korelaci mezi novými geny/proteiny a těmi, které již byly anotovány: pro každý gen je sestaven fylogenetický profil (přítomností nebo nepřítomností v různých genomech). , které jsou následně porovnány pro stanovení funkčních vztahů (předpokládá se, že geny se stejnými profily jsou spolu funkčně příbuzné) [19] . Zatímco metody založené na homologii se často používají ke stanovení molekulárních funkcí, předpověď založená na genomovém kontextu může být použita k navržení biologického procesu, ve kterém je protein zapojen. Například proteiny zapojené do stejné signální transdukční dráhy sdílejí společný genomický kontext napříč druhy.
Fúze genůKdyž se dva (nebo více) genů kódujících různé proteiny v jednom organismu během evoluce spojí do jednoho genu v jiném organismu, říkají, že došlo k fúzi genů (respektive v opačném procesu k oddělení genů) [20] . Tento fenomén byl využit při hledání homologů pro všechny proteinové sekvence E. coli , kdy bylo zjištěno, že více než 6000 párů nehomologních sekvencí E. coli sdílí homologii s jednotlivými geny v jiných genomech, což ukazuje na potenciální interakci mezi proteiny v každém z nich. z párů, což nelze předpovědět pouze z homologie.
Kolokalizace/koexpreseU prokaryot jsou v procesu evoluce často zachovány shluky genů blízko sebe, které zpravidla kódují proteiny, které se vzájemně ovlivňují nebo jsou součástí stejného operonu. K predikci funkční podobnosti mezi proteiny, alespoň u prokaryot, lze tedy použít blízkost genů na chromozomu (metoda založená na blízkosti genů) [21] . Také v některých eukaryotických genomech, včetně Homo sapiens , bylo pro určité biologické dráhy zaznamenáno blízké umístění genů v nich obsažených [22] , což s rozvojem technik může být užitečné při studiu interakcí proteinů u eukaryot.
Geny zapojené do stejných procesů jsou také často společně transkribovány, takže koexprese se známými proteiny může naznačovat podobnou funkci neanotovaného proteinu. Na základě této skutečnosti jsou vyvíjeny tzv. algoritmy „viny asociací“ , které se používají k analýze velkého množství sekvenčních dat a identifikaci neznámých proteinů na základě podobnosti s expresními vzory již známých genů [23] [24] . Studie o vině spoluviny často porovnávají skupinu kandidátských genů s neznámou funkcí s cílovou skupinou (např. geny silně spojené s konkrétním onemocněním) a na základě shromážděných dat (např. koexprese genů, interakce protein-protein nebo fylogenetické profily ) klasifikovat kandidátní geny podle stupně jejich podobnosti s cílovou skupinou. Například, protože mnoho proteinů je multifunkčních, geny, které je kódují, mohou patřit k několika cílovým skupinám současně, proto budou takové geny častěji detekovány ve studiích „viny spoluúčastí“ a takové předpovědi nejsou specifické.
S akumulací dat o sekvenování RNA , která lze použít k vyhodnocení profilů exprese izoforem proteinů získaných alternativním sestřihem , byly vyvinuty algoritmy strojového učení k predikci funkcí na úrovni izoforem [25] .
Jedním z problémů spojených s predikcí funkce proteinu je detekce aktivního místa, komplikovaná tím, že některá aktivní místa se nevytvoří, dokud protein neprojde konformační změnou způsobenou vazbou malých molekul, jako jsou molekuly rozpouštědla. Většina proteinových struktur byla získána rentgenovou difrakční analýzou , která vyžaduje čisté proteinové krystaly, v důsledku čehož nelze konformační změny nutné pro tvorbu aktivních míst vysledovat v existujících trojrozměrných modelech proteinů. Výpočetní rozpouštědlová topografie využívá tzv. sondy (malé organické molekuly ), které se v procesu počítačové simulace „pohybují“ po povrchu proteinu při hledání potenciálních vazebných míst a následném shlukování. Zpravidla se používá několik různých sond, aby se získalo co nejvíce různých konformačních struktur proteinových sond. Výsledné struktury jsou hodnoceny průměrnou volnou energií. Po vícenásobných simulacích s různými sondami je místo, kde se tvoří největší počet shluků, identifikováno s aktivním místem proteinu [27] .
Tato metoda je počítačovou adaptací mokré metody z článku z roku 1996. Při superponování proteinových struktur získaných rozpouštěním v různých organických rozpouštědlech bylo zjištěno, že molekuly rozpouštědla se nejčastěji hromadí v aktivním centru proteinu. Tato práce byla provedena za účelem odstranění zbývajících molekul vody, které se objevují v mapách elektronové hustoty získaných rentgenovou difrakcí: při interakci s proteinem mají tendenci se hromadit v polárních oblastech proteinu. To vedlo k myšlence promýt vyčištěný proteinový krystal v různých rozpouštědlech (jako je ethanol , isopropanol ), aby se zjistilo, kde se molekuly rozpouštědla shlukují. Rozpouštědla mohou být vybrána na základě toho, se kterými molekulami může protein interagovat (například volba ethanolu jako sondy může identifikovat interakci proteinu se serinem , volba isopropanolu s threoninem atd.). Je velmi důležité, aby si proteinový krystal zachoval svou terciární strukturu v každém rozpouštědle. Po promývání několika rozpouštědly se získají údaje, na základě kterých lze předpokládat potenciální aktivní místa proteinu [28] .