TĚTIVA | |
---|---|
Obsah | |
Popis | Bioinformatický zdroj o známých a předpokládaných interakcích protein-protein |
organismy | Všechno |
Kontakty | |
Laboratoř | KPR , EMBL , KU , SIB , TUD , UZH |
Datum vydání | 2000 |
Dostupnost | |
webová stránka | TĚTIVA |
jiný | |
Verze | 10.5 (2017) |
STRING (zkratka Search Tool for the Retrieval of Interacting Genes/Proteins ) je databáze a webový zdroj pro vyhledávání informací o známých a předpokládaných interakcích protein-protein [1] [2] [3] [4] [5 ] [6] [7] [8] .
STRING shrnuje informace z různých zdrojů: experimentální data, literární data a de novo předpovědi . Verze 10 obsahuje informace o interakcích 9 643 763 proteinů v 2031 druzích organismů, od bakterií a archeí po lidi. Databáze je pravidelně aktualizována a je k dispozici ke stažení zdarma [1] .
STRING je vyvinut konsorciem evropských univerzit CPR, EMBL , KU , SIB, TUD a UZH .
V STRING je základní jednotkou funkční vztah , tzn. specifický a biologicky významný funkční vztah mezi dvěma proteiny [3] .
Pro každý funkční vztah STRING vypočítá skóre spolehlivosti integrující různé typy důkazů pro tento vztah (experimentální data, literární údaje a de novo předpovědi založené na ortologii k experimentálně studovaným proteinům, jakož i na základě srovnávací analýzy genomického kontextu [ 9] ). Takový integrovaný přístup má následující výhody [6] :
Při výpočtu hodnocení spolehlivosti funkčního vztahu jsou různé typy důkazů pro tento vztah považovány za nezávislé a skóre se vypočítává podle následujícího vzorce [6] :
kde je příspěvek jednoho typu důkazu.
STRING neobsahuje informace o mechanismu interakcí protein-protein, ani o tom, v jaké době buněčného cyklu může tato interakce probíhat, jak závisí na vnějších podmínkách a jak je tkáňově specifická. Naproti tomu STRING obsahuje informace o všech možných interakcích protein-protein v daném organismu, včetně informací předpovězených s určitou jistotou, díky čemuž je STRING nejkomplexnější zdroj o interakcích protein-protein, který je dnes k dispozici, a je zvláště užitečný pro hledání informací o proteinech, které byly experimentálně studovány [4] .
STRING integruje informace o proteinových interakcích ve strukturních komplexech a metabolických drahách vypůjčených z BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, GO , HPRD, IntAct, KEGG , MINT, NCI-Nature Pathway Interaction Database, PDB , Reactome, TISSUES [ 1] [3] .
STRING extrahuje informace o proteinových interakcích z fulltextových článků z databází PubMed , SGD, OMIM, FlyBase a z abstraktů článků z databáze MEDLINE . K tomu se v textech automaticky vyhledávají statisticky významné společné zmínky o názvech genů a jejich synonymech (údaje o synonymech jsou převzaty ze Swiss-Prot) pomocí zpracování přirozeného jazyka . Pro zvýšení přesnosti byl vyvinut systém hodnocení, který zohledňuje společné uvádění jmen genů ve větách, odstavcích a plných textech článků [2] .
Cílem STRING je doplnit funkční anotaci nově sekvenovaných genomů de novo predikcemi funkčních vztahů na základě ortologie k experimentálně studovaným proteinům a také na základě srovnávací analýzy genomického kontextu [9] . STRING také poskytuje vlastní hodnocení experimentálně studovaných funkčních vztahů a doplňuje o nich informace.
Import plně sekvenovaných genomů
Počínaje verzí 9 (2011) importuje STRING plně sekvenované genomy pro analýzu, dostupné v databázích RefSeq a Ensembl a také na specializovaných stránkách [3] . Importované genomy jsou předem ručně zkontrolovány z hlediska úplnosti a redundance. STRING neuchovává informace o různých izoformách proteinu, které jsou výsledkem alternativního sestřihu nebo posttranslační modifikace . Naopak STRING jednomu lokusu přiřadí jednu izoformu proteinu (obvykle nejdelší izoformu) [5] . Takové filtrování je nezbytné pro normální fungování algoritmů pro predikci interakcí protein-protein.
Předpovědi proteinových interakcí na základě ortologie s experimentálně studovanými proteiny
STRING považuje interakce proteinů zapojených do stejné metabolické dráhy KEGG za referenční , protože tato databáze je ručně spravována a pokrývá řadu organismů a funkčních domén. STRING přenáší proteinové interakce popsané v metabolických drahách KEGG na ortologní proteiny jiných organismů a každé předpokládané interakci protein-protein přiřazuje určitou váhu, která odpovídá pravděpodobnosti, že tyto proteiny jsou ve stejné metabolické dráze KEGG [6] a přispívá k konečné posouzení spolehlivosti těchto funkčních vztahů.
Před verzí 8 (2009) byly předpovědi založené na ortologii s proteiny popsanými v metabolických drahách KEGG prováděny pomocí shluků proteinových ortologních skupin (COG) [10] , poté se začaly používat hierarchické proteinové ortologní skupiny z databáze eggNOG [11] .
Od verze 9.1 (2013) jsou předpovědi založené na ortologii s proteiny popsanými v metabolických drahách KEGG prováděny s ohledem na taxonomii organismů, což umožňuje vyhnout se chybnému přenosu interakce proteinů v jednom organismu na domnělé ortologní proteinů v jiném organismu za přítomnosti paralogů těchto proteinů v jiném organismu, které vznikly v důsledku duplikace odpovídajících genů v procesu evoluce . Použije se verze taxonomie spravovaná NCBI. Přenos protein-proteinových interakcí mezi organismy na základě ortologie probíhá sekvenčně od nejnižších po nejvyšší úrovně taxonomické hierarchie [2] .
Předpovědi založené na srovnávací analýze genomického kontextu
Geny, jejichž proteinové produkty spolufungují v metabolické dráze nebo strukturním komplexu, jsou často pod společnou regulací a podléhají běžnému tlaku přirozeného výběru . Takové geny mají tendenci se lokalizovat [12] a dokonce vytvořit fúzní gen [13] . Často jsou takové geny blízko sebe, pravděpodobně se jedná o jedinou transkripční jednotku ( operon ). U operonů různých organismů je soubor genů a jejich pořadí podobné, ale ne nutně totožné. STRING rozlišuje následující typy genomického kontextu [9] :
Eukaryota nemají operonové struktury, ale některé eukaryotické proteiny jsou ortologní k prokaryotním proteinům, takže STRING přenáší na eukaryotické proteiny funkční vztahy předpovězené ze srovnávací analýzy genomického kontextu u prokaryot [8] .
STRING hledá konzervované shluky genů, jejichž evoluční historie je podobnější, než by se dalo očekávat náhodou. STRING začíná s jediným semenným genem a ve své první iteraci najde geny, které se často vyskytují s daným genem ve stejném genomickém kontextu v mnoha fylogeneticky vzdálených organismech. Dokonalá shoda mezi výskytem genů není vyžadována, i když je tato informace kvantifikována. V další iteraci se jako semena použijí nové geny nalezené v předchozí iteraci. Iterace pokračují, dokud nejsou nalezeny žádné nové geny (konvergence). Existuje tedy mnoho genů nepřímo souvisejících s genem primeru. Do jednoho genomického kontextu je povoleno vstupovat pouze geny, jejichž vzdálenost není větší než 300 párů bází [8] . Počínaje verzí 8 mohou geny umístěné na různých vláknech DNA vstupovat do stejného genomického kontextu. V druhém případě je predikovanému funkčnímu vztahu přiřazena nižší váha, což méně přispívá ke konečnému posouzení spolehlivosti tohoto vztahu ve srovnání s funkčním vztahem predikovaným z genomického kontextu sestávajícího z genů umístěných pouze na jednom vláknu DNA [4 ] . Přiřazená váha je normalizována počtem organismů, u kterých je tento vztah předpovídán [7] , a zvyšuje se, když je tento vztah předpovídán u fylogeneticky vzdálených ornanismů [6] .
Při sestavování konzervovaného prostředí genu, počínaje verzí 8, jsou krátké částečně překrývající se geny na nekódujícím řetězci DNA ignorovány, protože mohou se ukázat jako falešné předpovědi [4] .
Od roku 2005 má STRING dva přístupy k predikci interakcí protein-protein na základě srovnávací analýzy genomického kontextu: na výzvu může uživatel vybrat režim COG nebo režim proteinů. V režimu COGs se provádí hledání konzervovaných genových shluků s požadavkem, aby proteiny byly ortologní, tzn. interakce se předpovídají na principu všechno nebo nic. V režimu Proteins je hledání konzervativních genových shluků prováděno kvantitativní podobností proteinových aminokyselinových sekvencí, tzn. předpokládané interakce mohou být rozšířeny na paralogy, pokud v organismu existují [6] . Dříve v STRING byla kvantitativní podobnost proteinových aminokyselinových sekvencí stanovena pomocí Smith-Watermanova algoritmu . Počínaje verzí 9 (2011) se pro kvantifikaci podobnosti proteinových aminokyselinových sekvencí používají matice SIMAP [3] [14] .
Abyste mohli dotazovat databázi STRING, musíte zadat identifikátor nebo sekvenci aminokyselin jednoho nebo více proteinů a vybrat organismus. V případě požadavku na aminokyselinovou sekvenci proteinu se provede BLAST vyhledávání proti všem proteinům vybraného organismu (prahová E-hodnota = 10 −5 ) [8] a uživatel je vyzván k výběru jednoho z nálezy, u kterých budou ukázány možné interakce s jinými proteiny (Proteins-mode ) nebo COGs (COGs-mode) v daném organismu.
Experimentálně známé a de novo predikované interakce daného proteinu s jinými proteiny jsou prezentovány jako graf, jehož vrcholy jsou proteiny a okraje jsou různé typy důkazů funkčních vztahů mezi těmito proteiny. Vrcholy odpovídající proteinům, jejichž krystalografická struktura je dešifrována (nebo předpovězena s určitou identitou), jsou zobrazeny větší. Kliknutím na horní část vyskakovacího okna jsou k dispozici odkazy na zdroje třetích stran s informacemi o tomto proteinu, jako je RefSeq, KEGG , UniProt , SMART a SWISS-MODEL, a také náhled architektury domény a krystalografická struktura (dekódovaná nebo předpovězená se specifickou identitou) tohoto proteinu. Je možné shlukovat síť interakcí, přidávat další proteiny do sítě interakcí při snížení prahu spolehlivosti funkčního vztahu (a naopak odebírat proteiny ze sítě interakcí při zvýšení prahu), nastavit vytvořit přijatelné typy důkazů funkčního vztahu (například můžete v síti interakcí ponechat pouze ty proteiny pro interakce, pro které existují experimentální důkazy), a také uložit seznam nalezených interakcí protein-protein jako textový soubor a uložení obrázku sítě interakcí [3] .
Seznam možných funkčních vztahů pro daný protein obsahuje důkazy pro každý vztah a je řazen podle úrovně odhadované spolehlivosti v každém vztahu [2] .
K dispozici je fylogenetický stromový pohled , vytvořený z propojených sekvenčních zarovnání malého počtu univerzálních proteinových rodin [5] [15] , s různými typy genomických souvislostí vynesených na něm. K dispozici jsou odkazy na články, které zmiňují daný protein, včetně experimentálních článků.
Existuje plugin STRING pro Cytoscape [16] . Počínaje verzí 10 (2015) je softwarový balíček STRINGdb k dispozici ke stažení od Bioconductor a umožňuje vám dotazovat se na server STRING z programovacího jazyka R [1] .