"Gene Ontology" ( angl. Gene Ontology , nebo GO ) je bioinformatický projekt věnovaný vytvoření jednotné terminologie pro anotaci genů a genových produktů všech biologických druhů [1] .
Cílem projektu je udržovat a doplňovat určitý seznam atributů genů a jejich produktů, sestavovat anotace genů a produktů, vyvíjet nástroje pro práci s databází projektu , jakož i pro analýzu nových experimentálních dat, zejména analýzu zastoupení funkčních skupin genů . Stojí za zmínku, že projekt GO vytvořil značkovací jazyk pro klasifikaci dat (informace o genech a jejich produktech, tedy RNA a proteinech, a také jejich funkcích), který umožňuje rychle najít systematické informace o genových produktech [2 ] [3] [ 4] .
"Gene Ontology" je součástí většího klasifikačního projektu - "Open Biomedical Ontologies" ( OBO ) [5] .
Ontologie v informatice se používají k formalizaci určitých oblastí znalostí pomocí systému dat o objektech reálného světa a vztazích mezi nimi (tzv. znalostní báze ). V biologii a příbuzných oborech vyvstal problém nedostatku univerzálního standardu terminologie. Termíny vyjadřující podobné pojmy , ale používané pro různé biologické druhy , různé oblasti výzkumu nebo dokonce v rámci různých skupin vědců, mohou mít zásadně odlišný význam, což ztěžuje výměnu dat. V tomto ohledu bylo úkolem projektu Gene Ontology vytvořit ontologii termínů, které odrážejí vlastnosti genů a jejich produktů a jsou aplikovatelné na libovolné organismy [2] [3] [4] .
"Gene Ontology" byla vytvořena v roce 1998 konsorciem vědců, kteří studovali genomy tří modelových organismů : Drosophila melanogaster (ovocná moucha), Mus musculus (myš) a Saccharomyces cerevisiae (pekařský droždí) [6] . Od té doby se ke Konsorciu GO připojilo mnoho databází pro další modelové organismy, čímž přispěly nejen k rozšíření anotační databáze, ale také k vytvoření služeb pro prohlížení a aplikaci dat.
GO Consortium ( GOC ) je soubor biologických databází a výzkumných skupin aktivně zapojených do projektu Gene Ontology [7] . Zahrnuje několik databází pro různé modelové organismy, obecné proteinové databáze, týmy pro vývoj softwaru a editory genové ontologie.
Gene Ontology je rozsáhlý a rychle se rozvíjející projekt. K září 2011 obsahovala genová ontologie více než 33 tisíc termínů a asi 12 milionů anotací genových produktů použitelných pro více než 360 tisíc živých organismů [2] . Po roce 2016 přesáhl počet termínů 44 tisíc výtisků, zatímco počet organismů anotovaných v této znalostní bázi přesáhl 460 tisíc jedinců [3]
Během několika posledních let konsorcium GO implementovalo řadu změn ontologie, aby zvýšilo množství, kvalitu a specifičnost anotací GO. Do roku 2013 přesáhl počet anotací 96 mil. Kvalita anotací se zlepšila díky automatizovaným kontrolám kvality. Zlepšila se také anotace dat prezentovaných v databázi GO, přibyly nové termíny. [4] . V roce 2007 byla vytvořena nová služba InterMine [8] , jejímž cílem je integrovat genomická data z velkého množství různorodých zdrojů a usnadnit výpočetní úlohy, jako je vyhledávání specifických genomických oblastí a provádění statistických testů. Projekt byl původně vytvořen pro integraci dat pro Drosophila, ale nyní zahrnuje velké množství modelových organismů. V posledních letech probíhá vývoj služby LEGO (Linked Expressions using the Gene Ontology), která umožňuje prozkoumat interakci různých anotací v databázi GO, spojovat je do obecnějších modelů genů a jejich funkcí [3 ] .
Mělo by být zřejmé, že "genová ontologie" popisuje složité biologické jevy, a nikoli specifické biologické objekty. Databáze Gene Ontology obsahuje tři nezávislé slovníky [1] [9] :
Každý termín v "Gene Ontology" má řadu atributů: jedinečný digitální identifikátor, jméno, slovník, do kterého termín patří, a definici. Termíny mohou mít synonyma, která se dělí na přesně odpovídající významu termínu, širší, užší a mající nějaký vztah k termínu. Mohou být přítomny také atributy, jako jsou odkazy na zdroje, jiné databáze a komentáře k významu a použití termínu [1] [9] .
Ontologie je postavena na principu orientovaného acyklického grafu : každý člen je spojen s jedním nebo více dalšími členy prostřednictvím jiného typu vztahu . Existují následující typy vztahů [1] :
Příklad jednoho z termínů projektu GO [10] :
id: GO:0043417 název: negativní regulace regenerace tkáně kosterního svalstva jmenný prostor: biologický_proces def: "Jakýkoli proces, který zastaví, zabrání nebo sníží frekvenci, rychlost nebo rozsah regenerace kosterního svalstva." [GOC:jl] synonymum: "dolní regulace regenerace kosterního svalstva" PŘESNĚ [] synonymum: "down-regulace regenerace kosterního svalstva" PŘESNĚ [] synonymum: "downregulace regenerace kosterního svalstva" PŘESNĚ [] synonymum: "inhibice regenerace kosterního svalstva" NARROW [] is_a:GO:0043416! regulace regenerace tkáně kosterního svalstva is_a: GO:0048640! negativní regulace vývojového růstu vztah: negatively_regulates GO:0043403 ! regenerace tkáně kosterního svalstvaDatabáze Gene Ontology je neustále upravována a doplňována jak kurátory projektu GO, tak dalšími badateli. Navržené uživatelské úpravy jsou posuzovány editory projektu a aplikovány, pokud jsou úpravy schváleny [9] .
Soubor obsahující celou databázi [10] lze získat v různých formátech z oficiálních webových stránek Gene Ontology a podmínky jsou také dostupné online pomocí prohlížeče AmiGO Gene Ontology. Navíc může být použit k extrakci datového pole genových produktů souvisejících s konkrétním termínem. Na stránce si také můžete stáhnout mapy shody termínů GO s jinými klasifikačními systémy [11] .
Anotace genomu je zaměřena na získání informací o vlastnostech genových produktů. Anotace GO k tomu používají termíny „genová ontologie“. Členové konsorcia GO zveřejňují své anotace na webu Gene Ontology, kde jsou anotace k dispozici pro přímé stažení nebo pro prohlížení v prohlížeči AmiGO [12] .
Genová anotace obsahuje následující údaje: název a identifikátor genového produktu; odpovídající termín GO; typ dat , na kterých je anotace založena ( evidenční kód ); odkaz na zdroj; a tvůrce a datum vytvoření anotace. Pro datové typy, které indikují platnost anotace ( evidenční kód ), existuje speciální ontologie související s projektem OBO [13] . Zahrnuje různé způsoby anotací, ruční i automatické. Například [1] :
K září 2012 bylo více než 99 % všech anotací genové ontologie získáno automaticky [4] . Protože takové anotace nejsou ručně ověřovány, jsou konsorciem GO považovány za méně spolehlivé a pouze zlomek z nich je dostupný v prohlížeči AmiGO. Úplnou databázi anotací lze stáhnout z webu Gene Ontology.
AmiGO [9] je webová aplikace (služba GO), která uživatelům umožňuje dotazovat se, vyhledávat a vizualizovat termíny GO a anotace genových produktů. Kromě toho aplikace obsahuje nástroj BLAST (dostupný v AmiGO 1, byl odstraněn v AmiGO 2), služby, které umožňují analyzovat velké datové sady a rozhraní pro vyhledávání přímo v databázi GO [14] . AmiGO lze použít online na webu Gene Ontology pro přístup k datům poskytovaným konsorciem GO nebo jej lze stáhnout a nainstalovat pro místní aplikaci do jakékoli databáze ve stylu GO. AmiGO 2 je open source a svobodný software .
Vizualizace poskytuje uživateli možnost sestavit graf, který charakterizuje genovou ontologii pro konkrétní GO termín. Existují dva vstupní formáty [15] :
Příklad vstupu JSON:
{"GO:0002244":{"title": "foo", "body": "bar", "fill": "#ccccf", "font": "#0000ff", "border":"red"}, "GO:0005575":{"title":"sám", "tělo":""}, "GO:0033060":{}}Kódování vztahu s barvou:
přístup | Barva |
---|---|
je | modrý |
část | světle modrá |
vyvíjí_z | hnědý |
reguluje | Černá |
negativně_reguluje | Červené |
pozitivně_reguluje | zelená |
Vizualizace termínů spočívá ve vytvoření grafu od uzlu reprezentujícího původní termín GO ke kořenovému uzlu, který je reprezentován názvem jednoho ze tří hlavních slovníků: biologické procesy , molekulární funkce a buněčné složky [1] [9] .
Přehled datKromě možnosti vytvářet grafy, které zobrazují ontologii genu GO termínu, AmiGO také implementuje několik nástrojů, které mohou uživateli poskytnout představu o datech GO projektu. Mezi nimi [14] :
GOOSE [16] je online SQL dotazovací prostředí dostupné uživatelům služby AmiGO pro vytváření datových sad. Tato služba používá syntaxi SQL k vytváření různých dotazů na databázi GO. Ke snížení zatížení systému jsou k dispozici také zrcadla EBI (Velká Británie, Cambridge), Berkeley BOP a Berkeley BOP (lite) (obě se nacházejí v Berkeley v Kalifornii).
Kromě přímého ručního psaní dotazu je možné tuto úlohu částečně zjednodušit pomocí šablon. Typický databázový dotaz je uveden níže (hledání maximální hloubky stromu pro celulární komponentu) [16] :
SELECT vzdálenost jako max. od cesty grafu, člen WHERE cesta_grafu.term2_id =term.id a term.term_type = 'cellular_component' OBJEDNAT PODLE vzdálenosti popis limit1;Databáze v GO má složitou strukturu a skládá se z mnoha tabulek. Hlavní databáze [16] :
Na základě dotazu jsou možné následující formáty exportu dat [16] :
PANTHER ( P protein Analysis TH rough Evolutionary R elationships ) je rozsáhlá databáze genových/proteinových rodin a podrodin, které jsou jim funkčně podobné, kterou lze použít ke klasifikaci funkčního spektra genových produktů [ 17] . PANTHER je součástí projektu GO, jehož hlavním cílem je klasifikace proteinů a jejich genů.
V PANTHER je databáze editována nejen pracovníky projektu, ale také klasifikačními algoritmy. Proteiny jsou klasifikovány podle jejich rodiny (a podrodiny), molekulární funkce nebo biologického procesu [17] .
Hlavní aplikací PANTHER je objasnění funkcí nevysvětlených genů v jakémkoli organismu na základě jejich evolučních vztahů s geny, jejichž funkce jsou v databázi známé. Pomocí genových funkcí, ontologie a metod statistické analýzy umožňuje PANTHER biologům analyzovat velká data, celé genomy získané sekvenováním nebo studiemi genové exprese [18] .
Hlavní nástroje dostupné na webu PANTHER [18] jsou:
GO Slimmer [19] je nástroj pro mapování podrobných anotací genové sady na jeden nebo více rodičovských výrazů vyšší úrovně (pojmy GO slim). Úzké termíny GO jsou zkrácené verze ontologie GO, které obsahují podmnožinu termínů celého GO bez podrobného popisu konkrétních nízkoúrovňových termínů.
Použití GO Slimmer umožňuje prezentovat anotace genomu GO, analyzovat výsledky expresních mikročipů nebo komplementární sbírky DNA, když je potřeba rozsáhlá klasifikace funkcí genových produktů [19] .
Výsledek tohoto algoritmu je reprezentován třemi sloupci [19] :
Verze tohoto nástroje pro AmiGO je napsána v perlském skriptu map2slim [19] . Kurátoři projektu poznamenávají, že služba GO slimmer je aktuálně načtena a vstupní data působivé velikosti mohou nepříznivě ovlivnit její provoz. Provozní doba služby pro zpracování vstupních sekvencí je omezená.
BLASTBLAST ( Basic Local Alignment Search Tool ) je rodina počítačových programů používaných k hledání homologů proteinů nebo nukleových kyselin, pro které je sekvence známá, pomocí zarovnání. Pomocí BLAST může výzkumník porovnat sekvenci, kterou má, se sekvencemi z databáze a najít tu nejpodobnější dané, což budou domnělé homology.
Implementace tohoto nástroje v AmiGO 1 je prezentována ve formě balíčku WU-BLAST vyvinutého Washingtonskou univerzitou v St. Louis (Washingtonská univerzita v St. Louis). [dvacet]
V AmiGO 2 byl tento nástroj (GO BLAST) odstraněn, ale můžete použít vyhledávání v AmiGO 1 . Nástroj umožňuje filtrovat výsledky vyhledávání podle genového produktu, databáze, taxonomické příslušnosti, slovníku GO, anotace OBO.
Matice termínůTerm Matrix [21] (matice pojmů) je nástroj AmiGO pro studium informací o podobnosti genové produkce pojmů. Výsledkem jeho práce je matice, jejíž prvky tvoří počet genových produktů anotovaných pro konkrétní pár GO termínů. Chcete-li použít funkci [21] , musíte zadat seznam identifikátorů GO, abyste viděli společné anotace - počet společných genových produktů anotovaných páry termínů. Je možné specifikovat konkrétní druhy nebo taxony. Barvení tepelné mapy lze provést formou gradace z černé na bílou, nebo pomocí standardní palety mapy.
OBO-Edit [22] je open source editor ontologie vyvinutý a spravovaný konsorciem GO. Je implementován v Javě a používá k vizualizaci a úpravě ontologií přístup založený na grafech . OBO-Edit má uživatelsky přívětivé vyhledávací a filtrovací rozhraní, které vám umožňuje vizualizovat a oddělovat podmnožiny pojmů GO. Rozhraní lze přizpůsobit podle preferencí uživatele. OBO-Edit také umožňuje automaticky vytvářet nové vztahy na základě existujících vztahů a jejich vlastností. Přestože byl OBO-Edit vyvinut pro biomedicínské ontologie, lze jej použít k prohlížení a editaci jakékoli ontologie.
PAINT [23] ( F ylogenetic Annotation and IN ference Tool ) je JAVA aplikace, která je součástí projektu Reference Genome Annotation Project a je založena na principu „ tranzitivní anotace“. Koncept tranzitivní anotace spočívá v přiřazování experimentálně zjištěné funkce jednoho genu druhému díky podobnosti jejich nukleotidových sekvencí.
Pomocí PAINT může uživatel prozkoumat experimentální anotace pro geny z konkrétní rodiny a použít tyto informace k odvození nových anotací pro členy genové rodiny, které ještě nebyly dostatečně prozkoumány [3] . Nástroj PAINT vám umožňuje sestavit model, který by vysvětlil dědičnost nebo ztrátu funkce konkrétního genu v jednotlivých větvích fylogenetických stromů . Nové anotace generované tímto modelem jsou označovány jako Inferred from Biological Ancestry (IBA) [1] .
Tato aplikace je volně ke stažení na Github.