Ensembl je společný výzkumný projekt Evropského bioinformatického institutu a Sangerova institutu . Hlavním cílem tohoto projektu je poskytnout specialistům integrovaný přístup k databázím týkajícím se struktury genomů více než 50 druhů obratlovců, včetně lidí ( Homo sapiens ), myší ( Mus musculus ), potkanů ( Rattus norvegicus ), Danio -rerio ryby ( Danio rerio ) atd. [1] . Projekt byl zahájen v roce 1999 před dokončením projektu Human Genome Project [2] .
Databáze Ensemblu jsou pravidelně aktualizovány minimálně dvakrát ročně. Aktuální verze Projectu 88 byla zveřejněna 29. března 2017 [3] . Nejnovější zprávy o projektu jsou zveřejněny na oficiálních stránkách. Najdete zde také informace o prezenčních vzdělávacích aktivitách pro práci s Ensemblem [4] . Základy práce se systémem se můžete naučit také sledováním tematických videí na webu Ensembl a EMBL-EBI Archived 16. dubna 2017 na Wayback Machine .
Projekt Ensembl je zaměřen na poskytování detailních informací o genomech obratlovců . Typická velikost takového genomu jsou miliardy párů bází. Například myší ( Mus musculus ) genom a lidský ( Homo sapiens ) genom obsahují asi 3 miliardy párů bází. Pouze několik procent genomu tvoří kódující sekvence, což v případě člověka odpovídá asi 20–25 tisícům genů [5] . Kódující sekvence mají nenáhodnou strukturu, což umožňuje jejich detekci během analýzy genomu. Nekódující sekvence genomu jsou v některých případech i biologicky funkční, dále se dělí na pseudogeny , geny pro přenos a ribozomální RNA , geny pro dlouhé nekódující RNA, malé jaderné RNA , malé nukleolární RNA , mikroRNA atd . Práce s prvky genomu je možná pouze v případě, že existují informace o poloze tohoto prvku a interakci s ostatními. Označení polohy každého takového prvku se nazývá anotace genomu [6] .
Anotace genomu může být prováděna jak manuálně týmem odborníků, tak pomocí automatických softwarových přístupů, jak jsou implementovány v Ensembl [7] .
Standardní anotační procedura Ensembl trvá až 4 měsíce a skládá se z několika etap [8] . Zpočátku se provádí automatické maskování repetic a predikce polohy genů. Poté jsou známé sekvence kódující protein daného organismu, získané experimentálně, zarovnány do genomu. Pokud taková sekvence pro oblast genomu neexistuje, použijí se pro tento účel v následujícím kroku sekvence blízce příbuzných druhů. Kromě toho jsou na genom aplikovány informace o známých druhově specifických cDNA a EST sekvencích . Pokud je to možné, jsou data z experimentů sekvenování RNA také superponována na genom [9] .
U lidských a myších genomů je standardní anotační proces doplněn anotací projektu HAVANA Archivováno 15. dubna 2017 na Wayback Machine . Kombinovaná anotace Ensembl/HAVANA tvoří sadu lidských a myších genů GENCODE Archivováno 15. dubna 2017 na Wayback Machine [10] .
V nomenklatuře Ensembl lze genu přiřadit 3 stavy: známý, nový, sloučený . Známý stav naznačuje, že oblast odpovídá známé sekvenci tohoto organismu z veřejných databází UniProtKB a NCBI RefSeq Archived 2006-03-30 . . Pokud existuje shoda pouze se sekvencí jiného organismu, je genu přiřazen nový status . Sloučený stav indikuje úplnou shodu mezi anotací Ensembl a HAVANA [8] .
Primárním cílem projektu Ensembl je automatická analýza a anotace genomů obratlovců a poskytnutí přístupu k těmto genomům. Genomický prohlížeč Ensembl je schopen vizualizovat genomy a jejich anotace dostupné v databázi Ensembl v různých měřítcích, od celého karyotypu až po konkrétní část sekvence genomu v textové podobě. Anotované prvky jsou zobrazeny jako proužky (stopy) vzhledem k referenčnímu genomu. Vizualizace tratí si může uživatel upravit pro vlastní potřeby. Další informace o každém prvku anotace jsou k dispozici ve vyskakovacích oknech, když na prvek umístíte ukazatel myši. Uživatelé mají možnost nahrávat a vizualizovat svá vlastní data genomických anotací. To lze provést buď pomocí serveru DAS ( Distributed Annotation System ) nebo nahráním souboru v podporovaném formátu (BigBED, BigWig, VCF, BAM a další) [11] [12] [13] [14] .
Ensembl používá k ukládání informací relační databáze založené na MySQL . Pro získání informací z databází Ensembl se používá sada API (Application Programming Interface) napsaná v Perlu . Rozhraní API umožňují aplikacím třetích stran nezáviset na změnách ve struktuře databáze. Ensembl API se používá ve webovém rozhraní projektu k reprezentaci dat a může být také načteno uživatelem a použito k psaní skriptů pro automatizaci příjmu dat z databází Ensembl. Informace o stahování, instalaci a používání Ensembl API najdete na webu projektu Archived 15. dubna 2017 na Wayback Machine [15] .
Ensembl API je rozděleno do sekcí podle typů zpracovávaných dat: Ensembl Core API (pro práci s geny, sekvencemi a dalšími automatickými anotačními prvky), Ensembl-Compara API (pro práci s komparativními genomickými daty), Ensembl-Variation API (pro práci s daty o jednonukleotidových polymorfismech, somatických mutacích, strukturálních variacích), Ensembl-Regulation API (pro práci s daty o regulaci genomu) a další [16] .
Pro přístup k databázi Ensembl pomocí klienta v jiném programovacím jazyce použijte server Ensembl REST Archived 23. června 2016 na Wayback Machine [17] . Službu BioMart lze použít k získání velkého množství dat Archivováno 8. ledna 2011 na Wayback Machine . Kromě toho můžete použít FTP server projektu ke stažení úplných databází Ensembl na MySQL. Archivovaná kopie z 28. května 2020 na Wayback Machine .
Na webu Ensembl je k dispozici řada nástrojů pro zpracování dat jak z databáze Ensembl, tak i nahraných uživatelem [18] . Algoritmy BLAT nebo BLAST se používají k hledání dané sekvence napříč všemi genomy Ensembl Archivováno 11. května 2017 na Wayback Machine . Existuje nástroj pro stahování dat z databáze Ensembl v upraveném formátu ( File Chameleon Archived 15. dubna 2017 na Wayback Machine ), stejně jako pro překlad datového formátu mezi různými genomovými sestavami Archivováno 27. dubna 2017 na Wayback Machine a Ensembl vydává Archived od 15. dubna 2017 na Wayback Machine .
Ensembl Variant effect prediktor Archivováno 30. dubna 2017 na Wayback Machine (VEP) je nástroj pro analýzu a anotaci genomických variací v kódujících a nekódujících oblastech. VEP anotuje genomové variace na základě širokého souboru databázových dat Ensembl, včetně transkriptů, regulačních oblastí, frekvencí dříve pozorovaných variací, klinických dat a předpovědí biofyzikálních důsledků variací. Je možná analýza dvou kategorií variací: malé přesně definované variace ( inzerce , delece, tandemové repetice , jednonukleotidové polymorfismy ) nebo větší strukturální variace genomu (změny v počtu kopií genu, velké inzerce nebo delece ). VEP je k dispozici jako služba na webu Ensembl, jako samostatný skript v Perlu a prostřednictvím Ensembl REST [19] .
Zpočátku se projekt Ensembl specializoval na genomy obratlovců, ale nárůst množství informací o genomech jiných živých tvorů vedl v roce 2009 ke vzniku projektu Ensembl Genomes Archivováno 19. dubna 2017 na Wayback Machine s využitím platformy Ensembl , nástroje a anotační systém [20] . V rámci tohoto projektu bylo vytvořeno 5 divizí:
Sestavení genomů Ensembl Genomes je vydáván současně pro všechny divize a bez ohledu na hlavní projekt. Aktuální verze služby je 34, poslední aktualizace byla provedena v prosinci 2016 [21] .
Přístup ke genomům v procesu anotace se provádí pomocí Ensembl Pre! Archivováno 9. června 2017 na Wayback Machine . Od roku 2017 jsou k dispozici informace o genomech 17 organismů. Poslední aktualizace služby byla provedena 19. ledna 2015 [22] .