Soubor

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 14. března 2022; kontroly vyžadují 3 úpravy .

Ensembl je společný výzkumný projekt Evropského bioinformatického institutu a Sangerova institutu . Hlavním cílem tohoto projektu je poskytnout specialistům integrovaný přístup k databázím týkajícím se struktury genomů více než 50 druhů obratlovců, včetně lidí ( Homo sapiens ), myší ( Mus musculus ), potkanů ( Rattus norvegicus ), Danio -rerio ryby ( Danio rerio ) atd. [1] . Projekt byl zahájen v roce 1999 před dokončením projektu Human Genome Project [2] .

Databáze Ensemblu jsou pravidelně aktualizovány minimálně dvakrát ročně. Aktuální verze Projectu 88 byla zveřejněna 29. března 2017 [3] . Nejnovější zprávy o projektu jsou zveřejněny na oficiálních stránkách. Najdete zde také informace o prezenčních vzdělávacích aktivitách pro práci s Ensemblem [4] . Základy práce se systémem se můžete naučit také sledováním tematických videí na webu Ensembl a EMBL-EBI Archived 16. dubna 2017 na Wayback Machine .

Anotace genomu

Základní prvky genomu obratlovců

Projekt Ensembl je zaměřen na poskytování detailních informací o genomech obratlovců . Typická velikost takového genomu jsou miliardy párů bází. Například myší ( Mus musculus ) genom a lidský ( Homo sapiens ) genom obsahují asi 3 miliardy párů bází. Pouze několik procent genomu tvoří kódující sekvence, což v případě člověka odpovídá asi 20–25 tisícům genů [5] . Kódující sekvence mají nenáhodnou strukturu, což umožňuje jejich detekci během analýzy genomu. Nekódující sekvence genomu jsou v některých případech i biologicky funkční, dále se dělí na pseudogeny , geny pro přenos a ribozomální RNA , geny pro dlouhé nekódující RNA, malé jaderné RNA , malé nukleolární RNA , mikroRNA atd . Práce s prvky genomu je možná pouze v případě, že existují informace o poloze tohoto prvku a interakci s ostatními. Označení polohy každého takového prvku se nazývá anotace genomu [6] .

Anotace genomu může být prováděna jak manuálně týmem odborníků, tak pomocí automatických softwarových přístupů, jak jsou implementovány v Ensembl [7] .

Ensembl anotační systém

Standardní anotační procedura Ensembl trvá až 4 měsíce a skládá se z několika etap [8] . Zpočátku se provádí automatické maskování repetic a predikce polohy genů. Poté jsou známé sekvence kódující protein daného organismu, získané experimentálně, zarovnány do genomu. Pokud taková sekvence pro oblast genomu neexistuje, použijí se pro tento účel v následujícím kroku sekvence blízce příbuzných druhů. Kromě toho jsou na genom aplikovány informace o známých druhově specifických cDNA a EST sekvencích . Pokud je to možné, jsou data z experimentů sekvenování RNA také superponována na genom [9] .

U lidských a myších genomů je standardní anotační proces doplněn anotací projektu HAVANA Archivováno 15. dubna 2017 na Wayback Machine . Kombinovaná anotace Ensembl/HAVANA tvoří sadu lidských a myších genů GENCODE Archivováno 15. dubna 2017 na Wayback Machine [10] .

V nomenklatuře Ensembl lze genu přiřadit 3 stavy: známý, nový, sloučený . Známý stav naznačuje, že oblast odpovídá známé sekvenci tohoto organismu z veřejných databází UniProtKB a NCBI RefSeq Archived 2006-03-30 . . Pokud existuje shoda pouze se sekvencí jiného organismu, je genu přiřazen nový status . Sloučený stav indikuje úplnou shodu mezi anotací Ensembl a HAVANA [8] .

Ensembl Genomic Browser

Primárním cílem projektu Ensembl je automatická analýza a anotace genomů obratlovců a poskytnutí přístupu k těmto genomům. Genomický prohlížeč Ensembl je schopen vizualizovat genomy a jejich anotace dostupné v databázi Ensembl v různých měřítcích, od celého karyotypu až po konkrétní část sekvence genomu v textové podobě. Anotované prvky jsou zobrazeny jako proužky (stopy) vzhledem k referenčnímu genomu. Vizualizace tratí si může uživatel upravit pro vlastní potřeby. Další informace o každém prvku anotace jsou k dispozici ve vyskakovacích oknech, když na prvek umístíte ukazatel myši. Uživatelé mají možnost nahrávat a vizualizovat svá vlastní data genomických anotací. To lze provést buď pomocí serveru DAS ( Distributed Annotation System ) nebo nahráním souboru v podporovaném formátu (BigBED, BigWig, VCF, BAM a další) [11] [12] [13] [14] .

API a další přístupové metody

Ensembl používá k ukládání informací relační databáze založené na MySQL . Pro získání informací z databází Ensembl se používá sada API (Application Programming Interface) napsaná v Perlu . Rozhraní API umožňují aplikacím třetích stran nezáviset na změnách ve struktuře databáze. Ensembl API se používá ve webovém rozhraní projektu k reprezentaci dat a může být také načteno uživatelem a použito k psaní skriptů pro automatizaci příjmu dat z databází Ensembl. Informace o stahování, instalaci a používání Ensembl API najdete na webu projektu Archived 15. dubna 2017 na Wayback Machine [15] .

Ensembl API je rozděleno do sekcí podle typů zpracovávaných dat: Ensembl Core API (pro práci s geny, sekvencemi a dalšími automatickými anotačními prvky), Ensembl-Compara API (pro práci s komparativními genomickými daty), Ensembl-Variation API (pro práci s daty o jednonukleotidových polymorfismech, somatických mutacích, strukturálních variacích), Ensembl-Regulation API (pro práci s daty o regulaci genomu) a další [16] .

Pro přístup k databázi Ensembl pomocí klienta v jiném programovacím jazyce použijte server Ensembl REST Archived 23. června 2016 na Wayback Machine [17] . Službu BioMart lze použít k získání velkého množství dat Archivováno 8. ledna 2011 na Wayback Machine . Kromě toho můžete použít FTP server projektu ke stažení úplných databází Ensembl na MySQL. Archivovaná kopie z 28. května 2020 na Wayback Machine .

Dostupné nástroje

Na webu Ensembl je k dispozici řada nástrojů pro zpracování dat jak z databáze Ensembl, tak i nahraných uživatelem [18] . Algoritmy BLAT nebo BLAST se používají k hledání dané sekvence napříč všemi genomy Ensembl Archivováno 11. května 2017 na Wayback Machine . Existuje nástroj pro stahování dat z databáze Ensembl v upraveném formátu ( File Chameleon Archived 15. dubna 2017 na Wayback Machine ), stejně jako pro překlad datového formátu mezi různými genomovými sestavami Archivováno 27. dubna 2017 na Wayback Machine a Ensembl vydává Archived od 15. dubna 2017 na Wayback Machine .

Prediktor efektu varianty

Ensembl Variant effect prediktor Archivováno 30. dubna 2017 na Wayback Machine (VEP) je nástroj pro analýzu a anotaci genomických variací v kódujících a nekódujících oblastech. VEP anotuje genomové variace na základě širokého souboru databázových dat Ensembl, včetně transkriptů, regulačních oblastí, frekvencí dříve pozorovaných variací, klinických dat a předpovědí biofyzikálních důsledků variací. Je možná analýza dvou kategorií variací: malé přesně definované variace ( inzerce , delece, tandemové repetice , jednonukleotidové polymorfismy ) nebo větší strukturální variace genomu (změny v počtu kopií genu, velké inzerce nebo delece ). VEP je k dispozici jako služba na webu Ensembl, jako samostatný skript v Perlu a prostřednictvím Ensembl REST [19] .

Partnerské projekty

Ensemble Genomes

Zpočátku se projekt Ensembl specializoval na genomy obratlovců, ale nárůst množství informací o genomech jiných živých tvorů vedl v roce 2009 ke vzniku projektu Ensembl Genomes Archivováno 19. dubna 2017 na Wayback Machine s využitím platformy Ensembl , nástroje a anotační systém [20] . V rámci tohoto projektu bylo vytvořeno 5 divizí:

Ensembl Bacteria Archived 23. dubna 2009 na Wayback Machine poskytuje přístup k více než 40 000 anotovaných bakteriálních genomů
Ensembl Fungi Archived 30. dubna 2017 na Wayback Machine obsahuje 569 genomů hub
Ensembl Plants Archived 30. dubna 2017 na Wayback Machine obsahuje 44 rostlinných genomů
Ensembl Protists Archived 30. dubna 2017 na Wayback Machine obsahuje 150 protistových genomů
Ensembl Metazoa Archived 8. dubna 2017 na Wayback Machine obsahuje 65 genomů bezobratlých

Sestavení genomů Ensembl Genomes je vydáván současně pro všechny divize a bez ohledu na hlavní projekt. Aktuální verze služby je 34, poslední aktualizace byla provedena v prosinci 2016 [21] .

Ensemble Pre!

Přístup ke genomům v procesu anotace se provádí pomocí Ensembl Pre! Archivováno 9. června 2017 na Wayback Machine . Od roku 2017 jsou k dispozici informace o genomech 17 organismů. Poslední aktualizace služby byla provedena 19. ledna 2015 [22] .

Poznámky

↑ Paul Flicek, Bronwen L. Aken, Benoit Ballester, Kathryn Beal, Eugene Bragin. 10. ročník Ensemblu // Výzkum nukleových kyselin. — 2010-01-01. — Sv. 38 , iss. suppl_1 . — S. D557–D562 . — ISSN 0305-1048 . doi : 10.1093 / nar/gkp972 . Archivováno z originálu 16. dubna 2017.
↑ Paul Flicek, M. Ridwan Amode, Daniel Barrell, Kathryn Beal, Simon Brent. Ensembl 2011 // Výzkum nukleových kyselin. — 01.01.2011. — Sv. 39 , iss. suppl_1 . — S. D800–D806 . — ISSN 0305-1048 . doi : 10.1093 / nar/gkq1064 . Archivováno z originálu 16. dubna 2017.
↑ Ensembl 88 byl vydán! (29. března 2017). Získáno 14. dubna 2017. Archivováno z originálu 15. dubna 2017. (neurčitý)
↑ Souborné dílny . Ensembl . Získáno 15. dubna 2017. Archivováno z originálu 16. dubna 2017. (neurčitý)
↑ Lidské sestavení a anotace genů . Ensemble (březen 2017). Staženo 15. 4. 2017. Archivováno z originálu 25. 5. 2017. (neurčitý)
↑ Roger P. Alexander, Gang Fang, Joel Rozowsky, Michael Snyder, Mark B. Gerstein. Anotace nekódujících oblastí genomu // Nature Reviews Genetics. — Sv. 11 , iss. 8 . - str. 559-571 . doi : 10.1038 / nrg2814 .
↑ Val Curwen, Eduardo Eyras, T. Daniel Andrews, Laura Clarke, Emmanuel Mongin. The Ensemble Automatic Gene Annotation System // Genome Research. - 2004-05-01. — Sv. 14 , iss. 5 . — S. 942–950 . - doi : 10.1101/gr.1858004 . Archivováno z originálu 2. května 2017.
↑ 1 2 Anotace Ensembl (downlink) . Získáno 14. dubna 2017. Archivováno z originálu 15. dubna 2017. (neurčitý)
↑ Bronwen L. Aken, Sarah Ayling, Daniel Barrell, Laura Clarke, Valery Curwen. Ensembl genový anotační systém // Database . — 2016-01-01. — Sv. 2016 . - doi : 10.1093/database/baw093 . Archivováno z originálu 15. dubna 2017.
↑ Proč se počty lidských a myších genů mezi vydáními GENCODE mění? (nedostupný odkaz) . GencodeGenes (13. září 2016). Získáno 15. dubna 2017. Archivováno z originálu 24. května 2017. (neurčitý)
↑ Andrew Yates, Wasiu Akanni, M. Ridwan Amode, Daniel Barrell, Konstantinos Billis. Ensembl 2016 // Výzkum nukleových kyselin. — 2016-01-04. — Sv. 44 , iss. D1 . — S. D710–D716 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkv1157 . Archivováno z originálu 15. dubna 2017.
↑ Giulietta M. Spudich, Xose M. Fernández-Suárez. Touring Ensembl: Praktický průvodce procházením genomu // BMC Genomics. — 2010-01-01. — Sv. 11 . — S. 295 . — ISSN 1471-2164 . - doi : 10.1186/1471-2164-11-295 .
↑ Giulietta Spudich, Xose M. Fernández-Suárez, Ewan Birney. Procházení genomu s Ensemblem: praktický přehled // Briefings in Functional Genomics. — 2007-09-01. — Sv. 6 , iss. 3 . — S. 202–219 . — ISSN 2041-2649 . - doi : 10.1093/bfgp/elm025 . Archivováno z originálu 15. dubna 2017.
↑ Xose M. Fernández-Suárez, Michael K. Schuster. Použití Ensembl Genome Server k procházení dat genomické sekvence // Aktuální protokoly v bioinformatice. — John Wiley & Sons, Inc., 2002-01-01. — ISBN 9780471250951 . - doi : 10.1002/0471250953.bi0115s30 . Archivováno z originálu 15. dubna 2017.
↑ Arne Stabenau, Graham McVicker, Craig Melsopp, Glenn Proctor, Michele Clamp. Základní softwarové knihovny Ensembl // Genome Research. - 2004-05-01. — Sv. 14 , iss. 5 . — S. 929–933 . - doi : 10.1101/gr.1857204 . Archivováno z originálu 12. března 2017.
↑ Dokumentace Doxygen Perl . www.ensemble.org. Získáno 14. dubna 2017. Archivováno z originálu 5. listopadu 2017.
↑ Andrew Yates, Kathryn Beal, Stephen Keenan, William McLaren, Miguel Pignatelli. Ensembl REST API: Data Ensembl pro jakýkoli jazyk // Bioinformatika . — 2015-01-01. — Sv. 31 , iss. 1 . — S. 143–145 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btu613 . Archivováno z originálu 15. dubna 2017.
↑ Ensembl Tools . www.ensemble.org. Získáno 14. dubna 2017. Archivováno z originálu 30. dubna 2017.
↑ William McLaren, Laurent Gil, Sarah E. Hunt, Harpreet Singh Riat, Graham RS Ritchie. The Ensembl Variant Effect Predictor // Genome Biology. — 2016-01-01. — Sv. 17 . — S. 122 . — ISSN 1474-760X . - doi : 10.1186/s13059-016-0974-4 .
↑ Paul Julian Kersey, James E. Allen, Irina Armean, Sanjay Boddu, Bruce J. Bolt. Ensembl Genomes 2016: více genomů, větší komplexnost // Výzkum nukleových kyselin. — 2016-01-04. — Sv. 44 , iss. D1 . — S. D574–D580 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkv1209 . Archivováno z originálu 15. dubna 2017.
↑ Ensemble Genomes . Získáno 14. dubna 2017. Archivováno z originálu 19. dubna 2017. (neurčitý)
↑ Murphy Dan (Genebuild). Nový Ensemble Pre! stránky . Blog Ensembl . Ensemble (19. ledna 2015). Získáno 15. dubna 2017. Archivováno z originálu 16. dubna 2017. (neurčitý)

Odkazy

Domovská stránka Ensembl (WTSI / EBI) Archivována 24. května 2008 na Wayback Machine
GENKÓD