Soubor

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 14. března 2022; kontroly vyžadují 3 úpravy .

Ensembl  je společný výzkumný projekt Evropského bioinformatického institutu a Sangerova institutu . Hlavním cílem tohoto projektu je poskytnout specialistům integrovaný přístup k databázím týkajícím se struktury genomů více než 50 druhů obratlovců, včetně lidí ( Homo sapiens ), myší ( Mus musculus ), potkanů ​​( Rattus norvegicus ), Danio -rerio ryby ( Danio rerio ) atd. [1] . Projekt byl zahájen v roce 1999 před dokončením projektu Human Genome Project [2] .

Databáze Ensemblu jsou pravidelně aktualizovány minimálně dvakrát ročně. Aktuální verze Projectu 88 byla zveřejněna 29. března 2017 [3] . Nejnovější zprávy o projektu jsou zveřejněny na oficiálních stránkách. Najdete zde také informace o prezenčních vzdělávacích aktivitách pro práci s Ensemblem [4] . Základy práce se systémem se můžete naučit také sledováním tematických videí na webu Ensembl a EMBL-EBI Archived 16. dubna 2017 na Wayback Machine .

Anotace genomu

Základní prvky genomu obratlovců

Projekt Ensembl je zaměřen na poskytování detailních informací o genomech obratlovců . Typická velikost takového genomu jsou miliardy párů bází. Například myší ( Mus musculus ) genom a lidský ( Homo sapiens ) genom obsahují asi 3 miliardy párů bází. Pouze několik procent genomu tvoří kódující sekvence, což v případě člověka odpovídá asi 20–25 tisícům genů [5] . Kódující sekvence mají nenáhodnou strukturu, což umožňuje jejich detekci během analýzy genomu. Nekódující sekvence genomu jsou v některých případech i biologicky funkční, dále se dělí na pseudogeny , geny pro přenos a ribozomální RNA , geny pro dlouhé nekódující RNA, malé jaderné RNA , malé nukleolární RNA , mikroRNA atd . Práce s prvky genomu je možná pouze v případě, že existují informace o poloze tohoto prvku a interakci s ostatními. Označení polohy každého takového prvku se nazývá anotace genomu [6] .

Anotace genomu může být prováděna jak manuálně týmem odborníků, tak pomocí automatických softwarových přístupů, jak jsou implementovány v Ensembl [7] .

Ensembl anotační systém

Standardní anotační procedura Ensembl trvá až 4 měsíce a skládá se z několika etap [8] . Zpočátku se provádí automatické maskování repetic a predikce polohy genů. Poté jsou známé sekvence kódující protein daného organismu, získané experimentálně, zarovnány do genomu. Pokud taková sekvence pro oblast genomu neexistuje, použijí se pro tento účel v následujícím kroku sekvence blízce příbuzných druhů. Kromě toho jsou na genom aplikovány informace o známých druhově specifických cDNA a EST sekvencích . Pokud je to možné, jsou data z experimentů sekvenování RNA také superponována na genom [9] .

U lidských a myších genomů je standardní anotační proces doplněn anotací projektu HAVANA Archivováno 15. dubna 2017 na Wayback Machine . Kombinovaná anotace Ensembl/HAVANA tvoří sadu lidských a myších genů GENCODE Archivováno 15. dubna 2017 na Wayback Machine [10] .

V nomenklatuře Ensembl lze genu přiřadit 3 stavy: známý, nový, sloučený . Známý stav naznačuje, že oblast odpovídá známé sekvenci tohoto organismu z veřejných databází UniProtKB a NCBI RefSeq Archived 2006-03-30 . . Pokud existuje shoda pouze se sekvencí jiného organismu, je genu přiřazen nový status . Sloučený stav indikuje úplnou shodu mezi anotací Ensembl a HAVANA [8] .

Ensembl Genomic Browser

Primárním cílem projektu Ensembl je automatická analýza a anotace genomů obratlovců a poskytnutí přístupu k těmto genomům. Genomický prohlížeč Ensembl je schopen vizualizovat genomy a jejich anotace dostupné v databázi Ensembl v různých měřítcích, od celého karyotypu až po konkrétní část sekvence genomu v textové podobě. Anotované prvky jsou zobrazeny jako proužky (stopy) vzhledem k referenčnímu genomu. Vizualizace tratí si může uživatel upravit pro vlastní potřeby. Další informace o každém prvku anotace jsou k dispozici ve vyskakovacích oknech, když na prvek umístíte ukazatel myši. Uživatelé mají možnost nahrávat a vizualizovat svá vlastní data genomických anotací. To lze provést buď pomocí serveru DAS ( Distributed Annotation System ) nebo nahráním souboru v podporovaném formátu (BigBED, BigWig, VCF, BAM a další) [11] [12] [13] [14] .

API a další přístupové metody

Ensembl používá k ukládání informací relační databáze založené na MySQL . Pro získání informací z databází Ensembl se používá sada API (Application Programming Interface) napsaná v Perlu . Rozhraní API umožňují aplikacím třetích stran nezáviset na změnách ve struktuře databáze. Ensembl API se používá ve webovém rozhraní projektu k reprezentaci dat a může být také načteno uživatelem a použito k psaní skriptů pro automatizaci příjmu dat z databází Ensembl. Informace o stahování, instalaci a používání Ensembl API najdete na webu projektu Archived 15. dubna 2017 na Wayback Machine [15] .

Ensembl API je rozděleno do sekcí podle typů zpracovávaných dat: Ensembl Core API (pro práci s geny, sekvencemi a dalšími automatickými anotačními prvky), Ensembl-Compara API (pro práci s komparativními genomickými daty), Ensembl-Variation API (pro práci s daty o jednonukleotidových polymorfismech, somatických mutacích, strukturálních variacích), Ensembl-Regulation API (pro práci s daty o regulaci genomu) a další [16] .

Pro přístup k databázi Ensembl pomocí klienta v jiném programovacím jazyce použijte server Ensembl REST Archived 23. června 2016 na Wayback Machine [17] . Službu BioMart lze použít k získání velkého množství dat Archivováno 8. ledna 2011 na Wayback Machine . Kromě toho můžete použít FTP server projektu ke stažení úplných databází Ensembl na MySQL. Archivovaná kopie z 28. května 2020 na Wayback Machine .

Dostupné nástroje

Na webu Ensembl je k dispozici řada nástrojů pro zpracování dat jak z databáze Ensembl, tak i nahraných uživatelem [18] . Algoritmy BLAT nebo BLAST se používají k hledání dané sekvence napříč všemi genomy Ensembl Archivováno 11. května 2017 na Wayback Machine . Existuje nástroj pro stahování dat z databáze Ensembl v upraveném formátu ( File Chameleon Archived 15. dubna 2017 na Wayback Machine ), stejně jako pro překlad datového formátu mezi různými genomovými sestavami Archivováno 27. dubna 2017 na Wayback Machine a Ensembl vydává Archived od 15. dubna 2017 na Wayback Machine .

Prediktor efektu varianty

Ensembl Variant effect prediktor Archivováno 30. dubna 2017 na Wayback Machine (VEP) je nástroj pro analýzu a anotaci genomických variací v kódujících a nekódujících oblastech. VEP anotuje genomové variace na základě širokého souboru databázových dat Ensembl, včetně transkriptů, regulačních oblastí, frekvencí dříve pozorovaných variací, klinických dat a předpovědí biofyzikálních důsledků variací. Je možná analýza dvou kategorií variací: malé přesně definované variace ( inzerce , delece, tandemové repetice , jednonukleotidové polymorfismy ) nebo větší strukturální variace genomu (změny v počtu kopií genu, velké inzerce nebo delece ). VEP je k dispozici jako služba na webu Ensembl, jako samostatný skript v Perlu a prostřednictvím Ensembl REST [19] .

Partnerské projekty

Ensemble Genomes

Zpočátku se projekt Ensembl specializoval na genomy obratlovců, ale nárůst množství informací o genomech jiných živých tvorů vedl v roce 2009 ke vzniku projektu Ensembl Genomes Archivováno 19. dubna 2017 na Wayback Machine s využitím platformy Ensembl , nástroje a anotační systém [20] . V rámci tohoto projektu bylo vytvořeno 5 divizí:

Sestavení genomů Ensembl Genomes je vydáván současně pro všechny divize a bez ohledu na hlavní projekt. Aktuální verze služby je 34, poslední aktualizace byla provedena v prosinci 2016 [21] .

Ensemble Pre!

Přístup ke genomům v procesu anotace se provádí pomocí Ensembl Pre! Archivováno 9. června 2017 na Wayback Machine . Od roku 2017 jsou k dispozici informace o genomech 17 organismů. Poslední aktualizace služby byla provedena 19. ledna 2015 [22] .

Poznámky

  1. Paul Flicek, Bronwen L. Aken, Benoit Ballester, Kathryn Beal, Eugene Bragin. 10. ročník Ensemblu  //  Výzkum nukleových kyselin. — 2010-01-01. — Sv. 38 , iss. suppl_1 . — S. D557–D562 . — ISSN 0305-1048 . doi : 10.1093 / nar/gkp972 . Archivováno z originálu 16. dubna 2017.
  2. Paul Flicek, M. Ridwan Amode, Daniel Barrell, Kathryn Beal, Simon Brent. Ensembl 2011  //  Výzkum nukleových kyselin. — 01.01.2011. — Sv. 39 , iss. suppl_1 . — S. D800–D806 . — ISSN 0305-1048 . doi : 10.1093 / nar/gkq1064 . Archivováno z originálu 16. dubna 2017.
  3. Ensembl 88 byl vydán! (29. března 2017). Získáno 14. dubna 2017. Archivováno z originálu 15. dubna 2017.
  4. Souborné dílny . Ensembl . Získáno 15. dubna 2017. Archivováno z originálu 16. dubna 2017.
  5. Lidské sestavení a anotace genů . Ensemble (březen 2017). Staženo 15. 4. 2017. Archivováno z originálu 25. 5. 2017.
  6. Roger P. Alexander, Gang Fang, Joel Rozowsky, Michael Snyder, Mark B. Gerstein. Anotace nekódujících oblastí genomu  //  Nature Reviews Genetics. — Sv. 11 , iss. 8 . - str. 559-571 . doi : 10.1038 / nrg2814 .
  7. Val Curwen, Eduardo Eyras, T. Daniel Andrews, Laura Clarke, Emmanuel Mongin. The Ensemble Automatic Gene Annotation System  //  Genome Research. - 2004-05-01. — Sv. 14 , iss. 5 . — S. 942–950 . - doi : 10.1101/gr.1858004 . Archivováno z originálu 2. května 2017.
  8. ↑ 1 2 Anotace Ensembl (downlink) . Získáno 14. dubna 2017. Archivováno z originálu 15. dubna 2017. 
  9. Bronwen L. Aken, Sarah Ayling, Daniel Barrell, Laura Clarke, Valery Curwen. Ensembl genový anotační systém   // Database . — 2016-01-01. — Sv. 2016 . - doi : 10.1093/database/baw093 . Archivováno z originálu 15. dubna 2017.
  10. Proč se počty lidských a myších genů mezi vydáními GENCODE mění? (nedostupný odkaz) . GencodeGenes (13. září 2016). Získáno 15. dubna 2017. Archivováno z originálu 24. května 2017. 
  11. Andrew Yates, Wasiu Akanni, M. Ridwan Amode, Daniel Barrell, Konstantinos Billis. Ensembl 2016  //  Výzkum nukleových kyselin. — 2016-01-04. — Sv. 44 , iss. D1 . — S. D710–D716 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkv1157 . Archivováno z originálu 15. dubna 2017.
  12. Giulietta M. Spudich, Xose M. Fernández-Suárez. Touring Ensembl: Praktický průvodce procházením genomu  //  BMC Genomics. — 2010-01-01. — Sv. 11 . — S. 295 . — ISSN 1471-2164 . - doi : 10.1186/1471-2164-11-295 .
  13. Giulietta Spudich, Xose M. Fernández-Suárez, Ewan Birney. Procházení genomu s Ensemblem: praktický přehled  //  Briefings in Functional Genomics. — 2007-09-01. — Sv. 6 , iss. 3 . — S. 202–219 . — ISSN 2041-2649 . - doi : 10.1093/bfgp/elm025 . Archivováno z originálu 15. dubna 2017.
  14. Xose M. Fernández-Suárez, Michael K. Schuster. Použití Ensembl Genome Server k procházení dat genomické sekvence  //  Aktuální protokoly v bioinformatice. — John Wiley & Sons, Inc., 2002-01-01. — ISBN 9780471250951 . - doi : 10.1002/0471250953.bi0115s30 . Archivováno z originálu 15. dubna 2017.
  15. Arne Stabenau, Graham McVicker, Craig Melsopp, Glenn Proctor, Michele Clamp. Základní softwarové knihovny Ensembl  //  Genome Research. - 2004-05-01. — Sv. 14 , iss. 5 . — S. 929–933 . - doi : 10.1101/gr.1857204 . Archivováno z originálu 12. března 2017.
  16. Dokumentace Doxygen Perl  . www.ensemble.org. Získáno 14. dubna 2017. Archivováno z originálu 5. listopadu 2017.
  17. Andrew Yates, Kathryn Beal, Stephen Keenan, William McLaren, Miguel Pignatelli. Ensembl REST API: Data Ensembl pro jakýkoli jazyk   // Bioinformatika . — 2015-01-01. — Sv. 31 , iss. 1 . — S. 143–145 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btu613 . Archivováno z originálu 15. dubna 2017.
  18. Ensembl Tools  . www.ensemble.org. Získáno 14. dubna 2017. Archivováno z originálu 30. dubna 2017.
  19. William McLaren, Laurent Gil, Sarah E. Hunt, Harpreet Singh Riat, Graham RS Ritchie. The Ensembl Variant Effect Predictor  //  Genome Biology. — 2016-01-01. — Sv. 17 . — S. 122 . — ISSN 1474-760X . - doi : 10.1186/s13059-016-0974-4 .
  20. Paul Julian Kersey, James E. Allen, Irina Armean, Sanjay Boddu, Bruce J. Bolt. Ensembl Genomes 2016: více genomů, větší komplexnost  //  Výzkum nukleových kyselin. — 2016-01-04. — Sv. 44 , iss. D1 . — S. D574–D580 . — ISSN 0305-1048 . - doi : 10.1093/nar/gkv1209 . Archivováno z originálu 15. dubna 2017.
  21. Ensemble Genomes . Získáno 14. dubna 2017. Archivováno z originálu 19. dubna 2017.
  22. Murphy Dan (Genebuild). Nový Ensemble Pre! stránky . Blog Ensembl . Ensemble (19. ledna 2015). Získáno 15. dubna 2017. Archivováno z originálu 16. dubna 2017.

Odkazy