GENKÓD | |
---|---|
Obsah | |
Popis | Encyklopedie genů a genových variant |
Datový typ | Anotace lidských a myších genů ve formátu GTF/GFF3 |
Kontakty | |
Výzkumné centrum | Sanger Institute (Welcome Trust Sanger Institute) |
Autoři | Harrow J, et al [1] |
Datum vydání | září 2012 |
Dostupnost | |
webová stránka | GENKÓD |
jiný | |
Licence | Otevřený přístup |
Frekvence uvolňování |
Lidský genom - jednou za 3 měsíce Myší genom - jednou za 6 měsíců |
Verze | GENCODE 28 (lidský genom), M17 (myší genom) |
GENCODE je projekt genomického výzkumu, který je součástí projektu Encyklopedie prvků DNA (ENCODE) [2] .
GENCODE byl vytvořen jako součást pilotní fáze projektu ENCODE k identifikaci a mapování všech genů kódujících proteiny z knihovny ENCODE [3] . Nyní si projekt klade za cíl vytvořit encyklopedii genů a jejich variant s kompletním popisem jejich strukturních charakteristik v lidském a myším genomu pomocí metod výpočetní analýzy, ruční anotace a experimentální verifikace [4] .
Konečným cílem projektu je vytvořit anotační základ, který zahrnuje všechny protein kódující lokusy s alternativními transkripty [5] , nekódující lokusy s detekovanými transkripty [6] a pseudogeny [7] .
V září 2003 spustil Národní výzkumný ústav lidského genomu ( NHGRI ) veřejné výzkumné konsorcium ENCODE , aby se pustilo do projektu identifikace všech funkčních prvků lidského genomu. Tento projekt je pokračováním projektu Human Genome Project [ 8] , zahájeného v roce 1990 americkou Národní zdravotnickou organizací ( NIH ). Cílem projektu bylo rozluštit sekvenci lidské DNA . V roce 2003 byly výsledky publikovány a vědecká komunita projevila zájem o studium funkčních prvků lidského genomu, aby lépe porozuměla mechanismům vývoje některých onemocnění. Za tímto účelem byl spuštěn projekt ENCODE. Byl rozdělen do tří fází: pilotní (počáteční) fáze, vývoj metodiky a produktivní fáze [9] . Během pilotní fáze bylo plánováno prostudovat asi 30 Mb lidského genomu a získané výsledky budou v budoucnu zohledněny při analýze zbytku lidského genomu [9] . Pro mapování známých genů kódujících proteiny na tento fragment genomu byl vytvořen projekt GENCODE [3] .
V dubnu 2005 byla vydána první verze GENCODE s poznámkami na 44 místech lidského genomu [3] . Popsalo 416 známých genomových lokusů, 26 nových lokusů kódujících protein, 82 transkribovaných a 170 pseudogenních lokusů . Druhé vydání (14. října 2005) aktualizovalo a potvrdilo informace o dříve anotovaných lokusech, především díky experimentálním datům z RACE a RT-PCR [3] .
V červnu 2007 byla dokončena pilotní fáze ENCODE [10] . Projekt byl považován za úspěšný a Welcome Trust Sanger Institute získal grant od NHGRI na rozšíření projektu GENCODE [11] .
V roce 2012 byla vydána největší verze GENCODE 7 (na základě dat k prosinci 2011), která kombinovala automatickou anotaci Ensembl a ruční anotaci. Od roku 2013 byl GENCODE udělen druhý grant na pokračování práce na anotaci lidského genomu a také na anotaci myšího genomu pro srovnávací studie myších a lidských genomů [11] .
V dubnu 2018 byl vydán GENCODE 28 (obsahující data zpracovaná do listopadu 2017) [12] .
Úkoly, které byly řešeny v projektu GENCODE, vyvstaly před vědeckou komunitou s rozšiřováním znalostí v oblasti genetiky. Tyto úkoly byly zpravidla spojeny s upřesňováním definic genetických pojmů a se studiem funkcí genomických oblastí, které dříve nebyly podrobeny podrobnému zkoumání. Následují příklady zajímavých otázek a témat, která jsou zkoumána v rámci GENCODE [11] .
Úkol definovat pojem „ gen “ stojí před vědci po celou dobu od doby, kdy vědci přemýšleli o otázkách dědičnosti. V roce 1900 byl gen považován za jakousi diskrétní jednotku dědičnosti, poté se gen začal považovat za základ pro biosyntézu proteinů a nedávno byl tento koncept rozšířen na genomový fragment přepisovaný do RNA [13] . Ačkoli se definice genu během minulého století výrazně vyvinula, pro mnoho vědců zůstala složitým a kontroverzním tématem. Při vývoji projektů ENCODE a zejména GENCODE byly podrobněji popsány i problematičtější aspekty definice - jako alternativní sestřih , intergenové regiony, ale i složité vzorce rozptýlené regulace , konzervatismus nekódujících regionů a množství genů produkujících nekódující RNA . Protože globálním cílem projektu GENCODE je vytvořit encyklopedii genů a genových variant, vyvolaly tyto problémy potřebu, aby projekt poskytl aktualizovanou definici pojmu gen [13] .
Pseudogeny jsou protein kódující (nebo podobné) sekvence DNA, ve kterých došlo k deleci nebo posunu rámce [14] . Jsou uvedeny ve většině genomických databází jako vedlejší produkty anotací známějších proteinových kódujících sekvencí. Nedávná analýza však ukázala, že některé z pseudogenů jsou nejen exprimovány, ale také fungují a hrají roli v různých biologických procesech [15] . Aby se výzkumníci vypořádali se složitostí popisu pseudogenů, v rámci GENCODE vytvořili ontologii pseudogenů pomocí automatizovaných, manuálních a experimentálních metod k propojení jejich různých vlastností, včetně sekvenčních vlastností, evoluce a možné biologické funkce [4] . Počet anotovaných pseudogenů roste s každou novou verzí GENCODE (viz hlavní statistiky ).
Jednou z klíčových oblastí výzkumu projektu GENCODE je studium biologického významu dlouhé nekódující RNA (lncRNA). Pro lepší pochopení a studium lidské lncRNA exprese byl v rámci GENCODE spuštěn podprojekt na vývoj vlastních mikročipů pro kvantifikaci takových transkriptů v anotaci lncRNA [6] . Řada takových platforem byla postavena pomocí systému eArray Agilent Technologies a jsou dostupné ve standardním formátu Agilent [ 16] .
Soubor dat dlouhých nekódujících RNA prezentovaný v GENCODE (zejména ve verzi GENCODE 7) je považován za největší ze všech prezentovaných datových souborů lncRNA. Zároveň se málo překrývá s jinými existujícími datovými sadami [6] . Transkripty označené jako lncRNA lze dále klasifikovat do následujících typů na základě jejich pozice v genomu vzhledem ke genům kódujícím protein:
V tabulce jsou uvedeny instituce, jejichž účast byla oznámena na webu GENCODE [18] .
Pilotní fáze | Škálování projektu | Druhá fáze (probíhá) |
---|---|---|
Sanger Institute , Cambridge, Velká Británie | Sanger Institute , Cambridge, Velká Británie | Sanger Institute , Cambridge, Velká Británie |
Městský institut lékařského výzkumu (IMIM), Barcelona, Katalánsko | Centrum pro genomickou regulaci ( CRG ), Barcelona, Katalánsko | Centrum pro genomickou regulaci ( CRG ), Barcelona, Katalánsko |
Univerzita v Ženevě , Švýcarsko | Univerzita v Lausanne , Švýcarsko | Univerzita v Lausanne , Švýcarsko |
University of California , Berkeley, USA | Santa Cruz University ( UCSC ), Kalifornie, USA | Santa Cruz University ( UCSC ), Kalifornie, USA |
Evropský bioinformatický institut, Hinkston, Spojené království | Massachusetts Institute of Technology (MIT), Boston USA | Massachusetts Institute of Technology (MIT), Boston, USA |
Yale University , New Haven, USA | Yale University , New Haven, USA | |
Španělské národní centrum pro výzkum rakoviny ( CNIO ), Madrid, Španělsko | Španělské národní centrum pro výzkum rakoviny ( CNIO ), Madrid, Španělsko | |
Washington University ( WashU ), St. Louis, USA | Evropský bioinformatický institut , Cambridge, Spojené království |
Úplnost dat v anotacích GENCODE neustále roste. Níže jsou uvedeny statistiky verze GENCODE 28 [19] . Tato verze odpovídá vydání Ensembl 92 a obsahuje anotaci vytvořenou na sestavě lidského genomu GRCh38 , ale je také dostupná pro sestavu GRCh37 ).
Kategorie | Celkový | Kategorie | Celkový |
---|---|---|---|
Celkový počet genů | 58 381 | Celkový počet přepisů | 203 835 |
Geny kódující proteiny | 19 901 | Transkripty kódující protein: | 82 335 |
Dlouhé nekódující RNA geny | 15 779 | - kódující kompletní protein | 56 541 |
Malé nekódující RNA geny | 7 569 | - kódující proteinový fragment | 25 794 |
Pseudogenes : | 14 723 | Nesmyslně zprostředkované přepisy rozpadu | 14 889 |
- zpracované pseudogeny | 10 693 | Transkripty dlouhých nekódujících RNA lokusů | 28 468 |
- surové pseudogeny | 3 519 | ||
- unitární pseudogeny | 218 | ||
- polymorfní pseudogeny | 38 | ||
- pseudogeny | osmnáct | ||
Genové segmenty imunoglobulinového receptoru T buněk : | 645 | Celkový počet různých anotací | 61 132 |
- segmenty kódující protein | 408 | Počet genů s více než jednou anotací | 13 641 |
- pseudogeny | 237 |
Srovnávací statistiky čtyř hlavních verzí GENCODE jsou zobrazeny v grafu vpravo [20] .
Data naznačují, že pokrytí genomu (počet detekovaných a anotovaných lokusů) se neustále zvyšuje. Zároveň se snižuje podíl genů kódujících protein mezi anotovanými, zejména díky výsledkům poly(A) -site annotation a genové expresní cap analýzy ( CAGE ) [4] . Současně se zvyšuje počet pseudogenů a lokusů anotovaných jako dlouhé nekódující RNA .
Projekt GENCODE používal manuální a automatickou anotaci. Při ověřování výsledků byla použita data z laboratorních experimentů [21] .
Informace o transkriptech Ensembl získaných automatickou anotací genů byly založeny na experimentálních datech o sekvencích proteinů a mRNA z veřejných databází [22] . Kromě oblastí kódujících protein byly anotovány netranslatované oblasti, dlouhé nekódující RNA a krátké nekódující RNA [4] .
HAVANA (Human and Vertebrate Analysis and Annotation) je výzkumná skupina, která provádí ruční anotaci přepisu v projektu GENCODE [3] [4] .
Kromě skupiny HAVANA konsorcium GENCODE zahrnovalo několik dalších skupin, které analyzovaly anotované lokusy pomocí programů Ensembl a asistovaly anotátorům při identifikaci chybějících nebo nesprávně anotovaných lokusů, včetně míst sestřihu . K výměně informací mezi skupinami byl použit sledovací systém AnnoTrack [24] . Proces také používal data z experimentů sekvenování RNA , CAGE a Ditag [25] .
Kromě skupin oficiálně zapojených do projektu pracují na zlepšení kvality anotace GENCODE i nezávislí výzkumníci [26] .
Při kombinaci byly všechny modely přepisů generované automatickou a manuální anotací porovnány na překrývající se přepisy. Zjištěné nesrovnalosti byly zjištěny pomocí systému AnnoTrack [4] .
Automatickou anotaci nelze vždy považovat za správnou (např. pouze ve 45 % případů automatické anotace jsou všechny alternativní přepisy správně predikovány [4] ). V případě neshody anotací byla upřednostněna anotace HAVANA, protože ruční anotace ve složitých případech zahrnovala analýzu genomického kontextu, literatury a použití experimentálních dat Mus musculus . Pro takové případy jsou však informace získané oběma způsoby anotace zachovány [4] .
Transkriptům je přiřazena úroveň podpory na základě srovnání transkriptu GENCODE s mRNA zarovnáním a sekvencemi expresních markerů (EST) získanými od Ensembl a UCSC. V důsledku toho jsou anotace každého přepisu rozděleny na ručně definované, automaticky definované nebo sloučené anotace, tedy ty, u kterých automatická i ruční metoda anotací poskytly stejné výsledky [4] .
Dvouřetězcové cDNA lidských tkání ( mozek , srdce , ledviny , varlata , játra , slezina , plíce a kosterní svaly ) byly vytvořeny amplifikací cDNA . Purifikovaná DNA byla použita k vytvoření genomové knihovny pomocí Illumina "Gomic DNA sample prep kit". Knihovna byla sekvenována na platformě Illumina Genome Analyzer 2. Jazýčky (každý 35 nebo 75 nt ) byly mapovány do referenčního lidského genomu sestavení hg19 a predikovány amplikony pomocí softwaru Bowtie. Přepisy byly ověřeny pouze čtením, které jednoznačně mapovalo genom. Místa spojení exonů byla považována za spolehlivá, pokud mapovala alespoň 10 čtení obsahujících alespoň 4 (pro čtení dlouhá 35 nukleotidů) nebo 8 (pro čtení dlouhá 75 nukleotidů) nukleotidů v každém ze dvou exonů oddělených místem sestřihu [4] .
Jiné přístupyK anotaci alternativních genových transkriptů byla použita webová služba APPRIS (CNIO) . APPRIS vybírá jednu variantu jako "hlavní izoformu" na základě informací o proteinovém produktu genu a o ortologech blízce příbuzných druhů. APPRIS byl široce používán při rozšiřování projektu ENCODE a anotaci genomů jiných druhů ( Mus sp. , Danio sp. , Rattus sp. ) [27] .
Program PhyloCSF byl použit k hledání kódujících sekvencí v transkriptech automaticky predikovaných z dat sekvenování RNA . Je založena na analýze evolučních vzorů zarovnáním transkriptu s exony obratlovců z UCSC (včetně 33 placentárních savců) [4] .
Aktuální verze sady lidských genů v GENCODE obsahuje soubory anotací (ve formátech GTF a GFF3 ), soubory FASTA a soubory METADATA spojené s anotací GENCODE pro všechny genomické oblasti [12] . Jsou korelovány s referenčním chromozomem a uloženy v samostatných souborech, které obsahují: genovou anotaci, polyadenylační místa anotovaná skupinou HAVANA, pseudogeny předpovězené algoritmy Yale University a University of Santa Cruz (USA) , dlouhé nekódující RNA, a tRNA struktury predikované pomocí tRNA-Scan [12] .
Všechny geny v datovém souboru GENCODE jsou klasifikovány do tří kategorií podle typu anotace [4] :
Genům a transkriptům je přiřazen stav „známý“, „nový“ a „domnělý“ v závislosti na jejich zastoupení v jiných hlavních databázích a na základech používaných ke konstrukci jejich základních přepisů [4] .
Známý: Přítomen v databázích HUGO Gene Nomenclature Committee (HGNC) a RefSeq [4] .
Novinka: Není přítomen v databázích HGNC nebo RefSeq, ale je dobře podpořen buď přepisem specifickým pro daný lokus, nebo důkazem jeho přítomnosti v paralogním nebo ortologním lokusu [4] .
Předpokládaný: Není přítomen v databázích GNNC nebo RefSeq, ale je podpořen důkazy o existenci kratšího a vzácnějšího přepisu [4] .
Projekt Ensembl je důležitou součástí projektu ENCODE a je prohlížečem genomu, který vám umožňuje vizualizovat sestavení genomu a všechna data projektu ENCODE, zejména genomové oblasti anotované v projektu GENCODE [28] .
RGASP (The RNA-seq Genome Annotation Assessment Project) je projekt organizovaný v rámci konsorcia GENCODE po workshopu EGASP (ENCODE Genome Annotation Assessment Project) o predikci genů. Uskutečnily se dvě části workshopů, které měly analyzovat výsledky sekvenování RNA a zvážit jeho různé (metodologické a technické) aspekty. Jedním z nejvýznamnějších zjištění prvních dvou fází projektu byla důležitost spojení čtení s kvalitou výsledné genové predikce. V roce 2014 se konalo třetí setkání workshopů RGASP, kde bylo hlavní zaměření na mapování čtení do genomu. Projekt poskytl software pro anotaci přepisů (detekce, rekonstrukce a výpočet počtu přepisů) [29] .