GENKÓD

GENKÓD
Obsah
Popis	Encyklopedie genů a genových variant
Datový typ	Anotace lidských a myších genů ve formátu GTF/GFF3
Kontakty
Výzkumné centrum	Sanger Institute (Welcome Trust Sanger Institute)
Autoři	Harrow J, et al [1]
Datum vydání	září 2012
Dostupnost
webová stránka	GENKÓD
jiný
Licence	Otevřený přístup
Frekvence uvolňování	Lidský genom - jednou za 3 měsíce Myší genom - jednou za 6 měsíců
Verze	GENCODE 28 (lidský genom), M17 (myší genom)

GENCODE je projekt genomického výzkumu, který je součástí projektu Encyklopedie prvků DNA (ENCODE) [2] .

GENCODE byl vytvořen jako součást pilotní fáze projektu ENCODE k identifikaci a mapování všech genů kódujících proteiny z knihovny ENCODE [3] . Nyní si projekt klade za cíl vytvořit encyklopedii genů a jejich variant s kompletním popisem jejich strukturních charakteristik v lidském a myším genomu pomocí metod výpočetní analýzy, ruční anotace a experimentální verifikace [4] .

Konečným cílem projektu je vytvořit anotační základ, který zahrnuje všechny protein kódující lokusy s alternativními transkripty [5] , nekódující lokusy s detekovanými transkripty [6] a pseudogeny [7] .

Historie

V září 2003 spustil Národní výzkumný ústav lidského genomu ( NHGRI ) veřejné výzkumné konsorcium ENCODE , aby se pustilo do projektu identifikace všech funkčních prvků lidského genomu. Tento projekt je pokračováním projektu Human Genome Project [ 8] , zahájeného v roce 1990 americkou Národní zdravotnickou organizací ( NIH ). Cílem projektu bylo rozluštit sekvenci lidské DNA . V roce 2003 byly výsledky publikovány a vědecká komunita projevila zájem o studium funkčních prvků lidského genomu, aby lépe porozuměla mechanismům vývoje některých onemocnění. Za tímto účelem byl spuštěn projekt ENCODE. Byl rozdělen do tří fází: pilotní (počáteční) fáze, vývoj metodiky a produktivní fáze [9] . Během pilotní fáze bylo plánováno prostudovat asi 30 Mb lidského genomu a získané výsledky budou v budoucnu zohledněny při analýze zbytku lidského genomu [9] . Pro mapování známých genů kódujících proteiny na tento fragment genomu byl vytvořen projekt GENCODE [3] .

V dubnu 2005 byla vydána první verze GENCODE s poznámkami na 44 místech lidského genomu [3] . Popsalo 416 známých genomových lokusů, 26 nových lokusů kódujících protein, 82 transkribovaných a 170 pseudogenních lokusů . Druhé vydání (14. října 2005) aktualizovalo a potvrdilo informace o dříve anotovaných lokusech, především díky experimentálním datům z RACE a RT-PCR [3] .

V červnu 2007 byla dokončena pilotní fáze ENCODE [10] . Projekt byl považován za úspěšný a Welcome Trust Sanger Institute získal grant od NHGRI na rozšíření projektu GENCODE [11] .

V roce 2012 byla vydána největší verze GENCODE 7 (na základě dat k prosinci 2011), která kombinovala automatickou anotaci Ensembl a ruční anotaci. Od roku 2013 byl GENCODE udělen druhý grant na pokračování práce na anotaci lidského genomu a také na anotaci myšího genomu pro srovnávací studie myších a lidských genomů [11] .

V dubnu 2018 byl vydán GENCODE 28 (obsahující data zpracovaná do listopadu 2017) [12] .

Úkoly

Úkoly, které byly řešeny v projektu GENCODE, vyvstaly před vědeckou komunitou s rozšiřováním znalostí v oblasti genetiky. Tyto úkoly byly zpravidla spojeny s upřesňováním definic genetických pojmů a se studiem funkcí genomických oblastí, které dříve nebyly podrobeny podrobnému zkoumání. Následují příklady zajímavých otázek a témat, která jsou zkoumána v rámci GENCODE [11] .

Definice pojmu "gen"

Úkol definovat pojem „ gen “ stojí před vědci po celou dobu od doby, kdy vědci přemýšleli o otázkách dědičnosti. V roce 1900 byl gen považován za jakousi diskrétní jednotku dědičnosti, poté se gen začal považovat za základ pro biosyntézu proteinů a nedávno byl tento koncept rozšířen na genomový fragment přepisovaný do RNA [13] . Ačkoli se definice genu během minulého století výrazně vyvinula, pro mnoho vědců zůstala složitým a kontroverzním tématem. Při vývoji projektů ENCODE a zejména GENCODE byly podrobněji popsány i problematičtější aspekty definice - jako alternativní sestřih , intergenové regiony, ale i složité vzorce rozptýlené regulace , konzervatismus nekódujících regionů a množství genů produkujících nekódující RNA . Protože globálním cílem projektu GENCODE je vytvořit encyklopedii genů a genových variant, vyvolaly tyto problémy potřebu, aby projekt poskytl aktualizovanou definici pojmu gen [13] .

Pseudogenes

Pseudogeny jsou protein kódující (nebo podobné) sekvence DNA, ve kterých došlo k deleci nebo posunu rámce [14] . Jsou uvedeny ve většině genomických databází jako vedlejší produkty anotací známějších proteinových kódujících sekvencí. Nedávná analýza však ukázala, že některé z pseudogenů jsou nejen exprimovány, ale také fungují a hrají roli v různých biologických procesech [15] . Aby se výzkumníci vypořádali se složitostí popisu pseudogenů, v rámci GENCODE vytvořili ontologii pseudogenů pomocí automatizovaných, manuálních a experimentálních metod k propojení jejich různých vlastností, včetně sekvenčních vlastností, evoluce a možné biologické funkce [4] . Počet anotovaných pseudogenů roste s každou novou verzí GENCODE (viz hlavní statistiky ).

Dlouhá nekódující RNA (lncRNA)

Jednou z klíčových oblastí výzkumu projektu GENCODE je studium biologického významu dlouhé nekódující RNA (lncRNA). Pro lepší pochopení a studium lidské lncRNA exprese byl v rámci GENCODE spuštěn podprojekt na vývoj vlastních mikročipů pro kvantifikaci takových transkriptů v anotaci lncRNA [6] . Řada takových platforem byla postavena pomocí systému eArray Agilent Technologies a jsou dostupné ve standardním formátu Agilent [ 16] .

Soubor dat dlouhých nekódujících RNA prezentovaný v GENCODE (zejména ve verzi GENCODE 7) je považován za největší ze všech prezentovaných datových souborů lncRNA. Zároveň se málo překrývá s jinými existujícími datovými sadami [6] . Transkripty označené jako lncRNA lze dále klasifikovat do následujících typů na základě jejich pozice v genomu vzhledem ke genům kódujícím protein:

Antisense RNA : lokus, pro který byl nalezen alespoň jeden transkript, který se překrývá s exonem genu kódujícího protein na opačném řetězci, nebo existují publikovaná data o antisense regulaci jakéhokoli genu;
Dlouhá intergenová nekódující RNA ( lincRNA [17] );
"Překrývající se": lokus obsahující gen kódující protein v intronu na stejném řetězci;
"Intron": lokus umístěný v intronu, ale nepřekrývající se s exony na stejném řetězci;
Zpracovaný přepis: lokus, pro který žádný přepis neobsahuje otevřený čtecí rámec a který nelze přiřadit do žádné z předchozích kategorií kvůli jeho složité struktuře.

Hlavní přispěvatelé

V tabulce jsou uvedeny instituce, jejichž účast byla oznámena na webu GENCODE [18] .

Pilotní fáze	Škálování projektu	Druhá fáze (probíhá)
Sanger Institute , Cambridge, Velká Británie	Sanger Institute , Cambridge, Velká Británie	Sanger Institute , Cambridge, Velká Británie
Městský institut lékařského výzkumu (IMIM), Barcelona, Katalánsko	Centrum pro genomickou regulaci ( CRG ), Barcelona, Katalánsko	Centrum pro genomickou regulaci ( CRG ), Barcelona, Katalánsko
Univerzita v Ženevě , Švýcarsko	Univerzita v Lausanne , Švýcarsko	Univerzita v Lausanne , Švýcarsko
University of California , Berkeley, USA	Santa Cruz University ( UCSC ), Kalifornie, USA	Santa Cruz University ( UCSC ), Kalifornie, USA
Evropský bioinformatický institut, Hinkston, Spojené království	Massachusetts Institute of Technology (MIT), Boston USA	Massachusetts Institute of Technology (MIT), Boston, USA
	Yale University , New Haven, USA	Yale University , New Haven, USA
	Španělské národní centrum pro výzkum rakoviny ( CNIO ), Madrid, Španělsko	Španělské národní centrum pro výzkum rakoviny ( CNIO ), Madrid, Španělsko
	Washington University ( WashU ), St. Louis, USA	Evropský bioinformatický institut , Cambridge, Spojené království

Základní statistiky

Úplnost dat v anotacích GENCODE neustále roste. Níže jsou uvedeny statistiky verze GENCODE 28 [19] . Tato verze odpovídá vydání Ensembl 92 a obsahuje anotaci vytvořenou na sestavě lidského genomu GRCh38 , ale je také dostupná pro sestavu GRCh37 ).

Kategorie	Celkový	Kategorie	Celkový
Celkový počet genů	58 381	Celkový počet přepisů	203 835
Geny kódující proteiny	19 901	Transkripty kódující protein:	82 335
Dlouhé nekódující RNA geny	15 779	- kódující kompletní protein	56 541
Malé nekódující RNA geny	7 569	- kódující proteinový fragment	25 794
Pseudogenes :	14 723	Nesmyslně zprostředkované přepisy rozpadu	14 889
- zpracované pseudogeny	10 693	Transkripty dlouhých nekódujících RNA lokusů	28 468
- surové pseudogeny	3 519
- unitární pseudogeny	218
- polymorfní pseudogeny	38
- pseudogeny	osmnáct
Genové segmenty imunoglobulinového receptoru T buněk :	645	Celkový počet různých anotací	61 132
- segmenty kódující protein	408	Počet genů s více než jednou anotací	13 641
- pseudogeny	237

Porovnání verzí GENCODE

Srovnávací statistiky čtyř hlavních verzí GENCODE jsou zobrazeny v grafu vpravo [20] .

Data naznačují, že pokrytí genomu (počet detekovaných a anotovaných lokusů) se neustále zvyšuje. Zároveň se snižuje podíl genů kódujících protein mezi anotovanými, zejména díky výsledkům poly(A) -site annotation a genové expresní cap analýzy ( CAGE ) [4] . Současně se zvyšuje počet pseudogenů a lokusů anotovaných jako dlouhé nekódující RNA .

Metodika

Projekt GENCODE používal manuální a automatickou anotaci. Při ověřování výsledků byla použita data z laboratorních experimentů [21] .

Automatická anotace (ENSEMBL)

Informace o transkriptech Ensembl získaných automatickou anotací genů byly založeny na experimentálních datech o sekvencích proteinů a mRNA z veřejných databází [22] . Kromě oblastí kódujících protein byly anotovány netranslatované oblasti, dlouhé nekódující RNA a krátké nekódující RNA [4] .

Anotace ručně (skupina HAVANA)

HAVANA (Human and Vertebrate Analysis and Annotation) je výzkumná skupina, která provádí ruční anotaci přepisu v projektu GENCODE [3] [4] .

Kromě skupiny HAVANA konsorcium GENCODE zahrnovalo několik dalších skupin, které analyzovaly anotované lokusy pomocí programů Ensembl a asistovaly anotátorům při identifikaci chybějících nebo nesprávně anotovaných lokusů, včetně míst sestřihu . K výměně informací mezi skupinami byl použit sledovací systém AnnoTrack [24] . Proces také používal data z experimentů sekvenování RNA , CAGE a Ditag [25] .

Kromě skupin oficiálně zapojených do projektu pracují na zlepšení kvality anotace GENCODE i nezávislí výzkumníci [26] .

Kombinace manuálních a automatických poznámek

Při kombinaci byly všechny modely přepisů generované automatickou a manuální anotací porovnány na překrývající se přepisy. Zjištěné nesrovnalosti byly zjištěny pomocí systému AnnoTrack [4] .

Automatickou anotaci nelze vždy považovat za správnou (např. pouze ve 45 % případů automatické anotace jsou všechny alternativní přepisy správně predikovány [4] ). V případě neshody anotací byla upřednostněna anotace HAVANA, protože ruční anotace ve složitých případech zahrnovala analýzu genomického kontextu, literatury a použití experimentálních dat Mus musculus . Pro takové případy jsou však informace získané oběma způsoby anotace zachovány [4] .

Hodnocení kvality

Transkriptům je přiřazena úroveň podpory na základě srovnání transkriptu GENCODE s mRNA zarovnáním a sekvencemi expresních markerů (EST) získanými od Ensembl a UCSC. V důsledku toho jsou anotace každého přepisu rozděleny na ručně definované, automaticky definované nebo sloučené anotace, tedy ty, u kterých automatická i ruční metoda anotací poskytly stejné výsledky [4] .

Hlavní přístupy používané v GENCODE 7

Amplifikace, sekvenování, mapování a validace výsledků

Dvouřetězcové cDNA lidských tkání ( mozek , srdce , ledviny , varlata , játra , slezina , plíce a kosterní svaly ) byly vytvořeny amplifikací cDNA . Purifikovaná DNA byla použita k vytvoření genomové knihovny pomocí Illumina "Gomic DNA sample prep kit". Knihovna byla sekvenována na platformě Illumina Genome Analyzer 2. Jazýčky (každý 35 nebo 75 nt ) byly mapovány do referenčního lidského genomu sestavení hg19 a predikovány amplikony pomocí softwaru Bowtie. Přepisy byly ověřeny pouze čtením, které jednoznačně mapovalo genom. Místa spojení exonů byla považována za spolehlivá, pokud mapovala alespoň 10 čtení obsahujících alespoň 4 (pro čtení dlouhá 35 nukleotidů) nebo 8 (pro čtení dlouhá 75 nukleotidů) nukleotidů v každém ze dvou exonů oddělených místem sestřihu [4] .

Jiné přístupy

K anotaci alternativních genových transkriptů byla použita webová služba APPRIS (CNIO) . APPRIS vybírá jednu variantu jako "hlavní izoformu" na základě informací o proteinovém produktu genu a o ortologech blízce příbuzných druhů. APPRIS byl široce používán při rozšiřování projektu ENCODE a anotaci genomů jiných druhů ( Mus sp. , Danio sp. , Rattus sp. ) [27] .

Program PhyloCSF byl použit k hledání kódujících sekvencí v transkriptech automaticky predikovaných z dat sekvenování RNA . Je založena na analýze evolučních vzorů zarovnáním transkriptu s exony obratlovců z UCSC (včetně 33 placentárních savců) [4] .

Organizace dat

Aktuální verze sady lidských genů v GENCODE obsahuje soubory anotací (ve formátech GTF a GFF3 ), soubory FASTA a soubory METADATA spojené s anotací GENCODE pro všechny genomické oblasti [12] . Jsou korelovány s referenčním chromozomem a uloženy v samostatných souborech, které obsahují: genovou anotaci, polyadenylační místa anotovaná skupinou HAVANA, pseudogeny předpovězené algoritmy Yale University a University of Santa Cruz (USA) , dlouhé nekódující RNA, a tRNA struktury predikované pomocí tRNA-Scan [12] .

Definice úrovně anotace

Všechny geny v datovém souboru GENCODE jsou klasifikovány do tří kategorií podle typu anotace [4] :

Level 1 (locus validated): Zahrnuje transkripty, které byly ručně anotovány a experimentálně ověřeny sekvenováním RT-PCR, stejně jako pseudogeny validované třemi různými metodikami [4] .
Úroveň 2 (manuálně anotovaný lokus): zahrnuje přepisy ručně anotované pouze týmem HAVANA a také přepisy spárované s modely získanými pomocí automatizovaného protokolu Ensembl [4] .
Úroveň 3 (automaticky anotovaný lokus): odráží transkripty nebo pseudogeny předpovězené pouze automatickou anotací Ensembla [4] .

Určení stavu genu/transkriptu

Genům a transkriptům je přiřazen stav „známý“, „nový“ a „domnělý“ v závislosti na jejich zastoupení v jiných hlavních databázích a na základech používaných ke konstrukci jejich základních přepisů [4] .

Známý: Přítomen v databázích HUGO Gene Nomenclature Committee (HGNC) a RefSeq [4] .

Novinka: Není přítomen v databázích HGNC nebo RefSeq, ale je dobře podpořen buď přepisem specifickým pro daný lokus, nebo důkazem jeho přítomnosti v paralogním nebo ortologním lokusu [4] .

Předpokládaný: Není přítomen v databázích GNNC nebo RefSeq, ale je podpořen důkazy o existenci kratšího a vzácnějšího přepisu [4] .

GENCODE související projekty

Ensemble

Projekt Ensembl je důležitou součástí projektu ENCODE a je prohlížečem genomu, který vám umožňuje vizualizovat sestavení genomu a všechna data projektu ENCODE, zejména genomové oblasti anotované v projektu GENCODE [28] .

RGASP

RGASP (The RNA-seq Genome Annotation Assessment Project) je projekt organizovaný v rámci konsorcia GENCODE po workshopu EGASP (ENCODE Genome Annotation Assessment Project) o predikci genů. Uskutečnily se dvě části workshopů, které měly analyzovat výsledky sekvenování RNA a zvážit jeho různé (metodologické a technické) aspekty. Jedním z nejvýznamnějších zjištění prvních dvou fází projektu byla důležitost spojení čtení s kvalitou výsledné genové predikce. V roce 2014 se konalo třetí setkání workshopů RGASP, kde bylo hlavní zaměření na mapování čtení do genomu. Projekt poskytl software pro anotaci přepisů (detekce, rekonstrukce a výpočet počtu přepisů) [29] .

Poznámky

↑ Williams FM , Scollen S. , Cao D. , Memari Y. , Hyde CL , Zhang B. , Sidders B. , Ziemek D. , Shi Y. , Harris J. , Harrow I. , Dougherty B. , Malarstig A. , McEwen R. , Stephens JC , Patel K. , Menni C. , Shin SY , Hodgkiss D. , Surdulescu G. , He W. , Jin X. , McMahon SB , Soranzo N. , John S. , Wang J. , Spector TD Geny přispívající k citlivosti na bolest v normální populaci: exomová sekvenační studie. (anglicky) // PLoS Genetics. - 2012. - Sv. 8 , č. 12 . - P. e1003095-1003095 . - doi : 10.1371/journal.pgen.1003095 . — PMID 23284290 .
↑ KÓD : Encyklopedie prvků DNA . KÓDOVAT . Stanfordská Univerzita. — Oficiální webové stránky projektu a stejnojmenného konsorcia ENCODE. Staženo: 19. května 2018.
↑ 1 2 3 4 5 Harrow J. , Denoeud F. , Frankish A. , Reymond A. , Chen CK , Chrast J. , Lagarde J. , Gilbert JG , Storey R. , Swarbreck D. , Rossier C. , Ucla C , Hubbard T. , Antonarakis SE , Guigo R. GENCODE: vytvoření referenční anotace pro ENCODE. (anglicky) // Genome Biology. - 2006. - Sv. 7 Pružný 1 . - str. 4-1 . - doi : 10.1186/cz-2006-7-s1-s4 . — PMID 16925838 .
↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Harrow J. , Frankish A. , Gonzalez JM , Tapanari E. , Diekhans M. , Kokocinski BL , Barre Zadissa A. , Searle S. , Barnes I. , Bignell A. , Boychenko V. , Hunt T. , Kay M. , Mukherjee G. , Rajan J. , Despacio-Reyes G. , Saunders G. , Steward C. , Harte R. , Lin M. , Howald C. , Tanzer A. , Derrien T. , Chrast J. , Walters N. , Balasubramanian S. , Pei B. , Tress M. , Rodriguez JM , Ezkurdia I. , van Baren J . , Brent M. , Haussler D. , Kellis M. , Valencia A. , Reymond A. , Gerstein M. , Guigó R. , Hubbard TJ GENCODE: referenční anotace lidského genomu pro projekt ENCODE. (anglicky) // Genome Research. - 2012. - září ( roč. 22 , č. 9 ). - S. 1760-1774 . - doi : 10.1101/gr.135350.111 . — PMID 22955987 .
↑ Frankish A. , Mudge JM , Thomas M. , Harrow J. Význam identifikace alternativního sestřihu v anotaci genomu obratlovců. (anglicky) // Database : The Journal Of Biological Databases And Curation. - 2012. - Sv. 2012 . - S. 014-014 . - doi : 10.1093/database/bas014 . — PMID 22434846 .
↑ 1 2 3 Derrien T. , Johnson R. , Bussotti G. , Tanzer A. , Djebali S. , Tilgner H. , Guernec G. , Martin D. , Merkel A. , Knowles DG , Lagarde J. , Veeravalli L. , Ruan X. , Ruan Y. , Lassmann T. , Carninci P. , Brown JB , Lipovich L. , Gonzalez JM , Thomas M. , Davis CA , Shiekhattar R. , Gingeras TR , Hubbard TJ , Notredame C. , Harrow J , Guigó R. Katalog lidských dlouhých nekódujících RNA GENCODE v7: analýza jejich genové struktury, evoluce a exprese. (anglicky) // Genome Research. - 2012. - září ( roč. 22 , č. 9 ). - S. 1775-1789 . - doi : 10.1101/gr.132159.111 . — PMID 22955988 .
↑ Pei B. , Sisu C. , Frankish A. , Howald C. , Habegger L. , Mu XJ , Harte R. , Balasubramanian S. , Tanzer A. , Diekhans M. , Reymond A. , Hubbard TJ , Harrow J. , Gerstein MB Zdroj pseudogenu GENCODE. (anglicky) // Genome Biology. - 2012. - 26. září ( roč. 13 , č. 9 ). - str. 51-51 . - doi : 10.1186/cz-2012-13-9-r51 . — PMID 22951037 .
↑ Vše o projektu lidského genomu (HGP ) . Národní ústav pro výzkum lidského genomu (1. října 2015). — O projektu Human Genome Project. Datum přístupu: 12. května 2018.
↑ 1 2 ENCODE Project Consortium. Projekt ENCODE (ENCyclopedia Of DNA Elements). (anglicky) // Věda (New York, NY). - 2004. - 22. října ( roč. 306 , č. 5696 ). - S. 636-640 . - doi : 10.1126/science.1105136 . — PMID 15499007 .
↑ ENCODE Project Consortium, Ewan Birney, John A. Stamatoyannopoulos, Anindya Dutta, Roderic Guigó. Identifikace a analýza funkčních prvků v 1 % lidského genomu pilotním projektem ENCODE // Nature. — 2007-06-14. - T. 447 , č.p. 7146 . — S. 799–816 . — ISSN 1476-4687 . - doi : 10.1038/nature05874 .
↑ 1 2 3 Projekt GENCODE: Encyklopedie genů a genových variant (anglicky) (odkaz není k dispozici) . Vítejte Trust Sanger Institute. — Popis projektu GENCODE na oficiálních stránkách projektu. Staženo 12. 5. 2018. Archivováno z originálu 29. 4. 2018.
↑ 1 2 3 Aktuální vydání GENCODE (anglicky) (stahování) . Vítejte Trust Sanger Institute. — Vydání GENCODE 28 (duben 2018). Staženo 12. 5. 2018. Archivováno z originálu 12. 4. 2018.
↑ 1 2 Mark B. Gerstein, Can Bruce, Joel S. Rozowsky, Deyou Zheng, Jiang Du. Co je to gen, post-ENCODE? Historie a aktualizovaná definice // Výzkum genomu. - Červen 2007. - T. 17 , no. 6 . — S. 669–681 . — ISSN 1088-9051 . - doi : 10.1101/gr.6339607 .
↑ E. F. Vanin. Zpracované pseudogeny: charakteristiky a evoluce // Annual Review of Genetics. - 1985. - T. 19 . — S. 253–272 . — ISSN 0066-4197 . - doi : 10.1146/annurev.ge.19.120185.001345 .
↑ Jinrui Xu, Jianzhi Zhang. Jsou lidské přeložené pseudogeny funkční? (anglicky) // Molekulární biologie a evoluce. — 2016-03-01. — Sv. 33 , iss. 3 . — S. 755–760 . — ISSN 0737-4038 . - doi : 10.1093/molbev/msv268 .
↑ GENCODE Custom lncRNA Expression Microarray Design (anglicky) (odkaz není dostupný) . GENKÓD . Vítejte Trust Sanger Institute. — Návrh mikročipů pro expresi dlouhých nekódujících RNA pro projekt GENCODE. Staženo 13. 5. 2018. Archivováno z originálu 8. 4. 2018.
↑ Igor Ulitsky, David P. Bartel. lincRNAs: Genomika, evoluce a mechanismy // Buňka. — 2013-07-03. - T. 154 , č.p. 1 . — S. 26–46 . — ISSN 0092-8674 . - doi : 10.1016/j.cell.2013.06.020 .
↑ Účastníci, veškerý financovaný personál (angl.) (odkaz není k dispozici) . Vítejte v Sangerově institutu. — Seznam účastníků projektu GENCODE na oficiálních stránkách projektu. Staženo 13. 5. 2018. Archivováno z originálu 11. 5. 2018.
↑ Statistiky o všech vydáních Human GENCODE (anglicky) (downlink) . GENKÓD . Wellcome Sanger Institute (duben 2018). - Všechna vydání anotací lidského genomu na oficiálních stránkách GENCODE. Staženo 13. 5. 2018. Archivováno z originálu 14. 4. 2018.
↑ Statistiky o aktuálním zmrazení GENCODE (verze 21 ) . GENKÓD . Vítejte Trust Sanger Institute. — Statistika vydání GENCODE 21. Načteno 13. května 2018.
↑ Cíle GENKÓDU Fáze 2 . GENKÓD . Vítejte Trust Sanger Institute. — Popis úkolů projektu GENCODE na oficiálních stránkách projektu. Staženo: 13. května 2018.
↑ Ensemble Gene Set . Archiv! Ensemble . EMBL-EBI. — Popis dat Ensembl na oficiálních stránkách projektu. Staženo: 13. května 2018.
↑ Mudge JM , Harrow J. Vytvoření anotace referenčního genu pro sestavení myšího genomu C57BL6/J. (anglicky) // Mammalian Genome : Official Journal Of The International Savmalian Genome Society. - 2015. - říjen ( roč. 26 , č. 9-10 ). - str. 366-378 . - doi : 10.1007/s00335-015-9583-x . — PMID 26187010 .
↑ Kokocinski F. , Harrow J. , Hubbard T. AnnoTrack – sledovací systém pro anotaci genomu. (anglicky) // BMC Genomics. - 2010. - 5. října ( vol. 11 ). - str. 538-538 . - doi : 10.1186/1471-2164-11-538 . — PMID 20923551 .
↑ S. Searle, A. Frankish, A. Bignell, B. Aken, T. Derrien. Sada lidských genů GENCODE // Genome Biology. — 2010-10-11. - T. 11 , č.p. 1 . - S. P36 . — ISSN 1474-760X . - doi : 10.1186/cz-2010-11-s1-p36 .
↑ Wright JC , Mudge J. , Weisser H. , Barzine MP , Gonzalez JM , Brazma A. , Choudhary JS , Harrow J. Zlepšení anotace referenčního genu GENCODE pomocí vysoce přísného pracovního postupu proteogenomiky. (anglicky) // Nature Communications. - 2016. - 2. června ( 7. díl ). - S. 11778-11778 . - doi : 10.1038/ncomms11778 . — PMID 27250503 .
↑ Jose Manuel Rodriguez, Juan Rodriguez-Rivas, Tomás Di Domenico, Jesús Vázquez, Alfonso Valencia. APPRIS 2017: hlavní izoformy pro více genových sad // Nucleic Acids Research. — 23. 10. 2017. — Sv. 46 , iss. D1 . — S. D213–D217 . — ISSN 1362-4962 0305-1048, 1362-4962 . doi : 10.1093 / nar/gkx997 .
↑ KÓDOVAT data v Ensemble . Ensembl . EMBL-EBI. — Popis využití dat projektu ENCODE na webových stránkách Ensembl. Datum přístupu: 12. května 2018.
↑ RGASP . RNA-seq Genome Annotation Assessment Project (anglicky) (odkaz není k dispozici) . GENKÓD . Vítejte v Sangerově institutu . — Popis projektu RGASP na oficiálních stránkách GENCODE. Staženo 13. 5. 2018. Archivováno z originálu 8. 4. 2018.