ZAKÓDOVAT | |
---|---|
Obsah | |
Popis | Databáze celého genomu |
Kontakty | |
Výzkumné centrum | Kalifornská univerzita Santa Cruz |
Laboratoř | Centrum pro biomolekulární vědu a inženýrství |
Autoři | Brian J Raney [1] |
Původní publikace | PMID 21037257 |
Datum vydání | 2010 |
Dostupnost | |
webová stránka | encodeproject.org |
Encyklopedie prvků DNA ( ENCODE ) je mezinárodní výzkumné konsorcium založené v září 2003 . Organizuje a financuje americký Národní institut pro výzkum lidského genomu ( NHGRI ) [1] [2] [3] . ENCODE, koncipovaný jako pokračování projektu Human Genome Project, si klade za cíl provést kompletní analýzu funkčních prvků lidského genomu . Veškeré výsledky získané během realizace projektu jsou publikovány ve veřejných databázích .
Dne 5. září 2012 byly publikovány první výsledky projektu v podobě 30 propojených publikací na webových stránkách časopisů " Nature ", " Genome Biology " a " Genome Research " [4] [ 5] . Tyto publikace ukazují, že nejméně 80 % lidského genomu je biologicky aktivních, do té doby dominovala představa, že většina DNA byla „ junk “. Takové unáhlené závěry jsou však kritizovány mnoha vědci, kteří poukazují na nedostatek potřebných důkazů pro funkčnost těchto prvků [6] .
Odhaduje se, že lidský genom obsahuje 20 000 genů kódujících protein (dohromady tvoří exom ) a tvoří pouze asi 1,5 % DNA lidského genomu. Primárním cílem projektu ENCODE je určit funkci zbytku genomu, z nichž většina byla tradičně považována za „ nevyžádané “ (například DNA, která není transkribována ).
Přibližně 90 % jednonukleotidových polymorfismů v lidském genomu (u kterých bylo prokázáno, že jsou spojeny s různými nemocemi pomocí celogenomových asociačních studií) se nachází mimo oblasti kódující protein. [7]
Aktivita a exprese genů kódujících protein může být regulována regulomem - různými prvky DNA, jako je promotor , regulační sekvence a oblasti chromatinu , stejně jako modifikace histonů . Předpokládá se, že změny v regulačních oblastech mohou narušit expresi proteinů a buněčnou funkci, a tak vést k onemocněním ( ENCODE Project Background ). Stanovením umístění regulačních elementů a jejich vlivu na transkripci je možné objasnit vztah mezi změnami v hladinách exprese konkrétních genů a rozvojem onemocnění. [osm]
ENCODE má být komplexním zdrojem, který vědecké komunitě umožní lépe porozumět tomu, jak může genom ovlivnit lidské zdraví a stimulovat vývoj nových metod prevence a léčby nemocí. [9]
K dnešnímu dni projekt pomáhá při objevování nových regulačních prvků DNA, poskytuje nové poznatky o organizaci a regulaci našich genů a genomu a také o tom, jak mohou změny v sekvenci DNA ovlivnit vývoj nemocí. [7] Jedním z hlavních výsledků projektu je popis, že bylo prokázáno, že 80 % lidského genomu je spojeno s alespoň jednou biochemickou funkcí. [10] [11] Většina této nekódující DNA se podílí na regulaci exprese kódujících genů. [10] Kromě toho je exprese každého kódujícího genu řízena řadou regulačních oblastí umístěných v blízkosti i ve vzdálenosti od genu. Tyto výsledky ukazují, že regulace genů je mnohem složitější, než se dříve myslelo. [12]
Projekt ENCODE je realizován ve třech fázích: počáteční fáze, fáze vývoje technologie a produktivní fáze.
Během počáteční fáze konsorcium ENCODE vyhodnotilo strategie pro identifikaci různých typů prvků genomu . Cílem počáteční fáze bylo definovat soubor postupů, které by společně umožnily přesnou a podrobnou charakterizaci velkých oblastí lidského genomu s přihlédnutím k ekonomické životaschopnosti a vysoké účinnosti procesu. Počáteční fází bylo identifikovat mezery v sadě nástrojů pro definování funkčních sekvencí a také ukázat, zda některá z použitých metod nebyla shledána jako neefektivní nebo nevhodná pro škálování. Některé z těchto problémů bylo nutné řešit ve fázi vývoje technologie ENCODE (souběžně s počáteční fází projektu), která měla za cíl vyvinout nové laboratorní a výpočetní metody, které by zlepšily identifikaci známých funkčních sekvencí nebo studium nových funkční prvky genomu. Výsledek prvních dvou fází na příkladu studia 1 % lidského genomu určil nejlepší způsob, jak analyzovat zbývajících 99 % s maximální efektivitou a nejnižšími náklady během produktivní fáze. [9]
Během pilotní fáze byl proveden výzkum a porovnání existujících metod pro důkladnou analýzu určitého úseku sekvence lidského genomu. Bylo organizováno jako otevřené konsorcium a sdružovalo výzkumníky z různých prostředí a zázemí, aby posoudili přednosti každé techniky, technologie a strategie z různorodého souboru. Současně bylo cílem technologické vývojové fáze projektu vyvinout nové, vysoce účinné metody určování funkčních prvků. Cílem této práce bylo stanovit soubor přístupů, které by umožnily co nejpřesnější určení všech funkčních prvků v lidském genomu. Během počáteční fáze byla stanovena schopnost různých metod škálovat pro analýzu celého lidského genomu a byly identifikovány mezery v definici funkčních prvků v sekvenci genomu.
Počáteční fáze projektu probíhala v úzké spolupráci experimentátorů a teoretiků, což umožnilo vyhodnocení řady metod pro anotaci lidského genomu. Jako cíl pro počáteční fázi projektu byl vybrán soubor regionů představujících přibližně 1 % (30 Mb) lidského genomu a byl analyzován všemi účastníky pilotní fáze projektu. Všechna data o těchto regionech získaná účastníky ENCODE byla rychle uvolněna do veřejných databází. [13] [14]
Výsledky fáze I [13]V září 2007 začalo financování produktivní fáze projektu ENCODE. V této fázi bylo cílem analyzovat celý genom a provést "dodatečné studie v průmyslových podmínkách. " [15]
Stejně jako v počáteční fázi byla práce v produktivní fázi organizována jako otevřené konsorcium. V říjnu 2007 jí Národní institut pro výzkum lidského genomu přidělil granty v celkové výši více než 80 milionů dolarů na 4 roky. [16] Během produktivní fáze projekt zahrnoval Data Coordination Center, Data Analysis Center a Technology Development Center. [17] V tuto chvíli se projekt mění ve skutečně masivní podnik, do kterého se zapojilo 440 vědců z 32 laboratoří z celého světa. V roce 2007, kdy byla dokončena počáteční fáze, projekt navýšil kapacitu z velké části díky řazení nové generace . Skutečně bylo zpracováno mnoho dat, výzkumníci získali asi 15 terabajtů nezpracovaných informací.
Do roku 2010 získal projekt ENCODE více než 1 000 datových sad pro celý genom. Dohromady tato data ukazují, které oblasti zřejmě řídí expresi genů používaných v určitých typech buněk a které oblasti interagují s velkým množstvím proteinů. Projekt poskytuje informace o transkripčních místech, jejich souvisejících transkripčních faktorech, struktuře chromatinu a modifikacích histonů.
Výsledky fáze II [18]ENCODE Consortium je primárně tvořeno vědci, kteří jsou sponzorováni americkým Národním institutem pro výzkum lidského genomu . Dalšími účastníky projektu jsou členové Konsorcia nebo Analytické pracovní skupiny.
Počáteční fáze projektu sestávala z osmi studijních skupin a dvanácti skupin účastnících se fáze technologického vývoje projektu ENCODE ( ENCODE Pilot Project: Participants and Projects ). Do konce roku 2007, kdy pilotní fáze projektu oficiálně skončila, se počet účastníků rozrostl na 440 vědců z 32 laboratoří z celého světa. V současné době se konsorcium skládá z různých center, která plní různé úkoly ( ENCODE Účastníci a projekty ):
Od roku 2007 provedli účastníci projektu ENCODE velké množství studií založených na různých biologických sekvencích s cílem zmapovat funkční prvky lidského genomu [19] . Mapované prvky (a použité přístupy) zahrnují oblasti transkripce RNA (RNA-seq, CAGE, RNA-PET a manuální anotace), oblasti kódující protein (hmotnostní spektrometrie), vazebná místa pro transkripční faktor (ChIP-seq a DNase-seq), struktura chromatinu (DNase-seq, FAIRE-seq, histon ChIP-seq a MNase-seq) a místa methylace DNA (RRBS analýza). Níže je uveden podrobný popis údajů získaných účastníky projektu za léta jeho práce a prezentovaných na webových stránkách projektu.
Projekt použil manuální a automatizovanou anotaci k vytvoření komplexního katalogu lidských proteinů kódujících a nekódujících RNA a pseudogenů, nazvaný GENCODE. [20] [21] Katalog obsahuje 20 687 genů kódujících protein, s průměrem 6,3 alternativně sestřižených na lokus.
Kromě toho bylo anotováno 8801 automaticky generovaných malých RNA a 9640 ručně upravených dlouhých nekódujících RNA (lncRNA). Srovnání lncRNA s jinými daty ENCODE ukazuje, že lncRNA jsou generovány cestou podobnou genům kódujícím protein. [22] Projekt GENCODE také anotoval 11 224 pseudogenů, z nichž 863 je transkribovaných a asociovaných s aktivním chromatinem. [23]
Pro přímou identifikaci regulačních oblastí účastníci projektu zmapovali vazebná místa 119 různých DNA-vazebných proteinů a řadu složek RNA polymerázy v 72 buněčných typech pomocí ChIP-seq. [24] Každé vazebné místo bylo zkoumáno na obohacení o známé vazebné motivy DNA a na přítomnost nových motivů.
Přístupnost chromatinu, charakterizovaná hypersenzitivitou DNázy I, je charakteristickým znakem regulačních oblastí DNA. [25] [26] Účastníci projektu zmapovali 2,89 milionu unikátních, nepřekrývajících se míst hypersenzitivity DNázy I (DHS) pomocí DNase-seq ve 125 typech buněk.
Byla analyzována chromozomální umístění 12 histonových modifikací ve 46 buněčných typech. Získaná data ukazují, že globální vzorce modifikace se velmi liší pro různé typy buněk v souladu se změnami v transkripční aktivitě. Bylo zjištěno, že integrace různých informací o modifikaci histonů může být systematicky použita k přiřazení funkčních atributů genomovým oblastem. [27]
Metylace cytosinu (obvykle na CpG dinukleotidech) se podílí na epigenetické regulaci genové exprese. Metylace promotoru je často spojena s represí, zatímco methylace genu koreluje s transkripční aktivitou. [28] Účastníci projektu použili metodu RRBS (Restricted Genomic Loci Set Bisulfite Sequencing) ke kvantitativnímu profilu metylace DNA pro průměrně 1,2 milionu CpG v každé z 82 buněčných linií a tkání, včetně CpG v intergenových oblastech proximálních promotorů a oblastí uvnitř gen (těla genů). [29]
Fyzické interakce mezi jednotlivými oblastmi chromozomů, které mohou být odděleny stovkami kilobází, jsou považovány za důležité v regulaci genové exprese 46. Metoda 5C odhalila dálkové interakce s místy startu transkripce (TSS) v cílovém 1 % genom (44 pilotních oblastí ENCODE) ve čtyřech typech buněk (GM12878, K562, HeLa-S3 a H1 hESC) 49. Po zohlednění chování chromatinového polymeru a experimentálních variací byly v každém typu buňky nalezeny stovky statisticky významných interakcí na dlouhé vzdálenosti. Páry interagujících lokusů vykazovaly silnou korelaci mezi úrovní exprese genu TSS a přítomností určitých tříd funkčních prvků, jako jsou enhancery . Průměrný počet distálních elementů interagujících s TSS byl 3,9 a průměrný počet TSS interagujících s distálním elementem byl 2,5, což ukazuje na komplexní síť vzájemně propojených chromatinu. Tato propletená architektura "dlouhého dosahu" byla také odhalena napříč genomem analýzou interakcí chromatinu s párovým sekvenováním koncových značek ( ChIA-PET ) používanou k detekci interakcí v chromatinu obohaceném RNA polymerázou II (Pol II) v pěti typech buněk. [třicet]
Navzdory tvrzením konsorcia, že projekt ENCODE není zdaleka u konce, jsou ohlasy na již publikované články a tiskové zprávy pozitivní. Redaktoři časopisu Nature a autoři projektu ENCODE píší: „... spolupracovali jsme mnoho měsíců, abychom vytvořili co největší rozruch, který přitáhne pozornost nejen vědecké komunity, ale i široké veřejnosti“ („... spolupracovali po mnoho měsíců, aby udělali co největší rozruch a upoutali pozornost nejen výzkumné komunity, ale i široké veřejnosti“). [31] Tvrzení předložené projektem ENCODE, že 80 % lidského genomu má biochemickou funkci [10] , bylo rychle převzato populárně vědeckými publikacemi, které charakterizovaly výsledky projektu jako způsobující smrt „nevyžádané“ DNA. . [32] [33]
Nicméně závěr, že většina genomu je „funkční“, byl kritizován na základě toho, že projekt ENCODE definuje „funkčnost“ příliš široce, totiž že vše, co je v buňce transkribováno, má nějakou funkci. Tento závěr byl učiněn navzdory obecně přijímanému názoru, že mnoho prvků DNA, které jsou transkribovány , jako jsou pseudogeny , přesto není funkční. Projekt ENCODE navíc zdůrazňoval spíše senzitivitu než specifičnost, což vedlo k mnoha falešným pozitivům . [34] [35] [36] Poněkud svévolný výběr buněčných linií a transkripčních faktorů , stejně jako nedostatek nezbytných kontrolních experimentů, se staly dalším zdrojem vážné kritiky ENCODE, protože náhodná molekula DNA může napodobovat "funkční" chování v interpretacích ENCODE. [37]
V reakci na tyto kritiky se tvrdilo, že většina transkripce a sestřihu genomu , jak je vidět u lidí, je přesnějším indikátorem genetické funkce než konzervatismus sekvence. Většina „junk“ DNA se navíc podílí na epigenetické regulaci a byla nezbytným předpokladem pro vývoj složitých organismů. [38] V reakci na připomínky k definici slova „funkční“ mnozí poznamenali, že v tomto případě se spor týká rozdílu v definici, a nikoli podstaty projektu, kterým je poskytnout data pro následné studie biochemické aktivita oblastí DNA nekódujících protein. Zatímco definice jsou důležité a věda se omezuje na jazyk, zdá se, že ENCODE splnilo svůj účel, protože velké množství výzkumných prací v současné době používá data generovaná projektem spíše než probírání definic „funkčnosti“. [39] Ewan Birney, jeden z výzkumníků ENCODE, komentoval některé reakce na projekt. Poznamenává, že slovo „funkce“ bylo použito pragmaticky k označení „určité biochemické aktivity“, která se projevuje v různých třídách experimentů různými způsoby: přítomnost RNA , modifikace histonů , oblasti hypersenzitivní DNaseI , vrcholy transkripčních faktorů ChIP-seq . , DNA footprinting , vazebná místa a exony transkripčních faktorů . [40]
Projekt byl navíc kritizován za svůj vysoký rozpočet (celkem asi 400 milionů dolarů) a záštitu nad takzvanou „velkou vědou“, základním vědeckým výzkumem, který bere peníze z produktivnějšího vědeckého vývoje, který je třeba provádět v náklady samotných výzkumníků. [41] Počáteční fáze projektu ENCODE byla odhadnuta na 55 milionů USD, jeho rozšíření stálo přibližně 130 milionů USD a americký Národní institut pro výzkum lidského genomu byl připraven vyčlenit na další fázi projektu až 123 milionů USD. Někteří badatelé tvrdí, že řádná návratnost investic ještě nenastala. Ve snaze spočítat všechny publikace, ve kterých ENCODE hraje významnou roli, bylo od roku 2012 identifikováno 300 takových článků, z nichž 110 bylo založeno na výsledcích z laboratoří bez financování ENCODE. Dalším problémem bylo, že ENCODE není jedinečný název odkazující pouze na projekt ENCODE, takže slovo 'kódovat' (zakódovat) se objevuje v mnoha literatuře o genetice a výzkumu genomu . [7]
Jako další hlavní komentář se uvádí, že výsledky neospravedlňovaly množství stráveného času a že projekt je v zásadě nekonečný. Přestože byl srovnáván s Human Genome Project a dokonce nazýván jeho pokračováním, The Human Genome má jasný konec, který ENCODE aktuálně postrádá.
Autoři projektu zjevně sdílejí obavy vědeckého světa a nepopírají existenci problémů, ale zároveň se snaží své snahy ospravedlnit vysvětlováním detailů projektu v rozhovorech nejen vědecké komunitě, ale i do médií. Říkají, že od pochopení, že DNA je materiálním základem dědičnosti k rozluštění sekvence lidského genomu , trvalo více než půl století , takže jejich plánem pro příští století je porozumět této sekvenci [7] .
V současné době je konsorcium ENCODE zapojeno do několika dalších projektů s podobnými cíli. Některé z těchto projektů byly součástí druhé fáze ENCODE.
Analogicky k projektu ENCODE byl zahájen také projekt mapování funkčních prvků genomu hlavních modelových objektů - Drosophila melanogaster a Caenorhabditis elegans - anglicky. Modelový organismus ENCyklopedie prvků DNA (modENCODE) . Výhodou tohoto projektu je možnost provádění některých experimentů na modelových organismech, které jsou na člověku obtížně či nemožné. [42]
Projekt byl založen v roce 2007 Národním institutem zdraví ( NIH ). [ 43] [44] V roce 2010 konsorcium modENCODE představilo v časopise Science řadu článků o anotaci a analýze distribuce funkčních prvků v genomu Drosophila melanogaster a Caenorhabditis elegans Údaje z těchto publikací jsou k dispozici na webu modENCODE [45] .
V současnosti je modENCODE výzkumným konglomerátem 11 semenných projektů rozdělených mezi D. melanogaster a C. elegans research . Projekt pokrývá výzkum v následujících oblastech:
modERN ( modelový organismus Encyklopedie regulačních sítí ) je odnoží modENCODE . Projekt kombinuje výzkum skupin C. elegans a D. melanogaster a zaměřuje se na identifikaci dalších vazebných míst transkripčních faktorů. Projekt byl zahájen souběžně s třetí fází ENCODE a jeho dokončení je naplánováno na rok 2017. K dnešnímu dni modERN publikoval výsledky 198 experimentů, dalších 500 bylo přijato k publikaci a jsou zpracovávány clearingovým centrem dat ENCODE.
Program Genomics of Gene Regulation (GGR) byl zahájen počátkem roku 2015 americkým National Institutes of Health a bude probíhat tři roky. Cílem programu je studovat genové sítě a cesty v různých tělesných systémech, aby se dále pokročilo v porozumění mechanismům, které řídí genovou expresi. Přestože je projekt ENCODE oddělený od GGR, ENCODE Data Clearinghouse spravuje data GGR na svém portálu.
V roce 2008 zorganizovalo Konsorcium pro mapování epigenomických plánů USA National Institutes of Health s cílem vytvořit veřejný zdroj epigenetických dat lidského genomu pro biologický a lékařský výzkum. Na základě výsledků práce zveřejnilo konsorcium v únoru 2015 článek „Integrativní analýza 111 referenčních lidských epigenomů“. Konsorcium shromáždilo a anotovalo regulační prvky ve 127 referenčních epigenomech, z nichž 16 bylo součástí projektu ENCODE. Data projektu Roadmap jsou dostupná na portálech Roadmap nebo ENCODE .
Projekt fruitENCODE: encyklopedie prvků DNA zrajícího ovoce, součást ENCODE. Cílem projektu je generovat datové sady: místa metylace DNA, modifikace histonů, oblasti hypersenzitivního chromatinu DNázy I, genová exprese, vazebná místa transkripčních faktorů pro šťavnaté plody všeho druhu v různých fázích vývoje. Předběžné datum zveřejnění výsledků je zveřejněno na portálu fruitENCODE .
Data o vazbě transkripčních faktorů získaná pomocí ENCODE jsou v současnosti dostupná na Factorbook.org [47] , databázi založené na wiki. První číslo FactorBook obsahuje:
Slovníky a encyklopedie |
---|