The Cancer Genome Project je výzkumný projekt v Sangerově institutu zaměřený na nalezení mutací , které vedou k rozvoji lidské rakoviny . Projekt odstartoval Michael Stratton [1] v roce 2000 a vede ho on a jeho kolega Peter Campbell [2] . "Cancer Genome", stejně jako podobný projekt " Atlas of the Cancer Genome " ( Eng. The Cancer Genome Atlas (TCGA) ) v National Cancer Institute v USA , si klade za cíl zlepšit diagnostiku, léčbu a prevenci nádorových onemocnění studiem molekulárního základu jejich vývoje [3] .
Pomocí vysoce výkonných sekvenačních metod je studován genetický materiál z různých typů nádorů. Výsledky jsou publikovány v Katalogu somatických mutací u rakoviny (COSMIC) , nejkomplexnější dostupné databázi genetických změn v rakovinných buňkách [4] . K 4. květnu 2019 vyšla 88. verze 19. března 2019 [5] . Databáze je aktualizována každé tři měsíce [4] .
Společně s Centrem pro molekulární terapii v Massachusetts General Hospital v Bostonu vyvíjí Cancer Genome databázi Genomics of Drug Sensitivity in Cancer (GDSC) obsahující informace o screeningu léků na rakovinu. Cílem spolupráce je zlepšit léčbu rakoviny na základě predikce možné odpovědi pacienta na protinádorový lék [6] .
Výzkumná skupina pracující na projektu Cancer Genome Project zveřejňuje na portálu Sangerova institutu programy, které vyvinula pro práci s daty o rakovinných genomech: BioView a AutoCSA (programy pro detekci mutací), Allele-Specific Copy number Analysis of Tumors (ASCAT). ) a další [7] . Na stránce projektu můžete najít publikace výzkumné skupiny, z nichž většina je ve veřejné doméně [8] .
VESMÍRNÝ | |
---|---|
Obsah | |
Popis | Seznam somatických mutací v nádorech |
Kontakty | |
Výzkumné centrum | Sangerův institut |
Datum vydání | 4. února 2004 |
Dostupnost | |
webová stránka | http://cancer.sanger.ac.uk/cosmic |
Katalog somatických mutací u rakoviny (COSMIC) je jednou z největších a nejobsáhlejších online databází somatických mutací spojených s různými typy lidských rakovin. Aktualizováno každé tři měsíce. K 4. květnu 2019 vyšla 88. verze 19. března 2019 [5] .
Systém se doplňuje dvěma způsoby. Prvním je manuální sběr dat dohlížejícími odborníky; zdrojem jsou recenzované publikace, z nichž odborníci vybírají informace a zadávají je do systému. Druhým je poloautomatický sběr dat: data o rozsáhlém screeningu velkých rakovinných genomů a exomů se načítají z databází The Cancer Genome Atlas ( TCGA ) a International Cancer Genome Consortium (ICGC) [4] .
Informace nashromážděné COSMIC o 2500 lidských rakovinách umožňují dospět k závěru, že mutace odpovídají určitému typu nádoru. Data prezentovaná v COSMIC jsou potvrzena vědeckými publikacemi (asi 20 000 článků PubMed ), pečlivě vybranými kurátory (asi 30 % publikací je odmítnuto) [4] . Všechna data prezentovaná v COSMIC jsou k dispozici ke stažení v několika formátech po registraci na stránce [9] .
Databáze byla spuštěna 4. února 2004 a obsahovala informace o čtyřech genech: HRAS, KRAS , NRAS a BRAF [10] . Do konce roku 2005 obsahovala databáze 529 genových sekvencí ze 115 327 nádorů obsahujících 20 981 mutací [11] . Do konce srpna 2009 COSMIC zahrnoval údaje z 1,5 milionu experimentů popisujících více než 90 000 mutací ve 13 423 genech v téměř 370 000 typech nádorů [12] . Verze 48 COSMIC, vydaná v červenci 2010, obsahovala 141 212 mutací identifikovaných ve více než 2,76 milionu experimentů pro více než 50 000 typů nádorů [13] . 70. verze (srpen 2014) již obsahovala 2 002 811 bodových mutací v kódujících sekvencích identifikovaných pro více než milion lidských nádorů. Kromě mutací tohoto typu již 70. verze popsala více než 6 milionů mutací v nekódujících oblastech , 10 534 genových fúzí, 61 299 genomových přeuspořádání, 695 504 kopií zkreslených oblastí a více než 60 milionů případů změn v genové expresi . [4] .
COSMIC poskytuje přístup ke všem datům v systému. Systém obsahuje řadu nástrojů: Cancer Browser, Genome Browser, GA4GH Beacon, CONAN [9] .
Cancer Browser umožňuje analyzovat informace o více než 2500 typech rakoviny. Výběrem typu tkáně (44 variant ve verzi 80) a její histologie lze získat data o výskytu mutací v nich. Můžete například získat graf zobrazující nejčastěji mutované geny anotované v Cancer Gene Census a jejich mutační rychlosti, definované jako poměr počtu vzorků s mutacemi (zobrazeno modře) k počtu analyzovaných vzorků (zobrazeno červeně). ) [9] .
Prohlížeč genomu vám umožňuje vyhledávat informace o mutacích v genu, který vás zajímá. Pro gen transkripčního faktoru p53 (TP53) tedy 72. verze COSMIC uvádí data založená na analýze 104 011 jednotlivých vzorků a 27 507 z nich neslo mutace tohoto genu. Dále je zde 2213 článků PubMed s popisy a odkazy na zdroje [9] .
GA4GH (Global Alliance for Genomics and & Health ) Beacon je služba pro poskytování genetických dat COSMIC komunitou [9] .
CONAN je nástroj pro analýzu variací počtu kopií genu [9] .
Cancer Gene Census obsahuje seznam genů (723 k květnu 2019, verze 88) [9] , jejich vztah ke vzniku onemocnění, typy mutací, které vedou k dysfunkci genů v rakovinných buňkách, a také typy nádorů v u kterých jsou tyto mutace pozorovány [14] .
Výběr kandidátů začíná hledáním vzorců somatických mutací vedoucích k rozvoji rakoviny. Poté je proveden důkladný přehled literatury s cílem identifikovat funkci vybraného genu a jeho vliv na rozvoj rakoviny. V této fázi je gen klasifikován jako onkogen , tumor supresorový gen nebo obojí. Pokud se funkce genu projeví jako výsledek fúze s jiným genem, označuje se jako fúzní gen ( eng. fusion gene ) [14] .
V závislosti na tom, jak dobře je prokázána účast genu na onkogenezi, jsou geny klasifikovány do dvou „vrství“ ( angl. tiers ). Geny Tier 1 (Tire 1) jsou charakterizovány mutačními vzory, jejichž účast a funkce v nádorové etiologii jsou považovány za pevně prokázané. Pro klasifikaci genu jako Tier 1 musí existovat alespoň dvě publikace ze dvou nezávislých skupin, které popisují somatickou mutaci genu u alespoň jednoho typu rakoviny. Tier 2 (Tire 2) zahrnuje geny, jejichž účast na vzniku rakoviny byla prokázána rozsáhlými literárními údaji, ale neexistují dostatečné informace potvrzující důsledky mutace [14] .
Nejnovější verze CGC obsahuje 723 genů (576 Tier 1, 147 Tier 2). Z toho 562 je definováno jako onkogeny a/nebo onkosupresory, 132 genů s neznámou funkcí vykazuje svou aktivitu jako výsledek fúze, 30 genů nebylo přiřazeno do žádné ze skupin [14] .
V 86. aktualizaci byla přidána možnost vizualizace dat o rysech podílu genu na vývoji nádoru. Krátké heslo popisuje funkci samotného genu a jeho spojení s deseti hlavními rysy rakoviny [14] .
COSMIC-3D je rozhraní pro studium rakovinných mutací v trojrozměrné struktuře proteinu; poprvé představen v čísle 80 COSMIC [5] , vyrobeného ve spolupráci s Astex Pharmaceuticals (Cambridge, UK). Nástroj ukazuje 3D vizualizaci více než 8000 proteinů označených mutacemi z databáze COSMIC a také jejich frekvenci a účinek [9] .
Na začátku programu je mutace mapována na proteinovou sekvenci z UniProt, poté na PDB strukturu proteinu pomocí SIFTS UniProt-to-PDB. Kromě toho může COSMIC-3D hledat průsečíky mezi místem mutace způsobující rakovinu, známými vazebnými místy pro malé molekuly a vazebnými místy pro léčiva předpovídanými fPocket. Získaná data mohou umožnit produkci molekul, které se specificky vážou na mutované proteiny [14] .
COSMIC Cell Line Project obsahuje informace o kompletním exomovém sekvenování více než 1015 různých rakovinných buněčných linií . Exomy jsou přidány ihned po jejich obdržení, před zveřejněním [4] . Využití projektu COSMIC Cell Line Project umožňuje smysluplnější výběr buněčných linií pro výzkum a lepší interpretaci výsledků [9] .
Genomics of Drug Sensitivity in Cancer (GDSC) je doplňkový zdroj projektu Cancer Genome Project obsahující informace o citlivosti více než 700 nádorových buněčných linií na více než 140 protirakovinných léků a také poskytuje údaje o korelaci mezi mutacemi a citlivostí na léky. [6] . Údaje hlášené GDSC byly generovány vysoce výkonným screeningem prováděným projektem Cancer Genome Project Sanger Institute a Centrem pro molekulární terapii v Massachusetts General Hospital v Bostonu na kolekci více než 1000 buněčných linií. Sloučeniny vybrané pro screening zahrnují léky, které jsou schváleny pro použití na klinice a procházejí klinickými testy, stejně jako léky, které jsou stále ve vývoji. Tyto sloučeniny působí na různé cíle, včetně složek signálních drah zahrnujících tyrozinkinázové receptory, kontrolu buněčného cyklu a systém reakce na poškození DNA [15] .
Nedílnou vlastností GDSC je integrace informací jak o rakovinných genomech, tak o citlivosti nádorových buněk na léky. K identifikaci markerů pro predikci lékové odpovědi se používají 2 komplementární analytické přístupy [15] .
Prvním přístupem je multivariační analýza rozptylu (MANOVA), variace metody ANOVA , která se používá ke stanovení korelace mezi citlivostí na léčivo (podle IC50 a sklonu křivky dávka-odpověď ) a změnami v buněčném genomu ( bodové mutace amplifikace nebo genové delece atd.). Zároveň se pro každý pár lék-gen MANOVA zjišťuje povaha účinku a statistická významnost vztahu. Data jsou prezentována ve formě "Volcano plot" . Velikost zobrazených kruhů odpovídá počtu událostí přijatých k analýze. Najetím nad kruhem získáte informace o velikosti vzorku (počet buněčných linií), účinku (kolikrát se citlivost na léčivo zvýší nebo sníží) a p-hodnotě [15] .
Druhým přístupem je použití funkce elastické čisté penalizace. Data analyzovaná touto penalizační funkcí, navíc k datům poskytnutým MANOVA, zahrnují profily transkripce v celém genomu a typy tkání. Funkce elastické sítě určuje charakteristiky spojené s konkrétní lékovou odpovědí ( hodnota IC50 ) konkrétní buněčné linie. Data jsou prezentována ve formě "elastického čistého grafu" - tepelné mapy a histogramu. Tepelná mapa zobrazuje mutace ve 20 nejodolnějších a 20 nejcitlivějších buněčných liniích na daný lék. Barvy mapy odrážejí výraz a počet kopií (modrá - nízká, červená - vysoká). Histogram ukazuje změnu citlivosti na lék odpovídající mutaci (zvýšení - červená, pokles - zelená) [15] .
Výzkum prováděný členy projektu Cancer Genome Project přidává k nashromážděným znalostem o modifikacích genomu vedoucích k nádorovým transformacím , což umožňuje zlepšení metod predikce, diagnózy a terapie. Práce jsou věnovány studiu různých typů nádorů. Kromě toho probíhá hledání markerů rakoviny a vývoj systémů pro výzkum modelových organismů [3] .
Jednou z oblastí práce projektu Cancer Genome Project je studium rakoviny prsu . Analýza somatických mutací 21. typu karcinomu prsu tedy odhalila přítomnost oblastí se zvýšenou frekvencí mutací (takové oblasti se říkalo „kataegis“). Tyto oblasti kolokalizovaly somatické přeuspořádání a substituce v těchto oblastech téměř vždy odpovídaly za cytosinové TpC dinukleotidy. Jako základ pro tento fenomén byla navržena práce zástupců rodiny cytidindeamináz APOBEC [16] . Další studie podpořily tuto hypotézu a ukázaly, že typy rakoviny prsu s delecí APOBEC3B se vyznačují velkým počtem mutací v oblastech kataegis [17] .
Analýza bodových mutací a variací počtu kopií genu pro 100 typů rakoviny prsu odhalila četné abnormality v genomu, zejména 9 nových genů (AKT2, ARID1B, CASP8, CDKN1B , MAP3K1, MAP3K13, NCOR1, SMARCD1 a TBX3) bylo spojeno s tento typ rakoviny [18] . Mutace v genech MAP3K1, MAP2K4, MAP3K13 a AKT2 zároveň narušují aktivaci signální dráhy JUN, jejíž pokles aktivity byl prokázán u více než 50 % typů karcinomu prsu [19] . U mutací v řadě genů (ARID1B, CASP8, MAP3K1, MAP3K13, NCOR1, SMARCD1 a CDKN1B ) byla zjištěna zvýšená exprese zkrácených proteinových izoforem, což naznačuje, že původní formy těchto proteinů mohou být supresory rozvoje transformací . Navíc byla prokázána souvislost mezi sníženou expresí estrogenových receptorů a zrychlenou akumulací mutací s věkem [18] .
Screening asi 3500 genů odhalil několik nových genů, jejichž mutace vedou ke vzniku hypernefroidního nádoru ledviny, což je vzácný typ rakoviny ledvin . Mezi tyto geny patří demetylázy UTX (KDM6A) [20] a JARID1C (KDM5C) a gen metylázy SETD2 [ 21] . Tyto enzymy modifikují klíčové H3 histonové lysinové zbytky , ovlivňují strukturu chromatinu a genovou transkripci. Tyto mutace jsou přitom společně přítomny v méně než 15 % případů rozvoje hypernefroidního nádoru ledviny, což naznačuje existenci genů, které dosud nebyly identifikovány. Novější experimenty se sekvenováním exomu identifikovaly gen PBRM1, složku komplexu SWI/SNF odpovědnou za chromatinové přestavby, jako jeden z nejdůležitějších genů, jehož mutace vedou ve 41 % případů k hypernefroidním nádorům ledvin [22] .
Výsledky sekvenování pro buněčnou linii malobuněčného karcinomu plic NCI-H209 odhalily 22 910 somatických substitucí, včetně 132 v kódujících oblastech spojených s kouřením . Současně byla prokázána duplikace exonů 3–8 CHD7 pro buněčnou linii NCI-H209 a fúze genů PVT1 a CHD7 byla prokázána pro další dvě linie malobuněčného plicního nádoru , což společně naznačuje, že mutace v genu CHD7 přispívají k rozvoji onemocnění [23] .
Ukázalo se, že rakovina slinivky je charakterizována řadou přestaveb vedoucích k dysfunkci telomer a narušení kontroly buněčného cyklu , zejména k poruchám při přechodu z G1 fáze do S fáze. To spouští amplifikaci onkogenů , ke které dochází převážně v raných fázích vývoje onemocnění [24] .
Důležitou oblastí práce výzkumné skupiny je studium jednoho z nejčastějších typů rakoviny – rakoviny tlustého střeva (kolorektální karcinom) [8] .
Množství kombinací různých genetických změn neumožňuje odhalit funkční přínos každého potenciálního genu k rozvoji nádoru. Proto i přes to, že stanovení genomových změn u jednotlivých nádorů je možné s vysokou přesností a s relativně nízkými náklady, jsou tato data obtížně interpretovatelná z hlediska predikce vývoje onemocnění a nalezení správných léků, to vyžaduje přítomnost modelového systému pro analýzu genotypově-fenotypové korelace. Jako takové modelové systémy mohou sloužit trojrozměrné organoidy . V této studii byly získány kultury nádorových organoidů 20 pacientů s kolorektálním karcinomem pomocí kmenových buněk Lgr5 (umístěných v kryptách). Ukázalo se, že spektrum genetických změn, stejně jako analýza genové exprese v organoidu, je v souladu se změnami v samotném nádoru. Kromě toho je organoid přístupný screeningu léků. Jako příklad byl uveden účinek inhibitoru dikobraza na mutanty v genu RNF43, v důsledku čehož se růst mutantu zastavil [25] .
Pro objasnění povahy intratumorální diverzity byly charakterizovány organoidy odvozené z mnoha jednotlivých buněk ze tří různých nádorů kolorektálního karcinomu a také z kmenových buněk krypt. Bylo prokázáno, že ve všech rakovinných buňkách je počet somatických mutací několikanásobně vyšší než u normálních buněk a většina mutací byla získána během konečné klonální expanze rakoviny prostřednictvím procesů, které v normálních buňkách chybí. Byly také pozorovány rozdíly v transkriptomech a methylomech intratumorálních buněk. Tyto rozdíly se projevují v různých odpovědích i blízce příbuzných buněk na protinádorová léčiva [26] .
Analýza dat hlášených GDSC identifikovala řadu potenciálních biomarkerů pro terapeutické použití. Zejména se ukázalo, že mutace TP53 korelují s rezistencí na nutlin-3a, inhibitor MDM2 p53 ubikvitin ligázy . Amplifikace CCND1 (CyclinD1) nebo ztráta SMAD4 byly spojeny s přecitlivělostí na četné inhibitory rodiny EGFR , jako je lapatinib . Ztráta SMAD4 byla doprovázena zvýšenou expresí EGFR. Inaktivace STK11, represoru mTOR , korelovala se zvýšenou citlivostí na inhibitor proteinu tepelného šoku HSP90 , 17-AAG. Kromě toho byla identifikací translokace EWS-FLI1 jako markeru citlivosti k inhibitorům PARP zaznamenána zvýšená citlivost na sloučeniny této povahy v buňkách Ewingova sarkomu , což naznačuje nové metody boje s tímto onemocněním [15] .
Škrkavka Caenorhabditis elegans , široce používaný modelový organismus , byla navržena jako experimentální systém pro studium účinků karcinogenů a defektů v systému opravy DNA . Bylo provedeno sekvenování celého genomu 183 populací C. elegans se 17 varietami genetického pozadí ( divoký typ a jedinci s knockout geny pro opravu DNA a systémy reakce na poškození DNA), jehož výsledkem bylo 1559 substitucí, 406 inzercí a 281 genomových přeuspořádání byly identifikovány. Získané výsledky byly porovnány s daty nashromážděnými o lidské karcinogenezi [27] .
Byl analyzován účinek takových karcinogenů jako aflatoxin B1, chlormethin a cisplatina na C. elegans . Je zajímavé, že mutagenní vlastnosti cisplatiny byly nejvýraznější u xpf-1 mutantů, což naznačuje důležitou roli tohoto genu při ochraně buněk před tímto agens poškozujícím DNA. Výsledky experimentů obecně odpovídaly dříve známým údajům o působení uvažovaných karcinogenů , což prokázalo možnost využití experimentálního systému ke studiu méně studovaných látek. Konkrétně více než 240 sloučenin je považováno za potenciální karcinogeny . Nashromážděné informace o jejich působení však nestačí a použití experimentálního systému je pohodlným způsobem, jak je získat [27] .
Analýza genomů epiteliálních buněk jícnu ukázala, že některé mutace vedou k obohacení epitelu klony mutovaných buněk. Mutanty v genu NOTCH1, který je zodpovědný za interakci kontaktujících buněk, tedy mohou tvořit až 80 % epiteliálních buněk u lidí středního a vyššího věku, a mutanti v genu TP53 – až 37 %. Podobné výsledky byly získány pouze pro 14 mutací zapojených do rakovinné degenerace. Zároveň byla frekvence mutantů NOTCH1 u zdravých lidí vyšší než u pacientů s karcinomem jícnu. To naznačuje, že některé mutace mohou vést k rychlé klonální reprodukci, ale snižují možnost rakovinné degenerace [28] .
Výsledky sekvenování 112 primárních a metastatických nádorů prostaty vedly k objevu 22 nových genů, které vedou ke vzniku rakoviny. Kromě toho byly nalezeny další 2 nekódující oblasti spojené s rakovinou prostaty. Bylo také objasněno pořadí, ve kterém se tyto mutace vyskytují u vyvíjejících se nádorů. Analýza objevených a již známých mutací ukázala, že 11 z nich je cílem již existujících léků, 7 je cílem léků procházejících klinickými testy, 13 je ve výzkumu a vývoji léků a 49 může být potenciálně cílem budoucích léků [29] .
Aby bylo možné přesněji posoudit zkreslení způsobená použitím systému CRISPR-Cas k analýze genů jejich vyřazením, byl vytvořen nový algoritmus CRISPRcleanR. Bylo vzato v úvahu systematické podhodnocování logFC pro oblasti obsahující mnoho kopií cílů vodící RNA, stejně jako některé další odchylky. Nový algoritmus snižuje míru falešně pozitivních výsledků při zachování stejné četnosti skutečných pozitivních výsledků [30] . CRISPRcleanR je volně dostupný jako balíček R [31] a balíček Python [32] .