Analýza obohacení funkční afilací

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 14. května 2019; kontroly vyžadují 2 úpravy .

Funkční analýza obohacení [1] ( anglicky  gene set obohacení analýza, GSEA [2] ) je soubor metod pro asociaci souboru genů se změnou fenotypu [2] . K formalizaci existujících dat o fenotypu takové metody často využívají databáze dříve anotovaných genových sad (například termíny projektu Gene ontology (GO): molekulární funkce, biologické procesy nebo buněčné komponenty [3] ). Výsledkem aplikace metody (vydání programu) je v tomto případě množina předem anotovaných množin, jejichž četnost ve vstupní množině je statisticky významně odlišná od pozaďové (např. četnost v celém genomu nebo v jiném sada genů). Takovéto předem anotované množiny se nazývají nadměrně zastoupené (pokud je frekvence nad pozadím) nebo nedostatečně zastoupená (pokud je frekvence pod pozadím).

Důležitou inovací GSEA oproti dřívějším metodám analýzy je schopnost analyzovat data nejen pro jednotlivé geny nezávisle, ale také brát v úvahu funkční vztahy genů mezi sebou. V některých případech, např. při mírné změně individuální exprese jednotlivých genů, vede použití GSEA ke zvýšení citlivosti metody a ucelenějšímu obrazu diferenciální exprese [4] .

Tento přístup byl vyvinut v letech 2002-2003 nezávisle několika skupinami vědců a byl široce přijat. Zároveň byly navrženy první programy pro její realizaci [5] [6] [7] [8] [9] [10] [11] .

Všimněte si, že výraz GSEA se používá v několika významech: jako název široké třídy metod probíraných v tomto článku [2] , jako název užší třídy metod [2] , jako název samostatného programu [4 ] .

Pozadí

S příchodem projektu Human Genome Project vyvstal problém, jak interpretovat a analyzovat velké množství nových informací pomocí starých metod. Vzhledem ke vzniku metod pro analýzu genové exprese, změny ve tkáni u lidí s nemocemi. Data z mikročipů byla použita ke klasifikaci tkání podle molekulárních charakteristik a ke generování hypotéz o mechanismech onemocnění, například při výzkumu rakoviny , kde byly často pozorovány velké změny v expresi jednotlivých genů [12] . Pokud však změny v genové expresi nejsou příliš výrazné, velký počet testovaných genů, vysoká interindividuální variabilita a omezené velikosti vzorků běžné ve studiích na lidech ztěžují oddělení skutečných rozdílů od šumu. Mnoho genů se může účastnit stejné metabolické dráhy , a proto celková změna exprese v rámci skupiny genů vede k rozdílu ve fenotypové expresi. Analýza zastoupení funkčních skupin genů se zaměřuje na změny exprese ve skupinách genů, tato metoda tedy řeší problém hledání malých změn v expresi jednotlivých genů [8] .

Přístupy

K formalizaci a řešení problému GSEA se používají metody matematické statistiky : odhaduje se význam některých statistik vypočítaných pro každou dříve anotovanou skupinu [13] .

Generalizovaný algoritmus GSEA

Zobecněný algoritmus GSEA zahrnuje následující kroky [13] :

  1. Výpočet statistik dříve anotovaných skupin genů  - používá se jeden ze dvou způsobů:
    • Globální test  – vytváření statistik ze vstupní sady přímo pro každou předem anotovanou skupinu, například na základě testu Hotelling nebo ANCOVA
    • Kombinování genových statistik  - budování statistik pro jednotlivé geny, na základě kterých se staví skupinové statistiky. Poté jsou postupně definovány následující:
      1. Genová statistika  — v závislosti na typu vstupních dat je možné vybrat různé statistiky pro geny, například poměr signálu k šumu v experimentu nebo poměr pravděpodobnosti získaný z předběžného zpracování.
      2. Transformace statistiky genů  — statistiku genů lze transformovat: lze tedy provést hodnostní transformaci statistik nebo v závislosti na hodnotě statistiky vybrat určitou podmnožinu všech genů pro další analýzu
      3. Statistika genových sad  – výše získané statistiky genů jsou kombinovány za účelem vytvoření statistik předem anotovaných genových sad: například skupinová statistika je definována jako průměr statistik genů, které obsahuje.
  2. Hodnocení významnosti  - formulace hlavních a alternativních hypotéz pro konstruovanou statistiku , posouzení významnosti statistiky. Protože je tímto způsobem testováno velké množství hypotéz (o nadměrné/nedostatečné reprezentaci každé dříve anotované skupiny genů), odhad významnosti často zahrnuje korekci pro vícenásobné testování .

Klasifikace metod

Z hlediska výše diskutovaného zobecněného algoritmu spočívá rozdíl mezi metodami GSEA v posloupnosti postupů používaných v různých fázích. Autoři zobecněného algoritmu porovnávali 261 kombinací postupů [13] ; autoři přehledu z roku 2008 [14] popisují 68 samostatných programů, které tyto metody implementují. Tento přehled navrhuje klasifikaci metod do tří hlavních kategorií: unikátní analýza obohacení (SEA), analýza obohacení genové sady (GSEA v užším smyslu) a modulární analýza obohacení (MEA), přičemž některé programy spadají do více než jedné třídy. Všimněte si, že neexistuje žádná obecně přijímaná formální formulace problému GSEA (v širším smyslu), což ztěžuje hodnocení výsledků a porovnávání metod [2] .

Unikátní analýza obohacení

Analýza singulárního obohacení   metody, které přijímají kandidátské geny jako vstup – geny související s nějakou podskupinou genů, které jsou pro výzkumníky zajímavé (například geny, které významně změnily expresi ( genová statistika ) na dané hladině významnosti), a teprve poté pro tyto genů je určeno nadměrné zastoupení funkčních skupin. Tyto metody tedy poskytují výzkumníkovi možnost vybrat genovou statistiku a provést transformaci – vybrat geny v závislosti na hodnotě statistiky, poté je statistika předem anotovaného souboru sestavena na základě počtu genů v souboru mezi kandidátní geny. Jako statistické modely se používají hypergeometrické rozdělení , binomické rozdělení (používané pro velké vzorky), χ² , Fisherův přesný test . Ve většině případů jsou rozdíly mezi statistickými modely nevýznamné [15] .

Jedná se o jednoduchou a účinnou metodu, ale výsledek závisí na parametrech kritérií výběru kandidátního genu. Navíc vzhledem k obrovskému množství genů (typickým výsledkem experimentu je několik desítek tisíc expresních profilů [9] ) může dojít ke ztrátě vztahů mezi dříve anotovanými skupinami [14] .

Programy založené na této metodě: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO [14] .

Analýza obohacení genové sady

Analýza obohacení genové sady je alternativní přístup, který zahrnuje klasifikaci ( transformaci ) všech genů podle stupně projevu znaku ( genová statistika ), na kterém se analýza provádí .  V tomto případě se bere v úvahu celá sada genů, a ne jen ty nejvýznamnější. Používají se skupinové statistiky , jako je Kolmogorovova statistika , Studentova t-statistika , Mann-Whitney U-statistika , medián skupiny [2] .

Hlavní výhodou je, že tato metoda využívá veškeré informace získané z experimentů. Jako vstup však vyžaduje definici funkční skupiny pro každý gen, což je často obtížný úkol. Předpoklad metody, že geny z opačných konců seznamu přispívají více k biologické funkci, není vždy pravdivý, regulační proteiny často mírně mění svou expresi, což však vede k velkým důsledkům [14] .

Programy založené na této metodě: GSEA (název programu), CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP [14] .

Modulární analýza obohacení

Modulární analýza obohacení ( angl.  modular obohacení analýzy ) - metody, které berou jako vstup, jako je analýza jedinečného obohacení, seznam kandidátních genů, ale na rozdíl od něj při posuzování významnosti nadměrného zastoupení (tedy ve fázích určování statistika souboru genů a hodnocení významnosti ) uvažuje vztah GO termínů. K tomu se používá například Kappa statistic . Tímto způsobem lze popsat funkci vstupní sady genů, která neodpovídá jedinému termínu. Omezením metody je, že geny bez silných sousedských vztahů budou z analýzy vyloučeny [14] .

Programy založené na této metodě: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox [14] .

Aplikace

Tyto metody se používají k analýze výsledků experimentů, které představují určitý seznam genů, který se liší od celého vzorku genů. Například analýza funkčního obohacení se často používá pro geny, které jsou rozdílně exprimovány za různých podmínek, v takovém případě je úkolem extrahovat informace o jakýchkoli biologických mechanismech z expresních profilů

Důležitou oblastí použití této metody je [3] celogenomové asociační vyhledávání – porovnání nemocných a zdravých genotypů ve snaze najít jednonukleotidové polymorfismy (SNP) , které jsou nadměrně zastoupeny v genomu pacienta a mohou být spojeny s daný stav. Tato aplikace analýzy zastoupení funkčních skupin genů pomáhá nejen při objevu SNP asociovaných s onemocněními, ale také pomáhá objasnit příslušné dráhy a mechanismy onemocnění [16] . Například GSEA byla použita ke studiu nemocí, jako je spontánní předčasný porod [17] , rakovina ledvin [18] , deprese [19] , neosporóza [20] , schizofrenie [21] a mnoho dalších.

Poznámky

  1. Sun GP , Jiang T. , Xie PF , Lan J. , Sun GP , Jiang T. , Xie PF , Lan J. Identifikace genů spojených s parodontitidou pomocí koexpresních sítí  // Molekulární biologie. - 2016. - T. 50 , č. 1 . - S. 143-150 . — ISSN 0026-8984 . - doi : 10.7868/S0026898416010195 .
  2. ↑ 1 2 3 4 5 6 Hung J.-H. , Yang T.-H. , Hu Z. , Weng Z. , DeLisi C. Analýza obohacení genové sady: hodnocení výkonu a pokyny k použití  //  Briefings in Bioinformatics. - 2011. - 7. září ( roč. 13 , č. 3 ). - str. 281-291 . — ISSN 1467-5463 . doi : 10.1093 / bryndáček/bbr049 .
  3. 1 2 Mooney Michael A. , Wilmot Beth. Analýza sady genů: Průvodce krok za krokem  //  American Journal of Medical Genetics Part B: Neuropsychiatric Genetics. - 2015. - 8. června ( roč. 168 , č. 7 ). - str. 517-527 . — ISSN 1552-4841 . - doi : 10.1002/ajmg.b.32328 .
  4. ↑ 1 2 Subramanian A. , Tamayo P. , Mootha VK , Mukherjee S. , Ebert BL , Gillette MA , Paulovich A. , Pomeroy SL , Golub TR , Lander ES , Mesirov JP Analýza obohacení genové sady: znalostní přístup pro interpretace profilů exprese celého genomu  (anglicky)  // Proceedings of the National Academy of Sciences. - 2005. - 30. září ( roč. 102 , č. 43 ). - S. 15545-15550 . — ISSN 0027-8424 . - doi : 10.1073/pnas.0506580102 .
  5. Rhodes Daniel R , Chinnaiyan Arul M. Integrativní analýza transkriptomu rakoviny  //  Nature Genetics. - 2005. - Červen ( roč. 37 , č. S6 ). -P.S31- S37 . — ISSN 1061-4036 . - doi : 10.1038/ng1570 .
  6. Doniger Scott W , Salomonis Nathan , Dahlquist Kam D , Vranizan Karen , Lawlor Steven C , Conklin Bruce R. [1]  //  Genome Biology. - 2003. - Sv. 4 , ne. 1 . — P.R7 . — ISSN 1465-6906 . - doi : 10.1186/cz-2003-4-1-r7 .
  7. Zeeberg Barry R , ​​Feng Weimin , Wang Geoffrey , Wang May D , Fojo Anthony T , Sunshine Margot , Narasimhan Sudarshan , Kane David W , Reinhold William C , Lababidi Samir , Bussey Kimberly J , Riss Joseph , Barrett John N , Wein. [2]  (anglicky)  // Genome Biology. - 2003. - Sv. 4 , ne. 4 . — P.R28 . — ISSN 1465-6906 . - doi : 10.1186/cz-2003-4-4-r28 .
  8. ↑ 1 2 Mootha Vamsi K , Lindgren Cecilia M , Eriksson Karl-Fredrik , Subramanian Aravind , Sihag Smita , Lehar Joseph , Puigserver Pere , Carlsson Emma , ​​Ridderstråle Martin , Laurila Esa , Houstis J Nicholas, Pati Messon , Pati Jill P , Golub Todd R , Tamayo Pablo , Spiegelman Bruce , Lander Eric S , Hirschhorn Joel N , Altshuler David , Groop Leif C. Geny reagující na PGC-1α zapojené do oxidativní fosforylace jsou koordinovaně downregulovány u lidského diabetu  (anglicky)  // Nature Genetika . - 2003. - 15. června ( roč. 34 , č. 3 ). - str. 267-273 . — ISSN 1061-4036 . - doi : 10.1038/ng1180 .
  9. 1 2 Draghici S. Onto-Tools, sada nástrojů moderního biologa: Onto-Express, Onto-Compare, Onto-Design a Onto-Translate  //  Výzkum nukleových kyselin. - 2003. - 1. července ( roč. 31 , č. 13 ). - str. 3775-3781 . — ISSN 1362-4962 . - doi : 10.1093/nar/gkg624 .
  10. Al-Shahrour F. , Diaz-Uriarte R. , Dopazo J. FatiGO: webový nástroj pro hledání významných asociací termínů genové ontologie se skupinami genů   // Bioinformatika . - 2004. - 22. ledna ( roč. 20 , č. 4 ). - str. 578-580 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/btg455 .
  11. Volinia S. , Evangelisti R. , Francioso F. , Arcelli D. , Carella M. , Gasparini P. CÍL: automatizovaná genová ontologická analýza expresních profilů  //  Výzkum nukleových kyselin. - 2004. - 1. července ( roč. 32 , č. Webový server ). - P.W492-W499 . — ISSN 0305-1048 . doi : 10.1093 / nar/gkh443 .
  12. ↑ Molekulární klasifikace rakoviny Golub TR : Objev tříd a predikce tříd pomocí sledování genové exprese   // Věda . - 1999. - 15. října ( roč. 286 , č. 5439 ). - str. 531-537 . — ISSN 0036-8075 . - doi : 10.1126/science.286.5439.531 .
  13. ↑ 1 2 3 4 Ackermann Marit , Strimmer Korbinian. Obecný modulární rámec pro analýzu obohacení genové sady  (anglicky)  // BMC Bioinformatics. - 2009. - 3. února ( roč. 10 , č. 1 ). — ISSN 1471-2105 . - doi : 10.1186/1471-2105-10-47 .
  14. ↑ 1 2 3 4 5 6 7 Huang Da Wei , Sherman Brad T. , Lempicki Richard A. Nástroje pro obohacení bioinformatiky: cesty ke komplexní funkční analýze velkých seznamů genů  //  Výzkum nukleových kyselin. - 2008. - 25. listopadu ( roč. 37 , č. 1 ). - str. 1-13 . — ISSN 1362-4962 . - doi : 10.1093/nar/gkn923 .
  15. Khatri P. , Draghici S. Ontologická analýza dat genové exprese: současné nástroje, omezení a otevřené problémy   // Bioinformatika . - 2005. - 30. června ( roč. 21 , č. 18 ). - str. 3587-3595 . — ISSN 1367-4803 . - doi : 10.1093/bioinformatics/bti565 .
  16. Holden Marit , Deng Shiwei , Wojnowski Leszek , Kulle Bettina. GSEA-SNP: aplikace analýzy obohacení genové sady na data SNP z celogenomových asociačních studií   // Bioinformatika . - 2008. - 14. října ( roč. 24 , č. 23 ). - str. 2784-2785 . — ISSN 1460-2059 . - doi : 10.1093/bioinformatics/btn516 .
  17. Manuck Tracy A. , Watkins Scott , Esplin M. Sean , Parry Samuel , Zhang Heping , Huang Hao , Bigggio Joseph R. , Bukowski Radek , Saade George , Andrews William , Baldwin Don , Sadovsky Yoel , Reddy Uma , Ilekis John , Varner Michael W. , Jorde Lynn B. , Yandell Mark. 242: Gene set obohacení vyšetřování variací mateřského exomu při spontánním předčasném porodu (SPTB  )  // American Journal of Obstetrics and Gynecology. - 2016. - Leden ( roč. 214 , č. 1 ). - P.S142-S143 . — ISSN 0002-9378 . - doi : 10.1016/j.ajog.2015.10.280 .
  18. Maruschke Matthias , Hakenberg Oliver W , Koczan Dirk , Zimmermann Wolfgang , Stief Christian G , Buchner Alexander. Profilování exprese metastatického karcinomu ledviny pomocí analýzy obohacení genové sady  (anglicky)  // International Journal of Urology. - 2013. - 2. května ( roč. 21 , č. 1 ). - str. 46-51 . — ISSN 0919-8172 . - doi : 10.1111/iju.12183 .
  19. Elovainio Marko , Taipale Tuukka , Seppälä Ilkka , Mononen Nina , Raitoharju Emma , Jokela Markus , Pulkki-Råback Laura , Illig Thomas , Waldenberger Melanie , Hakulinen Christian , Hintsa Taina , Keltima Mikaki Lehaki , Raitoharju Mikaki , Mikimäki . Aktivované imunitně-zánětlivé dráhy jsou spojeny s dlouhodobými depresivními symptomy: Důkazy z analýz obohacení genové sady ve studii Young Finns Study  //  Journal of Psychiatric Research. - 2015. - Prosinec ( sv. 71 ). - str. 120-125 . — ISSN 0022-3956 . - doi : 10.1016/j.jpsychires.2015.09.017 .
  20. Nishimura Maki , Tanaka Sachi , Ihara Fumiaki , Muroi Yoshikage , Yamagishi Junya , Furuoka Hidefumi , Suzuki Yutaka , Nishikawa Yoshifumi. Transkriptom a histopatologické změny v myším mozku infikovaném Neospora caninum  //  Vědecké zprávy. - 2015. - 21. ledna ( ročník 5 , č. 1 ). — ISSN 2045-2322 . - doi : 10.1038/srep07936 .
  21. Hass Johanna , Walton Esther , Wright Carrie , Beyer Andreas , Scholz Markus , Turner Jessica , Liu Jingyu , Smolka Michael N. , Roessner Veit , Sponheim Scott R. , Gollub Randy L. , Calhoun Vince Stefan D. , Ehrlich Asociace mezi metylací DNA a intermediárními fenotypy souvisejícími se schizofrenií — Analýza obohacení genové sady  //  Pokrok v neuropsychofarmakologii a biologické psychiatrii. - 2015. - Červen ( sv. 59 ). - str. 31-39 . — ISSN 0278-5846 . - doi : 10.1016/j.pnpbp.2015.01.006 .