Proteogenomika je obor biologického výzkumu, který využívá kombinaci proteomiky , genomiky a transkriptomiky k objevování a identifikaci peptidů . Proteogenomika se používá k identifikaci nových peptidů porovnáním MS/MS spekter ( angl. Tandem mass spectrometry ) s databází proteinů , která byla získána z genomických a transkriptomických informací. Proteogenomika často označuje studie, které využívají proteomické informace získané například pomocí hmotnostní spektrometrie ke zlepšení anotací genomu ( anglicky DNA annotation ). [1] Genomika se zabývá DNA a genetickým kódem celých organismů, zatímco transkriptomika se zabývá sekvencemi a transkripty RNA . Proteomika využívá tandemovou hmotnostní spektrometrii a kapalinovou chromatografii ke stanovení a studiu funkcí proteinů. Proteomika se používá k objevování všech proteinů exprimovaných v organismu, známé jako jeho proteom. [2] [3] Nevyřešeným problémem v proteomice je, že se opírá o předpoklad, že současné genové modely jsou správné a že správné proteinové sekvence lze nalézt pomocí databáze referenčních sekvencí; To však není vždy případ, protože některé peptidy nelze nalézt v databázích. Navíc mohou vzniknout nové proteinové sekvence z mutací. Tento problém lze vyřešit pomocí proteomických, genomických a transkriptomických dat. Společné využití metod proteomiky a genomiky vedlo ke vzniku proteogenomiky, která v roce 2004 vznikla jako samostatný obor. [1] [4] [5]
Hlavní myšlenkou proteogenomického přístupu je identifikace peptidů porovnáním MS/MS dat s proteinovými databázemi, které obsahují predikované proteinové sekvence. Proteinové databáze jsou vytvářeny různými způsoby pomocí genomických a transkriptomických dat. Zde je několik způsobů, jak vytvořit databáze proteinů:
Šest možných translací molekuly dvouvláknové DNA lze použít k vytvoření databáze, která předpovídá proteinové sekvence. Omezení této metody spočívá v tom, že databáze budou velmi velké kvůli počtu generovaných sekvencí, z nichž většina v přírodě neexistuje. [jeden]
V této metodě je proteinová páteř generována pomocí genových predikčních algoritmů, které umožňují identifikaci oblastí kódujících protein . Databáze vytvořená tímto způsobem je podobná databázi vytvořené s transkripcí šesti snímků v tom, že může být velmi velká. [jeden]
Proteinové databáze lze také vytvořit pomocí dat sekvenování RNA , anotovaných transkriptů RNA a variant proteinových sekvencí. Kromě toho existují další specializovanější databáze proteinů, které lze vytvořit pro správnou identifikaci konkrétních peptidů. [jeden]
Další metodou identifikace proteinů v proteogenomice je komparativní proteogenomika, která je založena na porovnávání proteomických dat několika příbuzných druhů současně a využívá homologii mezi jejich proteiny ke zlepšení anotací s vyšší statistickou jistotou. [6] [7]
Mezi mnoha aplikacemi proteogenomiky je zlepšení anotace genů v různých organismech. Jak víte, genová anotace zahrnuje objev genů a jejich funkcí. [8] Proteogenomika se stala užitečnou zejména v oblasti vytváření a vylepšování anotací genomů různých prokaryotických organismů. Proteogenomický přístup byl použit při studiích anotace genomů různých mikroorganismů: Escherichia coli , různých typů bakterií rodů Mycobacterium a Shewanella . [9]
Kromě zlepšení anotací genů mohou proteogenomické studie také poskytnout cenný pohled na přítomnost naprogramovaných posunů čtecího rámce, delece N-terminálního methioninu, signálních peptidů, proteolýzy a dalších posttranslačních modifikací . [4] [6]
Proteogenomika může nabídnout metody pro identifikaci peptidů bez problému s neúplnými a nepřesnými proteinovými databázemi, kterým proteomika čelí; při použití proteogenomického přístupu však vznikají další potíže. [1] Jedním z největších problémů v proteogenomice je velikost generovaných proteinových databází. Statisticky je u velké proteinové databáze pravděpodobnější, že budou neshodovat data z proteinové databáze s MS/MS daty, což je problém, který může narušovat identifikaci nových peptidů. Velký počet falešně pozitivních výsledků identifikace také představuje problém v proteogenomickém přístupu. Falešně pozitivní výsledky mohou být výsledkem vytváření velmi rozsáhlých databází proteinů, kde nekonzistentní data vedou k chybné identifikaci. Dalším problémem je nesprávné párování MS/MS spekter s daty proteinové sekvence, které odpovídají podobnému peptidu místo toho, který je skutečně přítomen. Je možné získat data o peptidu umístěném na několika místech, v důsledku čehož mohou být tato data interpretována různými způsoby. Navzdory těmto problémům existují způsoby, jak snížit počet chyb, ke kterým dochází. Například při práci s velmi rozsáhlou databází proteinů lze porovnat identifikované nové peptidové sekvence se všemi sekvencemi v databázi a poté porovnat posttranslační modifikace. Potom lze určit, zda tyto dvě sekvence představují stejný peptid nebo zda se jedná o dva různé peptidy. [jeden]