UniProt

UniProt
Obsah
Popis Databáze proteinových sekvencí
Datový typ Proteinová anotace
organismy Všechno
Kontakty
Výzkumné centrum EMBL-EBI , Spojené království; SIB , Švýcarsko; PIR , USA.
Dostupnost
Formát dat FASTA , GFF , RDF , XML .
webová stránka uniprot.org
uniprot.org/news/

UniProt  je otevřená databáze proteinových sekvencí. Konsorcium UniProt působí od roku 2003 . Kombinací několika databází byla vytvořena jediná databáze UniProt . UniProt se skládá ze čtyř velkých databází (Knowledge Base , Archive , Reference Clusters a metagenomická data ) a pokrývá různé aspekty analýzy proteinové sekvence. Mnohé ze sekvencí se staly známými jako výsledek projektů sekvenování genomu v posledních letech. Kromě toho databáze UniProt obsahuje množství informací o biologických funkcích proteinů odvozených z vědecké literatury.

Uniprot Consortium

Konsorcium UniProt zahrnuje: Evropský bioinformatický institut (EBI), Švýcarský bioinformatický institut (SIB) a Proteinový informační zdroj (PIR) [1] .

EBI sídlí v Hinxtonu ve Velké Británii a hostí velké množství bioinformatických databází a služeb [2] .

SIB se sídlem v Ženevě ve Švýcarsku je úložištěm expertních serverů pro analýzu proteinových systémů (ExPASy servery), hlavním zdrojem proteomických nástrojů a souvisejících databází [3] .

PIR se nachází v Georgetown University Medical Center ve Washingtonu, DC, USA a je integrovaným bioinformatickým zdrojem navrženým na podporu výzkumu v oblasti genomiky a proteomiky [4] .

V roce 2002 PIR (Protein Information Resource) spolu se svými mezinárodními partnery, EBI (Evropský bioinformatický institut) a SIB (Švýcarský bioinformatický institut), získal grant od Národního institutu zdraví (NIH) na vytvoření UniProt, jednotné celosvětové databáze. sekvencí a funkcí proteinů. Tak se zrodilo konsorcium UniProt [5] . Projekt UniProt začal fungovat v prosinci 2003 [6] .

UniProt je financován z grantů od amerického Národního institutu zdraví (NIH), Národního institutu pro výzkum lidského genomu (NHGRI), Národního institutu všeobecných lékařských věd (NIGMS), British Heart Foundation (BHF), švýcarské federální vlády prostřednictvím Federální úřad pro vzdělávání a vědu, National Science Foundation (NSF) [1] [7] .

Původ databáze UniProt

Jedna databáze UniProt vznikla spojením databází Swiss-Prot, TrEMBL a PIR - PSD [8] [9] [10] .

Swiss Prot

Databáze Swiss-Prot byla vytvořena v roce 1986 Amosem Bayroshem při práci na svém doktorandském projektu a dále rozvíjena ve Švýcarském bioinformatickém institutu (SIB) a později dokončena Rolfem Upweilerem v Evropském bioinformatickém institutu (EBI) [11] [12] [13] . Hlavní funkcí databáze Swiss-Prot je zajistit spolehlivost informací o proteinových sekvencích prostřednictvím vysoké a podrobné úrovně manuální anotace. Zahrnuje popis funkce proteinu, jeho doménovou strukturu, posttranslační modifikace , různé sekvenční varianty atd., s minimální úrovní redundance a vysokou úrovní integrace s jinými databázemi [1] .

TreMBL

Databáze Nucleotide Sequence Data Library (TrEMBL) byla vyvinuta v roce 1996 jako anotovaná počítačová aplikace pro Swiss-Prot [8] [10] [11] . Rozhodnutí vytvořit TrEMBL bylo učiněno v reakci na zvýšený tok dat vyplývající ze vzniku genomických projektů a časově náročný a pracovně náročný proces ručních anotací v UniProtKB / Swiss-Prot překonal schopnost Swiss-Prot zahrnout všechny dostupné proteinové sekvence [8] [10] . TrEMBL poskytuje automatickou anotační schopnost pro překlad existujících nukleotidových sekvencí a jejich převod na proteinové sekvence mimo Swiss-Prot [6] .

PIR-PSD

PIR, kterou pořádá National Biomedical Research Foundation (NBRF) při Georgetown University Medical Center ve Washingtonu, DC, USA, je dědicem nejstarší databáze proteinových sekvencí, jmenovitě „Protein Sequence and Structure Atlas“ vytvořené Margaret Oakley Dejhoffovou, poprvé zveřejněné v roce 1965 [14] . PIR spravuje několik proteinových databází, jmenovitě Master Protein Sequence Database (PIR-PSD), Protein Structure and Function Related Database (iProClass) a další databáze proteinových sekvencí a dozorovaných rodin [1] .

Organizace databází UniProt

UniProt poskytuje čtyři hlavní databáze:

  1. UniProtKB (Swiss-Prot a TrEMBL),
  2. UniParc,
  3. uniref,
  4. UniMes.

UniProt KnowledgeBase (UniProtKB)

UniProt Knowledge Base (UniProtKB) je proteinová databáze částečně spravovaná odborníky a skládá se ze dvou částí:

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot je ručně anotovaná, neredundantní databáze proteinových sekvencí. Cílem UniProtKB/Swiss-Prot je poskytnout všechny známé potřebné informace o konkrétním proteinu [1] . Abstrakty jsou pravidelně revidovány, aby držely krok s aktuálními vědeckými výsledky. Požadavky na anotaci záznamu zahrnují podrobnou analýzu proteinové sekvence a údaje z odborné literatury [17] . Proteinové sekvence stejného genu a stejného druhu jsou kombinovány ve stejné položce databáze. Byly identifikovány rozdíly mezi sekvencemi a jejich příčiny byly zdokumentovány a uvedeny (např. alternativní sestřih , přirozené variace, nesprávná iniciační místa, nesprávné hranice exonu , nesprávné čtecí rámce , seznam neidentifikovaných konfliktů a další). K anotaci záznamů v UniProtKB/Swiss-Prot se používá řada nástrojů sekvenční analýzy. Počítačové predikce jsou ručně analyzovány a jsou vybrány vhodné výsledky pro zahrnutí do databázových záznamů. Tyto predikce zahrnují posttranslační modifikace, sekvenci, strukturu a topologii transmembránových domén, signální peptidy , identifikaci domén a klasifikaci proteinových rodin [17] [18] . Relevantní publikace jsou identifikovány vyhledáváním v databázích, jako je PubMed . Celý text každého dokumentu je přečten a informace jsou přidány do záznamu.

Anotace zpravidla obsahuje následující informace [6] :

Anotovaný záznam musí projít kontrolou kvality, než bude zařazen do UniProtKB / Swiss-Prot. Když se objeví nová data, existující záznamy se aktualizují [1] .

UniProtKB/TrEMBL

UniProtKB / TrEMBL obsahuje záznamy analyzované pomocí výpočetní techniky, které jsou doplněny automatickou anotací [1] .

Translace anotovaných kódujících sekvencí v databázích nukleotidových sekvencí, jako je European Molecular Biology Laboratory (EMBL-Bank), GenBank , Japan DNA Database (DDBJ), je prováděna automaticky, poté jsou tyto proteinové sekvence vloženy do UniProtKB / TrEMBL. UniProtKB / TrEMBL také obsahuje sekvence z Protein Data Bank (PDB) a předpokládané geny, včetně genů z Ensembl  , kolaborativního výzkumného projektu zahrnujícího Evropský bioinformatický institut a Wellcome Trust Sanger Institute, RefSeq a CCDS [19] .

Archiv UniProt (UniParc)

UniProt Archive (UniParc) je komplexní, nerezervovaná databáze, která obsahuje proteinové sekvence z hlavních veřejných databází proteinových sekvencí [20] . Protože stejný protein lze nalézt v několika různých zdrojových databázích a zároveň je přítomen ve více instancích ve stejné databázi, UniParc ukládá každou jedinečnou sekvenci pouze jednou, aby se zabránilo redundanci. Identické sekvence jsou kombinovány, ať už se jedná o proteiny představující stejné nebo různé druhy. Každé sekvenci je přiřazen stabilní a jedinečný kód (URI), který umožňuje identifikovat stejný protein z různých zdrojových databází [1] .

UniParc obsahuje pouze proteinové sekvence bez anotací. Křížové odkazy v záznamech z databáze UniParc umožňují získat další informace o proteinu z databáze, která je původním zdrojem. Pokud se ve zdrojových databázích změní sekvence, jsou tyto změny sledovány v UniParcu a historie všech změn je uložena v archivu [1] .

Zdroje dat pro UniParc [1]
Databáze Datový typ
Japonská databáze DNA (DDBJ)

Evropský archiv nukleotidů (ENA)

Databáze DNA a RNA (GenBank)

Kódovací sekvence
Společný výzkumný projekt zahrnující Evropský bioinformatický institut a Wellcome Trust Sanger Institute (Ensembl)

Databáze genomických anotací obratlovců (VEGA)

Predikované kódující sekvence z genomů obratlovců
Hlavní úložiště genetických a molekulárních dat pro hmyz z čeledi Drosophilidae (FlyBase) Kódující sekvence pro druhy z čeledi Drosophilidae
Komplexní zdroj anotací pro lidské geny a přepisy (H-Inv) Lidské proteinové sekvence
Mezinárodní proteinový index (IPI) Proteinové sekvence vyšších eukaryot
Patentové úřady v Evropě, USA a Japonsku (USPTO) Kódovací sekvence spojené s patenty z patentových úřadů
Proteinové informační zdroje (PIR-PSD) Curated protein sekvence
Proteinová databanka (PDB) Proteinové sekvence, jejichž trojrozměrné struktury jsou v PDB
Nadace pro výzkum bílkovin (PRF) Proteinové sekvence z vědeckých prací a předpovědí
Referenční clustery UniProt (RefSeq) Kódující sekvence ze souboru NCBI genomických, transkripčních a proteinových referenčních sekvencí
Genomická databáze kvasinek (SGD) Kódující sekvence pro Saccharomyces cerevisiae
Informační zdrojová základna pro Arabidopsis thaliana (TAIR) Kódující sekvence pro Arabidopsis thaliana
TROME Předpokládané aminokyselinové sekvence
UniProtKB/Swiss-Prot Ručně vyrobené proteinové sekvence primárně odvozené z TrEMBL
UniProtKB/TrEMBL Automaticky upravované proteinové sekvence odvozené z kódujících sekvencí v databázích nukleotidových sekvencí
Databáze genomických a jiných biologických charakteristik Caenorhabditis elegans (WormBase) Kódující sekvence pro háďátko Caenorhabditis elegans

Referenční shluky UniProt (UniRef)

UniProt Reference Clusters (UniRef) se skládají ze tří databází (UniRef100, UniRef90 a UniRef50) vytvořených z seskupených sad proteinových sekvencí z UniProtKB a vybraných záznamů UniParc [21] .

Databáze UniRef100 kombinuje identické sekvence a fragmenty sekvencí (z libovolného organismu) do jediného záznamu UniRef [1] .

Sekvence UniRef100 byly seskupeny pomocí algoritmu CD-HIT [21] [22] ke konstrukci UniRef90 a UniRef50 [22] . Každý z posledních dvou shluků se skládá ze sekvencí, které mají alespoň 90% a alespoň 50% identitu s nejdelší nalezenou sekvencí. V současné době přesahuje pokrytí UniRef 4 000 000 zdrojových sekvencí [23] .

Sekvenční klastrování výrazně snižuje velikost databáze: UniRef100, UniRef90 a UniRef50 vedou ke snížení velikosti databáze přibližně o ~10 %, 40 % a 70 %. Snížení redundance zvyšuje rychlost hledání podobnosti a zlepšuje spolehlivost hledání vzdáleně příbuzných proteinů [1] .

Záznamy UniRef obsahují informace o reprezentativní sekvenci proteinů, počty členů a obecnou taxonomii klastru, jakož i přístupová čísla pro všechny připojené záznamy a odkazy na anotace v UniProtKB pro usnadnění biologického výzkumu [1] .

UniRef je k dispozici na FTP serveru UniREF [24] .

UniMrot (UniMes)

UniProt KB obsahuje záznamy se známou zdrojovou taxonomií. Nový vývoj vedl k objevu nových zdrojů pro hledání proteinových sekvencí. Objevení se metagenomických dat si vyžádalo vytvoření zcela nové sekce v UniProt KB, a to samostatné databáze — UniProt metagenomické sekvence a neznámé sekvence z prostředí UniMES (The UniProt Metagenomic and Environmental Sequences database) [25] .

Metagenomika (metagenomika) je rozsáhlá genomická analýza mikrobů izolovaných ze vzorků z prostředí, na rozdíl od laboratorně pěstovaných organismů, které představují jen malou část mikrobiálního světa.

UniMES v současné době obsahuje údaje o proteinových sekvencích organismů z oceánů poskytnuté expedicí Global Ocean Sampling (GOS) [25] , které byly původně předloženy do International Nucleotide Sequence Database (INSDC) [26] .

Původní soubor dat GOS se skládá z 25 milionů sekvencí DNA, většinou z oceánských mikrobů, a téměř 6 milionů předpokládaných proteinů. UniMES kombinuje předpokládané proteinové sekvence s automatickou klasifikací Interpro, což je integrovaný zdroj pro proteinové rodiny, domény a funkční místa. UniMES je proto jedinečná databáze, která poskytuje bezplatný přístup k řadě genomických informací získaných z expedic s odběrem vzorků. Vzorová data prostředí obsažená v této databázi nejsou dostupná v UniProt Knowledge Base nebo UniProt Reference Clusters (UniRef), ale jsou integrována do UniParc [27] .

UniMES je k dispozici na FTP serveru UniProt ve formátu FASTA [28] .

Poznámky

  1. 1 2 3 4 5 6 7 8 9 10 11 12 13 O  UniProt . http://www.uniprot.org/help/about.+ Získáno 31. března 2017. Archivováno z originálu dne 30. dubna 2017.
  2. O  EBI . https://www.ebi.ac.uk/about/travel.+ Staženo 24. dubna 2017. Archivováno z originálu 1. května 2017.
  3. O SIB  . http://www.sib.swiss/about-us.+ Staženo 24. dubna 2017. Archivováno z originálu 25. dubna 2017.
  4. O PIR  . http://pir.georgetown.edu/pirwww/about/.+ Staženo 24. dubna 2017. Archivováno z originálu 22. března 2017.
  5. Financování Global Protein Database vytvoří jeden spolehlivý zdroj ( http://www.genome.gov/page.cfm?pageID=10005283 Archivováno 24. září 2015 na Wayback Machine )
  6. 1 2 3 Apweiler R. , Bairoch A. , Wu CH Databáze proteinových sekvencí.  (anglicky)  // Současný názor v chemické biologii. - 2004. - Sv. 8, č. 1 . - S. 76-80. - doi : 10.1016/j.cbpa.2003.12.004 . — PMID 15036160 .
  7. 1 2 The Universal Protein Resource (UniProt) v roce 2010.  (anglicky)  // Nucleic acid research. - 2010. - Sv. 38.—P. D142–148. - doi : 10.1093/nar/gkp846 . — PMID 19843607 .
  8. 1 2 3 O'Donovan C. , Martin MJ , Gattiker A. , ​​Gasteiger E. , Bairoch A. , Apweiler R. Vysoce kvalitní zdroj znalostí o bílkovinách: SWISS-PROT a TrEMBL.  (anglicky)  // Briefings in bioinformatics. - 2002. - Sv. 3, č. 3 . - S. 275-284. — PMID 12230036 .
  9. Wu CH , Yeh LS , Huang H. , Arminski L. , Castro-Alvear J. , Chen Y. , Hu Z. , Kourtesis P. , Ledley RS , Suzek BE , Vinayaka ČR , Zhang J. , Barker WC The Protein informační zdroj.  (anglicky)  // Výzkum nukleových kyselin. - 2003. - Sv. 31, č. 1 . - S. 345-347. — PMID 12520019 .
  10. 1 2 3 Boeckmann B. , Bairoch A. , Apweiler R. , Blatter MC , Estreicher A. , ​​Gasteiger E. , Martin MJ , Michoud K. , O'Donovan C. , Phan I. , Pilbout S. , Schneider M. SWISS-PROT protein znalostní báze a její doplněk TreMBL v roce 2003.  // Výzkum  nukleových kyselin. - 2003. - Sv. 31, č. 1 . - S. 365-370. — PMID 12520024 .
  11. 1 2 Bairoch A. , Apweiler R. Databanka proteinové sekvence SWISS-PROT a její nový doplněk TREMBL.  (anglicky)  // Výzkum nukleových kyselin. - 1996. - Sv. 24, č. 1 . - S. 21-25. — PMID 8594581 .
  12. Bairoch A. Serendipity v bioinformatice, útrapy švýcarského bioinformatika v vzrušujících časech!  (anglicky)  // Bioinformatika. - 2000. - Sv. 16, č. 1 . - S. 48-64. — PMID 10812477 .
  13. Séverine Altairac,  Naissance d'une banque de données: Interview du prof. Amos Bairoch Archivováno 12. července 2010 na Wayback Machine . Protéines à la Une Archivováno 21. června 2011 na Wayback Machine , srpen 2006. ISSN 1660-9824.
  14. Dayhoff, Margaret O. Atlas proteinové sekvence a struktury  . - Silver Spring, Md: National Biomedical Research Foundation, 1965.
  15. Statistiky vydání UniProtKB/SwissProt ( http://www.expasy.org/sprot/relnotes/relstat.html Archivováno 29. května 2010 na Wayback Machine )
  16. Statistiky vydání UniProtKB/TrEMBL ( http://www.ebi.ac.uk/uniprot/TrEMBLstats/ Archivováno 1. října 2015 na Wayback Machine )
  17. 1 2 Jak ručně označíme záznam UniProtKB ( http://www.uniprot.org/faq/45 Archivováno 13. prosince 2013 na Wayback Machine )
  18. Apweiler R. , Bairoch A. , Wu CH , Barker WC , Boeckmann B. , Ferro S. , Gasteiger E. , Huang H. , Lopez R. , Magrane M. , Martin MJ , Natale DA , O'Donovan C. , Redaschi N. , Yeh LS UniProt: znalostní báze Universal Protein.  (anglicky)  // Výzkum nukleových kyselin. - 2004. - Sv. 32.—P. D115–119. - doi : 10.1093/nar/gkh131 . — PMID 14681372 .
  19. Odkud pocházejí sekvence  UniProtKB . http://www.uniprot.org/faq/37.+ Získáno 16. dubna 2014. Archivováno z originálu 15. prosince 2013.
  20. Leinonen R. , Diez FG , Binns D. , Fleischmann W. , Lopez R. , archiv Apweiler R. UniProt.  (anglicky)  // Bioinformatika. - 2004. - Sv. 20, č. 17 . - S. 3236-3237. - doi : 10.1093/bioinformatics/bth191 . — PMID 15044231 .
  21. 1 2 Suzek BE , Huang H. , McGarvey P. , Mazumder R. , Wu CH UniRef: komplexní a neredundantní referenční clustery UniProt.  (anglicky)  // Bioinformatika. - 2007. - Sv. 23, č. 10 . - S. 1282-1288. - doi : 10.1093/bioinformatics/btm098 . — PMID 17379688 .
  22. 1 2 Li W. , Jaroszewski L. , Godzik A. Shlukování vysoce homologních sekvencí za účelem zmenšení velikosti velkých proteinových databází.  (anglicky)  // Bioinformatika. - 2001. - Sv. 17, č. 3 . - S. 282-283. — PMID 11294794 .
  23. O UniRef=http://www.uniprot.org/uniref/ .  (nedostupný odkaz)
  24. UniREF FTP server ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/ )
  25. 1 2 Yooseph S. , Sutton G. , Rusch DB , Halpern AL , Williamson SJ , Remington K. , Eisen JA , Heidelberg KB , Manning G. , Li W. , Jaroszewski L. , Cieplak P. , Miller CS , Li H. , Mashiyama ST , Joachimiak MP , van Belle C. , Chandonia JM , Soergel DA , Zhai Y. , Natarajan K. , Lee S. , Raphael BJ , Bafna V. , Friedman R. , Brenner SE , Godzik A. , Eisenberg D. , Dixon JE , Taylor SS , Strausberg RL , Frazier M. , Venter JC Expedice Sorcerer II Global Ocean Sampling: rozšíření vesmíru proteinových rodin.  (anglicky)  // Public Library of Science Biology. - 2007. - Sv. 5, č. 3 . — P. e16. - doi : 10.1371/journal.pbio.0050016 . — PMID 17355171 .
  26. Brunak S. , Danchin A. , Hattori M. , Nakamura H. , Shinozaki K. , Matise T. , Preuss D. Zásady databáze nukleotidových sekvencí.  (anglicky)  // Věda (New York, NY). - 2002. - Sv. 298, č.p. 5597 . - S. 1333. - PMID 12436968 .
  27. Univerzální zdroj bílkovin (UniProt).  (anglicky)  // Výzkum nukleových kyselin. - 2008. - Sv. 36.—P. D190–195. - doi : 10,1093/nar/gkm895 . — PMID 18045787 .
  28. Uniprot FTP server UniMES ( ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/  (downlink) )

Odkazy