GenBank

GenBank
Obsah
Popis Nukleotidové sekvence pro více než 300 000 organismů s podpůrnými bibliografickými a biologickými anotacemi.
Datový typ
  • Nukleotidové sekvence
  • Proteinové sekvence
organismy Všechno
Kontakty
Výzkumné centrum Americké národní centrum pro biotechnologické informace (NCBI)
Původní publikace 21071399
Datum vydání 1982  ( 1982 )
Dostupnost
Formát dat
webová stránka NCBI
Stáhnout URL ncbi ftp
webová služba
Nástroje
Web VÝBUCH
Samostatná verze VÝBUCH
jiný
Licence Nejasné [1]

GenBank  je veřejně dostupná databáze obsahující všechny anotované sekvence DNA a RNA a také sekvence proteinů v nich kódovaných. GenBank spravuje americké Národní centrum pro biotechnologické informace (NCBI) , součást amerického Národního institutu zdraví, a je zdarma k dispozici výzkumníkům z celého světa. GenBank získává a kombinuje data z různých laboratoří pro více než 100 000 různých organismů.

GenBank je archivní databáze, to znamená, že za obsah každého záznamu zodpovídají tvůrci tohoto záznamu, což jsou zpravidla experimentátoři, kteří toto pořadí určili. GenBank je spolu s bankami EMBL a DDBJ součástí konsorcia INSDC ( http://insdc.org/ ), které si pravidelně vyměňuje data mezi těmito třemi archivy anotovaných nukleotidových sekvencí.

Uvolnění GenBank probíhá každé dva měsíce a je dostupné z webové stránky přes FTP. Poznámky k vydání pro aktuální verzi GenBank poskytují podrobné informace o vydání a upozornění na nadcházející změny GenBank. K dispozici jsou také poznámky k vydání pro předchozí verze GenBank.

Historie vytvoření

V březnu 1979 se na Rockefellerově univerzitě v New Yorku sešlo třicet molekulárních biologů a počítačových vědců . Shodla se na stanovisku k nutnosti vytvoření celostátní počítačové databáze. To bylo způsobeno rychlým růstem počtu známých sekvencí DNA a také vyhlídkami na získání nových biologických znalostí prostřednictvím jejich analýzy a srovnání. Do té doby existovalo několik samostatných sbírek sekvencí, ale žádná z nich nebyla kompletní [2] . Vývoj schématu financování projektu trvalo Národnímu institutu zdraví (NIH) tři roky. Během této doby EMBL zpřístupnila svou vlastní databázi sekvencí veřejnosti. Toto nešťastné zpoždění pro NIH nebylo jen důsledkem pomalého byrokratického systému, ale také nejistoty mezi vědci ohledně role biologických sbírek v době, v níž dominovaly experimentální metody chápání živých. Pod tlakem několika experimentálních vědců NIH přesto začala hledat vykonavatele projektu. Do soutěže o vytvoření databáze se přihlásily dvě skupiny: tým z National Biomedical Research Foundation (NBRF) vedený Margaret Dyhoffovou a tým výzkumníků vedený Walterem Goadem z Los Alamos National Laboratory (LANL) ve spolupráci se soukromou společností Bolt, Beránek a Newman » [2] .

Dyhoff vytvořil jednu z prvních databází biologických sekvencí, shromažďující aminokyselinové sekvence proteinů od 60. let 20. století. V sérii svazků Atlas of Protein Sequences and Structures publikovaných od roku 1965 Dyhoff představil největší světovou sbírku sekvencí proteinů a nukleových kyselin, nejnovější metody pro jejich analýzu a evoluční úvahy z nich vyplývající [3] . populární jako nástroj v práci molekulárních a evolučních biologů. Dyhoff očekával, že výzkumníci s ní budou sdílet nové sekvence přímo před jejich zveřejněním. Tato iniciativa však nenašla mezi experimentálními biology patřičnou odezvu, protože při vstupu do Atlasu nebylo stanoveno ani autorství, ani priorita objevu. Dayhoff a její tým byli nuceni pokračovat v manuální analýze publikované literatury [2] .

Dalším uchazečem o kontrakt NIH je skupina Los Alamos, která provedla omezený biomedicínský výzkum od projektu Manhattan . Když se Walter Goad dozvěděl o rozhodnutí Rockefellerovy univerzity, byl přesvědčen, že Los Alamos je „přirozeným místem pro centrum sekvenování DNA“, a to především díky „jedinečné výpočetní síle“, kterou disponovala tamní národní laboratoř [4] . Goad také začal shromažďovat sekvence nukleových kyselin, především z jiných sbírek, které vlastní Richard Grant ve Francii, Kurt Stöber v Německu, Douglas Brutlag a Alvin Kabat v USA [2] .

Návrhy NBRF (Diehoff) a LANL-BBN (Goad) na centralizovanou databázi byly velmi podobné, ale obsahovaly klíčové rozdíly týkající se vlastnictví, důvěrnosti a vědecké priority. NBRF navrhlo shromažďovat sekvence přezkoumáním publikované literatury a vyzvat experimentátory, aby poskytli svá data. Takový přístup implikoval stejný postoj k sekvencím, jaký mají přírodovědci k exemplářům – objektům v přirozeném prostředí, které lze sbírat a používat. LANL-BBN naproti tomu navrhl požádat vydavatele, aby zahrnutí sekvencí do databáze bylo předpokladem pro publikování článku v časopise. Takový systém odpovídal systému motivace v experimentálních vědách, v nichž jsou výsledky výzkumu před publikováním považovány za osobní poznatky a je jim přiřazeno autorství. Publikování tímto způsobem je podnětem ke zpřístupnění znalostí veřejnosti [2] .

V roce 1980 Nejvyšší soud USA prohlásil, že „cokoli pod sluncem vytvořené člověkem“, včetně geneticky modifikovaných organismů, lze patentovat [5] . Toto oznámení vyvolalo otázku pro NIH, kdo by mohl vlastnit informace v budoucí databázi. Goad zdůraznil, že „nemá v úmyslu tvrdit jakékoli vlastnictví jakýchkoli dat“ a poznamenal, že Dyhoff a její tým „hledali výnosy z prodeje své databáze a zabránili jejich redistribuci“, aniž by uvedl, že výnosy šly pouze na pokrytí výdajů, a nevytvářet zisk [6] .

LANL-BBN dokázaly dále zvýšit otevřenost své databáze tím, že nabídly její distribuci prostřednictvím počítačové sítě ARPANET spravované ministerstvem obrany , zatímco NBRF mohla nabízet pouze omezený online přístup prostřednictvím telefonních modemů. 30. června 1982 NIH udělila kontrakt LANL-BBN na vytvoření veřejné, volné databáze sekvencí nukleových kyselin, která se brzy stala známou jako GenBank.

Úspěch GenBank při shromažďování všech publikovaných sekvencí byl způsoben dvěma klíčovými faktory. Nejprve byla navázána úzká spolupráce s databází EMBL zřízenou o několik měsíců dříve v Heidelbergu a s DDBJ v roce 1986. Každá databáze byla zodpovědná za sledování publikací v určitých časopisech [2] .

Za druhé, databáze DNA stále více zaostávaly za explodujícím počtem známých sekvencí. Řešením problému byla dohoda s vydavateli o elektronickém zařazení sekvencí do databáze jako předpokladu pro publikaci v časopise.

Od té doby se GenBank rozrostla a rozšířila a účastnila se projektů, jako jsou projekty Human Genome a DNA barcoding . GenBank se stala příkladem projektu založeného na principech „free content“ , který v dnešním světě získává obrovskou konkurenční výhodu [2] .

V polovině 80. let 20. století bioinformatická společnost Intelligenetics na Stanfordské univerzitě spoluřídila projekt GenBank s LANL . Jako jeden z prvních veřejných bioinformatických projektů na internetu projekt spustil první fóra a prostředky pro sdílení vědeckých poznatků: BIOSCI/Bionet .

V letech 1989-1992 byla GenBank přesunuta do nově vytvořeného Národního centra pro biotechnologické informace ( NCBI ) [7] .

Statistiky GenBank

Třetí vydání databáze, vydané v prosinci 1982, obsahovalo 606 nukleotidových sekvencí, v přepočtu na báze - 680338. Do listopadu 1983 se počet sekvencí zvýšil více než 4krát - až na 2427. Do roku 2000 byl růst databáze byla exponenciální. Do roku 2007 se množství dat každých 18 měsíců zdvojnásobilo.

Od dubna 2002 jsou vedeny statistiky pro sekci WGS. Jeho tempo růstu předčí hlavní pobočku GenBank. Po zpomalení v roce 2010 WGS opět vykazuje zrychlený růst [8] .

K únoru 2013 obsahovala GenBank informace o více než 228 miliardách párů bází a téměř 200 milionech sekvencí (z více než 100 000 živých organismů) [9] .

Genová banka také obsahuje další soubory dat, mechanicky přidávané na základě hlavního souboru sekvenačních dat.

Na základě informací obsažených v tabulce lze určit rozsah dat nashromážděných v GenBank a porovnat rychlost, s jakou se nové záznamy objevovaly v databázi v prvních letech po založení databáze a v současnosti [8] .

Uvolnění datum důvody Sekvence
3 prosince 1982 680 338 606
66 prosince 1990 51 306 092 41 057
121 prosince 2000 11 101 066 288 10 106 023
181 prosince 2010 122 082 812 719 129 902 276
218 února 2017 228 719 437 638 199 341 377

Anotace položky GenBank

Anotovaný vzorek GenBank ve formátu plochého souboru GenBank má následující sekce [10] :

Název pole Oborová anotace

LOCUS

Pole LOCUS obsahuje následující datové prvky:

Název lokusu

Jediným pravidlem při přiřazování názvu lokusu je jedinečnost.

Délka sekvence

Počet párů nukleotidových bází (nebo aminokyselinových zbytků v případě proteinové sekvence) v záznamu sekvence.

Vyhledávací pole Entrez: délka sekvence [SLEN]

Typ molekuly

Každý záznam GenBank musí obsahovat sekvenční data pro jeden typ molekuly: genomová DNA , genomová RNA , nezralá (nesstřihnutá) RNA, messenger RNA (cDNA), ribozomální RNA , transferová RNA , malá jaderná RNA a další.

Vyhledávací pole Entrez: typ molekuly [PROP]. Příklad biomol_genomic, biomol_mRNA atd.

Sekce GenBank (divize GenBank)

Záznamy GenBank odkazují na jednu z následujících částí [11] :

Taxonomické sekce:

  • PRI (primát) - sekvence primátů
  • ROD (hlodavec) - hlodavčí sekvence
  • MAM (savec) - další savčí sekvence
  • VRT (vertebrate) - ostatní sekvence obratlovců
  • INV (invertebrate) - sekvence bezobratlých
  • PLN (plant) - sekvence rostlin, hub a řas
  • BCT (bakteriální) - bakteriální sekvence
  • VRL (virové) - virové sekvence
  • PHG (bakteriofág) - bakteriofágové sekvence
  • SYN (syntetické) - syntetické sekvence
  • ENV (environmental) - ukázkové sekvence prostředí
  • UNA (unannotated) - neanotované sekvence

Vysoce výkonné sekvenování:

  • EST (exprimed sequence tags) - sekvence značek
  • STS (sequence tagged sites) - sekvence označeného místa
  • GSS (genome survey sequences) - studium genomových sekvencí
  • HTG (high-throughput genomic sequences) - vysoce výkonná data sekvenování genomu
  • HTC (high-throughput cDNA sequencing) - vysoce výkonná cDNA sekvenační data

Projekty:

  • PAT (patent) - patentované sekvence
  • WGS (celogenomové sekvenování) - sekvenování celého genomu
  • TSA (transscriptome shotgun Assembly) - sestavení přepisu metodou brokovnice

Vzhledem k tomu, že sekce neodrážejí současnou taxonomii NCBI (sekvence skutečně související s konkrétním organismem může být zahrnuta do „technické“ skupiny kvůli způsobu jejího získání), měl by být k načtení všech sekvencí z databáze použit prohlížeč taxonomie NCBI konkrétní organismus .

Vyhledávací pole Entrez: sekce [PROP] . Příklad: gbdiv_pri, gbdiv_est atd.

Datum změny

Datum poslední úpravy záznamu.

Vyhledávací pole Entrez: datum [MDAT]. Příklad 1999/07/25, 1999/07/25:1999/07/31 (vyžadován formát yyyy/mm/dd)

DEFINICE

Stručný popis sekvence: organismus, název genu/proteinu, popis funkcí sekvence (pokud je sekvence nekódující).

Vyhledávací pole Entrez: Popis [TITL].

PŘÍSTUP

Jedinečný a neměnný identifikátor položky sekvence ( přístupové číslo eng. ) . Identifikátor je kombinací písmen a číslic. Obvykle je to jedno písmeno následované pěti číslicemi (např. U12345) nebo dvě písmena následovaná šesti číslicemi (např. AF123456). Některé identifikátory mohou být delší, v závislosti na typu záznamu sekvence.

Vyhledávací pole Entrez: Identifikátor [ACCN].

VERZE

Identifikační číslo konkrétní nukleotidové sekvence v databázi GenBank používá formát „accession.version“ implementovaný GenBank/EMBL/DDBJ v únoru 1999. Navýšeno o jakoukoli změnu v sekvenčních datech, například z U12345.10 na U12345.11. Paralelně získávají změny nové číslo v systému identifikátorů GI. Historii revizí sekvence lze nalézt v sekci Historie revizí sekvencí GenBank a ID sekvencí .

Vyhledávací pole Entrez: Použijte výchozí "Všechna pole".

GI

Identifikační číslo "GenInfo Identifier" pro nukleotidovou nebo proteinovou sekvenci z něj přeloženou. Pokud se sekvence jakýmkoli způsobem změní, bude přiděleno nové číslo GI.

Vyhledávací pole Entrez: použijte výchozí "Všechna pole"

KLÍČOVÁ SLOVA

Klíčové slovo nebo fráze, která popisuje sekvenci. Při absenci klíčových slov obsahuje pouze tečku.

Toto pole je v záznamech sekvence přítomno především z historických důvodů a není založeno na řízené slovní zásobě. Většinou se používá ve starých příspěvcích nebo pro speciální typy sekvencí, jako je EST, STS, GSS, HTG atd., takže je nejlepší je nepoužívat pro vyhledávání.

Vyhledávací pole Entrez: klíčové slovo [KYWD]

ZDROJ

Organismus je zdrojem sekvence. Formát záznamu je volný, může být doplněn typem molekuly.

Podpole Organismus představuje formální vědecký název mateřského organismu (rod a druh, kde je to vhodné) a jeho taxonomii založenou na databázi taxonomie NCBI.

Vyhledávací pole Entrez: organismus [ORGN]. Příklad: Saccharomyces cerevisiae

REFERENCE

Odkazy na publikace (článek v časopise, kapitola knihy, kniha, disertační práce / monografie, sbírkové materiály, patent atd.) autorů zápisu s diskusí k údajům uvedeným v zápisu. Odkazy jsou automaticky seřazeny podle data zveřejnění, počínaje nejstarším. Stav „nepublikováno“ nebo „v tisku“ znamená, že nejsou publikovány. Poslední článek obvykle obsahuje informace o přímém zadavateli sekvence, proto se nazývá „blok zadavatele“ a místo názvu článku se používají slova „Přímé odeslání“.

Pole obsahuje několik prvků:

Autoři _

Seznam autorů v pořadí jejich výskytu v citovaném článku.

Vyhledávací pole Entrez: a druhé [AUTH] (ve formátu Příjmení AB bez teček za iniciálami, iniciály lze vynechat).

název _

Název publikovaného nebo předběžného názvu nepublikovaného díla.

Vyhledávací pole Entrez: název [WORD] .

Deník _

MEDLINE je zkratka názvu časopisu. (Úplný pravopis lze získat z databáze Entrez Journals)

Vyhledávací pole Entrez: název časopisu [JOUR] (můžete zadat buď celý pravopis časopisu, nebo zkratku MEDLINE).

PUBMED

Identifikátor PubMed (PMID).

Odkazy, včetně identifikátorů PubMed, na odpovídající položku PubMed. Záznamy PubMed obsahující sekvenční identifikátory v poli SI (Secondary Source Identifier) ​​zase odkazují na sekvenční záznamy.

Vyhledávací pole Entrez: Nelze prohledávat PubMed ID, ale lze prohledávat databázi PubMed.

VLASTNOSTI

Informace o umístění a funkci oblasti specifikované v sekvenci: gen, jeho produkt ( protein ), promotor , kódující sekvence (CDS), případně sestřižená mRNA a další. Kompletní seznam funkčních sekvencí je k dispozici na následujících místech:

Oblast může být reprezentována jediným nukleotidovým úsekem, sousedním nukleotidovým úsekem, souborem úseků sekvencí a dalšími reprezentacemi. Oblast je zpravidla dána dvěma souřadnicemi n..m. Symbol "<" před souřadnicemi označuje umístění na 5'-konci (například CDS <1..206 ), symbol ">" - na 3'-konci (například CDS 435..915 > ), značka "komplement "- o umístění na doplňkovém řetězci.

Vyhledávací pole Entrez: funkční klávesa [FKEY]. Příklad, promotér

Prvky pole:

zdroj

Povinné pole obsahující délku sekvence, vědecký název zdrojového organismu a ID taxonu (identifikační číslo taxonu v databázi taxonomie NCBI ). Může také obsahovat další informace, jako je umístění na mapě genomu (např. číslo chromozomu), kmen, klon, typ tkáně atd.

Vyhledávací pole Entrez: Použijte délku sekvence [SLEN] pro vyhledávání podle délky, organismus [ORGN] pro vyhledávání podle názvu organismu, doplňkové informace [ALL] pro hledání dalších prvků, jako je kmen, klon, typ tkáně.

CDS

Protein kódující sekvence nukleotidů, včetně start a stop kodonů. Obsahuje také aminokyselinovou sekvenci přeloženou z této oblasti. Specifikátory "/evidence=experimental" a "/evidence=not_experimental" indikují přítomnost nebo nepřítomnost experimentálního potvrzení existence proteinu. Pro mRNA mohou autoři záznamu popsat 5' a 3' netranslatované oblasti (5'UTR a 3'UTR) a kódující sekvence (CDS, exony).

Vyhledávací pole Entrez: Funkční klávesa [FKEY]

protein_id, GI

Identifikační číslo proteinové sekvence odpovídající identifikátoru nukleotidové sekvence. Proteinové identifikátory se skládají ze tří písmen následovaných pěti číslicemi, tečkou a číslem verze. Pokud dojde ke změně v sekvenčních datech (dokonce i jedné aminokyseliny), číslo verze se zvýší (například AAA98665.1 se změní na AAA98665.2).

Formát identifikace proteinového sekvenčního čísla accession.version byl implementován GenBank/EMBL/DDBJ v únoru 1999 a běží paralelně s digitálním GI systémem (viz výše).

Vyhledávací pole Entrez: použijte výchozí "Všechna pole"

gen

Oblast biologického zájmu, která má jméno a je identifikována jako gen.

Vyhledávací pole Entrez: Funkční klávesa [FKEY]

PŮVOD

Samotná sekvence je k dispozici ke stažení v různých formátech. Pole může být prázdné, může být zobrazeno jako „Unreported“ nebo může poskytnout místní ukazatel na začátek sekvence, obvykle zahrnující experimentálně určené restrikční místo nebo genetický lokus (pokud existuje).

Pravidla zadávání dat

Zasílání sekvencí do jedné ze tří databází (GenBank, ENA nebo DDBJ) podávají buď jednotliví autoři, nebo sekvenační centra, většinou elektronicky prostřednictvím programů BankIt nebo Sequin. Synchronizace dat mezi databázemi probíhá denně. Aplikace jsou pečlivě kontrolovány na fragmenty použitých vektorů (pomocí systému VecScreen ), správný překlad kódující oblasti, správnou taxonomii a správné bibliografické odkazy. Návrh záznamu v GenBank je zaslán zpět autorovi ke kontrole a konečným úpravám před zveřejněním v databázi, což může být na žádost autora odloženo do stanovené doby. Po zveřejnění (obvykle do 2 dnů od odeslání) je záznamu přiděleno ID, které lze získat přes Entrez nebo FTP . V průměru obdrží identifikátory přibližně 3500 sekvencí denně. Mít sekvenci ve veřejné doméně GenBank je požadavkem pro publikaci v mnoha časopisech [12] .

GenBank nabízí speciální softwarové balíčky pro usnadnění podávání žádostí [12] :

Sekce GenBank

V současné době databáze GenBank kromě sekvencí jednotlivých genů obsahuje řadu dat získaných pomocí moderních metod sekvenování DNA a automatické anotace sekvencí. Existuje několik sekcí GenBank věnovaných vysoce výkonným sekvenačním datům [11] .

Poznámky

  1. Stránka pro stahování Archivováno 27. ledna 2020 na Wayback Machine na UCSC říká: „ NCBI neklade žádná omezení na použití nebo distribuci dat GenBank. Někteří předkladatelé si však mohou nárokovat patent , autorská práva nebo jiná práva duševního vlastnictví ve všech nebo NCBI není schopna posoudit platnost takových nároků, a proto nemůže poskytnout komentář nebo neomezené povolení týkající se použití, kopírování nebo distribuce informací obsažených v GenBank."
  2. ↑ 1 2 3 4 5 6 7 Bruno J. Strasser. GenBank – přírodní historie v 21. století?  (anglicky)  // Science. — 24. 10. 2008. — Sv. 322 , iss. 5901 . — S. 537–538 . — ISSN 1095-9203 . - doi : 10.1126/science.1163399 . Archivováno z originálu 26. března 2017.
  3. MARGARET OAKLEY DAYHOFFOVÁ, 57; EXPERT NA PROTEINOVÉ STRUKTURY , The New York Times  (9. února 1983). Archivováno z originálu 28. srpna 2017. Staženo 25. března 2017.
  4. Strasser, Bruno. The Experimenter's Museum: GenBank, Natural History, and the Moral Economies of Biomedicine  // Isis. — 01.01.2011. - T. 102 , č.p. 1 . — ISSN 0021-1753 . Archivováno z originálu 15. dubna 2017.
  5. Diamond v. Chakrabarty 447 US 303 (1980)  (anglicky) , Justia Law . Archivováno z originálu 21. dubna 2017. Staženo 25. března 2017.
  6. Frederick Sanger. Sequences, Sequences, and Sequences  // Annual Review of Biochemistry. - 1. 1. 1988. - T. 57 , č.p. 1 . — S. 1–29 . doi : 10.1146 / annurev.bi.57.070188.000245 .
  7. Hallam Stevens. Life Out of Sequence: A Data-Driven History of Bioinformatics . — University of Chicago Press, 2013-11-04. — 303 s. — ISBN 9780226080345 .
  8. ↑ 1 2 Statistiky GenBank a WGS  . www.ncbi.nlm.nih.gov. Získáno 25. března 2017. Archivováno z originálu dne 28. dubna 2019.
  9. Poznámky k vydání GenBank . NCBI. Získáno 25. března 2017. Archivováno z originálu dne 28. března 2017.
  10. ↑ Ukázka záznamu  GenBank . www.ncbi.nlm.nih.gov. Staženo 14. dubna 2017. Archivováno z originálu 18. května 2020.
  11. ↑ 1 2 Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman. GenBank  // Výzkum nukleových kyselin. — 2013-01-01. - T. 41 , č.p. Problém s databází . — S. D36–42 . — ISSN 1362-4962 . - doi : 10.1093/nar/gks1195 . Archivováno 14. května 2020.
  12. ↑ 1 2 Dennis A. Benson, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman, James Ostell. GenBank  // Výzkum nukleových kyselin. — 2015-01-01. - T. 43 , č.p. Problém s databází . — S. D30–35 . — ISSN 1362-4962 . - doi : 10.1093/nar/gku1216 . Archivováno z originálu 25. září 2016.

Viz také

Odkazy