Databáze - soubor dat uložených v souladu s datovým schématem , s jejichž manipulací se postupuje v souladu s pravidly nástrojů pro modelování dat [1] [2] [3] .
Řada odborníků upozorňuje na častou chybu, spočívající v nesprávném používání termínu „databáze“ místo termínu „ databázový systém správy “, a upozorňuje na nutnost rozlišovat mezi těmito pojmy [4] .
Literatura nabízí mnoho definic pojmu „databáze“, odrážejících spíše subjektivní názor některých autorů, neexistuje však žádná obecně uznávaná jednotná formulace.
Definice z regulačních dokumentů, včetně norem :
Definice z autoritativních monografií :
Definice nejčastěji (explicitně nebo implicitně) obsahují následující rozlišovací znaky [10] :
Z uvedených znaků je přísný pouze první, zatímco ostatní umožňují různé interpretace a různé stupně hodnocení. Můžete stanovit pouze určitý stupeň souladu s požadavky na databázi.
V takové situaci hraje důležitou roli běžná praxe. V souladu s ní se například archivy souborů , internetové portály nebo tabulky neoznačují jako databáze , přestože mají do jisté míry vlastnosti databáze. Obecně se uznává, že tento stupeň je ve většině případů nedostatečný (i když mohou existovat výjimky).
Historii vzniku a vývoje databázových technologií lze posuzovat jak v širokém, tak i úzkém pohledu.
V širokém smyslu je pojem historie databází zobecněn na historii všech prostředků, kterými lidstvo ukládalo a zpracovávalo data. V této souvislosti jsou zmíněny např. způsoby účtování královské pokladnice a daní ve starověkém Sumeru (4000 př . n. l. ) [12] , vázané písmo Inků - kipu , klínové písmo obsahující dokumenty asyrského království atd. že nevýhodou tohoto přístupu je rozostření pojmu "databáze" a jeho faktické sloučení s pojmy " archiv " a dokonce " psaní ".
Historie databází v užším slova smyslu posuzuje databáze v tradičním (moderním) smyslu. Tento příběh začíná v roce 1955 zavedením firmwaru pro zpracování záznamů. Software této doby podporoval model zpracování záznamů založený na souborech. Pro ukládání dat byly použity děrné štítky [12] .
Provozní síťové databáze se objevily v polovině 60. let 20. století . Operace na provozních databázích byly zpracovávány interaktivně pomocí terminálů. Jednoduchá indexově sekvenční organizace záznamů se rychle vyvinula do výkonnějšího modelu záznamu orientovaného na sady. Charles Bachmann obdržel Turingovu cenu za vedení práce Data Base Task Group (DBTG), která vyvinula standardní datový popis a jazyk pro manipulaci s daty .
Současně byl v databázové komunitě COBOL vyvinut koncept databázových schémat a koncept datové nezávislosti .
Další důležitý krok je spojen s příchodem relačního datového modelu na počátku 70. let 20. století díky práci Edgara Codda . Coddova práce připravila půdu pro úzké spojení mezi aplikovanou databázovou technologií a matematikou a logikou. Edgar F. Codd také obdržel Turingovu cenu za své příspěvky k teorii a praxi .
Samotný termín databáze ( anglicky database ) se objevil na počátku 60. let 20. století a byl zaveden na sympoziích pořádaných SDC v letech 1964 a 1965 , i když byl zpočátku chápán spíše v úzkém smyslu, v kontextu systémů umělé inteligence . Termín vstoupil do širokého použití v moderním smyslu pouze v 70. letech 20. století [13] .
Existuje velké množství různých databází, které se liší v různých kritériích . Například v "Encyklopedii databázových technologií" [7] , na základě které je tato část napsána, je definováno více než 50 typů databází.
Klasifikace podle datového modelu obvykle zahrnuje:
Klasifikace podle úložného prostředí rozlišuje mezi databázemi, které ukládají data do sekundární paměti ("tradiční", anglická konvenční databáze ), rezidentní (všechna data ve fázi provádění jsou v RAM ) a terciární ( anglicky terciární databáze ), ukládající data na odpojitelná zařízení hromadného úložiště - na bázi magnetických pásek nebo optických disků . Zároveň se ve všech třídách, tak či onak, používají všechna úložná prostředí, například pro rezidentní databáze DBMS zapisuje protokoly pouze pro zápis do trvalé paměti a pro tradiční databáze se používá mezipaměť v RAM.
Databáze lze také klasifikovat podle obsahu, například mohou být geografické, historické, vědecké, multimediální . Pro některé formy obsahu jsou vytvořeny specializované DBMS nebo jsou k obecnému DBMS přidány specializované funkce, mezi tyto databáze:
Podle stupně distribuce se databáze dělí na centralizované (koncentrované; angl. centralizovaná databáze ) - plně podporované na jednom zařízení a distribuované ( angl. distribuovaná databáze ). Mezi různými možnostmi pro distribuované databáze vynikají následující:
Smíšené možnosti jsou možné například pro stejnou distribuovanou databázi, pro velké objekty se používá sharding a pro malé objekty se používá replikace.
Podle způsobů organizace úložiště lze rozlišit cyklické databáze (zapisují nová data místo zastaralých), streamingové databáze .
Velmi velká databáze ( anglicky Very Large Database, VLDB ) je databáze, která zabírá extrémně velké množství místa na fyzickém úložném zařízení . Termín implikuje maximální možné objemy databáze, které jsou určeny nejnovějšími pokroky v technologiích fyzického ukládání dat a technologiích zpracování softwarových dat.
Kvantitativní definice pojmu „extrémně velký objem“ se v průběhu času mění. Takže v roce 1997 byla největší textová databáze na světě Knight Ridder's DIALOG o objemu 7 terabajtů [14] . V roce 2001 byla za největší databázi považována 10,5 terabajtů, v roce 2003 - 25 terabajtů [15] . V roce 2005 byly za největší databáze na světě považovány databáze s úložným objemem kolem sta terabajtů [16] . V roce 2006 využíval vyhledávač Google databázi o velikosti 850 terabajtů [17] .
Do roku 2010 se věřilo, že objem ultra velké databáze by se měl měřit alespoň v petabajtech [16] .
V roce 2011 Facebook ukládal data do clusteru 2 000 uzlů s celkovou kapacitou 21 petabajtů [18] ; do konce roku 2012 dosáhl objem dat Facebooku 100 petabajtů [19] , v roce 2014 - 300 petabajtů [20] .
Do roku 2014 podle nepřímých odhadů uložil Google na svých serverech celkem až 10–15 exabajtů dat [21] .
Podle některých odhadů budou mít genetici do roku 2025 data o genomech 100 milionů až 2 miliard lidí a uložení tohoto množství dat bude vyžadovat 2 až 40 exabajtů [22] .
Obecně platí, že podle odhadů IDC se celkové množství dat v „digitálním vesmíru“ zdvojnásobí každé dva roky a změní se ze 4,4 zettabytů v roce 2013 na 44 zettabytů v roce 2020 [23] .
Výzkum v oblasti ukládání a zpracování velmi rozsáhlých databází VLDB je vždy v popředí databázové teorie i praxe. Konkrétně od roku 1975 se každoročně koná Mezinárodní konference o velmi rozsáhlých databázích („International Conference on Very Large Data Bases“). Většina výzkumu probíhá pod záštitou neziskové organizace VLDB Endowment (Nadační fond VLDB), která zajišťuje propagaci vědecké práce a výměnu informací v oblasti velmi rozsáhlých databází a příbuzných oborů.
Slovníky a encyklopedie | ||||
---|---|---|---|---|
|
Databáze | |
---|---|
Koncepty |
|
Objekty |
|
Klíče | |
SQL | |
Komponenty |
Úložiště dat | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
| ||||||||||||||
| ||||||||||||||
Kategorie |