Data Warehouse je doménová informační databáze , speciálně navržená a navržená pro reporting a obchodní analýzy za účelem podpory rozhodování v organizaci. Je postaven na bázi systémů správy databází a systémů pro podporu rozhodování . Data vstupující do datového skladu jsou obvykle pouze pro čtení.
Data ze systému OLTP jsou kopírována do datového skladu tak, aby při sestavování reportů a OLAP analýze nebyly využívány zdroje transakčního systému a nebyla narušena jeho stabilita. Existují dvě možnosti aktualizace dat v úložišti:
Existují dva hlavní architektonické směry – normalizovaná datová úložiště a rozměrová úložiště.
V normalizovaných úložištích jsou data uložena v tabulkách třetího normálního formuláře specifického pro doménu . Normalizovaná úložiště se vyznačují snadnou tvorbou a správou, nevýhodou normalizovaných úložišť je velké množství tabulek v důsledku normalizace, kvůli čemuž je pro získání jakýchkoli informací nutné vybírat z mnoha tabulek zároveň čas, což vede ke zhoršení výkonu systému. K vyřešení tohoto problému se používají denormalizované tabulky - data marts , na jejichž základě se již zobrazují formuláře výkazů. S obrovským množstvím dat lze použít několik úrovní "mart" / "storage".
Obchody s dimenzemi používají buď hvězdicové schéma, nebo schéma sněhové vločky . V tomto případě jsou data ( tabulka faktů ) ve středu "hvězdy" a měření tvoří paprsky hvězdy. Různé tabulky faktů sdílejí tabulky dimenzí, což výrazně usnadňuje kombinování dat z více věcných tabulek faktů (například prodejní fakta a dodávky produktů). Datové tabulky a odpovídající rozměry tvoří architekturu "sběrnice". Kóty se často vytvářejí ve třetí normální formě, včetně záznamu změn rozměrů. Hlavní výhodou úložišť s měřením je jednoduchost a přehlednost pro vývojáře i uživatele, také je díky efektivnějšímu ukládání dat a formalizovaným měřením usnadněn a zrychlen přístup k datům zejména u komplexních analýz. Hlavní nevýhodou jsou složitější postupy pro přípravu a načítání dat a také správu a úpravu datových dimenzí.
S dostatečně velkým množstvím dat dochází u schémat hvězd a sněhových vloček také ke snížení výkonu při připojování k dimenzím.
Zdroje dat mohou být:
Operace s daty:
Všechny tyto informace jsou použity ve slovníku metadat . Slovník metadat automaticky zahrnuje slovníky zdrojů dat. Dále popisuje datové formáty pro jejich následnou koordinaci, frekvenci doplňování dat, časovou konzistenci. Účelem slovníku metadat je zbavit vývojáře potřeby standardizovat zdroje dat. Vytváření datových skladů by nemělo odporovat stávajícím systémům sběru a zpracování informací. Speciální komponenty slovníků by měly zajistit včasnou extrakci dat z nich a zajistit převod dat do jednoho formátu na základě slovníku metadat.
Logická datová struktura datového skladu se výrazně liší od datové struktury datových zdrojů. Návrh efektivního transformačního procesu vyžaduje dobře navržený podnikový datový model a model rozhodovací technologie. Pro uživatele je vhodné prezentovat data v multidimenzionálních databázích, kde jako měření mohou fungovat čas, cena nebo geografická oblast.
Kromě vytěžování dat z databáze je pro rozhodování důležitý proces vytěžování znalostí v souladu s informačními potřebami uživatele. Z pohledu uživatele by v procesu vytěžování znalostí z databáze měly být řešeny tyto transformace: data → informace → znalosti → získaná řešení.
![]() | |
---|---|
V bibliografických katalozích |
Úložiště dat | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
| ||||||||||||||
| ||||||||||||||
Kategorie |