Úložiště dat

Data Warehouse je doménová informační databáze , speciálně navržená a navržená pro reporting a obchodní analýzy za účelem podpory rozhodování v organizaci. Je postaven na bázi systémů správy databází a systémů pro podporu rozhodování . Data vstupující do datového skladu jsou obvykle pouze pro čtení.

Data ze systému OLTP jsou kopírována do datového skladu tak, aby při sestavování reportů a OLAP analýze nebyly využívány zdroje transakčního systému a nebyla narušena jeho stabilita. Existují dvě možnosti aktualizace dat v úložišti:

kompletní aktualizaci dat v úložišti. Nejprve se vymažou stará data a poté se načtou nová data. Proces probíhá s určitou frekvencí, zatímco relevance dat může poněkud zaostávat za systémem OLTP;
inkrementální aktualizace - aktualizují se pouze data, která se změnila v systému OLTP.

Principy organizace skladování

Orientace na problém-předmět . Data jsou kategorizována a ukládána podle oblastí, které popisují, nikoli podle aplikací, které používají.
Integrace . Data jsou agregována tak, aby uspokojila všechny požadavky podniku jako celku, nikoli jen jednu funkci podniku.
Neopravitelné . Data v datovém skladu se nevytvářejí: to znamená, že pocházejí z externích zdrojů, nejsou opravována ani mazána.
Závislost na čase . Údaje ve skladu jsou přesné a správné pouze tehdy, když jsou vázány na určité období nebo časový okamžik.

Návrh datového skladu

Existují dva hlavní architektonické směry – normalizovaná datová úložiště a rozměrová úložiště.

V normalizovaných úložištích jsou data uložena v tabulkách třetího normálního formuláře specifického pro doménu . Normalizovaná úložiště se vyznačují snadnou tvorbou a správou, nevýhodou normalizovaných úložišť je velké množství tabulek v důsledku normalizace, kvůli čemuž je pro získání jakýchkoli informací nutné vybírat z mnoha tabulek zároveň čas, což vede ke zhoršení výkonu systému. K vyřešení tohoto problému se používají denormalizované tabulky - data marts , na jejichž základě se již zobrazují formuláře výkazů. S obrovským množstvím dat lze použít několik úrovní "mart" / "storage".

Obchody s dimenzemi používají buď hvězdicové schéma, nebo schéma sněhové vločky . V tomto případě jsou data ( tabulka faktů ) ve středu "hvězdy" a měření tvoří paprsky hvězdy. Různé tabulky faktů sdílejí tabulky dimenzí, což výrazně usnadňuje kombinování dat z více věcných tabulek faktů (například prodejní fakta a dodávky produktů). Datové tabulky a odpovídající rozměry tvoří architekturu "sběrnice". Kóty se často vytvářejí ve třetí normální formě, včetně záznamu změn rozměrů. Hlavní výhodou úložišť s měřením je jednoduchost a přehlednost pro vývojáře i uživatele, také je díky efektivnějšímu ukládání dat a formalizovaným měřením usnadněn a zrychlen přístup k datům zejména u komplexních analýz. Hlavní nevýhodou jsou složitější postupy pro přípravu a načítání dat a také správu a úpravu datových dimenzí.

S dostatečně velkým množstvím dat dochází u schémat hvězd a sněhových vloček také ke snížení výkonu při připojování k dimenzím.

Zpracování dat

Zdroje dat mohou být:

Tradiční registrační systémy
Samostatné dokumenty
Datové sady

Operace s daty:

Extrakce – přesun informací z datových zdrojů do samostatné databáze a jejich převedení do jediného formátu.
Transformace je příprava informací pro uložení v optimální formě pro realizaci požadavku nezbytného pro rozhodování.
Načítání - umístění dat do úložiště, prováděné atomicky, přidáváním nových skutečností nebo úpravou stávajících.
Analýza - OLAP , Data Mining , souhrnné reporty.
Prezentace výsledků analýzy.

Všechny tyto informace jsou použity ve slovníku metadat . Slovník metadat automaticky zahrnuje slovníky zdrojů dat. Dále popisuje datové formáty pro jejich následnou koordinaci, frekvenci doplňování dat, časovou konzistenci. Účelem slovníku metadat je zbavit vývojáře potřeby standardizovat zdroje dat. Vytváření datových skladů by nemělo odporovat stávajícím systémům sběru a zpracování informací. Speciální komponenty slovníků by měly zajistit včasnou extrakci dat z nich a zajistit převod dat do jednoho formátu na základě slovníku metadat.

Logická datová struktura datového skladu se výrazně liší od datové struktury datových zdrojů. Návrh efektivního transformačního procesu vyžaduje dobře navržený podnikový datový model a model rozhodovací technologie. Pro uživatele je vhodné prezentovat data v multidimenzionálních databázích, kde jako měření mohou fungovat čas, cena nebo geografická oblast.

Kromě vytěžování dat z databáze je pro rozhodování důležitý proces vytěžování znalostí v souladu s informačními potřebami uživatele. Z pohledu uživatele by v procesu vytěžování znalostí z databáze měly být řešeny tyto transformace: data → informace → znalosti → získaná řešení.

Viz také

Slovníky a encyklopedie	Velká Katalánština Britannica (online)
V bibliografických katalozích	J9U : 987007563636805171 LCCN : sh97003695 NDL : 00911488

Úložiště dat

Vytvořte datový sklad
Koncepty	Databáze Dimenze ( Měřicí model Skutečnost OLAP Hvězdné schéma Schéma sněhové vločky
Možnosti	kotevní model Tabulka měření Datový HOLAP MOLAP ROLAP Provozní úložiště
Prvky	Datový slovník metadata datový trh šestá normální forma Náhradní klíč
Data	Tabulka faktů Raná skutečnost Měření (
Měření	Tabulka měření Pomalu se mění rozměry Degenerovaný rozměr
plnicí	ETL Extrakce Transformace

Použití úložiště dat
Koncepty	business intelligence Přístrojová deska data mining DSS OLAP kostka
Jazyky	Rozšíření MDX XMLA
Nástroje	Business Intelligence Tools Generátor zpráv Tabulka

související témata
Lidé	Bill Inmon Ralph Kimball
produkty	Srovnání OLAP serverů

Kategorie