Úložiště dat

Data Warehouse je doménová  informační databáze , speciálně navržená a navržená pro reporting a obchodní analýzy za účelem podpory rozhodování v organizaci. Je postaven na bázi systémů správy databází a systémů pro podporu rozhodování . Data vstupující do datového skladu jsou obvykle pouze pro čtení.

Data ze systému OLTP jsou kopírována do datového skladu tak, aby při sestavování reportů a OLAP analýze nebyly využívány zdroje transakčního systému a nebyla narušena jeho stabilita. Existují dvě možnosti aktualizace dat v úložišti:

Principy organizace skladování

Návrh datového skladu

Existují dva hlavní architektonické směry – normalizovaná datová úložiště a rozměrová úložiště.

V normalizovaných úložištích jsou data uložena v tabulkách třetího normálního formuláře specifického pro doménu . Normalizovaná úložiště se vyznačují snadnou tvorbou a správou, nevýhodou normalizovaných úložišť je velké množství tabulek v důsledku normalizace, kvůli čemuž je pro získání jakýchkoli informací nutné vybírat z mnoha tabulek zároveň čas, což vede ke zhoršení výkonu systému. K vyřešení tohoto problému se používají denormalizované tabulky - data marts , na jejichž základě se již zobrazují formuláře výkazů. S obrovským množstvím dat lze použít několik úrovní "mart" / "storage".

Obchody s dimenzemi používají buď hvězdicové schéma, nebo schéma sněhové vločky . V tomto případě jsou data ( tabulka faktů ) ve středu "hvězdy" a měření tvoří paprsky hvězdy. Různé tabulky faktů sdílejí tabulky dimenzí, což výrazně usnadňuje kombinování dat z více věcných tabulek faktů (například prodejní fakta a dodávky produktů). Datové tabulky a odpovídající rozměry tvoří architekturu "sběrnice". Kóty se často vytvářejí ve třetí normální formě, včetně záznamu změn rozměrů. Hlavní výhodou úložišť s měřením je jednoduchost a přehlednost pro vývojáře i uživatele, také je díky efektivnějšímu ukládání dat a formalizovaným měřením usnadněn a zrychlen přístup k datům zejména u komplexních analýz. Hlavní nevýhodou jsou složitější postupy pro přípravu a načítání dat a také správu a úpravu datových dimenzí.

S dostatečně velkým množstvím dat dochází u schémat hvězd a sněhových vloček také ke snížení výkonu při připojování k dimenzím.

Zpracování dat

Zdroje dat mohou být:

  1. Tradiční registrační systémy
  2. Samostatné dokumenty
  3. Datové sady

Operace s daty:

  1. Extrakce – přesun informací z datových zdrojů do samostatné databáze a jejich převedení do jediného formátu.
  2. Transformace je příprava informací pro uložení v optimální formě pro realizaci požadavku nezbytného pro rozhodování.
  3. Načítání - umístění dat do úložiště, prováděné atomicky, přidáváním nových skutečností nebo úpravou stávajících.
  4. Analýza - OLAP , Data Mining , souhrnné reporty.
  5. Prezentace výsledků analýzy.

Všechny tyto informace jsou použity ve slovníku metadat . Slovník metadat automaticky zahrnuje slovníky zdrojů dat. Dále popisuje datové formáty pro jejich následnou koordinaci, frekvenci doplňování dat, časovou konzistenci. Účelem slovníku metadat je zbavit vývojáře potřeby standardizovat zdroje dat. Vytváření datových skladů by nemělo odporovat stávajícím systémům sběru a zpracování informací. Speciální komponenty slovníků by měly zajistit včasnou extrakci dat z nich a zajistit převod dat do jednoho formátu na základě slovníku metadat.

Logická datová struktura datového skladu se výrazně liší od datové struktury datových zdrojů. Návrh efektivního transformačního procesu vyžaduje dobře navržený podnikový datový model a model rozhodovací technologie. Pro uživatele je vhodné prezentovat data v multidimenzionálních databázích, kde jako měření mohou fungovat čas, cena nebo geografická oblast.

Kromě vytěžování dat z databáze je pro rozhodování důležitý proces vytěžování znalostí v souladu s informačními potřebami uživatele. Z pohledu uživatele by v procesu vytěžování znalostí z databáze měly být řešeny tyto transformace: data → informace → znalosti → získaná řešení.

Viz také