Deduplikace

Deduplikace (také deduplikace ; z latiny  deduplicatio - eliminace duplikátů) je specializovaná metoda komprese datového pole , která jako kompresní algoritmus využívá eliminaci duplicitních kopií opakujících se dat. Tato metoda se obvykle používá k optimalizaci využití diskového prostoru v úložných systémech , lze ji však použít i v síťové komunikaci ke snížení množství přenášených informací.

V procesu deduplikace jsou během analýzy identifikovány a ukládány jedinečné informace o pevné velikosti ( anglicky  chunks ) . V průběhu analýzy se porovnávají všechny nové a staré prvky. Když je identifikován duplicitní prvek, je nahrazen odkazem na jedinečný výskyt (nebo je na něj přesměrován existující odkaz) a místo obsazené duplikátem se uvolní. Těchto opakujících se prvků může být mnoho, díky čemuž lze značně snížit objem potřebný k uložení pole dat.

Deduplikace by však neměla být zaměňována s tradičnějšími kompresními algoritmy, jako jsou LZ77 nebo LZO . Tyto algoritmy vyhledávají v určité vyrovnávací paměti jednoho souboru (tzv. "posuvné okno"), zatímco deduplikační algoritmus hledá kopie velkého množství dat.

Výhody a aplikace

Deduplikace může snížit množství místa potřebného pro konkrétní sadu souborů. Je nejúčinnější v případech, kdy se uložené soubory příliš neliší nebo mají mnoho podobností, jako jsou zálohy, kde většina dat zůstává nezměněna od poslední zálohy. Zálohovací systémy mohou tuto funkci využít pomocí pevných odkazů na duplicitní soubory nebo zkopírováním pouze změněných souborů. Tyto přístupy však mohou být málo použitelné, pokud se u velkého bloku dat změnila pouze malá část dat (například databáze nebo archiv poštovních zpráv).

Při přenosu dat lze použít deduplikaci ke snížení přenášených informací, čímž se ušetří na požadované šířce pásma kanálu přenosu dat.

Deduplikace je také široce používána ve virtualizačních systémech , kde deduplikace umožňuje podmíněně alokovat opakující se datové prvky každého z virtuálních systémů do samostatného prostoru.

Odkazy