BŘÍZA

Vyvážená iterativní redukce a shlukování pomocí hierarchií ( BIRCH ) je algoritmus  dolování dat bez dozoru používaný k provádění hierarchického shlukování na velkých souborech dat [1] . Výhodou BIRCH je schopnost metody dynamicky se shlukovat při příchodu vícerozměrných metrických datových bodů ve snaze získat nejkvalitnější shlukování pro dostupnou sadu zdrojů (paměť a časový rámec ). Ve většině případů vyžaduje algoritmus BIRCH jeden průchod databází .

Vývojáři BIRCH tvrdili, že to byl „první shlukovací algoritmus, který nabízí efektivní zpracování 'šumu' (datové body, které nejsou součástí schématu) v databázích“ [1] porazil DBSCAN za dva měsíce. Algoritmus získal cenu SIGMOD v roce 2006 po 10 letech testování [2] .

Problém s předchozími metodami

Předchozí shlukovací algoritmy fungovaly na velkých databázích méně efektivně a chovaly se neadekvátně, když byla data příliš velká na to, aby se vešla do paměti RAM . Výsledkem bylo mnoho nákladů na získání vysoce kvalitního klastrování při minimalizaci nákladů na extra I/O. Navíc většina předchůdců BIRCH sledovala všechny datové body (nebo všechny aktuálně vybrané shluky) stejně pro každé „rozhodnutí o shlukování“ a neprováděla heuristické vážení založené na vzdálenostech mezi těmito datovými body.

Výhody BŘÍZY

Každé klastrovací řešení je lokální a provádí se bez prohlížení všech datových bodů a aktuálně existujících klastrů. Metoda pracuje na pozorováních, jejichž datový prostor není obvykle rovnoměrně vyplněn a ne každý datový bod je stejně důležitý. Metoda umožňuje využít veškerou dostupnou paměť k získání co nejpřesnějších možných podshluků při minimalizaci I/O nákladů. Metoda je přírůstková a nevyžaduje celou sadu dat najednou.

Algoritmus

Algoritmus BIRCH bere jako vstup sadu N datových bodů reprezentovaných jako reálné vektory a požadovaný počet shluků K. Algoritmus je rozdělen do čtyř fází, z nichž druhá je volitelná.

První fáze vytvoří CF strom datových bodů, vysoce vyváženou stromovou strukturu definovanou takto:

Ve druhém kroku algoritmus prochází všechny listy v počátečním CF stromu, aby vytvořil menší CF strom odstraněním výpadků a seskupením přetečených podtříd do větších podtříd. Tento krok je v zobrazení zdroje BIRCH označen jako volitelný.

Třetí krok používá existující algoritmus ke shlukování všech listů. Zde je aglomerativní hierarchický shlukovací algoritmus aplikován přímo na podshluky reprezentované jejich CF vektory. Poskytuje také flexibilitu umožňující uživateli zadat buď požadovaný počet shluků, nebo požadovaný práh průměru shluku. Po tomto kroku získáme sadu shluků, které obsahují hlavní distribuční vzory v datech. Mohou však existovat malé místní nepřesnosti, které lze vyřešit volitelným krokem 4. V kroku 4 se těžiště shluků získaná v kroku 3 použijí jako počáteční a redistribuční body datových bodů k získání nové sady shluků. . Krok 4 také poskytuje možnost vyřadit odlehlé hodnoty. To znamená, že bod, který je příliš daleko od nejbližšího jádra, lze považovat za odlehlou hodnotu.

Výpočet znaků shluků

Pokud je uvedeno pouze , lze získat stejná měření bez znalosti skutečných hodnot.

V multifaktoriálních případech lze druhou odmocninu nahradit vhodnou normou.

Poznámky

  1. 1 2 Zhang, Ramakrishnan, Livny, 1996 , str. 103–114.
  2. 2006 SIGMOD Test of Time Award (odkaz není k dispozici) . Archivováno z originálu 23. května 2010. 

Literatura