Hierarchické shlukování (také grafové shlukovací algoritmy a hierarchická shluková analýza ) je sada algoritmů řazení dat zaměřená na vytvoření hierarchie ( stromu ) vnořených shluků. Existují dvě třídy metod hierarchického shlukování:
Hierarchické shlukovací algoritmy předpokládají, že analyzovaná množina objektů se vyznačuje určitým stupněm konektivity. Podle počtu znaků se někdy rozlišují monotetické a polytetické způsoby klasifikace. Stejně jako většina vizuálních způsobů znázornění závislostí grafy rychle ztrácejí viditelnost s rostoucím počtem shluků. Pro konstrukci grafů existuje řada specializovaných programů .
Dendrogram je obvykle chápán jako strom vytvořený z matice měření blízkosti. Dendrogram umožňuje znázornit vztah mezi objekty z dané množiny [1] . Vytvoření dendrogramu vyžaduje matici podobnosti (nebo rozdílu ) , která určuje úroveň podobnosti mezi páry shluků. Častěji se používají aglomerativní metody.
Pro sestavení matice podobnosti (rozdílu) je nutné nastavit míru vzdálenosti mezi dvěma shluky. Nejčastěji používané metody určování vzdálenosti ( anglicky sorting strategy ) [2] :
Pro první tři metody existuje obecný vzorec navržený A. N. Kolmogorovem pro míry podobnosti [5] :
kde je skupina dvou objektů (shluků) a ; — objekt (shluk), se kterým se hledá podobnost specifikované skupiny; je počet prvků ve shluku ; je počet prvků ve shluku . Pro vzdálenosti existuje podobný Lance-Williamsův vzorec [6] .
Široce používán v geobotanice a květinářství . Často se jim říká korelační plejády [7] [8] [9] [10] .
Speciálním případem je metoda známá jako metoda konstrukce optimálních stromů (dendritů) , kterou navrhl matematik lvovské školy Hugo Steinhaus [11] , později metodu vyvinuli matematici vratislavské taxonomické školy [12] . Dendrity by také neměly tvořit cykly. Částečně můžete použít orientované oblouky grafů pomocí dalších inkluzních opatření (asymetrické míry podobnosti).
Metodu „diagonalizace“ diferenční matice a grafické znázornění shluků podél hlavní diagonály diferenční matice (Czekanowskiho diagram) poprvé navrhl Jan Czekanowski v roce 1909 [13] . Zde je popis metodiky:
Podstata této metody spočívá ve skutečnosti, že celá amplituda získaných hodnot podobnosti je rozdělena do několika tříd a poté jsou v matici hodnot podobnosti tyto hodnoty nahrazeny stínováním, které je odlišné pro každá třída a pro vyšší třídy podobnosti se obvykle používá tmavší stínování. Poté změnou pořadí popisů v tabulce zajistí, že bude následovat více podobných popisů [14]
Uveďme hypotetický příklad získání výše uvedeného diagramu. Základem metody je konstrukce tranzitivní uzavírací matice [15] .
Chcete-li vytvořit tranzitivní uzavírací matici, vezměme jednoduchou matici podobnosti a vynásobte ji samotnou:
,kde je prvek na průsečíku -tého řádku a -tého sloupce v nové (druhé) matici získané po první iteraci; je celkový počet řádků (sloupců) matice podobnosti. Tento postup musí pokračovat, dokud se matice nestane idempotentní (tj. sobě podobná): , kde n je počet iterací.
Dále transformujeme matici tak, aby blízké číselné hodnoty byly blízko. Pokud je každé číselné hodnotě přiřazena barva nebo odstín barvy (jako v našem případě), pak dostaneme klasický Czekanowski diagram. Tradičně tmavší barva odpovídá větší podobnosti a světlejší barva odpovídá menší. V tomto je podobná teplotní mapě pro matici vzdálenosti .
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|