Místní úroveň emisí

Lokální odlehlá úroveň je algoritmus detekce anomálií , který navrhli Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng a Jörg Sander v roce 2000, aby našli odlehlé datové body měřením lokální odchylky daného bodu vzhledem k jeho sousedům. [1] .

Lokální odlehlá úroveň sdílí koncepty s DBSCAN a OPTICS , jako jsou koncepty „základní vzdálenosti“ a „dosažitelné vzdálenosti“ [2] , které se používají k odhadu místní hustoty [3] .

Základní myšlenka

Lokální odlehlá úroveň je založena na konceptu místní hustoty, kde lokalita je dána nejbližšími sousedy, jejichž vzdálenosti se používají k odhadu hustoty. Porovnáním místní hustoty objektu s místní hustotou jeho sousedů je možné identifikovat oblasti s podobnou hustotou a body, které mají výrazně nižší hustotu než jeho sousedé. Tyto body jsou považovány za odlehlé hodnoty .

Místní hustota se odhaduje podle typické vzdálenosti bodu, kterou lze „dosáhnout“ od sousedních bodů. Definice "dosažitelné vzdálenosti" použitá v algoritmu je dalším opatřením k získání robustnějších výsledků v rámci shluků.

Formální popis

Nechť je vzdálenost od objektu ke k -tému nejbližšímu sousedovi. Všimněte si, že množina k nejbližších sousedů zahrnuje všechny objekty v dané vzdálenosti a v případě "uzlu" může obsahovat více než k objektů. Množinu k nejbližších sousedů označíme jako .

Tato vzdálenost se používá k určení dosažitelné vzdálenosti ( angl.  reachability-distance ):

Jinými slovy, dosažitelná vzdálenost objektu od je skutečná vzdálenost dvou objektů. Prvky, které patří k nejbližším sousedům bodu ( "jádrové body" bodu , viz DBSCAN ), jsou považovány za ve stejné vzdálenosti pro stabilnější výsledky. Všimněte si, že tato vzdálenost není vzdáleností v matematickém smyslu, protože není symetrická. (Obvyklou chybou je použít vždy, takže to dává trochu jinou metodu, nazývanou zjednodušená metoda místní odlehlé hodnoty [4] )

Hustota místní dosažitelnosti objektu je definována jako

,

což je převrácená hodnota průměrné dosažitelné vzdálenosti objektu od jeho sousedů. Všimněte si, že toto není průměrná dosažitelná vzdálenost sousedů od bodu (která by podle definice musela být ), ale vzdálenost, na kterou může být A „dosaženo“ od svých sousedů. S duplicitními body může být tato hodnota nekonečná.

Místní hustoty dosažitelnosti jsou pak porovnány s místními hustotami dosažitelnosti sousedů

což je průměrná místní hustota dosažitelnosti sousedů dělená místní hustotou dosažitelnosti samotného objektu. Hodnota přibližně rovna , znamená, že objekt je srovnatelný se svými sousedy (a pak nejde o odlehlou hodnotu). Hodnota menší než znamená hustou oblast (což může být vnitřek), zatímco hodnoty výrazně větší než označují odlehlé hodnoty.

Výhody

Vzhledem k lokalitě přístupu je algoritmus místní úrovně odlehlých hodnot schopen detekovat odlehlé hodnoty v datové sadě, které nemusí být odlehlé v jiných oblastech datové sady. Například bod v „malé“ vzdálenosti od jakékoli husté shluku je odlehlý, zatímco bod v řídkém shluku může mít podobné vzdálenosti jako jeho sousedé.

Zatímco geometrická intuice algoritmu platí pouze pro nízkorozměrné vektorové prostory, algoritmus lze použít v jakémkoli kontextu, kde lze definovat funkci nepodobnosti. Experimentálně bylo prokázáno, že algoritmus funguje dobře ve velkém množství situací a často překonává soupeře, například v systémech detekce narušení [5] a na zpracovaných klasifikačních datech [6] .

Rodinu metod na místní úrovni odlehlých hodnot lze snadno zobecnit a poté aplikovat na různé další problémy, jako je detekce odlehlých hodnot v geografických datech, video streamech nebo kreditních sítích [4] .

Nevýhody a rozšíření

Výsledné hodnoty je obtížné interpretovat. Hodnota 1 nebo dokonce méně než jedna říká, že bod je čistě interní, ale neexistuje jasné pravidlo, že bod je odlehlá hodnota. V jednom datovém souboru může již hodnota 1,1 znamenat odlehlou hodnotu, v jiném datovém souboru a parametrizaci (se silnými lokálními výkyvy) může hodnota 2 stále znamenat vnitřek. Tyto rozdíly se mohou vyskytovat v rámci stejného souboru dat v důsledku lokality metody. Existují rozšíření metod, která se snaží algoritmus vylepšit:

Poznámky

  1. Breunig, Kriegel, Ng, Sander, 2000 , str. 93–104.
  2. Místo „dosažitelné vzdálenosti“ se v literatuře vyskytuje i název „dosah“.
  3. Breunig, Kriegel, Ng, Sander, 1999 , str. 262.
  4. 1 2 3 Schubert, Zimek, Kriegel, 2012 .
  5. Lazarevic, Ozgur, Ertoz, Srivastava, Kumar, 2003 , str. 25–36.
  6. Campos, Zimek, Sander, Campello et al., 2016 .
  7. Lazarevic a Kumar 2005 , str. 157–166.
  8. Zimek, Campello, Sander, 2014 , str. jedenáct.
  9. Kriegel, Kröger, Schubert, Zimek, 2009 , str. 1649–1652
  10. Kriegel, Kröger, Schubert, Zimek, 2011 , str. 13–24.
  11. Schubert, Wojdanowski, Zimek, Kriegel, 2012 , str. 1047–1058.

Literatura