Detekce anomálií

Detekce anomálií (také známá jako detekce odlehlých hodnot [1] ) je během dolování dat identifikace vzácných dat, událostí nebo pozorování, která jsou podezřelá, protože se výrazně liší od většiny dat [1] . Anomální data obvykle charakterizují nějaký druh problému, jako je bankovní podvod strukturální defekt, zdravotní problémy nebo chyby v textu. Anomálie jsou také označovány jako odlehlé hodnoty , zvláštnosti, šum, odchylky nebo výjimky [2] .

Obecná diskuse

Detekce anomálií v kontextu detekce škodlivého použití a narušení sítě, objekty zájmu často nejsou vzácné , ale vykazují neočekávaný výbuch aktivity. To neodpovídá obvyklé statistické definici odlehlých hodnot jako vzácných objektů a mnoho metod detekce odlehlých hodnot (zejména metody bez dozoru ) na takových datech selhává, dokud nejsou data vhodně seskupena. Na druhou stranu, algoritmy shlukové analýzy jsou schopny zaznamenat mikroshluky vytvořené takovým chováním [3] .

Existuje široká škála kategorií technik detekce anomálií [4] . Technika detekce anomálií bez dozoru zjišťuje anomálie v neoznačených testovacích souborech dat za předpokladu, že většina datového souboru je normální, tím, že hledá zástupce, kteří se zbytkem souboru dat méně hodí. Technika detekce anomálií pod dohledem vyžaduje poskytování dat označených jako „normální“ a „abnormální“ a využívá trénování klasifikátorů (klíčový rozdíl od mnoha jiných klasifikačních problémů spočívá v přirozené nevyvážené povaze detekce odlehlých hodnot). Technika detekce anomálií s částečným dohledem sestaví model reprezentující normální chování z dané sady normální trénovací sady a poté otestuje věrohodnost výsledného modelu.

Aplikace

Detekce anomálií je použitelná v celé řadě oblastí, jako je detekce narušení , detekce podvodů , detekce chyb, monitorování zdraví, detekce událostí v senzorových sítích a detekce narušení prostředí. Detekce anomálií se často používá k předběžnému zpracování dat k odstranění anomálií. Při učení pod dohledem odstranění anomálních dat ze souboru často vede k významnému statistickému zvýšení přesnosti [5] [6] .

Populární techniky

V literatuře bylo navrženo několik technik detekce anomálií [7] . Zde jsou některé oblíbené techniky:

Výkon různých metod je závislý na datech a parametrech a má oproti sobě malou systematickou výhodu ve srovnání s více daty a sadami parametrů [27] [28] .

Aplikace na ochranu údajů

Detekce anomálií byla navržena pro systémy detekce narušení Dorothy Denningovou v roce 1986 [29] . Detekce anomálií pro systémy detekce narušení se obvykle provádí pomocí prahové hodnoty a statistiky, ale lze ji provést pomocí soft computingu a indukčního učení [30] . Typy statistik nabízené v roce 1999 zahrnovaly profily uživatelů, pracovních stanic , sítí, vzdálených hostitelů, skupin uživatelů a programů na základě frekvencí, průměrů a rozptylů [31] . Ekvivalentem detekce anomálií při detekci narušení je detekce škodlivého použití .

Software

Datové sady

Viz také

Poznámky

  1. 1 2 Zimek, Schubert, 2017 , str. 1–5.
  2. Hodge, Austin, 2004 , str. 85–126.
  3. Dokas, Ertoz, Kumar et al., 2002 .
  4. Chandola, Banerjee, Kumar, 2009 , str. 1–58.
  5. Tomek, 1976 , str. 448–452.
  6. Smith a Martinez, 2011 , str. 2690.
  7. Zimek, Filzmoser, 2018 , str. e1280.
  8. Knorr, Ng, Tucakov, 2000 , str. 237–253.
  9. Ramaswamy, Rastogi, Shim, 2000 , str. 427.
  10. Angiulli, Pizzuti, 2002 , str. patnáct.
  11. Breunig, Kriegel, Ng, Sander, 2000 , str. 93–104.
  12. Liu, Ting, Zhou, 2008 , str. 413–422.
  13. Schubert, Zimek, Kriegel, 2012 , str. 190–237.
  14. Kriegel, Kröger, Schubert, Zimek, 2009 , str. 831.
  15. Kriegel, Kroger, Schubert, Zimek, 2012 , str. 379.
  16. Zimek, Schubert, Kriegel, 2012 , str. 363–387.
  17. Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , str. 1443–71.
  18. 1 2 3 Hawkins, He, Williams, Baxter, 2002 , str. 170–180.
  19. He, Xu, Deng, 2003 , str. 1641–1650
  20. Campello, Moulavi, Zimek, Sander, 2015 , str. 5:1-51.
  21. Lazarevic a Kumar 2005 , str. 157–166.
  22. Nguyen, Ang, Gopalkrishnan, 2010 , str. 368.
  23. Kriegel, Kröger, Schubert, Zimek, 2011 , str. 13–24.
  24. Schubert, Wojdanowski, Zimek, Kriegel, 2012 , str. 1047–1058.
  25. Zimek, Campello, Sander (1), 2014 , str. 11–22.
  26. Zimek, Campello, Sander (2), 2014 , str. jeden.
  27. Campos, Zimek, Sander et al., 2016 , str. 891.
  28. Viz datové sady níže
  29. Denning, 1987 , str. 222–232.
  30. Teng, Chen, Lu, 1990 , str. 278–284.
  31. Jones, Sielken, 1999 .

Literatura