Detekce anomálií
Detekce anomálií (také známá jako detekce odlehlých hodnot [1] ) je během dolování dat identifikace vzácných dat, událostí nebo pozorování, která jsou podezřelá, protože se výrazně liší od většiny dat [1] . Anomální data obvykle charakterizují nějaký druh problému, jako je bankovní podvod strukturální defekt, zdravotní problémy nebo chyby v textu. Anomálie jsou také označovány jako odlehlé hodnoty , zvláštnosti, šum, odchylky nebo výjimky [2] .
Obecná diskuse
Detekce anomálií v kontextu detekce škodlivého použití a narušení sítě, objekty zájmu často nejsou vzácné , ale vykazují neočekávaný výbuch aktivity. To neodpovídá obvyklé statistické definici odlehlých hodnot jako vzácných objektů a mnoho metod detekce odlehlých hodnot (zejména metody bez dozoru ) na takových datech selhává, dokud nejsou data vhodně seskupena. Na druhou stranu, algoritmy shlukové analýzy jsou schopny zaznamenat mikroshluky vytvořené takovým chováním [3] .
Existuje široká škála kategorií technik detekce anomálií [4] . Technika detekce anomálií bez dozoru zjišťuje anomálie v neoznačených testovacích souborech dat za předpokladu, že většina datového souboru je normální, tím, že hledá zástupce, kteří se zbytkem souboru dat méně hodí. Technika detekce anomálií pod dohledem vyžaduje poskytování dat označených jako „normální“ a „abnormální“ a využívá trénování klasifikátorů (klíčový rozdíl od mnoha jiných klasifikačních problémů spočívá v přirozené nevyvážené povaze detekce odlehlých hodnot). Technika detekce anomálií s částečným dohledem sestaví model reprezentující normální chování z dané sady normální trénovací sady a poté otestuje věrohodnost výsledného modelu.
Aplikace
Detekce anomálií je použitelná v celé řadě oblastí, jako je detekce narušení , detekce podvodů , detekce chyb, monitorování zdraví, detekce událostí v senzorových sítích a detekce narušení prostředí. Detekce anomálií se často používá k předběžnému zpracování dat k odstranění anomálií. Při učení pod dohledem odstranění anomálních dat ze souboru často vede k významnému statistickému zvýšení přesnosti [5] [6] .
Populární techniky
V literatuře bylo navrženo několik technik detekce anomálií [7] . Zde jsou některé oblíbené techniky:
Výkon různých metod je závislý na datech a parametrech a má oproti sobě malou systematickou výhodu ve srovnání s více daty a sadami parametrů [27] [28] .
Aplikace na ochranu údajů
Detekce anomálií byla navržena pro systémy detekce narušení Dorothy Denningovou v roce 1986 [29] . Detekce anomálií pro systémy detekce narušení se obvykle provádí pomocí prahové hodnoty a statistiky, ale lze ji provést pomocí soft computingu a indukčního učení [30] . Typy statistik nabízené v roce 1999 zahrnovaly profily uživatelů, pracovních stanic , sítí, vzdálených hostitelů, skupin uživatelů a programů na základě frekvencí, průměrů a rozptylů [31] . Ekvivalentem detekce anomálií při detekci narušení je detekce škodlivého použití .
Software
- ELKI je open source jazyková sada nástrojů Java pro analýzu dat, která obsahuje některé algoritmy detekce anomálií a také jejich akcelerátory založené na indexech.
Datové sady
Viz také
Poznámky
- ↑ 1 2 Zimek, Schubert, 2017 , str. 1–5.
- ↑ Hodge, Austin, 2004 , str. 85–126.
- ↑ Dokas, Ertoz, Kumar et al., 2002 .
- ↑ Chandola, Banerjee, Kumar, 2009 , str. 1–58.
- ↑ Tomek, 1976 , str. 448–452.
- ↑ Smith a Martinez, 2011 , str. 2690.
- ↑ Zimek, Filzmoser, 2018 , str. e1280.
- ↑ Knorr, Ng, Tucakov, 2000 , str. 237–253.
- ↑ Ramaswamy, Rastogi, Shim, 2000 , str. 427.
- ↑ Angiulli, Pizzuti, 2002 , str. patnáct.
- ↑ Breunig, Kriegel, Ng, Sander, 2000 , str. 93–104.
- ↑ Liu, Ting, Zhou, 2008 , str. 413–422.
- ↑ Schubert, Zimek, Kriegel, 2012 , str. 190–237.
- ↑ Kriegel, Kröger, Schubert, Zimek, 2009 , str. 831.
- ↑ Kriegel, Kroger, Schubert, Zimek, 2012 , str. 379.
- ↑ Zimek, Schubert, Kriegel, 2012 , str. 363–387.
- ↑ Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , str. 1443–71.
- ↑ 1 2 3 Hawkins, He, Williams, Baxter, 2002 , str. 170–180.
- ↑ He, Xu, Deng, 2003 , str. 1641–1650
- ↑ Campello, Moulavi, Zimek, Sander, 2015 , str. 5:1-51.
- ↑ Lazarevic a Kumar 2005 , str. 157–166.
- ↑ Nguyen, Ang, Gopalkrishnan, 2010 , str. 368.
- ↑ Kriegel, Kröger, Schubert, Zimek, 2011 , str. 13–24.
- ↑ Schubert, Wojdanowski, Zimek, Kriegel, 2012 , str. 1047–1058.
- ↑ Zimek, Campello, Sander (1), 2014 , str. 11–22.
- ↑ Zimek, Campello, Sander (2), 2014 , str. jeden.
- ↑ Campos, Zimek, Sander et al., 2016 , str. 891.
- ↑ Viz datové sady níže
- ↑ Denning, 1987 , str. 222–232.
- ↑ Teng, Chen, Lu, 1990 , str. 278–284.
- ↑ Jones, Sielken, 1999 .
Literatura
- Arthur Zimek, Erich Schubert. Detekce odlehlých hodnot // Encyklopedie databázových systémů . - Springer New York, 2017. - ISBN 9781489979933 . - doi : 10.1007/978-1-4899-7993-3_80719-1 .
- Hodge VJ, Austin J. Průzkum metodologií detekce odlehlých hodnot // Recenze umělé inteligence. - 2004. - T. 22 , no. 2 . - doi : 10.1007/s10462-004-4304-y .
- Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava, Pang-Ning Tan. Data mining pro detekci narušení sítě // Proceedings NSF Workshop on Next Generation Data Mining. — 2002.
- Chandola V., Banerjee A., Kumar V. Detekce anomálií: průzkum // ACM Computing Surveys . - 2009. - T. 41 , č. 3 . - doi : 10.1145/1541880.1541882 .
- Ivan Tomek. Experiment s upraveným pravidlem nejbližšího souseda // Transakce IEEE o systémech, člověku a kybernetice . - 1976. - T. 6 , no. 6 . - doi : 10.1109/TSMC.1976.4309523 .
- Smith MR, Martinez T. Zlepšení přesnosti klasifikace identifikací a odstraněním případů, které by měly být nesprávně klasifikovány // The 2011 International Joint Conference on Neural Networks . - 2011. - ISBN 978-1-4244-9635-8 . – doi : 10.1109/IJCNN.2011.6033571 .
- Arthur Zimek, Peter Filzmoser. Tam a zase zpět: Detekce odlehlých hodnot mezi statistickým uvažováním a algoritmy dolování dat // Mezioborové recenze Wiley: Dolování dat a zjišťování znalostí. - 2018. - V. 8 , č.p. 6 . — ISSN 19424787 . - doi : 10.1002/widm.1280 .
- Knorr EM, Ng RT, Tucakov V. Odlehlé hodnoty založené na vzdálenosti: Algoritmy a aplikace // The VLDB Journal the International Journal on Very Large Data Bases. - 2000. - T. 8 , no. 3–4 . - doi : 10.1007/s007780050006 .
- Ramaswamy S., Rastogi R., Shim K. Efektivní algoritmy pro dolování odlehlých hodnot z velkých souborů dat // Sborník z mezinárodní konference ACM SIGMOD z roku 2000 o správě dat – SIGMOD '00. - 2000. - ISBN 1-58113-217-4 . - doi : 10.1145/342009.335437 .
- Angiulli F., Pizzuti C. Rychlá detekce odlehlých hodnot ve vysokorozměrných prostorech // Principy dolování dat a zjišťování znalostí. - 2002. - T. 2431. - (Poznámky z přednášek z informatiky). — ISBN 978-3-540-44037-6 . - doi : 10.1007/3-540-45681-3_2 .
- Breunig MM, Kriegel H.-P., Ng RT, Sander J. LOF: Identifying Density-based Local Outliers // Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data . - 2000. - ( SIGMOD ). — ISBN 1-58113-217-4 . - doi : 10.1145/335191.335388 .
- Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou. Isolation Forest // 2008 Osmá mezinárodní konference IEEE o dolování dat. - 2008. - ISBN 9780769535029 . - doi : 10.1109/ICDM.2008.17 .
- Schubert E., Zimek A., Kriegel H.-P. Přehodnocení detekce místních odlehlých hodnot: Zobecněný pohled na lokalitu s aplikacemi pro detekci prostorových, video a síťových odlehlých hodnot // Dolování dat a zjišťování znalostí. - 2012. - T. 28 . - doi : 10.1007/s10618-012-0300-z .
- Kriegel HP, Kröger P., Schubert E., Zimek A. Detekce odlehlých hodnot v osově paralelních podprostorech vysokorozměrných dat // Pokroky v získávání znalostí a dolování dat. - 2009. - T. 5476. - (Poznámky z přednášek z informatiky). - ISBN 978-3-642-01306-5 . - doi : 10.1007/978-3-642-01307-2_86 .
- Kriegel HP, Kroger P., Schubert E., Zimek A. Detekce odlehlých oblastí v arbitrárně orientovaných podprostorech // 2012 IEEE 12th International Conference on Data Mining. - 2012. - ISBN 978-1-4673-4649-8 . - doi : 10.1109/ICDM.21.2012 .
- Zimek A., Schubert E., Kriegel H.-P. Průzkum detekce odlehlých hodnot bez dozoru ve vysokorozměrných numerických datech // Statistická analýza a dolování dat. - 2012. - V. 5 , č.p. 5 . - doi : 10.1002/sam.11161 .
- Schölkopf B., Platt JC, Shawe-Taylor J., Smola AJ, Williamson R. C. Estimating the Support of a High-Dimensional Distribution // Neural Computation. - 2001. - T. 13 , no. 7 . doi : 10.1162 / 089976601750264965 . — PMID 11440593 .
- Simon Hawkins, Hongxing He, Graham Williams, Rohan Baxter. Detekce odlehlých hodnot pomocí replikátorových neuronových sítí // Datové sklady a zjišťování znalostí. - 2002. - T. 2454. - (Poznámky z přednášek z informatiky). - ISBN 978-3-540-44123-6 . - doi : 10.1007/3-540-46145-0_17 .
- He Z., Xu X., Deng S. Discovering cluster-based local outliers // Pattern Recognition Letters. - 2003. - T. 24 , no. 9–10 . - doi : 10.1016/S0167-8655(03)00003-5 .
- Campello RJGB, Moulavi D., Zimek A., Sander J. Hierarchické odhady hustoty pro shlukování dat, vizualizaci a detekci odlehlých hodnot // Transactions ACM on Knowledge Discovery from Data. - 2015. - T. 10 , no. 1 . - doi : 10.1145/2733381 .
- Lazarevic A., Kumar V. Funkce pytlování pro detekci odlehlých hodnot // Proc. 11. mezinárodní konference ACM SIGKDD o objevování znalostí v dolování dat. - 2005. - ISBN 978-1-59593-135-1 . - doi : 10.1145/1081870.1081891 .
- Nguyen HV, Ang HH, Gopalkrishnan V. Těžba odlehlých hodnot se souborem heterogenních detektorů v náhodných podprostorech // Databázové systémy pro pokročilé aplikace. - 2010. - T. 5981. - (Poznámky z přednášek z informatiky). - ISBN 978-3-642-12025-1 . - doi : 10.1007/978-3-642-12026-8_29 .
- Kriegel HP, Kröger P., Schubert E., Zimek A. Interpreting and Unifying Outlier Scores // Proceedings of the 2011 SIAM International Conference on Data Mining . - 2011. - ISBN 978-0-89871-992-5 . - doi : 10.1137/1.9781611972818.2 .
- Schubert E., Wojdanowski R., Zimek A., Kriegel HP On Evaluation of Outlier Rankings and Outlier Scores // Proceedings of the 2012 SIAM International Conference on Data Mining . - 2012. - ISBN 978-1-61197-232-0 . - doi : 10.1137/1.9781611972825.90 .
- Zimek A., Campello RJGB, Sander JR Ensembles pro detekci odlehlých hodnot bez dozoru // Newsletter ACM SIGKDD Explorations. - 2014. - T. 15 . - doi : 10.1145/2594473.2594476 .
- Zimek A., Campello RJGB, Sander JR Narušení dat pro detekční soubory odlehlých hodnot // Sborník příspěvků z 26. mezinárodní konference o správě vědeckých a statistických databází – SSDBM '14. - 2014. - ISBN 978-1-4503-2722-0 . - doi : 10.1145/2618243.2618257 .
- Guilherme O. Campos, Arthur Zimek, Jörg Sander, Ricardo JGB Campello, Barbora Micenková, Erich Schubert, Ira Assent, Michael E. Houle. O vyhodnocení detekce odlehlých hodnot bez dozoru: opatření, datové soubory a empirická studie // Data Mining and Knowledge Discovery. - 2016. - T. 30 , no. 4 . — ISSN 1384-5810 . - doi : 10.1007/s10618-015-0444-8 .
- Denning DE Model detekce narušení // Transakce IEEE v softwarovém inženýrství . - 1987. - T. SE-13 , no. 2 . - doi : 10.1109/TSE.1987.232894 .
- Teng HS, Chen K., Lu SC Adaptivní detekce anomálií v reálném čase pomocí induktivně generovaných sekvenčních vzorů // Sborník ze symposia IEEE Computer Society Symposium on Research in Security and Privacy. - 1990. - ISBN 978-0-8186-2060-7 . - doi : 10.1109/RISP.1990.63857 .
- Anita K. Jonesová, Robert S. Sielken. Detekce narušení počítačového systému: Průzkum // Technická zpráva, Ústav informatiky,. — University of Virginia, Charlottesville, VA, 1999.