Data mining

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 7. května 2022; kontroly vyžadují 6 úprav .

Data mining ( rusky data mining , data mining , data mining ) je souhrnný název používaný pro označení souboru metod pro zjišťování dříve neznámých, netriviálních, prakticky užitečných a dostupných znalostí v datech , nezbytných pro rozhodování v různých oblastech lidské aktivity. Termín zavedl Grigory Pyatetsky-Shapiro v roce 1989 [1] [2] [3] .

Anglické sousloví „ data mining “ zatím nemá ustálený překlad do ruštiny. Při přenosu v ruštině se používají následující fráze [4] : siting informací , data mining, data mining , stejně jako data mining [5] [6] [7] . Úplnější a přesnější je fráze „ objevování znalostí v databázích “ ( anglicky  knowledge discovery in databases , KDD).

Základem metod dolování dat jsou všechny druhy klasifikačních, modelovacích a prognostických metod založených na využití rozhodovacích stromů , umělé neuronové sítě , genetické algoritmy , evoluční programování , asociativní paměť , fuzzy logika . Metody dolování dat často zahrnují statistické metody ( popisná analýza , korelační a regresní analýza , faktorová analýza , analýza rozptylu , komponentní analýza , diskriminační analýza , analýza časových řad , analýza přežití , analýza vztahů ) . Takové metody však předpokládají určité apriorní představy o analyzovaných datech, což je poněkud v rozporu s cíli data miningu (objevování dříve neznámých netriviálních a prakticky užitečných poznatků).

Jedním z nejdůležitějších účelů metod dolování dat je vizualizace výsledků výpočtů (vizualizace), což umožňuje použití nástrojů dolování dat i lidem, kteří nemají speciální matematické vzdělání.

Aplikace statistických metod analýzy dat vyžaduje dobrou znalost teorie pravděpodobnosti a matematické statistiky .

Úvod

Metody dolování dat (nebo, co je totéž, objevování znalostí v datech, zkráceně KDD) leží na průsečíku databází , statistiky a umělé inteligence [8] .

Historická odbočka

Oblast dolování dat začala seminářem pořádaným Grigory Pyatetsky-Shapiro v roce 1989 [1] .

Již dříve, když pracoval v laboratořích GTE, se Grigory Pyatetsky-Shapiro začal zajímat o otázku: je možné automaticky najít určitá pravidla, aby se urychlily některé dotazy do velkých databází. Zároveň byly navrženy dva pojmy - data mining (“data mining” [9] ) a knowledge discovery in data (což by mělo být přeloženo jako “knowledge discovery in databází”).

V roce 1993 byl zveřejněn první mailing list Knowledge Discovery Nuggets a v roce 1994 byla vytvořena jedna z prvních lokalit pro dolování dat.

Prohlášení o problému

Zpočátku je úkol nastaven takto:

Je nutné vyvinout metody pro objevování znalostí skrytých ve velkých objemech prvotních „surových“ dat. V současných podmínkách globální konkurence mohou být právě nalezené vzorce (znalosti) zdrojem další konkurenční výhody.

Co znamená „skryté poznání“? Musí to být znalost:

Tyto požadavky do značné míry určují podstatu metod dolování dat a v jaké formě a v jakém poměru se v technologii dolování dat používají systémy správy databází , metody statistické analýzy a metody umělé inteligence.

Data mining a databáze

Metody dolování dat lze aplikovat jak pro práci s velkými daty , tak pro zpracování relativně malého množství dat (získaných např. z výsledků jednotlivých experimentů nebo při analýze dat o činnosti společnosti) . Jako kritérium pro dostatečné množství dat je uvažován jak obor studia, tak použitý algoritmus analýzy. .

Rozvoj databázových technologií vedl nejprve k vytvoření specializovaného jazyka – databázového dotazovacího jazyka. Pro relační databáze  je to jazyk SQL , který poskytuje dostatek příležitostí pro vytváření, úpravy a získávání uložených dat. Pak bylo potřeba získat analytické informace (například informace o činnosti podniku za určité období) a pak se ukázalo, že tradiční relační databáze, dobře uzpůsobené například pro vedení provozní evidence v podniku, jsou špatně přizpůsobeny pro analýzu. To následně vedlo k vytvoření tzv. „ úložiště dat “, jejichž samotná struktura je nejlepším způsobem pro provádění komplexní matematické analýzy.

Data mining a umělá inteligence

Znalosti získané metodami data miningu jsou obvykle reprezentovány ve formě vzorů (patternů) . Tyto jsou:

Algoritmy pro hledání takových vzorů jsou na průsečíku oblastí: umělá inteligence, matematická statistika, matematické programování, vizualizace, OLAP .

Data mining a podnikání

Podle IBM je zpracování „velkých dat“ „schopnost využívat informace novým způsobem k vytváření užitečných nápadů nebo vytváření zboží a služeb vysoké hodnoty“ Tato definice považuje velká data za typ analytiky , protože s nimi pracuje je zaměřena na získávání užitečných informací, které mohou poskytnout konkurenční výhodu [10] .

Úkoly

Úlohy řešené metodami data miningu se obvykle dělí na deskriptivní ( anglicky  deskriptivní ) a prediktivní ( anglicky  prediktivní ).

V deskriptivních úlohách je nejdůležitější podat vizuální popis existujících skrytých vzorců, zatímco u prediktivních úloh je v popředí otázka predikce pro ty případy, pro které ještě neexistují žádná data.

Popisné úkoly zahrnují:

  • hledat asociační pravidla nebo vzory (ukázky);
  • seskupování objektů, shluková analýza;
  • vytvoření regresního modelu.

Prediktivní úkoly zahrnují:

Učební algoritmy

Klasifikační problémy jsou charakterizovány „ učením pod dohledem “, při kterém se konstrukce (trénování) modelu provádí na vzorku obsahujícím vstupní a výstupní vektory.

Pro problémy s klastrováním a asociacemi se používá „ učení bez dozoru “, kdy je model postaven na vzorku, který nemá výstupní parametr. Hodnota výstupního parametru („odkazuje na shluk...“, „vypadá jako vektor...“) se v procesu učení vybere automaticky.

Problémy redukce popisu jsou charakterizovány absencí dělení na vstupní a výstupní vektory . Počínaje klasickou prací C. Pearsona o analýze hlavních komponent se zaměřujeme na aproximaci dat .

Fáze učení

Řada fází řešení problémů pomocí metod dolování dat:

  1. Vyjádření problému analýzy;
  2. Sběr dat;
  3. Příprava dat (filtrování, přidávání, kódování);
  4. Výběr modelu (algoritmus analýzy dat);
  5. Výběr parametrů modelu a algoritmu učení;
  6. Modelový trénink (automatické vyhledávání dalších parametrů modelu);
  7. Analýza kvality vzdělávání, pokud je analýza neuspokojivá - přejděte na odstavec 5 nebo odstavec 4;
  8. Analýza identifikovaných vzorů, pokud je analýza neuspokojivá - přejděte ke kroku 1, 4 nebo 5.

Příprava dat

Před použitím algoritmů dolování dat je nutné připravit sadu analyzovaných dat. Protože IAD dokáže detekovat pouze vzory, které jsou přítomny v datech, počáteční data musí mít na jedné straně dostatečný objem, aby v nich tyto vzory byly přítomné, a na druhé straně musí být dostatečně kompaktní, aby analýza zabrala přijatelný čas. Jako zdrojová data nejčastěji fungují datové sklady nebo datové tržiště . Před shlukováním nebo dolováním dat je nutná příprava pro analýzu vícerozměrných dat.

Data jsou poté filtrována. Filtrování odstraňuje vzorky se šumem a chybějícími daty.

Filtrovaná data jsou redukována na sady prvků (nebo vektory, pokud algoritmus může pracovat pouze s vektory s pevnými rozměry), jednu sadu prvků na pozorování. Sada vlastností je tvořena v souladu s hypotézami o tom, které vlastnosti surových dat mají vysokou prediktivní schopnost založenou na požadovaném výpočetním výkonu pro zpracování. Například černobílý obraz obličeje o velikosti 100 × 100 pixelů obsahuje 10 000 bitů nezpracovaných dat. Detekcí očí a úst v obraze je lze převést na příznakový vektor. Výsledkem je snížení množství dat z 10 tisíc bitů na seznam pozičních kódů, což výrazně snižuje množství analyzovaných dat a tím i dobu analýzy.

Řada algoritmů je schopna zpracovat chybějící data, která mají prediktivní schopnost (například absence určitého typu nákupu ze strany klienta). Například při použití metody asociačních pravidel se nezpracovávají vektory prvků, ale sady proměnných rozměrů.

Volba účelové funkce bude záviset na tom, jaký je účel analýzy; výběr „správné“ funkce je základem úspěšného dolování dat.

Pozorování jsou rozdělena do dvou kategorií – tréninková sada a testovací sada. Tréninková sada se používá k „trénování“ algoritmu dolování dat a testovací sada se používá k testování nalezených vzorů.

Viz také

Poznámky

  1. 1 2 Viz jeho rozhovor Archivováno 16. prosince 2010 na Wayback Machine , který poskytl časopisu Computerra v roce 2007.
  2. V. A. Dyuk, A. V. Flegontov, I. K. Fomina, Aplikace technologií data miningu v přírodních vědách, technických a humanitních oborech.
  3. O. S. Kovalenko, Přehled problémů a perspektiv analýzy dat  (nepřístupný odkaz) .
  4. A. A. Ezhov, S. A. Shumsky, Přednáška: Extrakce znalostí pomocí neuronových sítí Archivováno 7. dubna 2011 na Wayback Machine .
  5. Microsoft SQL Server 2008 R2: Nový přístup ke správě informací Archivováno 15. července 2014.
  6. Oracle Data Mining: Současnost a budoucnost Archivováno 8. března 2012 na Wayback Machine .
  7. Stepanov R.G. Data Mining Technology: Data Mining Archival kopie ze dne 11. června 2017 na Wayback Machine .
  8. Grigory Pyatetsky-Shapiro, Data Mining and Information Overload // Úvodní článek ke knize: Data and Process Analysis / A. A. Barseghyan, M. S. Kupriyanov, I. I. Kholod, M. D. Tess, S. I Elizarov. 3. vyd. revidováno a doplňkové Petrohrad: BHV-Peterburg, 2009. 512 s. S. 13.
  9. Diskuse o termínu: data mining / Technical Translation School Archivováno 2. února 2014 na Wayback Machine .
  10. Millner, Khan, 2022 , Moving to Big Data, str. 77-78.

Literatura

  • Paklin N. B., Oreshkov V. I. Obchodní analytika: od dat ke znalostem (+ CD). - Petrohrad. : Ed. Petr, 2009. - 624 s.
  • Duke V., Samoylenko A. Data Mining: školení (+CD). - Petrohrad. : Ed. Petr, 2001. - 368 s.
  • Zhuravlev Yu.I. , Rjazanov V.V., Senko O.V. UZNÁNÍ. Matematické metody. Softwarový systém. Praktické aplikace. - M .: Ed. "Fáze", 2006. - 176 s. — ISBN 5-7036-0108-8 .
  • Chubukova I. A. Data Mining: návod . - M. : Internetová univerzita informačních technologií: BINOM: Knowledge Laboratory, 2006. - 382 s. — ISBN 5-9556-0064-7 .
  • Sitnik V. F., Krasnyuk M. T. Intelektuální analýza dat (dolování dat): Navch. pomocník. - K .: KNEU, 2007. - 376 s.
  • Ian H. Witten, Eibe Frank a Mark A. Hall. Data Mining: Praktické nástroje a techniky strojového učení . - 3. vydání. - Morgan Kaufmann, 2011. - S.  664 . — ISBN 9780123748560 .
  • Dave Millner, Nadeem Khan. HR analytika. Úvod do People Analytics: Praktický průvodce HR založeným na datech. — M .: Alpina Publisher , 2022. — 384 s. — ISBN 978-5-9614-7831-0 .
  • Orlov A.I. Umělá inteligence: Statistické metody pro analýzu dat: učebnice. - M .: AI Pi Ar Media, 2022. - 843 s. — ISBN 978-5-4497-1470-1 [1]
  • Orlov A.I., Lutsenko E.V. Analýza dat, informací a znalostí v systémové matematice fuzzy intervalů: vědecká monografie. - Krasnodar: KubGAU, 2022. - 405 s. [2]

Odkazy