Data mining

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 7. května 2022; kontroly vyžadují 6 úprav .

Data mining ( rusky data mining , data mining , data mining ) je souhrnný název používaný pro označení souboru metod pro zjišťování dříve neznámých, netriviálních, prakticky užitečných a dostupných znalostí v datech , nezbytných pro rozhodování v různých oblastech lidské aktivity. Termín zavedl Grigory Pyatetsky-Shapiro v roce 1989 [1] [2] [3] .

Anglické sousloví „ data mining “ zatím nemá ustálený překlad do ruštiny. Při přenosu v ruštině se používají následující fráze [4] : siting informací , data mining, data mining , stejně jako data mining [5] [6] [7] . Úplnější a přesnější je fráze „ objevování znalostí v databázích “ ( anglicky knowledge discovery in databases , KDD).

Základem metod dolování dat jsou všechny druhy klasifikačních, modelovacích a prognostických metod založených na využití rozhodovacích stromů , umělé neuronové sítě , genetické algoritmy , evoluční programování , asociativní paměť , fuzzy logika . Metody dolování dat často zahrnují statistické metody ( popisná analýza , korelační a regresní analýza , faktorová analýza , analýza rozptylu , komponentní analýza , diskriminační analýza , analýza časových řad , analýza přežití , analýza vztahů ) . Takové metody však předpokládají určité apriorní představy o analyzovaných datech, což je poněkud v rozporu s cíli data miningu (objevování dříve neznámých netriviálních a prakticky užitečných poznatků).

Jedním z nejdůležitějších účelů metod dolování dat je vizualizace výsledků výpočtů (vizualizace), což umožňuje použití nástrojů dolování dat i lidem, kteří nemají speciální matematické vzdělání.

Aplikace statistických metod analýzy dat vyžaduje dobrou znalost teorie pravděpodobnosti a matematické statistiky .

Úvod

Metody dolování dat (nebo, co je totéž, objevování znalostí v datech, zkráceně KDD) leží na průsečíku databází , statistiky a umělé inteligence [8] .

Historická odbočka

Oblast dolování dat začala seminářem pořádaným Grigory Pyatetsky-Shapiro v roce 1989 [1] .

Již dříve, když pracoval v laboratořích GTE, se Grigory Pyatetsky-Shapiro začal zajímat o otázku: je možné automaticky najít určitá pravidla, aby se urychlily některé dotazy do velkých databází. Zároveň byly navrženy dva pojmy - data mining (“data mining” [9] ) a knowledge discovery in data (což by mělo být přeloženo jako “knowledge discovery in databází”).

V roce 1993 byl zveřejněn první mailing list Knowledge Discovery Nuggets a v roce 1994 byla vytvořena jedna z prvních lokalit pro dolování dat.

Prohlášení o problému

Zpočátku je úkol nastaven takto:

existuje poměrně velká databáze;
předpokládá se, že v databázi je nějaká „skrytá znalost“.

Je nutné vyvinout metody pro objevování znalostí skrytých ve velkých objemech prvotních „surových“ dat. V současných podmínkách globální konkurence mohou být právě nalezené vzorce (znalosti) zdrojem další konkurenční výhody.

Co znamená „skryté poznání“? Musí to být znalost:

dříve neznámé - tedy takové znalosti, které by měly být nové (a nepotvrzující žádné dříve přijaté informace);
netriviální - tedy takové, které nelze jednoduše vidět (s přímou vizuální analýzou dat nebo při výpočtu jednoduchých statistických charakteristik);
prakticky užitečné – tedy takové znalosti, které mají hodnotu pro výzkumníka nebo spotřebitele;
přístupné pro interpretaci - tedy takové znalosti, které jsou pro uživatele snadno prezentovatelné ve vizuální podobě a snadno vysvětlitelné z hlediska předmětné oblasti.

Tyto požadavky do značné míry určují podstatu metod dolování dat a v jaké formě a v jakém poměru se v technologii dolování dat používají systémy správy databází , metody statistické analýzy a metody umělé inteligence.

Data mining a databáze

Metody dolování dat lze aplikovat jak pro práci s velkými daty , tak pro zpracování relativně malého množství dat (získaných např. z výsledků jednotlivých experimentů nebo při analýze dat o činnosti společnosti) . Jako kritérium pro dostatečné množství dat je uvažován jak obor studia, tak použitý algoritmus analýzy. .

Rozvoj databázových technologií vedl nejprve k vytvoření specializovaného jazyka – databázového dotazovacího jazyka. Pro relační databáze je to jazyk SQL , který poskytuje dostatek příležitostí pro vytváření, úpravy a získávání uložených dat. Pak bylo potřeba získat analytické informace (například informace o činnosti podniku za určité období) a pak se ukázalo, že tradiční relační databáze, dobře uzpůsobené například pro vedení provozní evidence v podniku, jsou špatně přizpůsobeny pro analýzu. To následně vedlo k vytvoření tzv. „ úložiště dat “, jejichž samotná struktura je nejlepším způsobem pro provádění komplexní matematické analýzy.

Data mining a umělá inteligence

Znalosti získané metodami data miningu jsou obvykle reprezentovány ve formě vzorů (patternů) . Tyto jsou:

Algoritmy pro hledání takových vzorů jsou na průsečíku oblastí: umělá inteligence, matematická statistika, matematické programování, vizualizace, OLAP .

Data mining a podnikání

Podle IBM je zpracování „velkých dat“ „schopnost využívat informace novým způsobem k vytváření užitečných nápadů nebo vytváření zboží a služeb vysoké hodnoty“ Tato definice považuje velká data za typ analytiky , protože s nimi pracuje je zaměřena na získávání užitečných informací, které mohou poskytnout konkurenční výhodu [10] .

Úkoly

Úlohy řešené metodami data miningu se obvykle dělí na deskriptivní ( anglicky deskriptivní ) a prediktivní ( anglicky prediktivní ).

V deskriptivních úlohách je nejdůležitější podat vizuální popis existujících skrytých vzorců, zatímco u prediktivních úloh je v popředí otázka predikce pro ty případy, pro které ještě neexistují žádná data.

Popisné úkoly zahrnují:

hledat asociační pravidla nebo vzory (ukázky);
seskupování objektů, shluková analýza;
vytvoření regresního modelu.

Prediktivní úkoly zahrnují:

klasifikace objektů (pro předem definované třídy);
regresní analýza , analýza časových řad .

Učební algoritmy

Klasifikační problémy jsou charakterizovány „ učením pod dohledem “, při kterém se konstrukce (trénování) modelu provádí na vzorku obsahujícím vstupní a výstupní vektory.

Pro problémy s klastrováním a asociacemi se používá „ učení bez dozoru “, kdy je model postaven na vzorku, který nemá výstupní parametr. Hodnota výstupního parametru („odkazuje na shluk...“, „vypadá jako vektor...“) se v procesu učení vybere automaticky.

Problémy redukce popisu jsou charakterizovány absencí dělení na vstupní a výstupní vektory . Počínaje klasickou prací C. Pearsona o analýze hlavních komponent se zaměřujeme na aproximaci dat .

Fáze učení

Řada fází řešení problémů pomocí metod dolování dat:

Vyjádření problému analýzy;
Sběr dat;
Příprava dat (filtrování, přidávání, kódování);
Výběr modelu (algoritmus analýzy dat);
Výběr parametrů modelu a algoritmu učení;
Modelový trénink (automatické vyhledávání dalších parametrů modelu);
Analýza kvality vzdělávání, pokud je analýza neuspokojivá - přejděte na odstavec 5 nebo odstavec 4;
Analýza identifikovaných vzorů, pokud je analýza neuspokojivá - přejděte ke kroku 1, 4 nebo 5.

Příprava dat

Před použitím algoritmů dolování dat je nutné připravit sadu analyzovaných dat. Protože IAD dokáže detekovat pouze vzory, které jsou přítomny v datech, počáteční data musí mít na jedné straně dostatečný objem, aby v nich tyto vzory byly přítomné, a na druhé straně musí být dostatečně kompaktní, aby analýza zabrala přijatelný čas. Jako zdrojová data nejčastěji fungují datové sklady nebo datové tržiště . Před shlukováním nebo dolováním dat je nutná příprava pro analýzu vícerozměrných dat.

Data jsou poté filtrována. Filtrování odstraňuje vzorky se šumem a chybějícími daty.

Filtrovaná data jsou redukována na sady prvků (nebo vektory, pokud algoritmus může pracovat pouze s vektory s pevnými rozměry), jednu sadu prvků na pozorování. Sada vlastností je tvořena v souladu s hypotézami o tom, které vlastnosti surových dat mají vysokou prediktivní schopnost založenou na požadovaném výpočetním výkonu pro zpracování. Například černobílý obraz obličeje o velikosti 100 × 100 pixelů obsahuje 10 000 bitů nezpracovaných dat. Detekcí očí a úst v obraze je lze převést na příznakový vektor. Výsledkem je snížení množství dat z 10 tisíc bitů na seznam pozičních kódů, což výrazně snižuje množství analyzovaných dat a tím i dobu analýzy.

Řada algoritmů je schopna zpracovat chybějící data, která mají prediktivní schopnost (například absence určitého typu nákupu ze strany klienta). Například při použití metody asociačních pravidel se nezpracovávají vektory prvků, ale sady proměnných rozměrů.

Volba účelové funkce bude záviset na tom, jaký je účel analýzy; výběr „správné“ funkce je základem úspěšného dolování dat.

Pozorování jsou rozdělena do dvou kategorií – tréninková sada a testovací sada. Tréninková sada se používá k „trénování“ algoritmu dolování dat a testovací sada se používá k testování nalezených vzorů.

Viz také

web mining

Poznámky

↑ 1 2 Viz jeho rozhovor Archivováno 16. prosince 2010 na Wayback Machine , který poskytl časopisu Computerra v roce 2007.
↑ V. A. Dyuk, A. V. Flegontov, I. K. Fomina, Aplikace technologií data miningu v přírodních vědách, technických a humanitních oborech.
↑ O. S. Kovalenko, Přehled problémů a perspektiv analýzy dat (nepřístupný odkaz) .
↑ A. A. Ezhov, S. A. Shumsky, Přednáška: Extrakce znalostí pomocí neuronových sítí Archivováno 7. dubna 2011 na Wayback Machine .
↑ Microsoft SQL Server 2008 R2: Nový přístup ke správě informací Archivováno 15. července 2014.
↑ Oracle Data Mining: Současnost a budoucnost Archivováno 8. března 2012 na Wayback Machine .
↑ Stepanov R.G. Data Mining Technology: Data Mining Archival kopie ze dne 11. června 2017 na Wayback Machine .
↑ Grigory Pyatetsky-Shapiro, Data Mining and Information Overload // Úvodní článek ke knize: Data and Process Analysis / A. A. Barseghyan, M. S. Kupriyanov, I. I. Kholod, M. D. Tess, S. I Elizarov. 3. vyd. revidováno a doplňkové Petrohrad: BHV-Peterburg, 2009. 512 s. S. 13.
↑ Diskuse o termínu: data mining / Technical Translation School Archivováno 2. února 2014 na Wayback Machine .
↑ Millner, Khan, 2022 , Moving to Big Data, str. 77-78.

Literatura

Paklin N. B., Oreshkov V. I. Obchodní analytika: od dat ke znalostem (+ CD). - Petrohrad. : Ed. Petr, 2009. - 624 s.

Duke V., Samoylenko A. Data Mining: školení (+CD). - Petrohrad. : Ed. Petr, 2001. - 368 s.

Zhuravlev Yu.I. , Rjazanov V.V., Senko O.V. UZNÁNÍ. Matematické metody. Softwarový systém. Praktické aplikace. - M .: Ed. "Fáze", 2006. - 176 s. — ISBN 5-7036-0108-8 .

Zinoviev A. Yu. Vizualizace vícerozměrných dat . - Krasnojarsk: Ed. Krasnojarská státní technická univerzita, 2000. - 180 s.

Chubukova I. A. Data Mining: návod . - M. : Internetová univerzita informačních technologií: BINOM: Knowledge Laboratory, 2006. - 382 s. — ISBN 5-9556-0064-7 .
Sitnik V. F., Krasnyuk M. T. Intelektuální analýza dat (dolování dat): Navch. pomocník. - K .: KNEU, 2007. - 376 s.
Ian H. Witten, Eibe Frank a Mark A. Hall. Data Mining: Praktické nástroje a techniky strojového učení . - 3. vydání. - Morgan Kaufmann, 2011. - S. 664 . — ISBN 9780123748560 .
Dave Millner, Nadeem Khan. HR analytika. Úvod do People Analytics: Praktický průvodce HR založeným na datech. — M .: Alpina Publisher , 2022. — 384 s. — ISBN 978-5-9614-7831-0 .

Orlov A.I. Umělá inteligence: Statistické metody pro analýzu dat: učebnice. - M .: AI Pi Ar Media, 2022. - 843 s. — ISBN 978-5-4497-1470-1 [1]

Orlov A.I., Lutsenko E.V. Analýza dat, informací a znalostí v systémové matematice fuzzy intervalů: vědecká monografie. - Krasnodar: KubGAU, 2022. - 405 s. [2]

Odkazy

Software pro dolování dat v Curlie Link Directory (dmoz)

Slovníky a encyklopedie	Velká Katalánština velká čínština velká čínština Britannica (online)
V bibliografických katalozích	GND : 4428654-5 J9U : 987007556562405171 LCCN : sh97002073 NDL : 00948240 NKC : ph165954

Znalostní inženýrství
Obecné pojmy	Data metadata Znalost metaznalosti Reprezentace znalostí Znalostní základna Ontologie sémantický web
Pevné modely	produkty Sémantické sítě Rámečky Logický model
Měkké metody	Nervová síť evoluční modelování fuzzy logika
Aplikace	Expertní systémy Dolování dat Extrakce informací Virtuální partneři Hybridní inteligentní systémy
Umělá inteligence Strojové učení zpracování přirozeného jazyka

Úložiště dat

Vytvořte datový sklad
Koncepty	Databáze Dimenze ( Měřicí model Skutečnost OLAP Hvězdné schéma Schéma sněhové vločky
Možnosti	kotevní model Tabulka měření Datový HOLAP MOLAP ROLAP Provozní úložiště
Prvky	Datový slovník metadata datový trh šestá normální forma Náhradní klíč
Data	Tabulka faktů Raná skutečnost Měření (
Měření	Tabulka měření Pomalu se mění rozměry Degenerovaný rozměr
plnicí	ETL Extrakce Transformace

Použití úložiště dat
Koncepty	business intelligence Přístrojová deska data mining DSS OLAP kostka
Jazyky	Rozšíření MDX XMLA
Nástroje	Business Intelligence Tools Generátor zpráv Tabulka

související témata
Lidé	Bill Inmon Ralph Kimball
produkty	Srovnání OLAP serverů

Kategorie

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-síť Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG