Data mining ( rusky data mining , data mining , data mining ) je souhrnný název používaný pro označení souboru metod pro zjišťování dříve neznámých, netriviálních, prakticky užitečných a dostupných znalostí v datech , nezbytných pro rozhodování v různých oblastech lidské aktivity. Termín zavedl Grigory Pyatetsky-Shapiro v roce 1989 [1] [2] [3] .
Anglické sousloví „ data mining “ zatím nemá ustálený překlad do ruštiny. Při přenosu v ruštině se používají následující fráze [4] : siting informací , data mining, data mining , stejně jako data mining [5] [6] [7] . Úplnější a přesnější je fráze „ objevování znalostí v databázích “ ( anglicky knowledge discovery in databases , KDD).
Základem metod dolování dat jsou všechny druhy klasifikačních, modelovacích a prognostických metod založených na využití rozhodovacích stromů , umělé neuronové sítě , genetické algoritmy , evoluční programování , asociativní paměť , fuzzy logika . Metody dolování dat často zahrnují statistické metody ( popisná analýza , korelační a regresní analýza , faktorová analýza , analýza rozptylu , komponentní analýza , diskriminační analýza , analýza časových řad , analýza přežití , analýza vztahů ) . Takové metody však předpokládají určité apriorní představy o analyzovaných datech, což je poněkud v rozporu s cíli data miningu (objevování dříve neznámých netriviálních a prakticky užitečných poznatků).
Jedním z nejdůležitějších účelů metod dolování dat je vizualizace výsledků výpočtů (vizualizace), což umožňuje použití nástrojů dolování dat i lidem, kteří nemají speciální matematické vzdělání.
Aplikace statistických metod analýzy dat vyžaduje dobrou znalost teorie pravděpodobnosti a matematické statistiky .
Metody dolování dat (nebo, co je totéž, objevování znalostí v datech, zkráceně KDD) leží na průsečíku databází , statistiky a umělé inteligence [8] .
Oblast dolování dat začala seminářem pořádaným Grigory Pyatetsky-Shapiro v roce 1989 [1] .
Již dříve, když pracoval v laboratořích GTE, se Grigory Pyatetsky-Shapiro začal zajímat o otázku: je možné automaticky najít určitá pravidla, aby se urychlily některé dotazy do velkých databází. Zároveň byly navrženy dva pojmy - data mining (“data mining” [9] ) a knowledge discovery in data (což by mělo být přeloženo jako “knowledge discovery in databází”).
V roce 1993 byl zveřejněn první mailing list Knowledge Discovery Nuggets a v roce 1994 byla vytvořena jedna z prvních lokalit pro dolování dat.
Zpočátku je úkol nastaven takto:
Je nutné vyvinout metody pro objevování znalostí skrytých ve velkých objemech prvotních „surových“ dat. V současných podmínkách globální konkurence mohou být právě nalezené vzorce (znalosti) zdrojem další konkurenční výhody.
Co znamená „skryté poznání“? Musí to být znalost:
Tyto požadavky do značné míry určují podstatu metod dolování dat a v jaké formě a v jakém poměru se v technologii dolování dat používají systémy správy databází , metody statistické analýzy a metody umělé inteligence.
Data mining a databázeMetody dolování dat lze aplikovat jak pro práci s velkými daty , tak pro zpracování relativně malého množství dat (získaných např. z výsledků jednotlivých experimentů nebo při analýze dat o činnosti společnosti) . Jako kritérium pro dostatečné množství dat je uvažován jak obor studia, tak použitý algoritmus analýzy. .
Rozvoj databázových technologií vedl nejprve k vytvoření specializovaného jazyka – databázového dotazovacího jazyka. Pro relační databáze je to jazyk SQL , který poskytuje dostatek příležitostí pro vytváření, úpravy a získávání uložených dat. Pak bylo potřeba získat analytické informace (například informace o činnosti podniku za určité období) a pak se ukázalo, že tradiční relační databáze, dobře uzpůsobené například pro vedení provozní evidence v podniku, jsou špatně přizpůsobeny pro analýzu. To následně vedlo k vytvoření tzv. „ úložiště dat “, jejichž samotná struktura je nejlepším způsobem pro provádění komplexní matematické analýzy.
Data mining a umělá inteligenceZnalosti získané metodami data miningu jsou obvykle reprezentovány ve formě vzorů (patternů) . Tyto jsou:
Algoritmy pro hledání takových vzorů jsou na průsečíku oblastí: umělá inteligence, matematická statistika, matematické programování, vizualizace, OLAP .
Data mining a podnikáníPodle IBM je zpracování „velkých dat“ „schopnost využívat informace novým způsobem k vytváření užitečných nápadů nebo vytváření zboží a služeb vysoké hodnoty“ Tato definice považuje velká data za typ analytiky , protože s nimi pracuje je zaměřena na získávání užitečných informací, které mohou poskytnout konkurenční výhodu [10] .
Úlohy řešené metodami data miningu se obvykle dělí na deskriptivní ( anglicky deskriptivní ) a prediktivní ( anglicky prediktivní ).
V deskriptivních úlohách je nejdůležitější podat vizuální popis existujících skrytých vzorců, zatímco u prediktivních úloh je v popředí otázka predikce pro ty případy, pro které ještě neexistují žádná data.
Popisné úkoly zahrnují:
Prediktivní úkoly zahrnují:
Klasifikační problémy jsou charakterizovány „ učením pod dohledem “, při kterém se konstrukce (trénování) modelu provádí na vzorku obsahujícím vstupní a výstupní vektory.
Pro problémy s klastrováním a asociacemi se používá „ učení bez dozoru “, kdy je model postaven na vzorku, který nemá výstupní parametr. Hodnota výstupního parametru („odkazuje na shluk...“, „vypadá jako vektor...“) se v procesu učení vybere automaticky.
Problémy redukce popisu jsou charakterizovány absencí dělení na vstupní a výstupní vektory . Počínaje klasickou prací C. Pearsona o analýze hlavních komponent se zaměřujeme na aproximaci dat .
Řada fází řešení problémů pomocí metod dolování dat:
Před použitím algoritmů dolování dat je nutné připravit sadu analyzovaných dat. Protože IAD dokáže detekovat pouze vzory, které jsou přítomny v datech, počáteční data musí mít na jedné straně dostatečný objem, aby v nich tyto vzory byly přítomné, a na druhé straně musí být dostatečně kompaktní, aby analýza zabrala přijatelný čas. Jako zdrojová data nejčastěji fungují datové sklady nebo datové tržiště . Před shlukováním nebo dolováním dat je nutná příprava pro analýzu vícerozměrných dat.
Data jsou poté filtrována. Filtrování odstraňuje vzorky se šumem a chybějícími daty.
Filtrovaná data jsou redukována na sady prvků (nebo vektory, pokud algoritmus může pracovat pouze s vektory s pevnými rozměry), jednu sadu prvků na pozorování. Sada vlastností je tvořena v souladu s hypotézami o tom, které vlastnosti surových dat mají vysokou prediktivní schopnost založenou na požadovaném výpočetním výkonu pro zpracování. Například černobílý obraz obličeje o velikosti 100 × 100 pixelů obsahuje 10 000 bitů nezpracovaných dat. Detekcí očí a úst v obraze je lze převést na příznakový vektor. Výsledkem je snížení množství dat z 10 tisíc bitů na seznam pozičních kódů, což výrazně snižuje množství analyzovaných dat a tím i dobu analýzy.
Řada algoritmů je schopna zpracovat chybějící data, která mají prediktivní schopnost (například absence určitého typu nákupu ze strany klienta). Například při použití metody asociačních pravidel se nezpracovávají vektory prvků, ale sady proměnných rozměrů.
Volba účelové funkce bude záviset na tom, jaký je účel analýzy; výběr „správné“ funkce je základem úspěšného dolování dat.
Pozorování jsou rozdělena do dvou kategorií – tréninková sada a testovací sada. Tréninková sada se používá k „trénování“ algoritmu dolování dat a testovací sada se používá k testování nalezených vzorů.
![]() | |
---|---|
V bibliografických katalozích |
|
Znalostní inženýrství | |
---|---|
Obecné pojmy | |
Pevné modely | |
Měkké metody | |
Aplikace | |
Úložiště dat | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||
| ||||||||||||||
| ||||||||||||||
Kategorie |
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|