Předzpracování dat
Předzpracování dat je základním krokem v procesu dolování dat . Fráze „ odpadky dovnitř, odpadky ven “ platí zejména pro dolování dat a projekty strojového učení . Tím je míněno, že ani ta nejsofistikovanější analýza nebude užitečná, pokud se za základ vezmou pochybná data [1] .
Nutnost
Metody sběru dat jsou často špatně kontrolovány. Výsledkem jsou neplatné hodnoty (například: příjem rovný -100), nemožné kombinace dat (například: "muž během těhotenství"), chybějící hodnoty atd. Analýza dat, která nejsou imunní vůči těmto druhům problémů, může vést k nesprávným závěrům. Kvalita dat je při analýze prvořadá [2] . Předzpracování dat se často stává důležitou fází projektu strojového učení . To platí zejména pro procesy výpočetní biologie [3] .
Při nácviku stroje s velkým množstvím zbytečných informací, „ hlučných “ a nespolehlivých dat se získávání znalostí stává obtížným. Fáze přípravy a filtrování dat může trvat dlouho. Příprava dat zahrnuje:
a další manipulace s daty.
Výsledkem předzpracování dat je finální trénovací sada .
Metody
Níže je uveden stručný popis metod, které se používají ve fázi předběžného zpracování dat.
- Čištění dat se používá k detekci, opravě nebo odstranění chybných záznamů v sadě dat [4] ;
- Normalizace dat se používá ke standardizaci rozsahu hodnot nezávislých proměnných nebo datových prvků (například redukce na intervaly [0, 1] nebo [-1, +1]);
- Transformace dat se používá k převedení dat do formátu očekávaného publikem;
- Extrakce funkcí se používá k transformaci vstupních dat na sadu funkcí, které dobře reprezentují;
- Zhutňování dat se používá k převodu číselných dat do opravené, uspořádané a zjednodušené formy. To pomáhá snížit množství a/nebo rozměrnost dat.
Viz také
- Čištění dat
- upravit data
- Kompaktování dat
- Primární zpracování dat
Poznámky
- ↑ Charles Whelan. Nahá statistika. — 2. vydání. - Moskva: Mann, Ivanov a Ferber, 2017. - S. 152-153. — 341 s. - ISBN 978-5-00100-823-1 .
- ↑ Pyle, 1999 .
- ↑ Chicco, 2017 , str. 1-17.
- ↑ Wu, 2013 .
Literatura
- Dorian Pyle. Příprava dat pro dolování dat . - Los Altos, Kalifornie : Morgan Kaufmann Publishers, 1999.
- Wu S. Přehled hrubých záručních dat a analýzy // Reliability Engineering and System. - 2013. - Vydání. 114 . - doi : 10.1016/j.ress.2012.12.021 .
- Chicco D. Deset rychlých tipů pro strojové učení ve výpočetní biologii // BioData Mining. - 2017. - prosinec ( roč. 10 , číslo 35 ). - doi : 10.1186/s13040-017-0155-3 . — PMID 29234465 .
Odkazy