Předzpracování dat

Předzpracování dat je základním krokem v procesu dolování dat . Fráze „ odpadky dovnitř, odpadky ven “ platí zejména pro dolování dat a projekty strojového učení . Tím je míněno, že ani ta nejsofistikovanější analýza nebude užitečná, pokud se za základ vezmou pochybná data [1] .

Nutnost

Metody sběru dat jsou často špatně kontrolovány. Výsledkem jsou neplatné hodnoty (například: příjem rovný -100), nemožné kombinace dat (například: "muž během těhotenství"), chybějící hodnoty atd. Analýza dat, která nejsou imunní vůči těmto druhům problémů, může vést k nesprávným závěrům. Kvalita dat je při analýze prvořadá [2] . Předzpracování dat se často stává důležitou fází projektu strojového učení . To platí zejména pro procesy výpočetní biologie [3] .

Při nácviku stroje s velkým množstvím zbytečných informací, „ hlučných “ a nespolehlivých dat se získávání znalostí stává obtížným. Fáze přípravy a filtrování dat může trvat dlouho. Příprava dat zahrnuje:

a další manipulace s daty.

Výsledkem předzpracování dat je finální trénovací sada .

Metody

Níže je uveden stručný popis metod, které se používají ve fázi předběžného zpracování dat.

Viz také

Poznámky

  1. Charles Whelan. Nahá statistika. — 2. vydání. - Moskva: Mann, Ivanov a Ferber, 2017. - S. 152-153. — 341 s. - ISBN 978-5-00100-823-1 .
  2. Pyle, 1999 .
  3. Chicco, 2017 , str. 1-17.
  4. Wu, 2013 .

Literatura

Odkazy