Text mining ( IAT , anglicky text mining ) je směr v umělé inteligenci , jehož účelem je získávání informací ze sbírek textových dokumentů na základě využití praktických metod strojového učení a zpracování přirozeného jazyka . Název „text mining“ má něco společného s pojmem „ data mining “ ( IAD , angl. data mining), který vyjadřuje podobnost jejich cílů, přístupů ke zpracování informací a oblastí použití; rozdíl se projevuje pouze ve finálních metodách a také v tom, že IAD se zabývá repozitáři a databázemi , nikoli elektronickými knihovnami a textovými korpusy .
Klíčovými skupinami úkolů IAT jsou: kategorizace textu, extrakce a vyhledávání informací , zpracování změn v textových kolekcích a vývoj prostředků pro prezentaci informací uživateli. [jeden]
Kategorizace dokumentů spočívá v zařazení dokumentů z kolekce do jedné nebo více skupin (tříd, shluků) podobných textů (například podle tématu nebo stylu). Kategorizace může probíhat za účasti osoby i bez ní. V prvním případě, který se nazývá klasifikace dokumentů , musí systém IAT přiřazovat texty do již definovaných (pro něj vhodných) tříd. Z hlediska strojového učení to vyžaduje učení pod dohledem , pro které musí uživatel poskytnout systému IAT jak sadu tříd, tak vzorky dokumentů patřících do těchto tříd.
Druhý případ kategorizace se nazývá shlukování dokumentů . Systém IAT přitom musí sám určit množinu shluků, přes které lze texty distribuovat – ve strojovém učení se odpovídající úloha nazývá nekontrolované učení . V tomto případě musí uživatel sdělit systému IAT počet shluků, do kterých by chtěl zpracovávanou kolekci rozdělit (předpokládá se, že postup pro výběr vlastností je již zahrnut v algoritmu programu ).
V poslední době přitahuje textová analýza stále více pozornosti v různých oblastech, jako je bezpečnost, obchod a věda.
Mnoho balíčků pro analýzu textu, jako je Aerotext a Attensity , se zaměřuje na trh bezpečnostních aplikací, zejména na analýzu zdrojů prostého textu, jako jsou zpravodajské weby.
Výzkumné a vývojové divize velkých společností, jako je IBM , Apple a Microsoft , zkoumají technologie textové analýzy s cílem budoucí automatizace procesů analýzy a extrakce dat.
V Rusku:
V angličtině:
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |