Těžba textu

Text mining ( IAT , anglicky  text mining ) je směr v umělé inteligenci , jehož účelem je získávání informací ze sbírek textových dokumentů na základě využití praktických metod strojového učení a zpracování přirozeného jazyka . Název „text mining“ má něco společného s pojmem „ data mining “ ( IAD , angl.  data mining), který vyjadřuje podobnost jejich cílů, přístupů ke zpracování informací a oblastí použití; rozdíl se projevuje pouze ve finálních metodách a také v tom, že IAD se zabývá repozitáři a databázemi , nikoli elektronickými knihovnami a textovými korpusy .

IAT Task Groups

Klíčovými skupinami úkolů IAT jsou: kategorizace textu, extrakce a vyhledávání informací , zpracování změn v textových kolekcích a vývoj prostředků pro prezentaci informací uživateli. [jeden]

Kategorizace dokumentů spočívá v zařazení dokumentů z kolekce do jedné nebo více skupin (tříd, shluků) podobných textů (například podle tématu nebo stylu). Kategorizace může probíhat za účasti osoby i bez ní. V prvním případě, který se nazývá klasifikace dokumentů , musí systém IAT přiřazovat texty do již definovaných (pro něj vhodných) tříd. Z hlediska strojového učení to vyžaduje učení pod dohledem , pro které musí uživatel poskytnout systému IAT jak sadu tříd, tak vzorky dokumentů patřících do těchto tříd.

Druhý případ kategorizace se nazývá shlukování dokumentů . Systém IAT přitom musí sám určit množinu shluků, přes které lze texty distribuovat – ve strojovém učení se odpovídající úloha nazývá nekontrolované učení . V tomto případě musí uživatel sdělit systému IAT počet shluků, do kterých by chtěl zpracovávanou kolekci rozdělit (předpokládá se, že postup pro výběr vlastností je již zahrnut v algoritmu programu ).

Aplikace

V poslední době přitahuje textová analýza stále více pozornosti v různých oblastech, jako je bezpečnost, obchod a věda.

Bezpečné

Mnoho balíčků pro analýzu textu, jako je Aerotext a Attensity , se zaměřuje na trh bezpečnostních aplikací, zejména na analýzu zdrojů prostého textu, jako jsou zpravodajské weby.

V softwaru

Výzkumné a vývojové divize velkých společností, jako je IBM , Apple a Microsoft , zkoumají technologie textové analýzy s cílem budoucí automatizace procesů analýzy a extrakce dat.

Poznámky

  1. Berry, 2003 , str. xi.

Literatura

V Rusku:

V angličtině: