Těžba textu

Text mining ( IAT , anglicky text mining ) je směr v umělé inteligenci , jehož účelem je získávání informací ze sbírek textových dokumentů na základě využití praktických metod strojového učení a zpracování přirozeného jazyka . Název „text mining“ má něco společného s pojmem „ data mining “ ( IAD , angl. data mining), který vyjadřuje podobnost jejich cílů, přístupů ke zpracování informací a oblastí použití; rozdíl se projevuje pouze ve finálních metodách a také v tom, že IAD se zabývá repozitáři a databázemi , nikoli elektronickými knihovnami a textovými korpusy .

IAT Task Groups

Klíčovými skupinami úkolů IAT jsou: kategorizace textu, extrakce a vyhledávání informací , zpracování změn v textových kolekcích a vývoj prostředků pro prezentaci informací uživateli. [jeden]

Kategorizace dokumentů spočívá v zařazení dokumentů z kolekce do jedné nebo více skupin (tříd, shluků) podobných textů (například podle tématu nebo stylu). Kategorizace může probíhat za účasti osoby i bez ní. V prvním případě, který se nazývá klasifikace dokumentů , musí systém IAT přiřazovat texty do již definovaných (pro něj vhodných) tříd. Z hlediska strojového učení to vyžaduje učení pod dohledem , pro které musí uživatel poskytnout systému IAT jak sadu tříd, tak vzorky dokumentů patřících do těchto tříd.

Druhý případ kategorizace se nazývá shlukování dokumentů . Systém IAT přitom musí sám určit množinu shluků, přes které lze texty distribuovat – ve strojovém učení se odpovídající úloha nazývá nekontrolované učení . V tomto případě musí uživatel sdělit systému IAT počet shluků, do kterých by chtěl zpracovávanou kolekci rozdělit (předpokládá se, že postup pro výběr vlastností je již zahrnut v algoritmu programu ).

Aplikace

V poslední době přitahuje textová analýza stále více pozornosti v různých oblastech, jako je bezpečnost, obchod a věda.

Bezpečné

Mnoho balíčků pro analýzu textu, jako je Aerotext a Attensity , se zaměřuje na trh bezpečnostních aplikací, zejména na analýzu zdrojů prostého textu, jako jsou zpravodajské weby.

V softwaru

Výzkumné a vývojové divize velkých společností, jako je IBM , Apple a Microsoft , zkoumají technologie textové analýzy s cílem budoucí automatizace procesů analýzy a extrakce dat.

Poznámky

↑ Berry, 2003 , str. xi.

Literatura

V Rusku:

Peskova O. V. Algoritmy pro klasifikaci plnotextových dokumentů // Automatické zpracování textů v přirozeném jazyce a počítačová lingvistika. - M. : MIEM (Moskevský státní institut elektroniky a matematiky), 2011. - S. 170-212. - ISBN 978-5-94506-294-8.

V angličtině:

Přehled dolování textu I: Shlukování, klasifikace a vyhledávání / Ed. od M. W. Berryho. - 2004. - Springer, 2003. - 261 s. — ISBN 0387955631 .
Aggarwal CC, Zhai C. Těžba textových dat. - Springer, 2012. - 527 s. — ISBN 9781461432234 .
Do Prado HA Vznikající technologie dolování textu: Techniky a aplikace / Ed. od H.A. Do Prado, E. Ferneda. - Idea Group Reference, 2007. - 358 s. — ISBN 1599043734 .

zpracování přirozeného jazyka
Obecné definice	Korpus textů řečový korpus Zastavte slova pytel slov úplnost AI N-gram Bigramová šifra trigram
Analýza textu	Segmentace textu Částečné značení Analýza povrchu Složené textové zpracování Extrahování kolokací pramenící Lematizace Rozpoznávání pojmenované entity Koreferenční rozlišení Analýza sentimentu textu Extrakce konceptu rozebrat Řešení lexikální polysémie Výpis terminologie Extrakce informací Identifikace jazyka Definice případu
Odkazování	Vytahování vět Abstraktní generace Odkazování na více dokumentů Zjednodušení textu
Strojový překlad	Automatizovaný Hybridní Interlingual Na základě pravidel Na základě příkladů Slovník založený Na základě transformace neurální Statistický Synchronní
Identifikace a sběr dat	Rozpoznávání řeči syntéza řeči Optické rozpoznávání znaků Generování textu
Tematický model	Umístění Pachinko Latentní Dirichletovo umístění Latentní sémantická analýza
Peer review	Automatické hodnocení esejí Concordancer Prediktivní zadávání textu Kontrola gramatiky Kontrola pravopisu Syntax Guessing
Rozhraní přirozeného jazyka	virtuální asistentka Virtuální partner Systém otázek a odpovědí Hlasové rozhraní Interaktivní literatura