Matice termínových dokumentů

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 8. června 2018; kontroly vyžadují 6 úprav .

Matice termín-dokument je matematická matice , která popisuje četnost termínů, které se vyskytují ve sbírce dokumentů. V matici termín-dokument odpovídají řádky dokumentům v kolekci a sloupce termínům. Pro určení hodnoty každého prvku matice existují různá schémata. Jedním z nich je schéma TF-IDF . Jsou užitečné v oblasti zpracování přirozeného jazyka , zejména v metodách latentní sémantické analýzy .

Obecná koncepce

Při vytváření databáze termínů použitých v sadě dokumentů je matice termínů tvořena jako incidenční matice, jejíž řádky odpovídají dokumentům a prvky řádků odpovídají přítomnosti odpovídajících termínů v těchto dokumentech. . Pokud například existují dva krátké dokumenty:

pak bude odpovídající matice termínů vypadat takto:

ke mě jako nelíbí data
D1 jeden jeden 0 jeden
D2 jeden 0 jeden jeden

který ukazuje, jaké termíny jsou obsaženy v určitých dokumentech a kolikrát se vyskytují. Tento přístup je podobný použití incidenční matice při analýze vět, které tvoří korpus slov [1] .

Poznámky

  1. Slyusar, V.I. Aplikace konečného produktu matic v problémech zpracování přirozeného jazyka. . Neuromuskulární technologie a vývoj NMT&Z-2020: sborník vědeckých postupů XIX. mezinárodní vědecké konference „Neuro-temperance technologies and the development of NMT&Z-2020“. - Kramatorsk: Donbas State Machine Building Academy. -2020. 156–162. (2020). Získáno 12. prosince 2020. Archivováno z originálu dne 25. ledna 2021.