Matice termín-dokument je matematická matice , která popisuje četnost termínů, které se vyskytují ve sbírce dokumentů. V matici termín-dokument odpovídají řádky dokumentům v kolekci a sloupce termínům. Pro určení hodnoty každého prvku matice existují různá schémata. Jedním z nich je schéma TF-IDF . Jsou užitečné v oblasti zpracování přirozeného jazyka , zejména v metodách latentní sémantické analýzy .
Při vytváření databáze termínů použitých v sadě dokumentů je matice termínů tvořena jako incidenční matice, jejíž řádky odpovídají dokumentům a prvky řádků odpovídají přítomnosti odpovídajících termínů v těchto dokumentech. . Pokud například existují dva krátké dokumenty:
pak bude odpovídající matice termínů vypadat takto:
ke mě | jako | nelíbí | data | |
---|---|---|---|---|
D1 | jeden | jeden | 0 | jeden |
D2 | jeden | 0 | jeden | jeden |
který ukazuje, jaké termíny jsou obsaženy v určitých dokumentech a kolikrát se vyskytují. Tento přístup je podobný použití incidenční matice při analýze vět, které tvoří korpus slov [1] .
zpracování přirozeného jazyka | |
---|---|
Obecné definice | |
Analýza textu |
|
Odkazování |
|
Strojový překlad |
|
Identifikace a sběr dat | |
Tematický model | |
Peer review |
|
Rozhraní přirozeného jazyka |