TF-IDF

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 30. ledna 2022; ověření vyžaduje 1 úpravu .

TF-IDF (z angličtiny TF - termín frekvence, IDF - inverse document frequency ) je statistická míra používaná k hodnocení důležitosti slova v kontextu dokumentu , který je součástí kolekce dokumentů nebo korpusu . Váha slova je úměrná četnosti výskytu tohoto slova v dokumentu a nepřímo úměrná četnosti výskytu slova ve všech dokumentech sbírky.

Měření TF-IDF se často používá v úlohách analýzy textu a vyhledávání informací , například jako jedno z kritérií pro relevanci dokumentu pro vyhledávací dotaz při výpočtu míry blízkosti dokumentů během shlukování .

Struktura vzorce

TF ( term frequency - word frequency) - poměr počtu výskytů určitého slova k celkovému počtu slov v dokumentu. Hodnotí se tedy důležitost slova v rámci jednoho dokumentu. $t_{{i}}$

{\displaystyle \mathrm {tf} (t,d)={\frac {n_{t)){\sum _{k}n_{k))))

kde je počet výskytů slova v dokumentu a jmenovatel je celkový počet slov v dokumentu. $n_t$ $t$

IDF ( inverse document frequency - inverse document frequency) - převrácení frekvence, s jakou se určité slovo vyskytuje v dokumentech sbírky. Zakladatelkou tohoto konceptu je Karen Spark Jones [1] . Účtování IDF snižuje váhu běžně používaných slov. V rámci dané kolekce dokumentů existuje pouze jedna hodnota IDF pro každé jedinečné slovo.

\mathrm {idf} (t,D)=\log {\frac {|D|}{|\{\,d_{i}\in D\mid t\in d_{i}\,\} |}}

, [2]

kde

|D| — počet dokumentů ve sbírce;
$|\{\,d_{i}\in D\mid t\in d_{i}\,\}|$ je počet dokumentů z fondu , ve kterém se vyskytuje (kdy ). $D$ $t$ $n_{t}\neq 0$

Na volbě základu logaritmu ve vzorci nezáleží, protože změna základu mění váhu každého slova konstantním faktorem, který neovlivňuje váhový poměr.

Měření TF-IDF je tedy výsledkem dvou faktorů:

\operatorname {tf-idf}(t,d,D)=\operatorname {tf}(t,d)\times \operatorname {idf}(t,D)

Vysoká váha v TF-IDF bude dána slovům s vysokou frekvencí v konkrétním dokumentu a nízkou frekvencí v jiných dokumentech.

Numerická aplikace

Existují různé vzorce založené na metodě TF-IDF. Liší se koeficienty, normalizacemi, použitím logaritmických škál. Zejména vyhledávač Yandex používal normalizaci pro nejčastější výraz v dokumentu po dlouhou dobu. .

Jednou z nejpopulárnějších receptur je receptura BM25 .

Příklad

Pokud dokument obsahuje 100 slov a slovo [3] "zajíc" se v něm vyskytuje 3x, pak frekvence slov (TF) pro slovo "zajíc" v dokumentu bude 0,03 (3/100). Spočítejme IDF jako dekadický logaritmus poměru počtu všech dokumentů k počtu dokumentů obsahujících slovo „zajíc“. Pokud je tedy „zajíc“ obsažen v 1000 dokumentech z 10 000 000 dokumentů, pak se IDF bude rovnat: log(10 000 000/1000) = 4. Pro výpočet konečné hodnoty váhy slova je třeba TF vynásobit IDF. V tomto příkladu by váha TF-IDF pro slovo „zajíc“ ve vybraném dokumentu byla: 0,03 × 4 = 0,12.

Aplikace ve vektorovém prostorovém modelu

Míra TF-IDF se často používá k reprezentaci dokumentů v kolekci jako číselných vektorů, které odrážejí důležitost použití každého slova z nějaké sady slov (počet slov v sadě určuje rozměr vektoru) v každém dokumentu. Takový model se nazývá vektorový model a umožňuje porovnávat texty porovnáváním vektorů, které je reprezentují v nějaké metrice ( Euklidovská vzdálenost , kosinusová míra , Manhattanská vzdálenost , Čebyševova vzdálenost atd.), tedy provádění shlukové analýzy .

Viz také

Poznámky

↑ Jones, 2004 .
↑ Některé verze vzorce nepoužívají logaritmy.
↑ Obvykle jsou slova před analýzou dokumentu uvedena do normálního tvaru morfologickým analyzátorem.

Literatura

Jones KS Statistická interpretace specifičnosti termínu a její aplikace při vyhledávání (anglicky) // Journal of Documentation: journal. - Univerzita MCB: MCB University Press, 2004. - Sv. 60 , č. 5 . - S. 493-502 . — ISSN 0022-0418 .
Salton J.Dynamické systémy vyhledávání knihoven. M.: - Mir, 1979.
Salton, G. a McGill, MJ 1983 Úvod do moderního vyhledávání informací . McGraw-Hill, ISBN 0-07-054484-0 .
Salton, G., Fox, EA a Wu, H. 1983 Extended Boolean information retrieval. komunální. ACM 26, 1022-1036.
Salton, G. a Buckley, C. 1988 Přístupy vážení termínů v automatickém vyhledávání textu. Information Processing & Management 24 (5): 513-523
Fedorovsky A.N., Kostin M.Yu. Mail.ru v ROMIP -2005 // v sobotu. "Proceedings of ROMIP'2005" Sborník z třetího ruského semináře o hodnocení metod vyhledávání informací. Ed. I. S. Nekrestyanova, s. 106-124, Petrohrad: Výzkumný ústav chemie, St. Petersburg State University, 2005.