Koreference

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 16. srpna 2019; kontroly vyžadují 2 úpravy .

Koreference neboli referenční identita je vztah mezi jmény - složkami výpovědi, ve kterých jména odkazují na stejný objekt (situaci) mimojazykové reality ( referent ) [1] .

Díky koreference může být text koherentní, často, ale ne nutně, ve formě anaforického vztahu (zájmenné slovo nebo určitý význam - zájmeno ).

Příklady

Anaforický vztah „zájmenné slovo – zájmeno“: „ Kniha je na stole. Je těžká."

Anaforický vztah „význam jistoty je zájmeno“: „ Kniha je na stole. Tom je těžký."

Metonymie : " Spisovatel přiměl veřejnost číst sám ." (zde sám - díla spisovatele)

Koreference jmen při počítačovém zpracování informací

Jméno v informačních systémech s tabulkovou formou prezentace informací ( databáze , webové stránky , tabulky atd.) je reprezentováno atributem nebo sadou atributů n-tice (u jmenných frází). Znak po symbolu různá jména v takových systémech mohou být koreferenční a atributy, které je obsahují, mohou být sémanticky ekvivalentní . Například název "čisticí prostředek" odpovídá názvu "čisticí prostředek" . [2]

Nepochybně při absenci zvláštních pravidel budou koreferenční názvy provozovateli různých informačních systémů zadávat znak po znaku odlišně. Obvykle je problém určení sémantické ekvivalence symbolických atributů považován za algoritmicky neřešitelný. Na úrovni jednotlivých softwarových řešení státy i světová komunita jako celek využívají technologie, které umožňují implicitně přenést funkci porovnávání názvů na operátora počítače a prezentovat výsledek ve formě kódu, nebo v jiném algoritmicky vhodném formulář.

V Ruské federaci je každý daňový poplatník povinen mít své vlastní DIČ
Každý produkt v jakémkoli supermarketu na světě má jedinečný číselný kód zakódovaný v čárovém kódu
GOST 7.1-2003 zavádí jednotný standard pro bibliografické záznamy a bibliografické popisy
Dublin Core je standard pro popis nejširšího rozsahu síťových zdrojů
CommerceML používá různé formáty elektronické výměny dokumentace

Pokroky v počítačové analýze přirozených jazyků umožňují vytvářet informační systémy pro řešení takových problémů, kde není možné zavést kódová označení nebo standardy pojmenování. Systém Price.ru pro vyhledávání informací o zboží lze v Runetu považovat za průkopníka pro automatické porovnávání sémantiky jmen . Využívá metod systémů vyhledávání informací, což umožňuje stanovit sémantickou toleranci různých jmen.

Většina výzkumů a publikací souvisí s automatizací vytváření koreferenčních vztahů v textu v přirozeném jazyce. Použití doménově specifických sémantických modelů umožňuje efektivně provádět sémantické porovnávání názvů znak po znaku v databázích pro různé aplikované účely.

Poznámky

↑ Lingvistický encyklopedický slovník , "Coreference"
↑ Ahmed K. Elmagarmid, Panagiotis G. Ipeirotis, Vassilios S. Verykios. Detekce duplicitních záznamů: Průzkum . IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 19, č. 1, LEDEN 2007. Archivováno z originálu 22. července 2012. (neurčitý)

Literatura

Lingvistický encyklopedický slovník

Odkazy

Glosář na webu Forensic Expert, "Coreference (referenční identita")
Eric Bengtson, Dan Roth Pochopení hodnoty funkcí pro koreference rozlišení
Ermakov A. E. Referenční označení osob a organizací v ruskojazyčných mediálních textech: empirické vzory pro počítačovou analýzu
Berdnik V. L. Modely a metody pro sémantické srovnání řetězců znaků ve sbírce dokumentů