Propojení pojmenovaných entit
Propojování pojmenovaných entit (z angl. Named entity linking , NEL ) je úkol, který spočívá v určení identity entit uvedených v textu. Vezměme si například větu "Tento víkend pojedu do Kirova." Podstatou spojení v tomto případě bude korelovat slovo „Kirov“ s městem Kirov, a ne s osobou jménem Kirov nebo s čímkoli jiným. NEL se liší od Rozpoznání pojmenované entity (NER) v tom, že NER určuje typ entity, na kterou se odkazuje (osoba, geografická poloha, organizace atd.), ale nesdružuje entitu s žádnou konkrétní entitou.
Propojení pojmenovaných entit vyžaduje znalostní bázi obsahující entity (nebo koncepty), se kterými lze odkazy propojit. Populárním řešením pro propojování entit v open source textu jsou znalostní báze založené na Wikipedii
[1]
[2] , ve kterých je každá stránka pojmenovanou entitou. NEL, které používají entity Wikipedie , se někdy označují jako wikiifikace . Znalostní základnu lze také získat automaticky z výukového textu [3] nebo sestavit ručně [4] .
Odkazy na pojmenované entity mohou být v podstatě nejednoznačné, jakákoli metoda vazby musí být schopna tuto nejednoznačnost vyřešit. K vyřešení tohoto problému bylo vyzkoušeno mnoho přístupů. Jedno plodné řešení tohoto problému navrhli Milne a Witten a bylo založeno na učení pod dohledem pomocí textu odkazu na wikipedii jako tréninkových dat.
[5]
Kulkarni a kol., použili společnou vlastnost souvisejících dokumentů k označení entit silně příbuzných typů.
[6]
Seznam nejmodernějších systémů vázání pojmenovaných entit zahrnuje AIDA,
[7]
AGDISTIS, [8]
Babelfy [9]
a TagMe. [deset]
Propojování pojmenovaných entit se používá ke zlepšení kvality systémů vyhledávání informací
[1]
a ke zlepšení kvality digitálních knihoven.
[11]
[12]
NEL je také klíčem k budování sémantického vyhledávání [13]
. Například NEL byl úspěšně aplikován na validaci výsledku metod rozpoznávání pojmenovaných entit za předpokladu, že každý text má specifický rozsah a kontext, a proto by entity uvedené v tomto textu měly mít mezi sebou sémantický vztah [14] . Měření sémantické blízkosti lze použít k odfiltrování chyb při identifikaci entit mimo kontext, i když je pro jednu zmínku možné více interpretací.
Hodnotící kampaně NEL ( Entity Linking ) organizuje americký Národní institut pro standardy a technologie ( NIST ) v rámci úkolu Knowledge Base Population konference Text Analysis.
Poznámky
- ↑ 1 2 M. A. Khalid, V. Jijkoun a M. de Rijke (2008). Vliv normalizace pojmenované entity na získávání informací pro zodpovězení otázek (mrtvý odkaz) . Proč. ECIR.
- ↑ Xianpei Han, Le Sun a Jun Zhao (2011). Propojení kolektivních entit ve webovém textu: metoda založená na grafech Archivováno 5. března 2016 na Wayback Machine . Proč. SIGIR.
- ↑ Aaron M. Cohen (2005). Normalizace pojmenovaných entit genu/proteinu bez dozoru pomocí automaticky extrahovaných slovníků. Proč. ACL -ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, pp. 17-24.
- ↑ Wikipedie
- ↑ David Milne a Ian H. Witten (2008). Naučte se propojovat s Wikipedií. Proč. CIKM.
- ↑ Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Hromadná anotace entit Wikipedie ve webovém textu . Proč. 15. mezinárodní konference ACM SIGKDD o získávání znalostí a dolování dat (KDD). DOI : 10.1145/1557019.1557073 . ISBN 9781605584959 .
- ↑ Hoffart, J., Yosef, M.A., Bordino, I., Fürstenau, H., Pinkal, M., Spaniol, M., Taneva, B., Thater, S., and Weikum, G. (2011). Robustní deambiguace pojmenovaných entit v textu Archivováno 29. března 2017 na Wayback Machine . V EMNLP
- ↑ Usbeck, R., Ngomo, AN, Röder, M., Gerber, D., Coelho, SA, Auer, S., and Both, A. (2014). AGDISTIS - grafová disambiguace pojmenovaných entit pomocí propojených dat. V ISWC Archivováno 17. listopadu 2015 na Wayback Machine
- ↑ Moro, A., Raganato, A., and Navigli, R. (2014). Entity Linking splňuje Word Sense Disambiguation: a Unified Approach Archived 13. července 2017 na Wayback Machine
- ↑ TAGME: průběžná anotace krátkých textových fragmentů! . tagme.d4science.org . Získáno 25. září 2016. Archivováno z originálu 27. září 2016. (neurčitý)
- ↑ Hui Han, Hongyuan Zha, C. Lee Giles, „Disambiguace jmen v citacích autorů pomocí metody K-way spektrálního shlukování“, ACM/IEEE Joint Conference on Digital Libraries 2005 (JCDL 2005): 334–343, 2005
- ↑ Deutsche Nationalbibliothek - Projects - Evaluation of NERD process . Datum přístupu: 25. prosince 2016. Archivováno z originálu 5. ledna 2018. (neurčitý)
- ↑ STICS . Získáno 25. prosince 2016. Archivováno z originálu 1. září 2021. (neurčitý)
- ↑ Grego, Tiago; Couto, Francisco. Identifikace chemických entit v patentových dokumentech (anglicky) // PLOS One : journal. - 2013. - doi : 10.1145/1557019.1557073 .