Vyhledávání informací

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 25. března 2019; kontroly vyžadují 12 úprav .

Vyhledávání informací je proces vyhledávání nestrukturovaných dokumentárních informací , které uspokojují informační potřeby [1] , a věda o tomto vyhledávání .

Historie

Termín „vyhledávání informací“ poprvé zavedl Calvin Muers v roce 1948 ve své doktorské práci, publikované a používané v literatuře od roku 1950 .

Zpočátku byly automatizované IP systémy nebo systémy vyhledávání informací (IPS) používány pouze k vyhledávání vědeckých informací a literatury. Mnoho univerzit a veřejných knihoven začalo využívat IRS k poskytování přístupu ke knihám, časopisům a dalším dokumentům. IPS se rozšířilo s příchodem internetu a rozvojem World Wide Web . Mezi rusky mluvícími uživateli jsou nejoblíbenějšími [2] vyhledávači Yandex , Google .

Vyhledávání informací jako proces

Informační vyhledávání je proces identifikace v určitém souboru dokumentů ( textů ) všech těch, které se věnují zadanému tématu (předmětu), splňují předem stanovenou vyhledávací podmínku ( žádost ) nebo obsahují potřebné (odpovídající informačním potřebám) skutečnosti , informace , data .

Proces vyhledávání zahrnuje sled operací zaměřených na sběr, zpracování a poskytování informací.

Obecně se vyhledávání informací skládá ze čtyř fází:

stanovení (objasnění) informačních potřeb a formulace informační žádosti;
stanovení celkového počtu možných držitelů informačních polí (zdrojů);
extrahování informací z identifikovaných informačních polí;
seznámení s přijatými informacemi a vyhodnocení výsledků vyhledávání.

Typy vyhledávání

Fulltextové vyhledávání – prohledávání celého obsahu dokumentu. Příkladem fulltextového vyhledávání je jakýkoli internetový vyhledávač, například www.yandex.ru , www.google.com . Fulltextové vyhledávání obvykle používá k urychlení vyhledávání předem vytvořené indexy . Nejběžnější technologií pro fulltextové vyhledávání indexů jsou invertované indexy .

Vyhledávání podle metadat je vyhledávání podle určitých atributů dokumentu podporovaných systémem – název dokumentu, datum vytvoření, velikost, autor atd. Příkladem vyhledávání podle atributů je vyhledávací dialog v systému souborů (například MS Windows ).

Vyhledávání obrázků – Vyhledávání podle obsahu obrázku. Vyhledávač rozpozná obsah fotografie (nahrané uživatelem nebo přidané pomocí adresy URL obrázku). Ve výsledcích vyhledávání se uživateli zobrazí podobné obrázky. Takto fungují vyhledávače: Polar Rose , Picollator atd.

Metody vyhledávání

Hledání adresy

Proces vyhledávání dokumentů z čistě formálních důvodů uvedených v žádosti.
Pro implementaci jsou nutné následující podmínky:

Má dokument přesnou adresu?
Zajištění přísného uspořádání dokumentů v úložném zařízení nebo v systémovém úložišti.

Adresy dokumentů mohou být adresy webových serverů a webových stránek a prvků bibliografického záznamu a adresy uložení dokumentů v úložišti.

Sémantické vyhledávání

Proces vyhledávání dokumentů podle jejich obsahu .

Podmínky:

Překlad obsahu dokumentů a dotazů z přirozeného jazyka do jazyka pro vyhledávání informací a sestavení vyhledávacích obrázků dokumentu a dotazu.
Kompilace popisu hledání, který specifikuje další podmínku hledání.

Zásadní rozdíl mezi adresovým a sémantickým vyhledáváním je v tom, že při vyhledávání adres je dokument považován za objekt z hlediska formy, zatímco při sémantickém vyhledávání z hlediska obsahu.

Sémantické vyhledávání najde mnoho dokumentů bez uvedení adres.

To je zásadní rozdíl mezi katalogy a kartotékami .

Knihovna - sbírka bibliografických záznamů bez adres.

Dokumentární rešerše

Proces prohledávání úložiště systému pro vyhledávání informací pro primární dokumenty nebo databázi sekundárních dokumentů, které odpovídají požadavku uživatele.

Tři typy vyhledávání dokumentů:

Knihovna, zaměřená na vyhledávání primárních dokumentů.
Bibliografické, zaměřené na vyhledávání informací o dokumentech prezentovaných ve formě bibliografických záznamů.
Hledání v archivu [3]

Věcné hledání

Proces zjišťování skutečností, které odpovídají žádosti o informace.
Faktická data zahrnují informace extrahované z dokumentů, primárních i sekundárních, a získané přímo ze zdrojů jejich výskytu.

Existují dva typy:

Dokumentárně-faktický, spočívá v hledání fragmentů textu obsahujících fakta v dokumentech.
Věcný (popis skutečností), který zahrnuje vytváření nových věcných popisů v procesu vyhledávání logickým zpracováním nalezených věcných informací.

Vyhledávání informací jako věda

Vyhledávání informací je velký interdisciplinární obor vědy, který stojí na průsečíku kognitivní psychologie , informatiky , informačního designu , lingvistiky , sémiotiky a knihovnictví .

Informační vyhledávání je proces identifikace záznamů v informačním poli, které splňují předem stanovenou podmínku vyhledávání nebo dotaz.

IP zvažuje vyhledávání informací v dokumentech , vyhledávání dokumentů samotných, extrahování metadat z dokumentů, vyhledávání textu, obrázků, videa a zvuku v lokálních relačních databázích, v hypertextových databázích , jako je internet a lokální intranetové systémy .

Kolem pojmů získávání dat, získávání dokumentů, získávání informací a vyhledávání textu existuje určitý zmatek. Každá z těchto oblastí výzkumu má však své vlastní metodiky, postupy a literaturu.

V současné době je IP rychle se rozvíjejícím vědním oborem, jehož popularita je způsobena exponenciálním růstem objemu informací, zejména na internetu . Existuje rozsáhlá literatura a mnoho konferencí věnovaných IP. Jedním z nejznámějších je TREC , organizovaný v roce 1992 ministerstvem obrany USA ve spojení s Institute of Standards and Technology ( NIST ) s cílem konsolidovat výzkumnou komunitu a vyvinout metody pro hodnocení kvality duševního vlastnictví.

Požadavek a objekt požadavku

Když mluvíme o IP systémech, používají termíny request a request object .

Požadavek je formalizovaný způsob vyjádření informačních potřeb uživatele systému. Jazyk vyhledávacího dotazu se používá k vyjádření potřeby informací , syntaxe se liší systém od systému. Kromě speciálního dotazovacího jazyka vám moderní vyhledávače umožňují zadat dotaz v přirozeném jazyce .

Objekt požadavku je informační entita, která je uložena v databázi automatizovaného vyhledávacího systému. Přestože nejběžnějším objektem požadavku je textový dokument , neexistují žádná zásadní omezení. Zejména je možné vyhledávat obrázky, hudbu a další multimediální informace. Proces zadávání vyhledávacích objektů do IPS se nazývá indexování . Zdaleka ne vždy, IPS ukládá přesnou kopii objektu, často je místo toho uložena náhrada .

Úkoly vyhledávání informací

Ústředním úkolem IP je pomoci uživateli uspokojit jeho informační potřebu. Protože je technicky obtížné popsat informační potřeby uživatele, jsou formulovány jako dotaz, což je soubor klíčových slov, která charakterizují to, co uživatel hledá.

Klasickým problémem uživatelského rozhraní, který odstartoval vývoj tohoto oboru, je hledání dokumentů, které vyhovují dotazu v rámci určité statické kolekce dokumentů. Seznam úloh IP se však neustále rozšiřuje a nyní zahrnuje:

Problémy modelování;
Klasifikace dokumentů ;
Filtrování dokumentů ;
Shlukování dokumentů ;
Navrhování architektur vyhledávačů a uživatelských rozhraní ;
Získávání informací, zejména anotace a sumarizace dokumentů;
Dotazovací jazyky atd.

Některé úlohy jsou také nastaveny před IP motory pro zpracování přirozených jazyků , což zahrnuje morfologickou analýzu , řešení lexikální polysémie a tak dále.

Hodnocení účinnosti

Existuje mnoho způsobů, jak vyhodnotit, jak dobře dokumenty nalezené IPS odpovídají dotazu. Bohužel pojem míry shody dotazu, nebo jinak řečeno relevance , je subjektivní pojem a míra shody závisí na konkrétní osobě, která výsledky dotazu hodnotí.

Přesnost

Je definován jako poměr počtu relevantních dokumentů nalezených IPS k celkovému počtu nalezených dokumentů:

{\mbox{Precision}}={\frac {|D_{{rel}}\cap \ D_{{retr}}|}{|D_{{retr}}|}}

kde je množina relevantních dokumentů v databázi a je množina dokumentů nalezených systémem. $D_{{rel}}$ $D_{{retr}}$

Úplnost (odvolání)

Poměr počtu nalezených relevantních dokumentů k celkovému počtu relevantních dokumentů v databázi:

{\mbox{Recall}}={\frac {|D_{{rel}}\cap \ D_{{retr}}|}{|D_{{rel}}|}}

kde je množina relevantních dokumentů v databázi a je množina dokumentů nalezených systémem. $D_{{rel}}$ $D_{{retr}}$

Výpadek

Vypadnutí charakterizuje pravděpodobnost nalezení irelevantního zdroje a je definováno jako poměr počtu nalezených irelevantních dokumentů k celkovému počtu irelevantních dokumentů v databázi:

{\mbox{Fall-out}}={\frac {|D_{{nrel}}\cap \ D_{{retr}}|}{|D_{{nrel}}|}}

kde je množina irelevantních dokumentů v databázi a je množina dokumentů nalezených systémem. $D_{{nrel}}$ $D_{{retr}}$

F-measure (F-measure, Van Riesbergen míra)

Někdy je užitečné spojit přesnost a vyvolání do jediného průměru. Pro tento účel není vhodný aritmetický průměr, protože například stačí, aby vyhledávač vrátil všechny dokumenty obecně, aby bylo zajištěno vyvolání rovné jedné s přesností blízkou nule, a aritmetický průměr přesnost a vyvolání bude alespoň 1/2. Harmonický průměr tuto nevýhodu nemá, protože s velkým rozdílem průměrných hodnot se blíží jejich minimu.

Proto je dobrým měřítkem pro společné posouzení přesnosti a vybavitelnosti F-míra , která je definována jako vážený harmonický průměr přesnosti P a vybavování R :

F={\frac {1}{\alpha {\frac {1}{P}}+(1-\alpha ){\frac {1}{R}}}},\qquad \alpha \in [0, jeden].

F -míra se obvykle zapisuje jako

F={\frac {(\beta ^{2}+1)PR}{\beta ^{2}P+R)),\qquad \beta ^{2}={\frac {(1-\alpha ) }{\alpha )),\quad \beta ^{2}\in [0,\infty ].

U obou F - míra dává stejnou váhu přesnosti a vybavitelnosti a nazývá se vyvážená nebo -míra (je obvyklé uvádět hodnotu v dolním indexu ), výraz pro ni je zjednodušen $\alpha = 1/2$ $\beta=1$ $F_{1}$ $\beta$

F_{1}={\frac {2PR}{P+R}}.

Použití vyvážené míry F není povinné: upřednostňuje se přesnost s větší hmotností a větší váha je věnována úplnosti. $0<\beta<1$ $\beta>1$

Viz také

Poznámky

↑ Manning et al, 2011 , pp. 23.
↑ Přechody - ANALYZETHIS.RU . Datum přístupu: 12. října 2013. Archivováno z originálu 14. října 2013. (neurčitý)
↑ Hledat dokumenty podle detailů | Federální archivní agentura . archives.ru. Staženo 1. prosince 2019. Archivováno z originálu dne 2. prosince 2019. (neurčitý)

Literatura

Baeza-Yates R., Ribeiro-Neto B. Moderní vyhledávání informací. - Addison-Wesley, 1999. - ISBN 0-201-39829-X .
Manning C., Raghavan P., Schütze H. Úvod do vyhledávání informací . - Cambridge University Press , 2008. - ISBN 0-521-86571-9 . Překlad: Manning K., Raghavan P., Schütze H. Úvod do vyhledávání informací. - Williams, 2011. - ISBN 978-5-8459-1623-5 .
Lande D. V., Snarsky A. A. , Bezsudnov I. V. Internet: Navigace ve složitých sítích: modely a algoritmy . — M.: Librokom (Editorial URSS), 2009. — 264 s. — ISBN 978-5-397-00497-8 .

Odkazy

ru_ir - komunita "Vyhledávání informací" v "LiveJournal"
Yuri Lifshits. Přednáška "Algoritmy pro Internet"
Kuralenok I. E., Nekrestyanov I. S. Recenze "Odhad systémů textového vyhledávání"

Slovníky a encyklopedie

V bibliografických katalozích
BNE : XX535604 BNF : 122132635 GND : 4072803-1 J9U : 987007550614905171 LCCN : sh85066148 NDL : 00575010 NKC : ph163856