Vyhledávání informací je proces vyhledávání nestrukturovaných dokumentárních informací , které uspokojují informační potřeby [1] , a věda o tomto vyhledávání .
Termín „vyhledávání informací“ poprvé zavedl Calvin Muers v roce 1948 ve své doktorské práci, publikované a používané v literatuře od roku 1950 .
Zpočátku byly automatizované IP systémy nebo systémy vyhledávání informací (IPS) používány pouze k vyhledávání vědeckých informací a literatury. Mnoho univerzit a veřejných knihoven začalo využívat IRS k poskytování přístupu ke knihám, časopisům a dalším dokumentům. IPS se rozšířilo s příchodem internetu a rozvojem World Wide Web . Mezi rusky mluvícími uživateli jsou nejoblíbenějšími [2] vyhledávači Yandex , Google .
Informační vyhledávání je proces identifikace v určitém souboru dokumentů ( textů ) všech těch, které se věnují zadanému tématu (předmětu), splňují předem stanovenou vyhledávací podmínku ( žádost ) nebo obsahují potřebné (odpovídající informačním potřebám) skutečnosti , informace , data .
Proces vyhledávání zahrnuje sled operací zaměřených na sběr, zpracování a poskytování informací.
Obecně se vyhledávání informací skládá ze čtyř fází:
Fulltextové vyhledávání – prohledávání celého obsahu dokumentu. Příkladem fulltextového vyhledávání je jakýkoli internetový vyhledávač, například www.yandex.ru , www.google.com . Fulltextové vyhledávání obvykle používá k urychlení vyhledávání předem vytvořené indexy . Nejběžnější technologií pro fulltextové vyhledávání indexů jsou invertované indexy .
Vyhledávání podle metadat je vyhledávání podle určitých atributů dokumentu podporovaných systémem – název dokumentu, datum vytvoření, velikost, autor atd. Příkladem vyhledávání podle atributů je vyhledávací dialog v systému souborů (například MS Windows ).
Vyhledávání obrázků – Vyhledávání podle obsahu obrázku. Vyhledávač rozpozná obsah fotografie (nahrané uživatelem nebo přidané pomocí adresy URL obrázku). Ve výsledcích vyhledávání se uživateli zobrazí podobné obrázky. Takto fungují vyhledávače: Polar Rose , Picollator atd.
Proces vyhledávání dokumentů z čistě formálních důvodů uvedených v žádosti.
Pro implementaci jsou nutné následující podmínky:
Adresy dokumentů mohou být adresy webových serverů a webových stránek a prvků bibliografického záznamu a adresy uložení dokumentů v úložišti.
Proces vyhledávání dokumentů podle jejich obsahu .
Podmínky:
Zásadní rozdíl mezi adresovým a sémantickým vyhledáváním je v tom, že při vyhledávání adres je dokument považován za objekt z hlediska formy, zatímco při sémantickém vyhledávání z hlediska obsahu.
Sémantické vyhledávání najde mnoho dokumentů bez uvedení adres.
To je zásadní rozdíl mezi katalogy a kartotékami .
Knihovna - sbírka bibliografických záznamů bez adres.
Proces prohledávání úložiště systému pro vyhledávání informací pro primární dokumenty nebo databázi sekundárních dokumentů, které odpovídají požadavku uživatele.
Tři typy vyhledávání dokumentů:
Proces zjišťování skutečností, které odpovídají žádosti o informace.
Faktická data zahrnují informace extrahované z dokumentů, primárních i sekundárních, a získané přímo ze zdrojů jejich výskytu.
Existují dva typy:
Vyhledávání informací je velký interdisciplinární obor vědy, který stojí na průsečíku kognitivní psychologie , informatiky , informačního designu , lingvistiky , sémiotiky a knihovnictví .
Informační vyhledávání je proces identifikace záznamů v informačním poli, které splňují předem stanovenou podmínku vyhledávání nebo dotaz.
IP zvažuje vyhledávání informací v dokumentech , vyhledávání dokumentů samotných, extrahování metadat z dokumentů, vyhledávání textu, obrázků, videa a zvuku v lokálních relačních databázích, v hypertextových databázích , jako je internet a lokální intranetové systémy .
Kolem pojmů získávání dat, získávání dokumentů, získávání informací a vyhledávání textu existuje určitý zmatek. Každá z těchto oblastí výzkumu má však své vlastní metodiky, postupy a literaturu.
V současné době je IP rychle se rozvíjejícím vědním oborem, jehož popularita je způsobena exponenciálním růstem objemu informací, zejména na internetu . Existuje rozsáhlá literatura a mnoho konferencí věnovaných IP. Jedním z nejznámějších je TREC , organizovaný v roce 1992 ministerstvem obrany USA ve spojení s Institute of Standards and Technology ( NIST ) s cílem konsolidovat výzkumnou komunitu a vyvinout metody pro hodnocení kvality duševního vlastnictví.
Když mluvíme o IP systémech, používají termíny request a request object .
Požadavek je formalizovaný způsob vyjádření informačních potřeb uživatele systému. Jazyk vyhledávacího dotazu se používá k vyjádření potřeby informací , syntaxe se liší systém od systému. Kromě speciálního dotazovacího jazyka vám moderní vyhledávače umožňují zadat dotaz v přirozeném jazyce .
Objekt požadavku je informační entita, která je uložena v databázi automatizovaného vyhledávacího systému. Přestože nejběžnějším objektem požadavku je textový dokument , neexistují žádná zásadní omezení. Zejména je možné vyhledávat obrázky, hudbu a další multimediální informace. Proces zadávání vyhledávacích objektů do IPS se nazývá indexování . Zdaleka ne vždy, IPS ukládá přesnou kopii objektu, často je místo toho uložena náhrada .
Ústředním úkolem IP je pomoci uživateli uspokojit jeho informační potřebu. Protože je technicky obtížné popsat informační potřeby uživatele, jsou formulovány jako dotaz, což je soubor klíčových slov, která charakterizují to, co uživatel hledá.
Klasickým problémem uživatelského rozhraní, který odstartoval vývoj tohoto oboru, je hledání dokumentů, které vyhovují dotazu v rámci určité statické kolekce dokumentů. Seznam úloh IP se však neustále rozšiřuje a nyní zahrnuje:
Některé úlohy jsou také nastaveny před IP motory pro zpracování přirozených jazyků , což zahrnuje morfologickou analýzu , řešení lexikální polysémie a tak dále.
Existuje mnoho způsobů, jak vyhodnotit, jak dobře dokumenty nalezené IPS odpovídají dotazu. Bohužel pojem míry shody dotazu, nebo jinak řečeno relevance , je subjektivní pojem a míra shody závisí na konkrétní osobě, která výsledky dotazu hodnotí.
Je definován jako poměr počtu relevantních dokumentů nalezených IPS k celkovému počtu nalezených dokumentů:
,kde je množina relevantních dokumentů v databázi a je množina dokumentů nalezených systémem.
Poměr počtu nalezených relevantních dokumentů k celkovému počtu relevantních dokumentů v databázi:
,kde je množina relevantních dokumentů v databázi a je množina dokumentů nalezených systémem.
Vypadnutí charakterizuje pravděpodobnost nalezení irelevantního zdroje a je definováno jako poměr počtu nalezených irelevantních dokumentů k celkovému počtu irelevantních dokumentů v databázi:
,kde je množina irelevantních dokumentů v databázi a je množina dokumentů nalezených systémem.
Někdy je užitečné spojit přesnost a vyvolání do jediného průměru. Pro tento účel není vhodný aritmetický průměr, protože například stačí, aby vyhledávač vrátil všechny dokumenty obecně, aby bylo zajištěno vyvolání rovné jedné s přesností blízkou nule, a aritmetický průměr přesnost a vyvolání bude alespoň 1/2. Harmonický průměr tuto nevýhodu nemá, protože s velkým rozdílem průměrných hodnot se blíží jejich minimu.
Proto je dobrým měřítkem pro společné posouzení přesnosti a vybavitelnosti F-míra , která je definována jako vážený harmonický průměr přesnosti P a vybavování R :
F -míra se obvykle zapisuje jako
U obou F - míra dává stejnou váhu přesnosti a vybavitelnosti a nazývá se vyvážená nebo -míra (je obvyklé uvádět hodnotu v dolním indexu ), výraz pro ni je zjednodušen
Použití vyvážené míry F není povinné: upřednostňuje se přesnost s větší hmotností a větší váha je věnována úplnosti.
Slovníky a encyklopedie | ||||
---|---|---|---|---|
|