Standard vyloučení robotů – standard pro omezení přístupu robotů k obsahu na http serveru pomocí textového souboru robots.txt umístěného v kořenovém adresáři webu (to znamená, že má cestu relativní k názvu webu /robots.txt). Akce souboru se nevztahuje na stránky umístěné na subdoménách .
Dodržování normy je dobrovolné. Standard byl přijat organizací W3C dne 30. ledna 1994 prostřednictvím mailing listu [email protected] a od té doby jej používá většina velkých vyhledávačů.
Soubor robots.txt se používá k částečné kontrole procházení webu vyhledávacími roboty . Tento soubor se skládá ze sady pokynů pro vyhledávače, které určují, které soubory, stránky nebo adresáře na webu nemají být požadovány.
Soubor se skládá ze záznamů. Záznamy jsou odděleny jedním nebo více prázdnými řádky (koncovka : znaky CR , CR+ LF , LF ). Každý záznam obsahuje neprázdné řádky v následujícím tvaru:
<pole>:<volitelná mezera><hodnota><volitelná mezera>kde поле je buď User-agent, nebo Disallow.
Směrnice User-agentspecifikuje roboty, kteří se musí řídit zadanými pokyny (například , , ) . User-agent: YandexUser-agent: YandexBotUser-agent: *
Porovnání se provádí jednoduchou metodou vyhledávání podřetězců. Například vstup
Disallow: /aboutodepře přístup k oddílu http://example.com/about/i souboru http://example.com/about.phpa zápisu
Disallow: /about/- pouze do sekce http://example.com/about/.
Soubor může obsahovat komentáře - část řádku, která začíná znakem #.
Nesprávně sestavený soubor robots.txt může mít negativní důsledky. Například celý web může „vypadnout“ z indexu vyhledávání . Existuje řada specializovaných online služeb pro kontrolu syntaxe a struktury souboru robots.txt:
Zakázat přístup všem robotům na celý web:
User-agent: * zakázat: /Odepřít přístup konkrétnímu robotu do adresáře /private/:
Uživatelský agent: googlebot Disallow: /private/Allow : má opačný účinek než direktiva Disallow – umožňuje přístup ke konkrétní části zdroje. Podporováno všemi hlavními vyhledávači. Následující příklad umožňuje přístup k souboru photo.html a zároveň odepře vyhledávačům přístup ke všem ostatním informacím v adresáři /album1/.
Povolit: /album1/photo.html Disallow: /album1/Crawl-delay : nastavuje dobu, po kterou musí robot čekat mezi načtením stránky. Pokud robot stahuje stránky příliš často, může to způsobit zbytečné zatížení serveru. Moderní vyhledávače však standardně nastavují dostatečné zpoždění 1-2 sekundy. Googlebot a YandexBot tuto směrnici v tuto chvíli neberou v úvahu [1] .
User-agent: * Zpoždění procházení: 10Sitemap : Umístění souborů Sitemap , které vám může přesně ukázat, co prohledávač potřebuje indexovat.
Soubor Sitemap: http://example.com/sitemap.xmlV roce 1996 byl navržen rozšířený standard robots.txt , včetně direktiv jako Request-rate a Visit-time. Například:
User-agent: * Disallow: /downloads/ Request-rate: 1/5 # download ne více než jednu stránku za pět sekund visit-time: 0600-0845 # Stránky načítat pouze mezi 6:00 a 8:45 GMT.Optimalizace pro vyhledávače | |
---|---|
Výjimky | |
Marketing |
|
Marketing ve vyhledávání |
|
Spam |
|
Odkazy |
|
jiný |
|
Web a webové stránky | |
---|---|
globálně | |
Lokálně | |
Typy stránek a služeb |
|
Tvorba a údržba | |
Typy rozložení, stránek, webů | |
Technický | |
Marketing | |
Společnost a kultura |