reCAPTCHA | |
---|---|
Typ | crowdsourcing |
Autor |
|
Vývojář | |
První vydání | 27. května 2007 |
webová stránka | google.com/recaptcha |
Mediální soubory na Wikimedia Commons |
ReCAPTCHA je systém vyvinutý na Carnegie Mellon University pro ochranu webových stránek před internetovými roboty a zároveň pomáhá při digitalizaci textů knih. Jde o pokračování projektu CAPTCHA [1] . V září 2009 společnost reCAPTCHA koupila společnost Google . Počátkem roku 2011 reCAPTCHA digitalizovala archivy The New York Times a knihy dostupné na Google Book Search .
Na jaře 2012 Google spustil experiment na rozpoznávání snímků z Google Maps a Google Street View pomocí služby ReCAPTCHA [2] . Od července 2013 služba ReCAPTCHA nadále nabízí k rozpoznání fragmenty obrázků z Google Street View; zpravidla se jedná o fragmenty, které ukazují čísla budov. Původní motto ReCAPTCHA – Stop Spam, Read Books – tedy dnes nemá moc společného s tím, k čemu tento systém vlastně slouží.
Na samém začátku roku 2015 byla aktualizována ReCAPTCHA. Nyní je uživatel vyzván k jednoduchému zaškrtnutí políčka , po kliknutí na zaškrtávací políčko může být uživatel vyzván k výběru všech obrázků, které spadají do předem stanovených podmínek – například vybrat všechny motocykly .
ReCAPTCHA je softwarem OCR prakticky neoklamán . Druhé slovo je převzato ze zdroje vyžadujícího rozpoznání (například kniha). Kontrola a předání „captcha“ se provádí podle slova, které je systému známé. Neznámé druhé slovo je nepovinné. Druhé slovo zadané uživatelem je uloženo v systému a použito jako možná možnost rozpoznání. Konečné rozpoznání slov se provádí výběrem slova nejčastěji používaného pro vstup. Systém reCAPTCHA poskytuje uživatelům obrázky k rozpoznání a sbírá výsledky, načež je předává organizátorům digitalizace materiálů [1] .
Systém je široce používán weby jako Facebook , TicketMaster, Twitter , StumbleUpon , Steam (10. ledna 2015), LiveJournal a přibližně 350 000 dalších stránek. Denně je digitalizováno přibližně 100 milionů slov, což by mohlo přinést přibližně 2,5 milionu knih ročně. Počet jednotlivců, kteří pomohli digitalizovat alespoň jedno slovo z knihy, se odhaduje na 750 milionů [1] . Účinnost této metody je poměrně vysoká, protože systém je vybaven několika uznávanými možnostmi.
Protože jsou slova zobrazena v náhodném pořadí, nevyhnutelně vznikají kuriózní kombinace slov. To dalo vzniknout internetovému memu „inglip“, kdy lidé pořídí screenshot dvou slov poskytovaných systémem reCAPTCHA a nakreslí vtipné kresby [1] .
Na adresu grafické verze reCAPTCHA (na obrázku je solidní džungle) se objevily vtipy jako „najdi Viet Cong “.
Když tuto službu připojíte k webu, bude vám zdarma nabídnut omezený počet žádostí. Algoritmy reCAPTCHA jsou záměrně sestaveny tak, aby uživatel zadal co nejvíce požadavků, což vede k překročení bezplatného limitu a donutí majitele webu přejít na placenou verzi. Uživatelé jsou nuceni zadat dvakrát více textu, než je požadováno pro danou formu Turingova testu , aniž by za to dostali jakoukoli odměnu. Příjmy z použitého rozpoznaného textu zůstávají společnosti Google Corporation . Ke svému fungování vyžaduje JavaScript a v případě použití zastaralého prohlížeče je návštěvník nucen aktualizovat na prohlížeč Google .
Majitelé stránek však mají právo vyhradit si volbu, jak se chránit před roboty.
S příliš častými požadavky CAPTCH ze stejné IP adresy se reCAPTCHA stává téměř nečitelným, což velmi ztěžuje jeho zadání při použití softwaru Tor (protože frekvence požadavků captcha z výstupních uzlů Tor je mnohem vyšší než z IP běžného uživatele) . V takových případech jsou navíc obě slova nabízená uživateli k rozpoznání ověřitelná, to znamená, že reCAPTCHA se začne chovat jako jakýkoli jiný systém na ochranu proti botům. Po další aktualizaci algoritmu v reCaptcha se však vstup na web stal pro mnoho uživatelů obtížným, takže pokud člověk vstoupí na web a začne řešit anti-bota, bude to příliš pomalé, ale i když tento problém vyřeší správně, anti-bot systém nebude počítat jeho odpověď vás znovu požádá o výběr správných obrázků, které se budou opět aktualizovat velmi pomalu, v důsledku toho může uživatel strávit nějaký čas (několik minut) řešením tohoto problému. Objevilo se také blokování přístupu k řešení captcha z konkrétní IP adresy, což znemožňuje jeho použití při vstupu na stránky, a přestože s dynamickou IP adresou si můžete přiřadit novou opětovným připojením, nelze použít statickou IP .
Uživatel nemusí zadávat obě slova. Jedno z nich není zaškrtnuto, je docela snadné ho rozpoznat: v různých časech bylo kontrolované slovo „hlučné“ s dvojitým obrysem, čarami a geometrickými deformacemi. V nezaškrtnutém slově se navíc někdy vyskytují interpunkční znaménka , text v jiných jazycích, matematické vzorce atd . U nezaškrtnutého slova je také možná inverze barev pozadí a písmen .
Složité neověřitelné slovo vytržené z kontextu může být špatně identifikováno. Například Captain Infernet ( Louis-Antoine Infernet , účastník bitvy u Trafalgaru ) byl někdy identifikován jako Internet [3] .
Některé obrázky jsou těžko rozpoznatelné i pro člověka. Problémy mohou být s neurčitostí otázky, např.: je nutné označit autobusy, ale na obrázku trolejbus; výběr výloh nemusí být zřejmý, pokud je zobrazen prosklený vstup do budovy.