Optické rozpoznávání znaků

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 22. dubna 2021; kontroly vyžadují 3 úpravy .

Optické rozpoznávání znaků ( angl.optic  character recognition, OCR ) - mechanický nebo elektronický překlad obrázků ručně psaného , ​​strojopisného nebo tištěného textu do textových dat používaných k reprezentaci znaků v počítači (například v textovém editoru ). OCR se široce používá k převodu knih a dokumentů do elektronické podoby , k automatizaci podnikových účetních systémů nebo k publikování textu na webové stránce . Optické rozpoznávání znaků vám umožňuje upravovat text, vyhledávat slova nebo fráze, ukládat jej v kompaktnější podobě, zobrazovat nebo tisknout materiál bez ztráty kvality, analyzovat informace a aplikovat elektronický překlad , formátování nebo řeč na text . Optické rozpoznávání textu je zkoumaným problémem v oblasti rozpoznávání vzorů , umělé inteligence a počítačového vidění .

Systémy OCR vyžadují kalibraci pro práci s konkrétním písmem ; v raných verzích programování vyžadovalo obrázek každého znaku, program mohl pracovat pouze s jedním písmem najednou. V současnosti jsou nejrozšířenější tzv. „inteligentní“ systémy, které většinu písem rozpoznávají s vysokou mírou přesnosti. Některé systémy OCR jsou schopny obnovit původní formátování textu, včetně obrázků, sloupců a dalších netextových komponent.

Historie

V roce 1929 získal Gustav Tauschek patent na  OCR v Německu , následoval Handel ( Eng. Paul W. Handel ), který získal patent na svou metodu ve Spojených státech v roce 1933. V roce 1935 obdržel Tauschek také americký patent na svou metodu. . Taushkův stroj byl mechanické zařízení, které využívalo šablony a fotodetektor.  

V roce 1950 David H. Shepard , kryptoanalytik  z bezpečnostní agentury Spojených států amerických ozbrojených sil , poté, co analyzoval problém převodu tištěných zpráv do strojového jazyka pro počítačové zpracování, sestrojil stroj, který tento problém vyřešil. Poté, co obdržel americký patent, oznámil to Washington Daily News (27. dubna 1951) a The New York Times (26. prosince 1953). Shepard poté založil společnost vyvíjející inteligentní stroje, která brzy uvedla na trh první komerční systémy optického rozpoznávání znaků na světě.

První komerční systém byl instalován v Reader's Digest v roce 1955. Druhý systém byl prodán společnosti Standard Oil ke čtení kreditních karet pro účely kontroly. Další systémy dodávané Shepardovou společností byly prodány na konci 50. let, včetně stránkového skeneru pro americké národní letectvo , určeného ke čtení a dálnopisu psaných zpráv. IBM později získala licenci na používání Shepardových patentů.

Kolem roku 1965 se Reader's Digest a RCA spojily, aby vytvořily čtečku dokumentů OCR navrženou k digitalizaci sériových čísel kupónů Reader's Digest vrácených z reklam. Pro tisk dokumentů používala bubnová tiskárna RCA speciální písmo OCR-A . Čtečka dokumentů pracovala přímo s počítačem RCA 301 (jeden z prvních polovodičových počítačů). Rychlost stroje byla 1500 dokumentů za minutu: zkontroloval každý dokument s výjimkou těch, které nedokázal správně zpracovat.

Od roku 1965 používá poštovní služba Spojených států k třídění pošty stroje OCR na základě technologií vyvinutých výzkumníkem Yakovem Rabinovem. V Evropě byla první organizací, která používala OCR stroje, Britská pošta. Canada Post používá systémy optického rozpoznávání znaků od roku 1971. V první fázi se v třídicím centru optického systému rozpoznávání znaků přečte jméno a adresa příjemce a na obálku se vytiskne čárový kód. Nanáší se speciálním inkoustem, který je dobře viditelný pod ultrafialovým světlem . To se provádí proto, aby nedošlo k záměně s polem s adresou vyplněnou osobou, které může být kdekoli na obálce.

V roce 1974 založil Ray Kurzweil Kurzweil Computer Products a začal pracovat na vývoji prvního optického systému rozpoznávání znaků schopného rozpoznávat text vytištěný v jakémkoli fontu. Kurzweil věřil, že nejlepší aplikací této technologie by bylo vytvoření čtecího stroje pro nevidomé, který by umožnil nevidomým mít počítač, který by mohl číst text nahlas. Toto zařízení vyžadovalo vynález dvou technologií najednou – plochého CCD skeneru a syntezátoru, který převádí text na řeč. Konečný produkt byl představen 13. ledna 1976 během tiskové konference, které předsedal Kurzweil a vedoucí představitelé Národní federace nevidomých.

V roce 1978 uvedla společnost Kurzweil Computer Products na trh první komerčně úspěšný počítačový program OCR. O dva roky později Kurzweil prodal svou společnost společnosti Xerox Corporation, která měla zájem o další komercializaci OCR systémů. Kurzweil Computer Products se stal dceřinou společností Xeroxu, známé jako Scansoft.

Prvním programem, který rozpoznal azbuku, byl program AutoR ruské společnosti OKRUS. Program začal být distribuován v roce 1992, pracoval pod operačním systémem DOS a poskytoval rozpoznání přijatelné z hlediska rychlosti a kvality i na osobních počítačích IBM PC / XT s procesorem Intel 8088 na taktovací frekvenci 4,77 MHz. Na počátku 90. let Hewlett-Packard dodal své skenery na ruský trh kompletní s programem AutoR. Algoritmus „AutoR“ byl kompaktní, rychlý a plně „inteligentní“, tedy skutečně nezávislý na písmu. Tento algoritmus byl vyvinut a testován již na konci 60. let dvěma mladými biofyziky, absolventy Moskevského institutu fyziky a technologie  - G. M. Zenkinem a A. P. Petrovem. Svou metodu rozpoznávání publikovali v časopise Biophysics v čísle 12, č. 3 pro rok 1967. V současné době se Zenkin-Petrovův algoritmus používá v několika aplikačních systémech, které řeší problém rozpoznávání grafických symbolů. Na základě algoritmu byla technologie PenReader vytvořena společností Paragon Software Group v roce 1996 . G. M. Zenkin pokračoval v práci na technologii PenReader ve společnosti Paragon Software Group [1] . Technologie je použita ve stejnojmenném produktu společnosti [2] .

V roce 1993 byla vydána technologie rozpoznávání textu ruské společnosti ABBYY . Na jeho základě vznikla řada podnikových řešení a programů pro masové uživatele. Zejména program pro rozpoznávání textu ABBYY FineReader , aplikace pro rozpoznávání textových informací z mobilních zařízení a systém ABBYY FlexiCapture pro streamování dokumentů a zadávání dat. Poskytovateli licencí technologií rozpoznávání textu ABBYY OCR jsou mezinárodní IT společnosti jako Fujitsu , Panasonic , Xerox , Samsung [3] , EMC a další.

Současný stav technologie OCR

Přesné rozpoznání latinských znaků v tištěném textu je v současné době možné pouze v případě, že jsou k dispozici jasné obrázky, jako jsou naskenované tištěné dokumenty. Přesnost s touto formulací problému přesahuje 99 %, absolutní přesnosti lze dosáhnout pouze následnou lidskou editací. Problematika rozpoznávání ručně psaného "tištěného" a standardního ručně psaného textu i tištěných textů jiných formátů (zejména s velmi velkým počtem znaků) je v současnosti předmětem aktivního výzkumu.

Přesnost metod lze měřit několika způsoby, a proto se může značně lišit. Pokud například při hledání neexistujících slov narazíte na specializované slovo, které není použito pro odpovídající software, může se chyba zvýšit.

Online rozpoznávání znaků je někdy zaměňováno s optickým rozpoznáváním znaků. Poslední jmenovaná je offline metoda, která pracuje se statickou formou reprezentace textu, zatímco online rozpoznávání znaků zohledňuje pohyby při psaní. Například v online rozpoznávání pomocí PenPoint OS nebo tablet PC můžete určit, zda se řádek píše zprava doleva nebo zleva doprava.

Online systémy pro rozpoznávání rukopisu za běhu se v poslední době staly široce známými jako komerční produkty. Algoritmy takových zařízení využívají toho, že je známo pořadí, rychlost a směr jednotlivých úseků vstupních linek. Uživatel se navíc naučí používat pouze specifické formy psaní. Tyto metody nelze použít v softwaru, který používá naskenované papírové dokumenty, takže problém rozpoznání ručně psaného „tištěného“ textu je stále otevřený. Na obrázcích s ručně psaným "tištěným" textem bez artefaktů lze dosáhnout přesnosti 80% - 90%, ale s takovou přesností bude obrázek převeden s desítkami chyb na stránce. Taková technologie může být užitečná pouze ve velmi omezeném počtu aplikací.

Dalším široce zkoumaným problémem je rozpoznávání rukopisu . V současnosti je dosahovaná přesnost ještě nižší než u ručně psaného „tištěného“ textu. Vyššího skóre lze dosáhnout pouze pomocí kontextových a gramatických informací. Například během rozpoznávání je vyhledávání celých slov ve slovníku snazší než zkoušet identifikovat jednotlivé znaky z textu. Znalost gramatiky jazyka může také pomoci určit, zda je slovo slovesem nebo podstatným jménem. Tvary jednotlivých ručně psaných znaků někdy nemusí obsahovat dostatek informací k přesnému (více než 98 %) rozpoznání celého rukopisu.

Pro řešení složitějších úloh v oblasti rozpoznávání se zpravidla používají inteligentní rozpoznávací systémy, jako jsou umělé neuronové sítě .

Pro kalibraci systémů rozpoznávání textu byla vytvořena standardní databáze MNIST sestávající z obrázků ručně psaných číslic.

Poznámky

  1. Nový PenReader je nyní k dispozici pro iPhone, iPod touch a iPad . apps4all.ru. Získáno 1. února 2016. Archivováno z originálu 13. srpna 2016.
  2. Rusové vydali aplikaci pro ruční psaní na iPhone a iPad - CNews . Cnews.ru. Datum přístupu: 1. února 2016. Archivováno z originálu 17. ledna 2016.
  3. ABBYY učí Samsung Galaxy S4 rozpoznávat text na obrázcích . Získáno 3. června 2015. Archivováno z originálu 27. ledna 2016.

Viz také

Odkazy