Tesseract

Tesseract


Typ	optické rozpoznávání znaků
Vývojáři	Hewlett-Packard , Google
Zapsáno v	C++
Rozhraní	příkazový řádek
Operační systém	Linux , Mac OS X a další UNIXové , Windows
První vydání	polovině 80. let
Nejnovější verze	5.2.0 ( 6. července 2022 ) [1]
Čitelné formáty souborů	Formát výměny souborů TIFF , PNG , JPEG [d] , JP2 [d] a WebP
Vygenerované formáty souborů	HOCR , prostý text , PDF , ALTO [d] a TSV
Licence	Apache 2.0
webová stránka	github.com/tesseract-ocr…
Mediální soubory na Wikimedia Commons

Tesseract (z angličtiny - " tesseract ", z jiného řečtiny. τέσσαρες ἀκτῖνες - "čtyři paprsky") je bezplatný počítačový program pro rozpoznávání textu , vyvinutý společností Hewlett-Packard od poloviny 80. do poloviny 90. let a poté 10. "leží na polici." V srpnu 2006 jej koupil Google a otevřel zdrojový kód pod licencí Apache 2.0 [2] pro další vývoj. V tuto chvíli již program pracuje s UTF-8, jazyková podpora (včetně ruštiny od verze 3.0 [3] [4] ) je realizována pomocí přídavných modulů.

Historie

Jádro programu Tesseract bylo vyvinuto v Hewlett Packard's Bristol Laboratory a v Hewlett Packard Co, Greeley , Colorado v letech 1985-1994. V roce 1996 došlo k významným změnám a byl připraven port pro Windows. Poté, od roku 1998, částečná migrace z C do C++. Významná část kódu byla původně napsána v C, ale byla provedena vylepšení pro kompatibilitu s kompilátory C++. [2]

Tesseract 3.0 je v současnosti postaven na Linuxu s GCC 2.95 a novějším a na Windows s Visual C++ 2008 Express a novějším (podpora Visual C++ 6 byla odstraněna ve verzi 3.0 [3] ).

V současné době je nejnovější verzí Tesseract 5.0 založená na LSTM [5] .

Grafická rozhraní pro Tesseract

Pro Linux

Pro Windows

Stránky založené na enginu Tesseract

Závislosti

Leptonica

Zajímavosti

Tesseract používá správce stahování Tucan Manager pro rozpoznávání textu v testech CAPTCHA .

Poznámky

↑ https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
↑ 1 2 Vincent, Luc oznamuje Tesseract OCR (srpen 2006). Získáno 26. června 2008. Archivováno z originálu 18. března 2012. (neurčitý)
↑ Vydán 12 Tesseract 3.00 . Získáno 5. října 2010. Archivováno z originálu 9. října 2010. (neurčitý)
↑ Stránka ke stažení Tesseract . Archivováno z originálu 18. března 2012. (neurčitý)
↑ TESSERACT(1) Manuální stránka . Staženo 12. ledna 2019. Archivováno z originálu 5. května 2020.

Odkazy

Software pro optické rozpoznávání znaků

volný, uvolnit

CuneiForm
GOCR
Ocrad
OCRopus
Tesseract

Grafická rozhraní	OCR podavač YAGF

proprietární

Kognitivní formy
Zkušenosti
FineReader
Microsoft Office Document Imaging
OmniPage
Readiris
readsoft
simpleocr
Smart IDReader
SmartScore
ViewWise