Tesseract | |
---|---|
Typ | optické rozpoznávání znaků |
Vývojáři | Hewlett-Packard , Google |
Zapsáno v | C++ |
Rozhraní | příkazový řádek |
Operační systém | Linux , Mac OS X a další UNIXové , Windows |
První vydání | polovině 80. let |
Nejnovější verze |
|
Čitelné formáty souborů | Formát výměny souborů TIFF , PNG , JPEG [d] , JP2 [d] a WebP |
Vygenerované formáty souborů | HOCR , prostý text , PDF , ALTO [d] a TSV |
Licence | Apache 2.0 |
webová stránka | github.com/tesseract-ocr… |
Mediální soubory na Wikimedia Commons |
Tesseract (z angličtiny - " tesseract ", z jiného řečtiny. τέσσαρες ἀκτῖνες - "čtyři paprsky") je bezplatný počítačový program pro rozpoznávání textu , vyvinutý společností Hewlett-Packard od poloviny 80. do poloviny 90. let a poté 10. "leží na polici." V srpnu 2006 jej koupil Google a otevřel zdrojový kód pod licencí Apache 2.0 [2] pro další vývoj. V tuto chvíli již program pracuje s UTF-8, jazyková podpora (včetně ruštiny od verze 3.0 [3] [4] ) je realizována pomocí přídavných modulů.
Jádro programu Tesseract bylo vyvinuto v Hewlett Packard's Bristol Laboratory a v Hewlett Packard Co, Greeley , Colorado v letech 1985-1994. V roce 1996 došlo k významným změnám a byl připraven port pro Windows. Poté, od roku 1998, částečná migrace z C do C++. Významná část kódu byla původně napsána v C, ale byla provedena vylepšení pro kompatibilitu s kompilátory C++. [2]
Tesseract 3.0 je v současnosti postaven na Linuxu s GCC 2.95 a novějším a na Windows s Visual C++ 2008 Express a novějším (podpora Visual C++ 6 byla odstraněna ve verzi 3.0 [3] ).
V současné době je nejnovější verzí Tesseract 5.0 založená na LSTM [5] .
Tesseract používá správce stahování Tucan Manager pro rozpoznávání textu v testech CAPTCHA .
Software pro optické rozpoznávání znaků | |||
---|---|---|---|
volný, uvolnit |
| ||
proprietární |
|