Tesseract

Tesseract
Typ optické rozpoznávání znaků
Vývojáři Hewlett-Packard , Google
Zapsáno v C++
Rozhraní příkazový řádek
Operační systém Linux , Mac OS X a další UNIXové , Windows
První vydání polovině 80. let
Nejnovější verze
Čitelné formáty souborů Formát výměny souborů TIFF , PNG , JPEG [d] , JP2 [d] a WebP
Vygenerované formáty souborů HOCR , prostý text , PDF , ALTO [d] a TSV
Licence Apache 2.0
webová stránka github.com/tesseract-ocr…
 Mediální soubory na Wikimedia Commons

Tesseract  (z  angličtiny  -  " tesseract ", z jiného řečtiny. τέσσαρες ἀκτῖνες - "čtyři paprsky") je bezplatný počítačový program pro rozpoznávání textu , vyvinutý společností Hewlett-Packard od poloviny 80. do poloviny 90. let a poté 10. "leží na polici." V srpnu 2006 jej koupil Google a otevřel zdrojový kód pod licencí Apache 2.0 [2] pro další vývoj. V tuto chvíli již program pracuje s UTF-8, jazyková podpora (včetně ruštiny od verze 3.0 [3] [4] ) je realizována pomocí přídavných modulů.

Historie

Jádro programu Tesseract bylo vyvinuto v Hewlett Packard's Bristol Laboratory a v Hewlett Packard Co, Greeley , Colorado v letech 1985-1994. V roce 1996 došlo k významným změnám a byl připraven port pro Windows. Poté, od roku 1998, částečná migrace z C do C++. Významná část kódu byla původně napsána v C, ale byla provedena vylepšení pro kompatibilitu s kompilátory C++. [2]

Tesseract 3.0 je v současnosti postaven na Linuxu s GCC 2.95 a novějším a na Windows s Visual C++ 2008 Express a novějším (podpora Visual C++ 6 byla odstraněna ve verzi 3.0 [3] ).

V současné době je nejnovější verzí Tesseract 5.0 založená na LSTM [5] .

Grafická rozhraní pro Tesseract

Pro Linux Pro Windows

Stránky založené na enginu Tesseract

Závislosti

Zajímavosti

Tesseract používá správce stahování Tucan Manager pro rozpoznávání textu v testech CAPTCHA .

Poznámky

  1. https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0
  2. 1 2 Vincent, Luc oznamuje Tesseract OCR (srpen 2006). Získáno 26. června 2008. Archivováno z originálu 18. března 2012.
  3. ↑ Vydán 12 Tesseract 3.00 . Získáno 5. října 2010. Archivováno z originálu 9. října 2010.
  4. Stránka ke stažení Tesseract . Archivováno z originálu 18. března 2012.
  5. TESSERACT(1) Manuální  stránka . Staženo 12. ledna 2019. Archivováno z originálu 5. května 2020.

Odkazy