OCR program Tesserart
Thread poster: Milan Condak
Milan Condak
Milan Condak  Identity Verified
Local time: 10:02
English to Czech
Mar 14, 2021

Kdo má koupenou licenci pro FineReader nebo jiný fungující OCR program, může jej nadále používat. Mně už tyto programy přestaly fungovat. Proto jsem hledal náhradu.

Když jsem zpracoval 24.1.2021 BasicCAT - první dojmy

http://www.condak.cz/nove/2021-01/24/cs/02.html

Tak jsem na druhé stránce viděl položku PDF2TXT (obrázek dole).... See more
Kdo má koupenou licenci pro FineReader nebo jiný fungující OCR program, může jej nadále používat. Mně už tyto programy přestaly fungovat. Proto jsem hledal náhradu.

Když jsem zpracoval 24.1.2021 BasicCAT - první dojmy

http://www.condak.cz/nove/2021-01/24/cs/02.html

Tak jsem na druhé stránce viděl položku PDF2TXT (obrázek dole).

02 Bez nastaveného jazykového páru
Menu Tools (Nástroje)
PDF2TXT

Text z PDF hromadně extrahuji pomocí programu Balabolka nebo jednotlivě otevřu PDF v programu Sumatra a uložím jako TXT.

Pokud má soubor TXT velikost 3B, znamená to, že neobsahuje žádný text ale pouze obrázky.

Vyzkoušel jsem funkci PDF2TXT.
Jsem uživatel Windows 10. Podle pokynů jsem si měl stáhnout instalační EXE. Když to nepůjde, měl jsem stáhnou Baidu NetDisk.exe. Program má velikost 64MB. Potom bych mohl stáhnout open source OCR program Tesserart.exe, pro které je v BasicCATu rozhraní, které se otevře až po stisknutí PDF2TXT.

Rozhodl jsem se nespouštět program Baidu NetDisk.exe a najít binární soubor vytvořený od jiných autorů.

Našel jsem Windows binaries:
https://github.com/UB-Mannheim/tesseract/wiki

Program jsem nainstaloval a když jsem jej spustil v BasicCATu na anglickém PDF tak jsem získal pouze jednotlivé JPG, které autor do PDF vložil a seznam těchto JPG. Abych získal TXT, musel jsem si nejprve přečíst nápovědu. Potom jsem požádal syna, aby mi napsal BAT soubor pro spuštění Tesserartu s jedním JPG a další BAT soubor pro spuštění Tesserartu na všech JPG umístěných v jednom adresáři. Syn to zvládl.

OCR jsem vyzkoušel jak na stažených anglických a českých PDF, tak na JPG ze skeneru. Naskenoval jsem několik stránek z knihy Kapitolky z historie Petřvaldu.

Projekt programu Tesseract koordinuje Google.

Milan
Collapse


 
Milan Condak
Milan Condak  Identity Verified
Local time: 10:02
English to Czech
TOPIC STARTER
Prezentace Tesserartu Mar 22, 2021

Dokončil jsem prezentaci o používání bezplatného softwaru pro rozpoznávání textu, který je obsažen v obrázcích.

http://www.condak.cz/nove/2021-03/14/cs/00.html

Tesseract-OCR

01 Převod obrázků na text
02 Tesseract-OCR
03 Tessdata a API
04 Převod souboru PDF
05 Text a jeho strojový překlad
06 Průběh OC
... See more
Dokončil jsem prezentaci o používání bezplatného softwaru pro rozpoznávání textu, který je obsažen v obrázcích.

http://www.condak.cz/nove/2021-03/14/cs/00.html

Tesseract-OCR

01 Převod obrázků na text
02 Tesseract-OCR
03 Tessdata a API
04 Převod souboru PDF
05 Text a jeho strojový překlad
06 Průběh OCR (animace)
07 Průběh OCR (animace)
08 ePub nebo OCR

Obdobný software rozpoznává poznávací značky motorových vozidel, které mají povinnost platit dálniční poplatky.

Milan
Collapse


 
Milan Condak
Milan Condak  Identity Verified
Local time: 10:02
English to Czech
TOPIC STARTER
Oprava názvu v titulku Mar 23, 2021

Milan Condak wrote:

Dokončil jsem prezentaci o používání bezplatného softwaru pro rozpoznávání textu, který je obsažen v obrázcích.

http://www.condak.cz/nove/2021-03/14/cs/00.html

Tesseract-OCR

01 Převod obrázků na text
02 Tesseract-OCR


Všímavý čtenář si jistě všiml a ví, že "art" není "act". Dvakrát jsem v titulku zprávy chybně uvedl Tesserart místo správného názvu Tesseract. Omlouvám se. Z výše uvedeného je vidět, že přísloví "Mýlit se je lidské" je pravdivé.

Ani Tesseract není bez chyby.
Ikdyž některé chyby jsou opět výsledkem chyby uživatele. Stačí místo jazyka "eng" použít "ces" a místo anglických apostrofů dostanete české uvozovky. Stačí místo jazyka "ces" použít "eng" a česká písmena s diakritikou nejsou správně.

Milan


 
Milan Condak
Milan Condak  Identity Verified
Local time: 10:02
English to Czech
TOPIC STARTER
Čínská gratulace Apr 13, 2021

http://www.condak.cz/nove/2021-04/12/cs/00.html

Překlad obrázku

01 Zkusím vyluštit kaligrafickou gratulaci
02 OCR a překlad

Milan


 
Milan Condak
Milan Condak  Identity Verified
Local time: 10:02
English to Czech
TOPIC STARTER
Nainstahoval jsem si TesserAct-OCR znovu Jul 10, 2021

Protože mi "odešel" harddisk na pracovním notebooku, nainstahoval jsem si TesserAct-OCR znovu, tentokrát do PC. Spouštím jej opět z jednoduchého skriptu.

Při hledání programu a dat ke stažení, jsem narazil na článek bloggera Karla Sýkory, který vypátral i několik grafických uživatelkých rozhraní. Doporučuje pou
... See more
Protože mi "odešel" harddisk na pracovním notebooku, nainstahoval jsem si TesserAct-OCR znovu, tentokrát do PC. Spouštím jej opět z jednoduchého skriptu.

Při hledání programu a dat ke stažení, jsem narazil na článek bloggera Karla Sýkory, který vypátral i několik grafických uživatelkých rozhraní. Doporučuje používat program gImageReader.

https://karelsykora.blog.idnes.cz/blog.aspx?c=179837

"Projekt Tesseract, převod textu do digitální podoby
1. 03. 2011 23:58:51
Mnozí z nás se jistě dostali do situace, kdy museli převést text z obrazové přílohy do digitální podoby. Je tady jeden závažný problém, většina programů, které jsou k tomu určené, jsou komerční a tedy drahé. Alternativní řešení se přímo nabízí, je to projekt Tesseract. Navíc se dá nainstalovat jak pod Windows, tak i pod operačním systémem Linux."

"Tesseract nemá grafické uživatelské rozhraní (GUI), takže je potřeba nainstalovat ještě jeden program, který umožní práci s tímto programem. Mně se osvědčil program gImageReader. (je více možností volby pro GUI, na stránkách projektu se určitě dozvíte víc)"
--
Byl jsem na česko-polské konferenci, na které se promítaly české-polské prezentace.
Mobilem jsem několikrát vyfotil promítací plátno. Řádky textu nebyly na fotografiích zcela rovné a vodorovné. Český text byl převeden lépe než polský text. Přitom trénovaná data obou jazyků jsou srovnatelně stejně velká.

Milan
Collapse


 


There is no moderator assigned specifically to this forum.
To report site rules violations or get help, please contact site staff »


OCR program Tesserart






Anycount & Translation Office 3000
Translation Office 3000

Translation Office 3000 is an advanced accounting tool for freelance translators and small agencies. TO3000 easily and seamlessly integrates with the business life of professional freelance translators.

More info »
Trados Studio 2022 Freelance
The leading translation software used by over 270,000 translators.

Designed with your feedback in mind, Trados Studio 2022 delivers an unrivalled, powerful desktop and cloud solution, empowering you to work in the most efficient and cost-effective way.

More info »