Rozpoznávání (OCR) naskenovaných dokumentů

1.Co znamená rozpoznávání (OCR) naskenovaných dokumentů?

Pod pojmem rozpoznávání rozumíme proces označovaný optické rozpoznávání znaků (OCR - Optical Character Recognition). Skenerem naskenujete jednu nebo více stran textu, příp. textu spolu s grafikou a získáte tak počítačový soubor s obrazem skenované předlohy. Rozpoznáním získáte ze souboru s obrazem naskenované předlohy text, který pak můžete např. označit myší, můžete v něm vyhledávat, přenést text do Wordu a dále ho zpracovávat a upravovat.

2.Jaké soubory umí IS rozpoznávat?

IS umí rozpoznávat obsah PDF (Portable Document Format) souborů, tj. souborů majících typicky .pdf na konci jména souboru. Budete-li chtít naskenované předlohy rozpoznat, musíte skenovacímu software sdělit, že má produkovat PDF soubor. V jednom PDF souboru může být libovolný počet naskenovaných předloh (stran textu).

Rozpoznáním lze zpracovávat i PDF soubory, které vznikly jinak než skenováním. Rozpoznat lze i PDF soubory vytvořené některými sázecími (grafickými) programy zvláště v případech, že z nich text nelze běžnými postupy získat (typicky pokud je "rozbitá" diakritika).

3.Kam IS rozpoznaný text uloží?

Rozpoznaný text se ukládá jedním ze dvou způsobů:

jako text:: IS implicitně ke každému PDF souboru vytváří jeho textový formát a ve Správci souborů textový formát najdete na stejném řádku (vedle) originálního PDF souboru. Textový formát je určen pro fulltextové vyhledávání a pro kontrolu podobných souborů.
jako dvouvrstvé PDF:: Vkladatel souboru smí ve Správci souborů požádat o vytvoření tzv. dvouvrstvého PDF. Rozpoznávací systém vytvoří nový PDF soubor, který bude obsahovat jak oskenovaný originál (v první vrstvě), tak i rozpoznaný text (ve druhé vrstvě). Tzn. že pod naskenovanými obrázky písmen jsou uloženy počítačové znaky tak, že je nyní lze vzít do myši. IS při požadavku vytvořit dvouvrstvé PDF původní PDF soubor přejmenuje na _orig.pdf a změní mu typ z application/pdf na application/octet-stream. Nový (dvouvrstvý) soubor uloží pod originálním jménem s typem application/pdf. Dále pak IS ještě z dvouvrstvého PDF automaticky vytvoří formát .txt. Ve Správci souborů pak uvidíte na řádku s PDF souborem jeho tři formáty. Soubor _orig.pdf se může zdát nadbytečný, ale zatím se provozovatelé systému neodhodlali jej automaticky rušit, protože s vytvářením dvouvrstvého PDF v ISu nejsou dlouhodobé zkušenosti a může se stát, že se dvouvrstvé PDF vytvoří v nějaké situaci špatně. Proto originál zachováváme.

4.Jak o rozpoznání souboru požádám?

IS je schopen rozpoznat PDF soubory uložené do libovolné agendy, ve které funguje Správce souborů. Tzn. ve Studijních materiálech, v Úschovně, na Mém webu, v Poskytovně, v Dokumentovém serveru atp. IS automaticky rozpoznává do formátu text. O rozpoznání do formátu text není nutné žádat.

Chcete-li vytvořit dvouvrstvé PDF, musíte požádat ve Správci souborů následovně:

Na řádku se souborem kliknete vlevo na symbol montážního klíče (Nástroje).
Kliknete na odkaz "Zařadit do fronty na rozpoznání".
Vyberete, zda chcete dvouvrstvé PDF nebo text. Zřejmě chcete dvouvrstvé PDF.
Kliknete na tlačítko "Zařadit do fronty na rozpoznání".

5.Proč nevidím odkaz "Zařadit do fronty na rozpoznání"?

Odkaz se vám nezobrazuje pravděpodobně proto, že

nemáte právo soubor spravovat: Abyste mohli nechat soubor rozpoznat, je potřeba mít právo daný soubor spravovat. V případě, že toto právo k danému souboru nemáte, nenabídne se vám odkaz "Zařadit do fronty na rozpoznání".
složka obsahuje mnoho souborů, a proto u nich nebyla přepočítána práva: Práva překontrolujete (přepočítáte) pomocí ikony montážního klíče se zaškrtávátkem v hnědé liště označující úroveň, ve které se právě nacházíte.

[1] přepočítání práv

6.Smím požádat o rozpoznání libovolného počtu souborů?

Systém dovolí požádat o rozpoznání libovolného počtu souborů, nicméně rozpoznávání souborů je řízeno prioritami. Student pro dva soubory a učitel pro dvacet souborů získá nejvyšší prioritu. Pro další soubory získáte už prioritu nižší. Při stanovování priorit se vychází z počtu souborů, které jsou aktuálně zařazené ve frontě na zpracování. Soubory, které již byly zpracovány (rozpoznány), se do výpočtu nezahrnují. Jednou přidělená priorita se nemění. Proto nemá smysl žádat o zpracování velkého počtu souborů naráz, protože další soubory by se zpracovávaly s nižší prioritou. Soubory na nižší prioritě se dostanou ke zpracování až v okamžiku, kdy systém zpracoval všechny soubory s prioritou vyšší a také zpracoval všechny soubory, kterým automaticky bez žádosti uživatele vytváří implicitní textový formát.

Je třeba upozornit, že rozpoznání jednoho souboru trvá od jednotek minut po jednotky hodin podle počtu stran a složitosti obsahu. Dobu, do které bude váš soubor rozpoznán, nelze předem určit, ani garantovat.

Správci systému budou stav rozpoznávacích front sledovat a při zjištěném dlouhodobém přeplnění front se pokusí zakoupit další servery a rozšířit tak počet serverů, které rozpoznávání provádějí.

7.Jak se dozvím, že soubor byl rozpoznán a jak rozpoznání dopadlo?

Pokud jste požádal/a o rozpoznání souboru ve Správci souborů, obdržíte po provedení rozpoznání od systému informační e-mail. Informační e-mail se posílá po zpracování každého vyžádaného souboru zvlášť.

Soubor byl buď zpracován úspěšně, nebo neúspěšně. O výsledku zpracování budete informováni v e-mailu.

Neúspěšné zpracování může mít jeden z následujících důvodů:

PDF soubor je nějakým způsobem chráněný. Např. je zašifrovaný, nebo je v něm vypnutá možnost kopírovat text (označit něco myší). Musíte dodat soubor, který není tímto způsobem chráněný.
PDF soubor neobsahuje žádný text.
PDF soubor obsahuje nečitelný text, např. rukou psaný. Rukou psaný text systém neumí rozpoznat.
Obsah souboru byl nekvalitně naskenován. Text je příliš světlý nebo kontrast kolísá.
Soubor je příliš velký. Rozpoznávací systém má pojistku, která rozpoznávání násilně ukončí po několika hodinách práce nad jedním souborem. Pokud se do té doby nestihlo soubor rozpoznat (např. 500 stran a více), prohlásí se soubor za nezpracovatelný. Přesně určit předem maximální zpracovatelný počet stran však nelze.

Je-li soubor jednou označen za neúspěšně zpracovaný, nelze znovu požádat o jeho zpracování. Uživatel by jej měl typicky upravit a zavést do systému znovu. Pak může znovu požádat.

8.Jak se dozvím, v jakém stavu je můj požadavek na rozpoznání?

V aplikaci

Informační systém Tisk Rozpoznávání (OCR)

se dozvíte stav svých žádostí vzhledem k žádostem ostatních uživatelů, zde můžete svůj požadavek na rozpoznání zrušit, uvidíte seznam souborů, které se nepovedlo úspěšně převést, a příp. můžete vyhledat PDF soubor a zařadit jej do fronty na rozpoznání. Pro zařazování do fronty na rozpoznání se preferuje postup přes Správce souborů, viz výše.