Věda

Co je OCR? »Jeho definice a význam

Anonim

OCR jsou optické rozpoznávání znaků nebo jsou ve španělštině známé také jako optické rozpoznávání znaků. OCR je software, který umožňuje rozpoznávání textu a vytváří jeho obraz, který jej transformuje na řadu znaků, a poté je ukládat v daném formátu, který lze použít v těchto programech pro úpravy textu. Jinými slovy, díky této nové technologii lze jakýkoli typ textu nebo dokumentu, včetně souborů PDF, naskenovaných papírů nebo dokonce obrázků pořízených z digitálních fotoaparátů, převést na data, aby bylo možné je upravovat.

Tento software funguje následujícím způsobem, nejprve analyzuje každou část obrazu dotyčného dokumentu; distribuovat stránku v kusech, jako jsou tabulky, obrázky, textové bloky a další; poté jsou řádky rozloženy slovy, aby se z nich později staly znaky; a protože znaky již byly označeny, provede software srovnání se skupinou obrázků vzoru. To postupuje podle řady hypotéz o tom, co každá postava je; a na základě těchto hypotéz analyzuje různé varianty dělení řádků na slova a slov do znaků. A právě po velkém počtu analýz a zpracování hypotéz program nakonec představí text, který je již rozpoznán a transformován do nového formátu.

Je třeba poznamenat, že dnes existuje řada programů, které počítačový trh nabízí na základě OCR, jako jsou OmniPage, Abbyy Fine Reader nebo READiris. YY, kteří mají schopnost nejen analyzovat a rozpoznat text jako takový, ale také rozpoznat formát a styl, ale s určitými omezeními, což vyžaduje, aby byl text po analýze upraven a provedeny úpravy, které jsou vyžadovat.