光学文字辨识通常简称为『OCR』是英文Optical Character Recognition的缩写。主要用途是针对既有书面的文件进行文字识别的工作。
首先文件需先通过平台型扫描仪或手持式扫描仪,将欲扫描的文件图像先行扫描成图形格式文件。由于输入文件的表面可能不干净,或是扫描仪本身扫描时造成失真现象,将可能使输入的影像存在一些污点或独立点,因此在进行文字辨识前,光学文字辨识软件会先针对扫描之文件进行倾斜校正、擦拭影像杂点或彩色处理。
接着光学文字辨识软件会进行智能型图文分离的动作,先进的核心技术会将文件中所有的文字、图形和表格分离出来,并且针对文件中部份文字笔划不连接的情况,正确地文字切割或合并。
然后光学文字辨识软件将进行文件辨识的工作,透过蒙恬领先的光学文字辨识核心技术,将迅速于文字数据库中进行文字比对,并同时透过中文校正功能,进行词库、前后文相关字词等再确认,最后精准的将辨识结果输出。用户若使用OCR辨识软件认识王,可以指定辨识结果以中文繁体或简体字输出,并直接将辨识后结果储存为Word、Excel、HTML、PDF、纯文本等格式之文件;或是使用笔式扫描输入工具超级扫译笔、迷你扫译笔同步将扫描辨识结果输出于Word、Excel、HTML等应用文件中。
这样繁琐与比对工作,透过蒙恬自行研发的光学文字辨识核心技术认识王,平均每1000字仅耗时数秒钟的时间,并保有原书面文件之文字内容、文字字体大小、颜色、图片、表格及其相对位置皆相同之电子化文件;透过超级扫译笔、迷你扫译笔,可将欲扫描的中文繁体/简体字、香港字、英文、数字及符号直接辨识成可编辑的文字,还可扫描查询中英文单字及英汉、汉英整个句子,甚至是整篇翻译,不但减轻数据输入的工作,并提高数据输入的速度,加速文件数字化的效率。
蒙恬科技自行研发的光学文字辨识核心技术,包括光学辨识技术与扫描笔光学辨识技术,皆成功地解决文件辨识输入的问题,未来蒙恬科技将更加强彩色文件的处理技术,以增加数字数据流通的方便性。