Penpower

服務內容 ‹ 技术授权

光学文字辨识

 
在信息爆炸的时代,一般人常常会需要阅读大量的报章杂志与书籍,遇到觉得值得保留的文章段落,或是重点佳句时,不是用笔标记下来,就是影印存盘,而对于数字工作者来说,可能会在阅读完数据之后,再重新Key-in到计算机中归档,不但费力且耗时。
 
蒙恬科技自行研发的智能型光学辨识技术,为需要处理大量书籍剪报的数字工作者以及企业用户,提供实时辨识输入解决方案。只要透过一般桌上型扫描仪搭配蒙恬OCR辨识软件认识王,或透过蒙恬笔式扫描输入工具超级扫译笔、迷你扫译笔,即可将想保存的文件立即辨识到计算机中,文件将会以『图文重现』的方式直接呈现,用户可以迅速于软件中编辑文件,甚至进行文件翻译与语音朗读文件等功能。
 
目前的光学辨识技术运用的领域已十分广泛,像是图书馆大型文献数据与剪报、企业内部文件等皆需要透过数字化的方式加以保存与管理。此外,像是电子表单、入学考试计算机卡与海关身份证确认等,皆可透过智能型光学辨识技术,不但能精准辨识数据,更能省下大量数据比对与查核的人力与时间。
  • 功能介紹
  • 流程架构
  • 应用领域

功能介紹

光学文字辨识通常简称为『OCR』是英文Optical Character Recognition的缩写。主要用途是针对既有书面的文件进行文字识别的工作。
 
首先文件需先通过平台型扫描仪或手持式扫描仪,将欲扫描的文件图像先行扫描成图形格式文件。由于输入文件的表面可能不干净,或是扫描仪本身扫描时造成失真现象,将可能使输入的影像存在一些污点或独立点,因此在进行文字辨识前,光学文字辨识软件会先针对扫描之文件进行倾斜校正、擦拭影像杂点或彩色处理。
 
接着光学文字辨识软件会进行智能型图文分离的动作,先进的核心技术会将文件中所有的文字、图形和表格分离出来,并且针对文件中部份文字笔划不连接的情况,正确地文字切割或合并。
 
然后光学文字辨识软件将进行文件辨识的工作,透过蒙恬领先的光学文字辨识核心技术,将迅速于文字数据库中进行文字比对,并同时透过中文校正功能,进行词库、前后文相关字词等再确认,最后精准的将辨识结果输出。用户若使用OCR辨识软件认识王,可以指定辨识结果以中文繁体或简体字输出,并直接将辨识后结果储存为Word、Excel、HTML、PDF、纯文本等格式之文件;或是使用笔式扫描输入工具超级扫译笔、迷你扫译笔同步将扫描辨识结果输出于Word、Excel、HTML等应用文件中。
 
这样繁琐与比对工作,透过蒙恬自行研发的光学文字辨识核心技术认识王,平均每1000字仅耗时数秒钟的时间,并保有原书面文件之文字内容、文字字体大小、颜色、图片、表格及其相对位置皆相同之电子化文件;透过超级扫译笔、迷你扫译笔,可将欲扫描的中文繁体/简体字、香港字、英文、数字及符号直接辨识成可编辑的文字,还可扫描查询中英文单字及英汉、汉英整个句子,甚至是整篇翻译,不但减轻数据输入的工作,并提高数据输入的速度,加速文件数字化的效率。
 
蒙恬科技自行研发的光学文字辨识核心技术,包括光学辨识技术与扫描笔光学辨识技术,皆成功地解决文件辨识输入的问题,未来蒙恬科技将更加强彩色文件的处理技术,以增加数字数据流通的方便性。

流程架构

应用领域

建立大型文献与剪报数据库

协助机构与图书馆,透过光学文件辨识技术,将大量报纸、中英文期刊、硕博士论文、杂志、书籍等,进行数字化文件之建档与文献保存,以利未来数据之整合与搜寻。
 

数位出版

协助出版业、报业将过去出版的文章、图书与报纸,利用光学文件辨识技术把文字输入至计算机,可供未来重新编排出版与数字化管理。
 

证件辨识

透过光学文件辨识技术,协助海关、警政单位迅速确认身份。
 

数据辨识

透过光学文件辨识技术,协助企业用户将银行票据、工商报表进行辨识并建文件。
 

企业文件电子化

协助企业将文件电子化,例如医院将检验记录电子化、证照业将证照数据电子化、企业用户将税务窗体电子化。
 

整合计算机自动文件翻译系统

将欲翻译的文章透过光学文件辨识技术输入计算机后,再配合蒙恬计算机自动实时翻译技术,进行文件实时翻译的功能。
 

整合语音文字朗读

将欲朗读的文章透过光学文件辨识技术输入计算机后,再配合蒙恬计算机语音朗读(TTS)技术,进行文件实时朗读的功能,可再次确认文件辨识的数据无误。
 

嵌入式系统OCR辨认应用

借由与照相技术的整合,利用拍摄的方式取得影像,以进行未来OCR延伸应用。