2、先了解下图文识别的原理:书本级:中文,英文;简体,繁体;【人工处理】版式级:竖排,横排;有无分栏;【人工处理】行切分【软件完成】字切分【软件完成】识别:真正的OCR识别过程,图像信息还原成文本信息【软件完成】后处理:人工干预,主要集中在前四个阶段。识别精度可以达到99%----- 摘自百度百科ocr词条
3、下面具体介绍最方便的office实现图文识别:获取图像 图像载体很多,如果是电脑屏幕上的,直接屏幕截图即可,能够放大图片最好,图片要摆正,不要有角度倾斜,不要有文字以外的杂边。如果是报刊杂志,就用扫描仪或者照相机照下来,照相也要注意光线角度等等,尽量拍到最正的方位,达到不需图像修整的目的。当然能直接复制的就尝试直接复制,IE浏览器中无法复制的,火狐能够复制。图像修整 利用ps调整下图的角度、旋转、图像拉伸变换等,尽量排除形状因素。最重要的--------自动对比度,把文字和背景尽最大可能区分开来,形成较大差别,如果有笔迹记得用修复工具清除掉,手记标记会很严重的影响图像识别。注意别改变图片分辨率太严重。(此处文章不重点介绍。)导入处理图片 图片插入onenote2010,对图片右键,复制图片中的文本获取文字 随意找个空白位置粘贴文本即可人工校正 不难看出,由于没有ps处理,这个实例识别很差劲,所以人工校正是必需的。这是最快,最方便的方法快速实现图文转换的方式,如果有大批量任务的话,还是考虑下我所说的另两款软件。