1. 运行并登陆iRemaker工具,打开pdf。在pdf视图,pdf有可能被识别成图片,点击当页图片,再使用“选中全部样式实例(Alt+A)”,点击键盘Delete,即所有此类图片全部删除。 <div align=center></div> 2. 接下来是OCR识别。可以选择一页一页识别,也可以批量几页或者全部识别。下面以全书批量识别为例,点击工具最左边一列中的视图,Ctrl+A选中全部页面,右键OCR识别,弹出另一个校对的页面。 <div align=center></div> 3. 先介绍一下这个页面。最左边一列是之前选中要识别的页面,中间是pdf视图,绿色的框线表示识别的区域,标红的字表示疑似识别错误,鼠标滑过pdf视图,文字被标绿,能定位到OCR结果视图对应文字。pdf视图不能进行删除操作。最右边是OCR结果视图,只可以进行文字编辑,不能进行删除行的操作。 <div align=center></div> 4. 下面进行OCR的校对工作。在pdf视图找到标红的文字,将鼠标光标放到上面,单击鼠标左键,会出现弹出框。 若“当前识别”正确,则点击“确认识别”; 若“当前识别”错误,“其他建议”的文字正确,可以点击这个文字,会自动出现到“输入正确文字”的框,确认无误,点击“确认更改”; 若“当前识别”错误,“其他建议”的文字也错误,可以在“输入正确文字”的框中输入,但只能输入一个字符,确认无误,点击“确认更改”; 修改之后红色标记消失,按此步骤逐一修改标红文字。 (也可以在OCR结果视图直接修改,最好是先“删除”错误字再“输入”正确的对应文字) <p style="color:red">因为存在隐藏性错误,其他未标注的文字必须逐一比对(尤其需要注意字母、标点等特殊字符),否则后果自负。(工具可以监测到用户的这一操作)。</p> <div align=center></div> <div align=center></div> <div align=center></div> 5. 检查是否有未OCR识别文字。当页标红文字全部修改之后,可以在最右边的OCR结果视图Ctrl+A全选,pdf视图中对应识别的文字会被标绿,如果有未识别的,将不会被标绿处理(如下图红框中的文字)。 <div align=center></div> 6. 添加未OCR识别文字。在pdf视图中,点击未OCR识别文字的前一个已识别文字,可以定位到OCR结果视图对应位置,在此位置之后对应添加未识别的内容即可。 <div align=center></div> <div align=center></div> 7. 保存。每修改完一页,确认无误之后,Crl+S保存,或者点击左上角的“保存当页”。再进行下一页的操作,如果忘记保存,在pdf视图(或者最左边视图)点击下一页时,同样会提示是否保存,无误点击保存即可。如果某个页面保存之后发现还有问题可以继续修改,修改之后按上述操作保存即可。保存之后会显示绿色对勾,修改过未保存则显示橘色对勾,未做任何操作(原始页面)则不显示任何符号。 <div align=center></div> <div align=center></div> 8. 全部校对完之后,关闭当前识别校对页面,回到iRemaker工具界面,发现页眉页脚的信息也识别了,可以通过重新批量划分版心,保留需要的文字部分。而且所有的段落都被识别成默认正文样式,可以先挑选几个标题设置,目的是HTML视图可以看到内容。之后再校对过程中再设置其他标题以及其他样式。 <div align=center></div> <div align=center></div> 9. 全书关联首尾段。回到iRemaker界面发现跨页段落未合并,可以使用“全文自动关联收尾段”功能。(不保证有漏关联的,校对注意查看) <div align=center></div> 10. 接下来按照掌阅的校对规范校对即可。