查看文章详情

电脑配置：win10系统[其他系统没有这个接口]；使用范围：多数页面没有识别

1. 运行并登陆iRemaker工具，打开pdf。在pdf视图，pdf有可能被识别成图片，点击当页图片，再使用“选中全部样式实例（Alt+A）”，点击键盘Delete，即所有此类图片全部删除。
<div align=center>![](http://img.iremaker.com/b4e7e57ce6052ca24ba3597f2f48c284f78e9e954f134a802d5a00d4540a59d6.jpg?v=FjbaDQ69ES)</div>

2. 接下来是OCR识别。可以选择一页一页识别，也可以批量几页或者全部识别。下面以全书批量识别为例，点击工具最左边一列中的视图，Ctrl+A选中全部页面，右键OCR识别，弹出另一个校对的页面。
<div align=center>![](http://img.iremaker.com/5ee058ec567a8a5d4151c9fb33fd2af66e692285bdff0a58b55a4baa002ad6a5.jpg?v=FnVRYMEyI_)</div>

3. 先介绍一下这个页面。最左边一列是之前选中要识别的页面，中间是pdf视图，绿色的框线表示识别的区域，标红的字表示疑似识别错误，鼠标滑过pdf视图，文字被标绿，能定位到OCR结果视图对应文字。pdf视图不能进行删除操作。最右边是OCR结果视图，只可以进行文字编辑，不能进行删除行的操作。
<div align=center>![](http://img.iremaker.com/656de8dc3b86b276b923e55f64d3116d28e119d3ba6ff0ae8fefa346230ec50b.jpg?v=Fr0u8S60zZ)</div>

4. 下面进行OCR的校对工作。在pdf视图找到标红的文字，将鼠标光标放到上面，单击鼠标左键，会出现弹出框。
若“当前识别”正确，则点击“确认识别”；
若“当前识别”错误，“其他建议”的文字正确，可以点击这个文字，会自动出现到“输入正确文字”的框，确认无误，点击“确认更改”；
若“当前识别”错误，“其他建议”的文字也错误，可以在“输入正确文字”的框中输入，但只能输入一个字符，确认无误，点击“确认更改”；
修改之后红色标记消失，按此步骤逐一修改标红文字。
（也可以在OCR结果视图直接修改，最好是先“删除”错误字再“输入”正确的对应文字）
<p style="color:red">因为存在隐藏性错误，其他未标注的文字必须逐一比对（尤其需要注意字母、标点等特殊字符），否则后果自负。（工具可以监测到用户的这一操作）。</p>
<div align=center>![](http://img.iremaker.com/0f662a29e0ed07bc48d70bbcceca4de9fbb78eeb5a526a1adc6de718ca853999.jpg?v=FjHQoFoWBU)</div>
<div align=center>![](http://img.iremaker.com/43bedc5047aacd44c25f2a3aedc87f08f70ccad02ecc4917400c897bc9809e41.jpg?v=FjPhBdQiMi)</div>
<div align=center>![](http://img.iremaker.com/d2ba77fe3408413c954dbe2493d063ef0f73fe24f628637a0d5bb349b8475588.jpg?v=FgYNunMYeO)</div>

5. 检查是否有未OCR识别文字。当页标红文字全部修改之后，可以在最右边的OCR结果视图Ctrl+A全选，pdf视图中对应识别的文字会被标绿，如果有未识别的，将不会被标绿处理（如下图红框中的文字）。
<div align=center>![](http://img.iremaker.com/47746f2ff2e1d8f2e39ecdad7f551e8b46172d5fcc4afe5eaa5da4d380f9ba8f.jpg?v=Fu4DuLBQBV)</div>

6. 添加未OCR识别文字。在pdf视图中，点击未OCR识别文字的前一个已识别文字，可以定位到OCR结果视图对应位置，在此位置之后对应添加未识别的内容即可。
<div align=center>![](http://img.iremaker.com/f24c174ca3636adea2a3a2a757a9b34b38bf0c0d43a359d92d31306b1fa4e0b4.jpg?v=FuI__ACB_I)</div>
<div align=center>![](http://img.iremaker.com/cc74015268ae61a96e9b2b330e5dc2e0e7f68ff5b3fd9dca45b78f27a6843457.jpg?v=Fian8sW1Y1)</div>

7. 保存。每修改完一页，确认无误之后，Crl+S保存，或者点击左上角的“保存当页”。再进行下一页的操作，如果忘记保存，在pdf视图（或者最左边视图）点击下一页时，同样会提示是否保存，无误点击保存即可。如果某个页面保存之后发现还有问题可以继续修改，修改之后按上述操作保存即可。保存之后会显示绿色对勾，修改过未保存则显示橘色对勾，未做任何操作（原始页面）则不显示任何符号。
<div align=center>![](http://img.iremaker.com/cb956801043026c9cd5669b2f190757d0dbba5a3c066d8eb85d75643b04a1107.jpg?v=FiK1-xb6wT)</div>
<div align=center>![](http://img.iremaker.com/96fb4fb098aab261c1a761c3d1aa861fa67c98b6d1ab06c565bde98e55ea0c7a.jpg?v=FvqBK9SGR2)</div>

8. 全部校对完之后，关闭当前识别校对页面，回到iRemaker工具界面，发现页眉页脚的信息也识别了，可以通过重新批量划分版心，保留需要的文字部分。而且所有的段落都被识别成默认正文样式，可以先挑选几个标题设置，目的是HTML视图可以看到内容。之后再校对过程中再设置其他标题以及其他样式。
<div align=center>![](http://img.iremaker.com/a59d5974794020dc4b0be0637a2b70296f5b0c5764c5fb08b683a21f3accbc55.jpg?v=FgsHKGmhyS)</div>
<div align=center>![](http://img.iremaker.com/7b9aa95ed51c7b37a1d3b056d86e7ebe03e3e2a19fd5d4fb70527d68f2f5eeac.jpg?v=FvNfmd-JAJ)</div>

9. 全书关联首尾段。回到iRemaker界面发现跨页段落未合并，可以使用“全文自动关联收尾段”功能。（不保证有漏关联的，校对注意查看）
<div align=center>![](http://img.iremaker.com/229aa727a24bd2861fbf5dc33ade9f9f8e468d1df9e7d91cad112866c714d218.jpg?v=FoW1OGr1h4)</div>

10. 接下来按照掌阅的校对规范校对即可。

Hi, Friend~

OCR的多页识别功能运用

作者

相关文章

热门标签