9. 版面分析完毕后,用户可以看到对应的文字块,都有对应的识别框被选择,如下图。
10. 用户此时,请注意,对应的识别框,其属性是否正确。识别框分别有“横栏”、“竖栏”、“表格”和“图像”等四种属性,分别有四种不同颜色的选框来表示。
- 6 -
11. 核对无误后,用户可以使用“识别”菜单下的“开始识别”按钮。得到的结果如下:
12. 此时实际上已
经进入文字校对状态:
- 7 -
13. 当用户校对完毕后,或者不在尚书7号内作校对,用户可以选择“输出”菜单下的“到指定格式文件”,如下“
- 8 -
用户可以看到,识别的结果,有TXT、RTF、HTML、XLS等格式可以选择。默认的输出的目录是用户计算机C盘下的SHOCR2002目录下的OUTPUT目录。用户选择一个对应的文件名,就可以存盘了。为了方便,用户可以选择“输出到外部编辑器”的选项,这样存盘的同时,尚书7号OCR会自动调出对应的编辑软件,如TXT存盘可以自动调用NOTEPAD软件,RTF存盘将自动调用WORD软件,XLS存盘将自动调用EXCEL软件。 一个简单的OCR操作就此完成了。
三、 普通文档(只含有文字)的OCR识别
1. 过程与上面所介绍,基本一样,只是用户需要注意存盘格式。
2. 一般,如果用户需要对该文字,进行重新排版工作,请用户选择TXT存盘,然后再将其内容拷贝到WORD中。 3. 如果用户希望保留稿件的原有格式,并能够作版面的恢复,请使用RTF格式存盘,该格式将有版面的恢复功能。但是用户只能针对其中的文字,作一些个别字的调整,无法作大范围的排版方式的修改。
- 9 -
四、 带表格的稿件的OCR识别
1. 其中,扫描、自动倾斜矫正过程同普通文稿是一样的。
2. 但是注意“版面分析”后,对其结果进行检查。应该在表格上,经过版面分析后,有一个兰色的框,选中了表格部分,如果不是,用户需要修改栏属性或者考虑手动划定识别区域。
3. 注意输出结果的选择,如果是需要重新排版,用户应该分别用TXT和XLS格式存盘,然后将TXT中的文字和XLS中的表格分别拷贝到WORD,进行排版。
- 10 -