http://www.wintone.com.cn/html/service/download/disk3.rar
下载地址4: http://www.wintone.com.cn/html/service/download/disk4.rar 下载地址5: http://www.wintone.com.cn/html/service/download/disk5.rar 下载地址6: http://www.wintone.com.cn/html/service/download/disk6.rar 我试用了一下,很好用,用于摘抄非常方便,对于那些不能直接COPY的文字,用“慧视”是最方便不过了,省去了文字的输入过程。但美中不足的是不能用于批量识别,校对也不是太方便。要用于批量文件识别,还是汉王好。
其它还有:尚书OCR、汉王OCR、蒙怡OCR、丹青OCR等。 OCR软件使用方法 请参见:
http://www.pconline.com.cn/pcedu/soft/gj/photo/10205/62741.html http://www.enet.com.cn/eschool/inforcenter/A20040412301679_2.html
如何将PDF文件转为文本? 此问题需分为两部分来解决:
一、如果PDF文档本身由WORD转成: 网上巳有很多这方面的论述,请参阅: http://www.knowsky.com/4419.html
也可用其它PDF转Word工具,如:“PDF转Word工具” http://www.cqforest.com/soft/12136.htm
二、如果PDF文档本身由扫描文件转成,用上面的方法就无效了。那就需要分几步来完成:
1,先将PDF转为图片:
可用:“Galcott PDF Converter”软件将PDF转为图片格式 http://www.jfdown.com/SoftView/SoftView_17738.html 2,再用OCR软件识别、校对: 推荐使用“汉王OCR2.5”
ftp://software@211.147.168.80/pic/hwdoc.rar
虽然汉王巳出了5300、5800、6800,但真正完全破解的只有汉王OCR2.5,用它的批文件处理模式可进行自动识别,然后再校对。
3,输出到文本:
完成识别校对后,可用我先前发的“OCR助手”软件
http://www.czzyy.com/personal/wyx/download/OCRPlus.exe 删除多余的换行符并合并导出为单个文本文件。 4,在WORD中作最后的修饰。
如何将PDG(超星格式)文件转为文本?
最简单的办法就是用超星自带的OCR进行文字识别了,不过效果和效率嘛.........
推荐的方法:
总的原理就是先把PDG转为图片,再用专业软件识别、校对,最后输出为文本。
1,将PDG转为图片 首先安装抓图软件“SnagIt”
http://www.xyzdown.com/soft/2617.htm
让你安装此软件,不是要你用它来抓超星的图的~~~,我们需要的是它的“虚拟打印”功能(安装时一定要选中安装虚拟打印)。
使用方法:在“超星”中打开需要进行格式转换的书,然后“打印”,在弹出的窗口中选择打印机时,选择“SnagIt”即可,并设置输出图片为“黑白”(如为“彩色”,那输出的文件大的可怕。),等打印结束后自动弹出SnagIt程序主界面,保存即可。
2,文字识别和校对 3,........... 4.............
请参阅上面的说明。
通过学习如何将PDF或PDG文件转换为文本文件,我们可以发现,关键是如何将源文件转换为图象格式,然后再进行文字识别,本人推荐使用SnagIt和汉王OCR,通用、快捷、方便。
如果以后遇到中国期刊网的CAJ文件、国图的NLC文件......等等等等,就不用我再.......
其它说明:
如果是要OCR PDF文件,似乎文件的大小不应成为障碍,因为我们会将PDF文件的每一页输出为一个图象文件(只要你的磁盘空间允许即可)。 如果一本书就是一个PDF文件,那操作起来会方便得多;反之,如果一本书由多个PDF文件组成,就需要进行重复的操作了。
如果你只是想要OCR其中的一部分内容,可用“打印”的方法(请参阅 http://www.cntcm.org/cgi-bin/topic.cgi?forum=6&topic=289&show=0 ),并在打印时选择相应的页码即可以了。
如果你要分割或合并PDF文件,可以用PDF Split-Merge 软件,下载地址:
http://count.skycn.com/s0ftdownl ... /HB-PDFSM11-fxj.ZIP 另外:PDF Converter 1.4的Serial: 3861794