泵阀技术论坛's Archiver

sxyqyh 发表于 2007-1-29 20:25

各种电子图书馆文章转为Word文档的方法

  各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无能为力;有的识别后生成的版面乱七八糟,无法使用。还在为不同格式的文件怎么变成Word文件发愁吗?现在好了,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案,帮助大家掌握正确方法,节省时间。
v8w8N/\B]   1、PDF文件的识别at)pe P.`
  1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word等中。
1ave v;C6X   2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到Word”,最后将把整个PDF文件识别输出到Word文件中。
3okkEW*n*En6Q   注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到Word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)
e3~`SAt&fLk.Y   3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)U~5Mz&W?W
  4)繁体pdf文件:用2)的方法识别到Word后,用Word中的“工具”--“语言”---“中文繁简转换” |rC q"{i3h$wf
  2、caj文件的识别:ZHgY/mKr
  1)局部文字识别:直接使用caj浏览器的ocr_#i%k&I}vo6T~
  2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样@\K;op/m.m1F6i7\
  3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为Word。)g I*P#E eo5h)u
  3、超星文件的识别:
(fE,c` }   1)局部文字识别:直接使用超星浏览器的ocr
Z~/piFhu   2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到Word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的Word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的书,识别需要几分钟的时间。N]*[ S5mv
  3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成Word0^t&chns
  4、其他情况下的识别:[ptAwc[%N4[
  使用snagit软件将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和2)一样。
.C4o&Bb$R;uW   注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和Word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2Word,以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。
i;y*^*hK0^l_E6f   针对一些问题的补充:
9Wd2}.`/vE4D }U   经过一些试验,发现microsoft Office Document Image 存在一些不稳定的问题,例如在用caj打印到Microsoft Office Document Image Writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。
BTN7FQX#e7_.t#R"O   另外页面显示大时,转化的识别率较高。c+r3`.bw
  如果页数多的文件,包括超星,如果有问题,可以分多次转化。
po2QUMB   再次补充:
rC`)S(|Z   1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。
.q/c2J p(q2v1_-c"]   2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:\windows\systems32\snagit临时文件。

yaomf3808 发表于 2007-6-14 23:05

:victory: PDF 文件的转换终于解决了。

wonderwander 发表于 2008-11-23 13:19

找的好辛苦呀,
z8W i1sN U s   终于解决了这个问题0r2qNjgb/Z
  谢谢

luo20040925 发表于 2008-12-9 19:33

果然是好东西,让俺长见识了,正愁怎么转PDF为word呢。。。

jingjinlin 发表于 2008-12-10 11:01

好东西 大家用!

非常感谢!问题被解决的就是心情爽!再次谢哈!:bb

news 发表于 2009-4-21 11:34

正在寻求这方面的知识,谢谢楼主提供的经验!!!

xiwangzhijian 发表于 2010-3-11 11:27

楼主 的关于虚拟打印方面确实令人叹服啊!!!!!

mobei 发表于 2010-8-18 13:16

不错,感谢楼主分享!{:4_129:}

页: [1]
泵阀技术论坛郑重声明:本论坛属技术交流,非赢利性论坛 拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,会员在论坛发表的言论仅代表个人观点,不代表论坛立场!
本站所有文章,发表者拥有版权,发表者拥有展示权,未经本站明确许可,任何网站不得非法盗链、转载及抄袭本站资源;转载请注明出处!
本站部分内容及所有资料来自网络,版权归原作者所有,本站仅仅提供一个观摩学习的环境,将不对任何资源负法律责任!请在下载后24小时内删除!
新疆新西北泵业有限公司
公司业务:泵类产品设计、销售、维修、技术咨询;以及泵类产品配件,机电产品、阀门、高低压电器、电线电缆、橡胶制品、化工产品、五金交电销售。
公司宗旨:依托成熟技术,质量优势支撑,专业服务所需,全力为用户解决一切能解决的问题!欢迎新老客户咨询合作,共创未来!
电话:0991-3666373 3825034 3686793 18999210600 传真:0991-3828231 联系人:王总 QQ:309803888 337250763 765870808
另:本公司与疆内石油、冶金、化工、矿山、热电等企业有良好合作关系,欢迎有实力厂家洽谈代理事宜,详情请来电咨询。

Powered by Discuz! Archiver 7.2  © 2001-2009 Comsenz Inc.