. : : ClassiClub ForuM : : .

会员中心 论坛帮助 日历事件 标记论坛已读
返回   精品技术论坛 » 技术论坛 » 『软件使用』

『软件使用』: 电脑软件推荐, 电脑软件使用, 经验分享



发表新主题 关闭主题
 
主题工具
云飞
 
云飞 的头像
支柱会员
 
资 料:
注册日期: May 2001
帖子: 5,397 声望值: 3
精华: 0
#1 旧 2011-12-02, 15:46:17 默认 【求助】PDF文件中文字复制出来为乱码
云飞 当前离线  

一个PDF文件,没有加密,安全性中显示为可复制。但复制出来后为乱码。
另存为TXT文本也为乱码。
应该如何解决呀。


微信yunfei2011
caiyj
 
caiyj 的头像
热心会员
 
资 料:
注册日期: Mar 2003
帖子: 2,531 声望值: 6
精华: 0,解答: 8
#2 旧 2011-12-02, 21:31:26 默认
caiyj 当前离线  

如果PDF内嵌字体和系统字体不一样,这个问题是无解的。
用截图然后OCR吧。
is286
 
is286 的头像
热心会员
 
资 料:
注册日期: Sep 2009
帖子: 13,290 声望值: 4
精华: 2,解答: 50
#3 旧 2011-12-02, 21:37:29 默认
is286 当前离线  

ocr识别是最好的办法,对于图型类的PDF
windchill
 
windchill 的头像
热心会员
 
资 料:
注册日期: Feb 2001
帖子: 10,981 声望值: 10
精华: 2,解答: 2
#4 旧 2011-12-03, 00:25:53 默认
windchill 当前离线  

引用:
作者: 云飞 查看帖子
一个PDF文件,没有加密,安全性中显示为可复制。但复制出来后为乱码。
另存为TXT文本也为乱码。
应该如何解决呀。
这本身就是一种“加密”技术,替换了字体内码,使得你复制出来后就乱了。只能OCR了这种情况。


安徽农民,种棉花出身的。
云飞
 
云飞 的头像
支柱会员
 
资 料:
注册日期: May 2001
帖子: 5,397 声望值: 3
精华: 0
#5 旧 2011-12-03, 22:54:34 默认
云飞 当前离线  

引用:
作者: windchill 查看帖子
这本身就是一种“加密”技术,替换了字体内码,使得你复制出来后就乱了。只能OCR了这种情况。
没有其他解决办法吗?
云飞
 
云飞 的头像
支柱会员
 
资 料:
注册日期: May 2001
帖子: 5,397 声望值: 3
精华: 0
#6 旧 2011-12-03, 22:55:06 默认
云飞 当前离线  

引用:
作者: caiyj 查看帖子
如果PDF内嵌字体和系统字体不一样,这个问题是无解的。
用截图然后OCR吧。
能让字体一致吗?
windchill
 
windchill 的头像
热心会员
 
资 料:
注册日期: Feb 2001
帖子: 10,981 声望值: 10
精华: 2,解答: 2
#7 旧 2011-12-04, 01:58:04 默认
windchill 当前离线  

引用:
作者: 云飞 查看帖子
没有其他解决办法吗?
引用:
作者: 云飞 查看帖子
能让字体一致吗?
这种技术的原理不复杂,假如本来内码“0101”对应的宋体是“云”,“0102”对应的宋体是“飞”,现在在生成这个PDF时,临时将这个PDF中的内容“0101、0102”的内容替换为“0708、0605”,同时将内嵌的字体也进行更改,将内码0708对应的宋体显示为“云”,“0605”对应的宋体显示“飞”。

等你复制出来,其内码为“0708”、“0605”,而这两个内码在你系统中对应的是其他的字。

这种置换是随机的,只要保证在每个PDF文件生成时一致更换,就不影响显示,但你复制出来后,就无法推导回去,是不可逆的。

所以,无解。
ebirdcn
 
ebirdcn 的头像
热心会员
 
资 料:
注册日期: Oct 2001
帖子: 4,562 声望值: 8
精华: 2,解答: 6
#8 旧 2011-12-04, 08:10:24 默认
ebirdcn 当前离线  

如果用pdf-word软件呢,反正你只是要内容,排版么,可能会乱了


宝贝的蓝
ASBai
 
ASBai 的头像
热心会员
 
资 料:
注册日期: May 2005
帖子: 4,700 声望值: 5
精华: 18,解答: 26
#9 旧 2011-12-04, 15:19:50 默认
ASBai 当前离线  

引用:
作者: windchill 查看帖子
这种技术的原理不复杂,假如本来内码“0101”对应的宋体是“云”,“0102”对应的宋体是“飞”,现在在生成这个PDF时,临时将这个PDF中的内容“0101、0102”的内容替换为“0708、0605”,同时将内嵌的字体也进行更改,将内码0708对应的宋体显示为“云”,“0605”对应的宋体显示“飞”。

等你复制出来......
有这样的转换工具吗?这种工具个别的时候还是有用的,推荐两个玩玩?


baiy.cn
俺的原创免费作品站
云飞
 
云飞 的头像
支柱会员
 
资 料:
注册日期: May 2001
帖子: 5,397 声望值: 3
精华: 0
#10 旧 2011-12-05, 09:03:54 默认
云飞 当前离线  

引用:
作者: ebirdcn 查看帖子
如果用pdf-word软件呢,反正你只是要内容,排版么,可能会乱了
用PDFCONVERTER试了。不行。。有的说用CAJViewer7.0。。试了。依旧是乱码。
ljs8848
 
ljs8848 的头像
荣誉版主
 
资 料:
注册日期: Mar 2002
帖子: 7,504 声望值: 2
精华: 0,解答: 6
#11 旧 2011-12-05, 09:05:41 默认
ljs8848 当前离线  

还是OCR快捷
发表新主题 关闭主题

主题工具

论坛规则  发帖规则
不可以发表主题
不可以回复帖子
不可以上传附件
不可以编辑自己的帖子
论坛启用 vB 代码
版面启用 表情符号
版面启用 [IMG] 代码
版面禁用 HTML 代码


所有时间均为北京时间, 现在的时间是 17:41:23.

本论坛带宽由迅通网络提供
SSL证书由TrustAsia提供

Copyright © 2000 - 2019 ClassiClub Forum All Rights Reserved.
粤ICP备09123456号