. : : ClassiClub ForuM : : .

会员中心 论坛帮助 日历事件 标记论坛已读
返回   精品技术论坛 » 技术论坛 » 『软件使用』

『软件使用』: 电脑软件推荐, 电脑软件使用, 经验分享



发表新主题 关闭主题
 
主题工具
sean500
 
sean500 的头像
热心会员
 
资 料:
注册日期: Sep 2001
帖子: 6,562 声望值: 4
精华: 0,解答: 24
#16 旧 2011-08-29, 13:46:18 默认
sean500 当前离线  

希望楼上的教程,可以用来对付更多的图片网站


Have a Nice Day!
namejm
 
namejm 的头像
超级会员
 
资 料:
注册日期: Apr 2009
帖子: 1,370 声望值: 3
精华: 21,解答: 83
#17 旧 2011-08-29, 14:49:56 默认
namejm 当前在线  

顺手做了一个统计
截至目前为止
帖子列表网页数为753页,大小在65~83K之间,目测平均值为75K左右,总下载量56.2M,耗时2小时45分钟;
带附件的主题帖共14,476个,而每个帖子可能有多个分页,若有多个分页的话,分页的大小在40~170K之间,目前正在下载主题帖页面,主题帖各分页的总量没法统计,其平均值无法统计,2个小时又10分钟过去了,第1个页面列表中带附件的主题帖网页文件还没下载完毕。753*3=2259小时,我开始冒汗。
附件总计998,956个,推测全是jpg图片,但是也不排除有其他格式的可能,根据前期的测试结果,每个jpg小的20多K,大的200来K,200K左右的应当是主流,我这里wget下载的速度稳定在20K/s左右,998956*200/20/(60*60)≈2275小时
2259+2275=4534小时,合计189个日日夜夜,我的天呐,刹那间,我内牛满面。
看来不能仅仅指望wget这个小水管了
还是得出动专业的下载软件才能尽快搞定
思路转换ing
但是只能把下载图片这部分任务交给迅雷之类的软件
前期用批处理下载主题帖的那2000多个小时是无法避免的
只能指望wget能达到1M/s的速度了

此帖于 2011-08-29 18:23:56 被 namejm 编辑. .


TotalCommder、EveryThing、batch、AutoHotKey、EverEdit
精通Word、Excel、PPT的安装与卸载
熟练掌握VB、C++、SQL的拼读与缩写
namejm
 
namejm 的头像
超级会员
 
资 料:
注册日期: Apr 2009
帖子: 1,370 声望值: 3
精华: 21,解答: 83
#18 旧 2011-08-29, 15:28:29 默认
namejm 当前在线  

为了方便日后下载更新后的内容
需要按照主题帖发表日期重新生成每个列表页面的内容
而不是目前这样按照回帖日期来排列
楼主能不能给个按主题帖发表日期查询的url地址?
我没注册,没法弄到这个地址
namejm
 
namejm 的头像
超级会员
 
资 料:
注册日期: Apr 2009
帖子: 1,370 声望值: 3
精华: 21,解答: 83
#19 旧 2011-08-29, 15:35:06 默认
namejm 当前在线  

引用:
作者: sean500 查看帖子
希望楼上的教程,可以用来对付更多的图片网站
关于抓取网站上数据的教程
我已经在论坛发了好几篇了
内容从抓小说、抓医院地址信息到抓MP3,不一而足
搜狐、百度等各大网站都曾惨遭本人毒手
万变不离其宗
只要看过,基本上都知道该按照什么套路出手
不过需要熟悉批处理,还要懂一点网页代码和网络协议
本人对网络协议之类的仅粗通皮毛
每每抓取网站数据的时候,都是痛不欲生
熬成熊猫眼是常有的事情
JustZiya
 
JustZiya 的头像
中级会员
 
资 料:
注册日期: Nov 2009
帖子: 279 声望值: 3
精华: 1,解答: 9
#20 旧 2011-08-29, 18:15:31 默认
JustZiya 当前离线  

python之类的多线去跑吧...


给岁月以文明,给时光以生命
namejm
 
namejm 的头像
超级会员
 
资 料:
注册日期: Apr 2009
帖子: 1,370 声望值: 3
精华: 21,解答: 83
#21 旧 2011-08-29, 18:23:36 默认
namejm 当前在线  

从下载帖子列表到下载带附件的主题帖直至最终抓取jpg图片
终于用纯批处理+wget跑了一个完整的流程
11:37~13:22,下载帖子列表网页文件,753个页面,抓取数据56M,耗时2小时45分;
13:22~15:52,下载帖子列表第1页上所有带附件的主题帖,主题帖24个,总页面757个,抓取数据111M,耗时2小时30分;
15:53~17:47,下载24个主题帖中的4291张jpg图片,抓取数据306M,耗时1小时54分。
wget在下载图片时平均约45K/s的速度,很多时候高达100+K/s,能有这样的表现已经非常令人满意了,只是大量的时间耗费在频繁启动进程上面
经过这轮测试
我对用纯批处理+wget来下载已经没有太多的信心
——数据量太大了,111M*753仅仅是网页文件的数值,jpg图片306M*753何等的壮观啊!
那么多数据,500G的硬盘立马被吃掉一大半,wget不知道要拉到猴年马月
namejm
 
namejm 的头像
超级会员
 
资 料:
注册日期: Apr 2009
帖子: 1,370 声望值: 3
精华: 21,解答: 83
#22 旧 2011-08-29, 18:25:19 默认
namejm 当前在线  

引用:
作者: JustZiya 查看帖子
python之类的多线去跑吧...
貌似wget也有多线程
正在参悟手册ing
——不懂鸟语的人在网上真不好混啊
element
 
element 的头像
合作伙伴
 
资 料:
注册日期: Jun 2002
帖子: 2,589 声望值: 5
精华: 2,解答: 29
#23 旧 2011-08-29, 19:28:56 默认
element 当前离线  

namejm把测试好的东西给共享一下,有需要的人慢慢就是。。。当然如果能多线程更好,没有问题也不大。
namejm
 
namejm 的头像
超级会员
 
资 料:
注册日期: Apr 2009
帖子: 1,370 声望值: 3
精华: 21,解答: 83
#24 旧 2011-08-29, 22:08:29 默认
namejm 当前在线  

等楼主或者哪个谁提供一个能按照主题帖发表日期升序排列的访问地址出来
准备做个具有变形的“断点续传”功能的版本出来
可以保存下载进度
想什么时候下就什么时候接着上次的下
帖子内容有了更新只下载更新的部分
岂不快哉?
现在这个版本太傻了
只能一口气下完
中途要是挂掉了
一切只能从头下起
300多G的数据你伤不起你伤不起啊
ping
 
ping 的头像
热心会员
 
资 料:
注册日期: Feb 2002
帖子: 1,945 声望值: 6
精华: 0,解答: 2
#25 旧 2011-08-29, 23:13:26 默认
ping 当前离线  

刚运动回来,贴里已是热火朝天,人头攒动!论坛只提供点击数跟最后回复排序,发帖排序貌似不够权限,帐号密码已PM你。

另外批量的图片地址,是不是可以直接输出.lst 然后跑迅雷?


有多少能力 就办多少事!
namejm
 
namejm 的头像
超级会员
 
资 料:
注册日期: Apr 2009
帖子: 1,370 声望值: 3
精华: 21,解答: 83
#26 旧 2011-08-29, 23:38:18 默认
namejm 当前在线  

这个论坛也做得太变态了
居然不提供按发帖日期升序排列的选项
看来我的美好愿望落空了
若只能按照回帖时间罗列的话
将无法迅速检测到哪个时间段里有了哪些新主题
——虽然能查到,但是耗费的时间让人望而生畏
从而也影响到“断点续传”功能的实现
就不知道楼主需要把图片整理到什么程度了
现在的情况是
如果在代码运行期间又有了新的主题帖
或者是原有的帖子有了新回帖
将没法检测到
同时,要求代码不间断运行
如果中途暂停或终止
再次运行的时候必须从头开始
没法接着上一次的进度继续下载
如果隔上一两个月再来运行的话
上一次下载完毕的数据根本没法重复利用
一来会浪费大量的时间
另一方面也会无谓地占用硬盘空间
namejm
 
namejm 的头像
超级会员
 
资 料:
注册日期: Apr 2009
帖子: 1,370 声望值: 3
精华: 21,解答: 83
#27 旧 2011-08-29, 23:41:00 默认
namejm 当前在线  

目前可以把图片的真实地址批量整理出来供迅雷调用
但是
迅雷没法自动创建相应的目录
只能用批处理先把那些图片地址整理到相应的文件夹下
然后手工狂点按钮按日期分批导入迅雷下载
看来目前只能配合迅雷来下载比较保险点了
ping
 
ping 的头像
热心会员
 
资 料:
注册日期: Feb 2002
帖子: 1,945 声望值: 6
精华: 0,解答: 2
#28 旧 2011-08-29, 23:50:26 默认
ping 当前离线  

我是吃过这个苦头的,上次我共享的"无忧团购网图片",就是从两万多张的杂图中人工剔除一切没有参考价值的图片,花了好长时间。

之所以有重复收集的这个念头 主要是为了刷新下对室内装修的一个时代感,所以收集时间长短并不是最主要,有一点可以肯定的是就算所有图片按设定下载到本地以后,还是要经过一个人工筛选的过程,这也是后话。

所以在这个日期排序与安放的代码整理上,我认为不用太过于苛刻, 或用正则对地址列表做个时间归类,或笼统安放在年月文件夹内即可,06年到现在他们的图片存放规律还是变动不大,基本是年月日的产生,所以下次再收集,或许肉眼在图片地址上就能分辨,这样应该会简单一些。

如果考虑下次再更新的起点问题,我现在也想不到更好的建议,希望路过的各位朋友也能指点一二。
磁盘阵列
 
磁盘阵列 的头像
超级会员
 
资 料:
注册日期: Feb 2002
帖子: 1,586 声望值: 3
精华: 0,解答: 1
#29 旧 2011-08-30, 00:01:54 默认
磁盘阵列 当前离线  

很多年前的 吸血鬼3.3 可以根据下载地址 自动创建目录


看鸟之间友谊的真假,是在虫子出现的时候。看鱼之间友谊的真假,是在鱼钩出现的时候。看人之间友谊的真假,是在利益出现的时候。依法应对突发事件,积极构建和谐社会。
JustZiya
 
JustZiya 的头像
中级会员
 
资 料:
注册日期: Nov 2009
帖子: 279 声望值: 3
精华: 1,解答: 9
#30 旧 2011-08-30, 19:19:24 默认
JustZiya 当前离线  

引用:
作者: namejm 查看帖子
等楼主或者哪个谁提供一个能按照主题帖发表日期升序排列的访问地址出来
准备做个具有变形的“断点续传”功能的版本出来
可以保存下载进度
想什么时候下就什么时候接着上次的下
帖子内容有了更新只下载更新的部分
岂不快哉?
现在这个版本太傻了
只能一口气下完
中途要是挂掉了
一切只能从头下起
300多G的数据你伤不起你伤不起啊:......
往sqlite之类的本地数据库里写吧...
__________________________

终于搞明白位异或是怎么"加密"和"解密"的了...- -
发表新主题 关闭主题

主题工具

论坛规则  发帖规则
不可以发表主题
不可以回复帖子
不可以上传附件
不可以编辑自己的帖子
论坛启用 vB 代码
版面启用 表情符号
版面启用 [IMG] 代码
版面禁用 HTML 代码


所有时间均为北京时间, 现在的时间是 22:01:32.

本论坛带宽由迅通网络提供
SSL证书由TrustAsia提供

Copyright © 2000 - 2019 ClassiClub Forum All Rights Reserved.
粤ICP备09123456号