查看单个帖子
namejm
 
namejm 的头像
超级会员
 
资 料:
注册日期: Apr 2009
帖子: 1,370 声望值: 3
精华: 21,解答: 83
#21 旧 2011-08-29, 18:23:36 默认
namejm 当前离线  

从下载帖子列表到下载带附件的主题帖直至最终抓取jpg图片
终于用纯批处理+wget跑了一个完整的流程
11:37~13:22,下载帖子列表网页文件,753个页面,抓取数据56M,耗时2小时45分;
13:22~15:52,下载帖子列表第1页上所有带附件的主题帖,主题帖24个,总页面757个,抓取数据111M,耗时2小时30分;
15:53~17:47,下载24个主题帖中的4291张jpg图片,抓取数据306M,耗时1小时54分。
wget在下载图片时平均约45K/s的速度,很多时候高达100+K/s,能有这样的表现已经非常令人满意了,只是大量的时间耗费在频繁启动进程上面
经过这轮测试
我对用纯批处理+wget来下载已经没有太多的信心
——数据量太大了,111M*753仅仅是网页文件的数值,jpg图片306M*753何等的壮观啊!
那么多数据,500G的硬盘立马被吃掉一大半,wget不知道要拉到猴年马月


TotalCommder、EveryThing、batch、AutoHotKey、EverEdit
精通Word、Excel、PPT的安装与卸载
熟练掌握VB、C++、SQL的拼读与缩写