查看单个帖子
aspirer
 
aspirer 的头像
支柱会员
 
资 料:
注册日期: Feb 2011
帖子: 4,975 声望值: 4
精华: 1,解答: 22
#4 旧 2019-01-19, 23:54:36 默认
aspirer 当前离线  

代码丑一点,凑合先用一下吧. 已去重复的URL
python

代码:
import re

txt=r"G:\\TEMP\网页源码.TXT"
with open(txt) as f:
    url_list=[]
    for line in f:
        urls =  re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', line)
        if urls: 
            urls=[x for x in urls if 'https://v.qq.com/x/page/' in x]
            url_list.extend(urls)
    print(list(set(url_list)))
    
    #要一行一个再用下面的打印下
    for x in url_list:
        print(x)

此帖于 2019-01-19 23:59:18 被 aspirer 编辑. .


朋友,你好……
回复时引用此帖