查看单个帖子
aspirer
 
aspirer 的头像
支柱会员
 
资 料:
注册日期: Feb 2011
帖子: 5,007 声望值: 4
精华: 1,解答: 22
#9 旧 2019-01-22, 22:41:45 默认
aspirer 当前离线  

引用:
作者: netsonic 查看帖子
网页源码.TXT放在F盘根目录下,
Python 3.7.1 IDLE打开code.py,没反应啊。
我这一切正常啊。

可能1是头部我没有加。
2有可能是文件编码问题。
先加上头部 # -*- coding: utf-8 -*-试试。
不行,就 加上 encoding='gbk'
即那一行换成 with open(txt,encoding='gbk') as f:

代码:
# -*- coding: utf-8 -*-
"""
Created on Sat Jan 19 23:31:51 2019

@author: aspirer
"""

import re

txt=r"G:\\TEMP\网页源码.TXT"
with open(txt) as f:
    url_list=[]
    for line in f:
        urls =  re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', line)
        if urls: 
            urls=[x for x in urls if 'https://v.qq.com/x/page/' in x]
            url_list.extend(urls)
    #print(list(set(url_list)))

    #要一行一个用下面的打印
    for x in url_list:
        print(x)


朋友,你好……
回复时引用此帖