引用:
作者: netsonic
网页源码.TXT放在F盘根目录下,
Python 3.7.1 IDLE打开code.py,没反应啊。
|
我这一切正常啊。
可能1是头部我没有加。
2有可能是文件编码问题。
先加上头部 # -*- coding: utf-8 -*-试试。
不行,就 加上 encoding='gbk'
即那一行换成 with open(txt,encoding='gbk') as f:
代码:
# -*- coding: utf-8 -*-
"""
Created on Sat Jan 19 23:31:51 2019
@author: aspirer
"""
import re
txt=r"G:\\TEMP\网页源码.TXT"
with open(txt) as f:
url_list=[]
for line in f:
urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', line)
if urls:
urls=[x for x in urls if 'https://v.qq.com/x/page/' in x]
url_list.extend(urls)
#print(list(set(url_list)))
#要一行一个用下面的打印
for x in url_list:
print(x)