python练习题,爬虫之依次访问文件中指定的站点,并将每个站点返回的内容依次存放到不同的文件中

Linnea ·
更新时间:2024-11-13
· 595 次阅读

依次访问文件中指定的站点,并将每个站点返回的内容依次存放到不同的文件中

import urllib.request import chardet def main(): i = 0 with open("urls.txt", "r") as f: # 读取待访问的网址 # 由于urls.txt每一行一个URL # 所以按换行符'\n'分割 urls = f.read().splitlines() for each_url in urls: response = urllib.request.urlopen(each_url) html = response.read() # 识别网页编码 encode = chardet.detect(html)['encoding'] if encode == 'GB2312': encode = 'GBK' i += 1 filename = "url_%d.txt" % i with open(filename, "w", encoding=encode) as each_file: each_file.write(html.decode(encode, "ignore")) if __name__ == "__main__": main()

结果:
执行完成,并生成了三个txt文件。我的urls.txt里面只放了三个网址


作者:Molly_DD



python练习 爬虫 Python

需要 登录 后方可回复, 如果你还没有账号请 注册新账号