第一个爬虫——斗鱼分类下的人气排行

Akili ·
更新时间:2024-09-21
· 728 次阅读

from urllib import request from io import BytesIO import gzip import re class Spider(): def __init__(self): self.url='https://www.douyu.com/g_LOL' self.root_pattern='
([\s\S]*?)
' self.number_pattern='([\s\S]*?)' self.name_pattern='([\s\S]*?)' def __fetch_content(self): headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'} page1=request.Request(self.url,headers=headers) r=request.urlopen(page1)#加入浏览器信息 htmls=r.read()#获取字节码 buff=BytesIO(htmls) f=gzip.GzipFile(fileobj=buff) htmls=f.read().decode('utf-8')#数据被压缩过,我们要对数据进行处理。 return htmls def __analysis(self,htmls): root_htmls=re.findall(self.root_pattern,htmls) anchors=[] for origin_html in root_htmls: new_html=origin_html.replace('

','') anchors.append(new_html) print(anchors) def go(self): htmls=self.__fetch_content() self.__analysis(htmls) spider=Spider() spider.go()

以前觉得爬虫很难,完成了一个小目标之后,觉得有点小放松。

但内心却似乎感觉很朦胧。

只是冰山一角而已。


作者:小云同学



斗鱼 爬虫 分类

需要 登录 后方可回复, 如果你还没有账号请 注册新账号