scrapy crawlspider难题,翻页链接是JS实现的,无法在rules中定义获取,如何实现翻页???

Stephenie ·
更新时间:2024-09-20
· 982 次阅读

问题:翻页链接是JS实现的,无法在rules中定义获取,通过网页分析需要爬取的页面翻页规律“index_数字.html”,度了很多,均未找到理想的答案,尤其是如何结束???

救急思路:只能通过修改start_urls 重载parse_start_url来预先生成urls的所有请求,再传给rules

37 #重载该方法实现JS翻页无法获取翻页链接的问题 ,通过修改start_urls发出请求实现翻页 38 def parse_start_url(self, response): 39 for index in range(10): 40 url = 'http://www.xxx.com/yaowen/index_'+str(index+1)+'.html' 41 yield scrapy.Request(url)

求大神给出更好的办法!!!


作者:driverxb



js实现 scrapy rules js

需要 登录 后方可回复, 如果你还没有账号请 注册新账号