问题:翻页链接是JS实现的,无法在rules中定义获取,通过网页分析需要爬取的页面翻页规律“index_数字.html”,度了很多,均未找到理想的答案,尤其是如何结束???
救急思路:只能通过修改start_urls 重载parse_start_url来预先生成urls的所有请求,再传给rules
37 #重载该方法实现JS翻页无法获取翻页链接的问题 ,通过修改start_urls发出请求实现翻页
38 def parse_start_url(self, response):
39 for index in range(10):
40 url = 'http://www.xxx.com/yaowen/index_'+str(index+1)+'.html'
41 yield scrapy.Request(url)
求大神给出更好的办法!!!