爬虫【6】链家二手房信息和图片并保存到本地

Thadea ·
更新时间:2024-09-21
· 968 次阅读

爬虫【6】链家二手房信息和图片并保存到本地

爬虫回顾:

爬虫【1】打开网站,获取信息 爬虫【2】重构UserAgent 爬虫【3】URL地址编码 爬虫【4】爬取百度贴吧并生成静态页面 爬虫【5】爬虫猫眼电影100榜单并保存到csv 爬虫【6】链家二手房信息和图片并保存到本地 网页URL分析:

首先我们打开链家二手房的网站,选择二手房页面
在这里插入图片描述
可以看到url长这个样子,当然第一步是查看网页源代码看看是不是静态页面,如果是动态js加载的就要换方法了。
我们在获取url之后可以写这样的正则代码去匹配所有的二级页面url:

def get_urls(self, html): """ 获取二级html标签 """ html = html.decode() pattern = re.compile('', re.S) urls = pattern.findall(html) while '' in urls: urls.remove('') return urls

之后我们需要再获取二级界面里的url
这里我们选择获取里面的名字,价格和图片,名字和价格写入到csv文件中,图片单独的保存到文件当中。
在这里插入图片描述
在这里插入图片描述
经过分析我们可以写出这样的匹配方式:

def pattern_img(self, html): pattern = re.compile('
  • ', re.S) return pattern.findall(html) def pattern_html(self, html): html = html.decode() pattern = re.compile('

    (.*?)

    .*?
  • ', re.S) return pattern.findall(html) def pattern_html(self, html): html = html.decode() pattern = re.compile('

    (.*?)

    .*?
  • 需要 登录 后方可回复, 如果你还没有账号请 注册新账号