爬虫实战—爬取房天下全国所有的楼盘并入库（附源码）

Aba ·

更新时间:2024-11-13

· 847 次阅读

1.创建项目

使用命令创建scrapy项目：scrapy  startproject   fang
进入到spiders文件中： cd  fang/fang/spiders
创建爬虫文件：scrapy  genspider sfw   https://www.fang.com/SoufunFamily.htm

2.xpath解析页面，获取所需元素

快捷键“ctrl+shift+x”，调出xpath插件，通过xpath语法获取全国“省，市”

3.获取省和市

注意：当市有多行时，第二行开始就没有了省份，需要作出判断，为市添加对应的省份

class SwfSpider(scrapy.Spider):
    name = 'swf'
    allowed_domains = ['https://www.fang.com/SoufunFamily.htm']
    start_urls = ['https://www.fang.com/SoufunFamily.htm']
    def parse(self, response):
        tr_list = response.xpath('//div[@id="c02"]//tr')
        province_text = ''
        # 去除国外的城市
        for tr in tr_list[0:55]:
            province = tr.xpath('./td[2]//text()').extract_first().strip('\xa0')
            #给没有省份的市，添加省份
            if province:
                province_text = province
            else:
                province = province_text
            a_list = tr.xpath('./td[3]/a')
            #city_list = tr.xpath('./td[3]/a/text()').extract()
            #for city in city_list:
              #  print(province, city)

4.找链接，拼接成新房的连接

北京的新房的URL：https://newhouse.fang.com/house/s/

合肥的新房的URL：https://hf.newhouse.fang.com/house/s/

芜湖的新房的URL：https://wuhu.newhouse.fang.com/house/s/

只有北京的URL不同，其他的城市都是：城市名+“.newhouse.fang.com/house/s/”，由此可以得出规律，在当前省市页面，解析获取市的路径，然后做拼接，获取市的新房的连接

创建Item对象，
class FangItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    province = scrapy.Field()
    city = scrapy.Field()
    name = scrapy.Field()
    price = scrapy.Field()

for a in a_list:
    city = a.xpath('./text()').extract_first()
    if city == '北京':
        url = 'https://newhouse.fang.com/house/s/'
    else:
        href = a.xpath('./@href').extract_first()
        url = href.split('.')[0]
        url = url + '.newhouse.fang.com/house/s/'
    # url = 'https://tongling.newhouse.fang.com/house/s/b93/'
    fang = FangItem(province=province,city=city)
    yield scrapy.Request(url=url,
                         meta={'fang':fang,'url':url},
                         callback=self.parseSecond)

在这里插入图片描述

5.获取新房的楼盘名和价格

通过上面呢，已经找到了全国每个市的新房链接，接下来，通过这个新房的链接，进入该页面，然后解析页面，获取楼盘名和价格

先以北京为例：爬取第一页

def parseSecond(self,response):
        fang = response.meta['fang']
        #xpath解析的代码
		#//div[@id="newhouse_loupai_list"]//div[@class="nlcd_name"]/a/text()
		#//div[@id="newhouse_loupai_list"]//div[@class="nhouse_price"]/span/text()
        div_list = response.xpath('//div[@id="newhouse_loupai_list"]//div[@class="nlc_details"]')
        for div in div_list:
            name = div.xpath('.//div[@class="nlcd_name"]/a/text()').extract_first().strip('\t\n')
            # .xpath('string(.)')意思是将标签中子标签的文本进行拼接
            # 他的调用者是seletor列表
            price = price.xpath('string(.)').extract_first().strip('\t\n').strip('广告').strip('\t\n')

6.多页下载


北京的首页：https://newhouse.fang.com/house/s/
北京的第二页：https://newhouse.fang.com/house/s/b92/
北京的尾页：https://newhouse.fang.com/house/s/b932/

接下来爬取所有的网页，页码的规律就为：“b9”+当前页码数，第一页特殊

我们爬取的元素有四个：province city name price

在parse中，爬取：province city
在parceSecond中，爬取：name   price

获取尾页数：

1.检查源码，解析，

2.注意有坑，当在中间的某一页时，会有两个class="last"标签，获取到的值为“首页”和“尾页”

# 尾页的href的值  last() 就是xpath中获取最后一个数据的方法
# href = response.xpath('//a[@class="last"][last()]/@href').extract_first()

3.获取到最后的页码时： /house/s/b932/

4.使用正则表达式提取页码32：

reg = '/b9(\d+)/' # /house/s/b932/
pattern = re.compile(reg)

当尾页获取到后：

1.在遍历之前，需要对页码数进行处理，第一次访问新房的页面时是第一页，URL是：https://newhouse.fang.com/house/s/，第二页之后是：https://newhouse.fang.com/house/s/b92/，当前页就为“b9”后面的数，下次访问就是第三页，为“b93”，所以为当前页+1，

2.遍历页码，拼接url，

	url1 = response.meta['url']
	for i in range(page,int(num)+1):
   		 url = url1 + 'b9' + str(i) + '/'
   		 yield scrapy.Request(url=url,callback=self.parseSecond,meta={'fang':fang,'url':url1})
         break

7.打开管道，保存数据

pymysql的使用：
1. conn 连接
   1. 端口号必须是整型
   2. 字符集不允许加-
2. cursor 游标
3. cursor.execute(sql)
4. conn.commit()
5. cursor.close()
6. conn.close()

8.最后获取到的数据

在这里插入图片描述

源码已放在github上：源码地址

作者：半岛囚天

爬虫爬虫实战实战源码

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

Bootstrap4 面包屑导航（Breadcrumb）

Vanora 2020-07-25

918

PHP析构函数destruct与垃圾回收机制的讲解

Ebony 2021-02-05

984

css3实现垂直下拉动画菜单示例

Abbie 2020-01-28

572

important的妙用解决firefox和ie的css兼容问题

Flower 2020-11-13

940

MySQL数据库复合查询操作实战

Endora 2023-05-13

516

Golang WaitGroup 底层原理及源码解析

Rhea 2023-05-13

1581

Docker安装部署neo4j的实战过程

Bertha 2023-05-13

925

Python3.x基础实战检查磁盘可用空间

Jacinda 2023-05-13

1195

selenium鼠标操作实战案例详解

Ula 2023-05-15

160

SpringBoot注解@ConditionalOnClass底层源码实现

Karli 2023-05-27

1608

Tortoise-orm信号实现及使用场景源码详解

Kathy 2023-05-29

544

Java CountDownLatch线程同步源码硬核解析

Rhea 2023-07-04

228

Mybatis-plus操作json字段实战教程

Nora 2023-07-18

548

SQL DNSlog注入实战

Dagny 2023-07-20

239

oracle分区表创建(自动按年、月、日分区)实战记录

Roselani 2023-07-20

1764

Redis Lua同步锁实现源码解析

Ophelia 2023-07-20

1716

JavaScript实现留言板实战案例

Maha 2023-07-20

1308

golangrate令牌桶源码分析实现方式

Viridis 2023-07-21

833

Golang Heap的源码剖析

Octavia 2023-07-21

1624

Flutter-AnimatedWidget组件源码示例解析

Ophelia 2023-07-21

791

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座