一个简单的新冠肺炎数据爬虫

Xanthe ·

更新时间:2024-09-21

· 959 次阅读

爬的这个页面 http://m.sinovision.net/newpneumonia.php

爬虫三步走：下载数据、解析数据、持久化数据

使用requests库下载，BeautifulSoup库解析，csv库存储

代码：


import requests
from bs4 import BeautifulSoup
import csv
import time
class DataScrapyer:
	def __init__(self):
		self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'}
		self.scrapy_url = "http://m.sinovision.net/newpneumonia.php"
		self.data = None
	def run(self, from_cache=False):
		print("[!]开始运行……")
		HTML = self.getHTMLContent(from_local=from_cache)  # 不知为何现爬极慢，可以把之前爬下来的HTML文件当作缓存
		print("[+]爬取数据完成")
		data = self.parseData(HTML)
		print("[+]解析数据完成")
		self.data = data
	def getHTMLContent(self, from_local=False):
		if from_local:
			try:
				with open("cache.html", "r") as f:
					return f.read()
			except OSError:
				print("[!]缓存文件不存在！请先将from_cache参数置为False运行一次")
				exit(1)
		response = requests.get(url=self.scrapy_url, headers=self.headers)
		response.encoding = response.apparent_encoding
		if response.status_code == 200:
			with open("cache.html", "w") as f:
				f.write(response.text)
			return response.text
		else:
			raise Exception
	def parseData(self, HTML_content):
		soup = BeautifulSoup(HTML_content, "html.parser")
		HTML_china = soup.find_all("div", class_="todaydata")[7]
		HTML_province_list = HTML_china.find_all("div", class_="main-block")
		data_provinces_list = []
		for HTML_province in HTML_province_list:
			# 获取这个省的数据
			HTML_this_province_data = HTML_province.find("div", class_="prod")
			this_province_data = {
				"area": HTML_this_province_data.find("span", class_="area").text,
				"confirm": HTML_this_province_data.find("span", class_="confirm").text,
				"dead": HTML_this_province_data.find("span", class_="dead").text,
				"cured": HTML_this_province_data.find("span", class_="cured").text,
			}
			# 获取这个省每个城市的数据
			data_citys_list = []
			HTML_city_list = HTML_province.find_all("div", class_="prod-city-block")
			for HTML_city in HTML_city_list:
				this_city_data = {
					"city-area": HTML_city.find("span", class_="city-area").text,
					"confirm": HTML_city.find("span", class_="confirm").text,
					"dead": HTML_city.find("span", class_="dead").text,
					"cured": HTML_city.find("span", class_="cured").text,
				}
				data_citys_list.append(this_city_data)
			# 合并保存
			data_provinces_list.append({
					"province_summary_data": this_province_data,
					"citys": data_citys_list,
				})
		return data_provinces_list
	def output_to_csv(self, data):
		# 由于csv是二维表，无法直接存储高维数据，所以只输出了省级数据
		file_name = f"data_{time.time()}.csv"
		with open(file_name, "w", newline="") as f:
			csv_writer = csv.writer(f)
			table_head = ["省份", "确诊数", "死亡数", "治愈数"]
			csv_writer.writerow(table_head)
			for d in data:
				pro_d = d["province_summary_data"]
				csv_writer.writerow([pro_d["area"], pro_d["confirm"], pro_d["dead"], pro_d["cured"]])
		print(f"[+]输出至文件 {file_name}")
if __name__ == '__main__':
	ds = DataScrapyer()  # 建立对象
	ds.run(from_cache=False)  # 运行
	ds.output_to_csv(ds.data)  # 写入省级数据至csv

爬取过一次数据后可以将from_cache参数置为False，这样就可以利用上一次的缓存文件演示了，对于重新爬取这个页面来说会快很多。

运行截图


希望看到疫情数据早日清零。


作者：Rabbit_Gray
                    
 
                

                            爬虫
                            肺炎
                            数据


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
    
    
        
            详解css栅格系统在项目中的灵活运用
        
        
            Ursula
            2020-04-01
        
    
    
        908
    


    
        
            几个CSS3的flex弹性盒模型布局的简单例子演示
        
        
            Hope
            2021-07-09
        
    
    
        791
    


    
        
            important的妙用解决firefox和ie的css兼容问题
        
        
            Flower
            2020-11-13
        
    
    
        940
    


    
        
            el-table表格动态合并相同数据单元格(可指定列+自定义合并)
        
        
            Rachel
            2023-07-20
        
    
    
        1437
    


    
        
            vuex页面刷新数据丢失解决方法详解
        
        
            Psyche
            2023-07-20
        
    
    
        216
    


    
        
            Vue3中是如何实现数据响应式示例详解
        
        
            Winola
            2023-07-20
        
    
    
        1347
    


    
        
            sessionStorage多Tab标签页数据共享问题分析
        
        
            Gella
            2023-07-20
        
    
    
        18
    


    
        
            数据结构之带头结点的单链表
        
        
            Grizelda
            2023-07-20
        
    
    
        1827
    


    
        
            C++各种输出数据类型详解
        
        
            Janna
            2023-07-20
        
    
    
        623
    


    
        
            Golang基于Vault实现敏感数据加解密
        
        
            Ophelia
            2023-07-21
        
    
    
        1848
    


    
        
            用Python进行数据清洗以及值处理
        
        
            Crystal
            2023-07-21
        
    
    
        283
    


    
        
            Python常用的数据清洗方法详解
        
        
            Laila
            2023-07-21
        
    
    
        1301
    


    
        
            Python multiprocessing.value实现多进程数据共享的示例
        
        
            Aine
            2023-07-21
        
    
    
        1131
    


    
        
            深入探究python中Pandas库处理缺失数据和数据聚合
        
        
            Bliss
            2023-07-21
        
    
    
        191
    


    
        
            Python中Pandas库的数据处理与分析
        
        
            Lillian
            2023-07-21
        
    
    
        155
    


    
        
            pandas删除重复数据简单方法
        
        
            Tertia
            2023-07-21
        
    
    
        311
    


    
        
            详解C#如何将枚举以下拉数据源的形式返回给前端
        
        
            Olive
            2023-07-21
        
    
    
        797
    


    
        
            Flutter中跨组件数据传递的方法总结
        
        
            Angie
            2023-07-21
        
    
    
        906
    


    
        
            python简单几步实现时间日期处理到数据文件的读写
        
        
            Nora
            2023-07-24
        
    
    
        926
    


    
        
    
    
        
            Python采集二手车数据的超详细讲解
        
        
            Pandora
            2023-07-24
        
    
    
        294


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座