爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！

Endora ·

更新时间:2024-11-11

· 727 次阅读

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。

适合人群：

Python零基础、对爬虫数据采集感兴趣的同学！

环境介绍：

python 3.6
pycharm
requests
re
json

爬虫的一般思路

1、确定爬取的url路径，headers参数

2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据

3、解析数据 -- re模块：提供全部的正则表达式功能

4、保存数据 -- 保存json格式的数据

1、确定爬取的url路径，headers参数


base_url = 'https://www.guokr.com/ask/highlight/?page={}'.format(str(page))
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据


response = requests.get(base_url, headers=headers)
    data = response.text
    # print(data)
3、解析数据 -- re模块：提供全部的正则表达式功能
编译正则表达式 预编译的代码对象比直接使用字符串要快，因为解释器在执行字符串形式的代码前都推荐大家把字符串编译成代码对象

pattern = re.compile('(.*?)', re.S)
    pattern_list = pattern.findall(data)  # -->list
    # print(pattern_list)
    # json [{[]}]{}
    # 构建json数据格式
    for i in pattern_list:
        data_dict = {}
        data_dict['title'] = i[1]
        data_dict['href'] = i[0]
        data_list.append(data_dict)
    # 转换成json格式
    # json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False：
    json_data_list = json.dumps(data_list, ensure_ascii=False)
    # print(json_data_list)
with open("guoke02.json", 'w', encoding='utf-8') as f:
    f.write(json_data_list)


4、保存json格式的文件


每页20条数据，共100页，2000条数据~
如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。获取方式，私信小编 “ 资料 ”，即可免费获取哦！
完整代码如下：

# requests
# re
# json
# 爬虫的一般思路
# 1、确定爬取的url路径，headers参数
# 2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据
# 3、解析数据 -- re模块：提供全部的正则表达式功能
# 4、保存数据 -- 保存json格式的数据
import requests    # pip install requests
import re
import json
# 1、确定爬取的url路径，headers参数
base_url = 'https://www.guokr.com/ask/highlight/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
# 2、发送请求 -- requests 模拟浏览器发送请求，获取响应数据
response = requests.get(base_url, headers=headers)
data = response.text
# print(data)
# 3、解析数据 -- re模块：提供全部的正则表达式功能
# 印度人把男人的生殖器叫林伽，把女人的生殖器叫瑜尼，林伽和瑜尼的交合，便是瑜伽。这是真还是假的
# 3、1 编译正则表达式  预编译的代码对象比直接使用字符串要快，因为解释器在执行字符串形式的代码前都必须把字符串编译成代码对象
pattern = re.compile('(.*?)', re.S)
pattern_list = pattern.findall(data)  # -->list
# print(pattern_list)
# json [{[]}]{}
# 构建json数据格式
data_list = []
for i in pattern_list:
    data_dict = {}
    data_dict['title'] = i[1]
    data_dict['href'] = i[0]
    data_list.append(data_dict)
# 转换成json格式
# json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False：
json_data_list = json.dumps(data_list, ensure_ascii=False)
print(json_data_list)
# 保存json格式的文件
with open("guoke01.json", 'w', encoding='utf-8') as f:
    f.write(json_data_list)

                    
                                        其实还好啦
                                                                                            
                    原创文章 167获赞 111访问量 2万+
                                            关注
                                                                私信
    
                展开阅读全文


作者：其实还好啦
                    
 
                

                            数据采集
                            爬虫
                            数据
                            Python


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            HTML 字符集
        
        
            Kamiisa
            2020-04-27
        
    
    
        703
    


    
        
    
    
        
            详解css栅格系统在项目中的灵活运用
        
        
            Ursula
            2020-04-01
        
    
    
        908
    


    
        
            important的妙用解决firefox和ie的css兼容问题
        
        
            Flower
            2020-11-13
        
    
    
        940
    


    
        
            纯CSS改变webkit内核浏览器的滚动条样式
        
        
            Welcome
            2021-07-30
        
    
    
        824
    


    
        
    
    
        
            Python采集二手车数据的超详细讲解
        
        
            Pandora
            2023-07-24
        
    
    
        294
    


    
        
            Python进阶之利用+和*进行列表拼接
        
        
            Tani
            2023-07-24
        
    
    
        656
    


    
        
    
    
        
            Python进阶之列表推导与生成器表达式详解
        
        
            Tanisha
            2023-07-24
        
    
    
        1394
    


    
        
    
    
        
            Python实战使用XPath采集数据示例解析
        
        
            Diane
            2023-07-24
        
    
    
        1433
    


    
        
    
    
        
            Android客户端与服务端数据加密传输方案详解
        
        
            Diane
            2023-07-28
        
    
    
        768
    


    
        
            Docker使用数据容器的具体示例
        
        
            Nissa
            2023-08-08
        
    
    
        1163
    


    
        
            Python 对象拷贝及深浅拷贝区别的详细教程示例
        
        
            Miette
            2023-08-09
        
    
    
        488
    


    
        
    
    
        
            使用Python对接OpenAi API实现智能QQ机器人的方法
        
        
            Miette
            2023-08-28
        
    
    
        1874
    


    
        
    
    
        
            python进阶学习实时目标跟踪示例详解
        
        
            Serafina
            2023-08-28
        
    
    
        1732
    


    
        
    
    
        
            Python人工智能语音合成实现案例详解
        
        
            Rhea
            2023-08-28
        
    
    
        744
    


    
        
    
    
        
            python Tkinter实例详解
        
        
            Malinda
            2023-08-28
        
    
    
        1999
    


    
        
            Python人工智能构建简单聊天机器人示例详解
        
        
            Kathy
            2023-08-28
        
    
    
        1370
    


    
        
    
    
        
            Python ttkbootstrap的介绍与使用教程
        
        
            Nora
            2023-08-28
        
    
    
        1592
    


    
        
    
    
        
            python中os模块和sys模块的使用详解
        
        
            Pandora
            2023-08-28
        
    
    
        600
    


    
        
            Python中的QPixmap用法详解
        
        
            Tani
            2023-08-28
        
    
    
        951
    


    
        
            python人工智能算法之线性回归实例
        
        
            Diane
            2023-08-28
        
    
    
        527


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座