python使用requests和正则表达式简单爬取糗事百科的搞笑段子

Badia ·

更新时间:2024-11-15

· 718 次阅读

一、熟悉你要爬取的页面

1，按键盘上的：F12 打开

2，选择All刷新界面，F5刷新。

3，复制下面的 Request URL的数据也就是我们要访问的url地址；

4，获取页面的请求头

前段代码如下：


import requests
import re
url = 'https://www.qiushibaike.com/text/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'
}
response = requests.get(url,headers=headers)
info = response.text
print(info)
二，使用re这个正则表达式获取我们想要的数据

右键点击检查，可以看到

所有得到正则表达式为：

infos = re.findall(r'\s*\s*(.+)\s*',info)

三、保存数据即可
所有完整的代码如下：

import requests
import re
urls = 'https://www.qiushibaike.com/text/page/{}/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'
}
i = 0
#使用死循环，获取页数
while True:
    url = urls.format(i +1)
    response = requests.get(url,headers=headers)
    info = response.text
    # print(info)
    infos = re.findall(r'\s*\s*(.+)\s*',info)
    # print(infos)
    for info in infos:
#保存数据
        with open('qiushi.txt','a',encoding='utf-8') as f:
           f.write(info + "\n\n\n")
    i += 1
    print('已经打印了',i,"页")
                    
                                        还在挣扎的python菜鸟
                                                                                            
                    原创文章 9获赞 0访问量 306
                                            关注
                                                                私信
    
                展开阅读全文


作者：还在挣扎的python菜鸟
                    
 
                

                            搞笑
                            正则
                            正则表达式
                            Python
                    
                
                
                    
                         1024 个赞
                        
                            
                                
                                    
                                
                                
                                    编辑
                                    举报
                                
                            
                        
                    
                
            

           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            HTML 字符集
        
        
            Kamiisa
            2020-04-27
        
    
    
        703
    


    
        
            jQuery 遍历 - 同胞(siblings)
        
        
            Gail
            2021-03-19
        
    
    
        876
    


    
        
            NumPy 数据类型
        
        
            Grace
            2021-01-07
        
    
    
        588
    


    
        
            css 元素选择器的简单实例
        
        
            Floria
            2021-01-01
        
    
    
        796
    


    
        
            Docker部署Python应用的方法实现
        
        
            Madge
            2023-07-22
        
    
    
        687
    


    
        
            一文详解Python中多进程和进程池的使用方法
        
        
            Serafina
            2023-07-24
        
    
    
        338
    


    
        
            Python中常用功能的实现代码分享
        
        
            Kathy
            2023-07-24
        
    
    
        934
    


    
        
            python简单几步实现时间日期处理到数据文件的读写
        
        
            Nora
            2023-07-24
        
    
    
        926
    


    
        
    
    
        
            Python采集二手车数据的超详细讲解
        
        
            Pandora
            2023-07-24
        
    
    
        294
    


    
        
            Python进阶之利用+和*进行列表拼接
        
        
            Tani
            2023-07-24
        
    
    
        656
    


    
        
    
    
        
            Python进阶之列表推导与生成器表达式详解
        
        
            Tanisha
            2023-07-24
        
    
    
        1394
    


    
        
    
    
        
            Python实战使用XPath采集数据示例解析
        
        
            Diane
            2023-07-24
        
    
    
        1433
    


    
        
            Python 对象拷贝及深浅拷贝区别的详细教程示例
        
        
            Miette
            2023-08-09
        
    
    
        488
    


    
        
    
    
        
            使用Python对接OpenAi API实现智能QQ机器人的方法
        
        
            Miette
            2023-08-28
        
    
    
        1874
    


    
        
    
    
        
            python进阶学习实时目标跟踪示例详解
        
        
            Serafina
            2023-08-28
        
    
    
        1732
    


    
        
    
    
        
            Python人工智能语音合成实现案例详解
        
        
            Rhea
            2023-08-28
        
    
    
        744
    


    
        
    
    
        
            python Tkinter实例详解
        
        
            Malinda
            2023-08-28
        
    
    
        1999
    


    
        
            Python人工智能构建简单聊天机器人示例详解
        
        
            Kathy
            2023-08-28
        
    
    
        1370
    


    
        
    
    
        
            Python ttkbootstrap的介绍与使用教程
        
        
            Nora
            2023-08-28
        
    
    
        1592
    


    
        
    
    
        
            python中os模块和sys模块的使用详解
        
        
            Pandora
            2023-08-28
        
    
    
        600


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座



    
        
            
                
                    © 2021 1024问 MIT 京ICP备11031391号-29