Python爬虫实例(一)——爬取某点小说网《庆余年》

Ann ·

更新时间:2024-11-14

· 574 次阅读

在网页上看小说，看不到小说的灵魂，因为它，并不属于我。

——节选自《野草》

大家好我是Henry!想必疫情期间大家在家里的网课效果都很不错吧！应该是不会有时间看小说的吧！

既然如此，今天给大家分享一下，如何用python在小说网站上爬取小说。

首先我们先看一下效果图。

怎么样是不是很酷炫鸭，那赶紧来学习吧~

一、准备工作

在正式开始前，我们需要做一些准备工作！

1.下载python和IDE

首先我们得下载好我们爬虫的工具——python，安装教程点击这里，然后下一个合适的IDE（集成开发环境），Henry用的是比较好用的PyCharm，安装教程点击这里。

2.了解什么叫爬虫。

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。[摘自维基百科]

说得通俗一点，就是将网站上的一些数据下载下来，就像蜘蛛一样，顺着网线白嫖别人的东西。因此，网络爬虫也是有一定规范的，详见《网络爬虫的法律规制》

二、审查元素

在正式去爬取小说前，我们得先学习一项技能——审查元素。

在浏览器上任意输入一个地址（URL），在网页的空白处单击右键，点击检查（在chrome和360浏览器上叫检查，在Microsoft Edge上叫检查元素）或者按键盘上方的F12，进入开发者模式。

进入开发者模式后，能看到这样的界面

左侧是我们常见的页面信息，而右侧是一些密密麻麻的代码。这些代码叫做HTML（超文本标记语言）。那么HTML是什么呢？有什么用？打个比方，就像生物的基因决定了人的性状，HTML就决定了网页的样子。HTML中的代码就可以说是网页的密码子。

往往在网页上不能实现的操作，我们可以进入开发者模式，对HTML进行操作，比如在某点小说网界面，我们并不能进行复制操作，但我们可以去复制他的HTML内容。

所以，爬虫就是通过URL进入对应网站的HTML页面，将我们需要的版块提取出来。那我们正式开始吧！

三、爬取某点网站上《庆余年》小说

1.首先我们需要一个抓取HTML网页的“武器”——get函数，直接就可以翻译成抓取、获得，这个函数在python第三方库requests里，需要我们自行下载。

进入cmd窗口，输入以下代码


pip install requests
即可下载。
2.我们在PyCharm输入如下代码。

import requests
if __name__ == ‘__main__’:
    url = ‘https://read.qidian.com/chapter/kpwCq4fKJk01/LGKHGy9k73Q1’;
    req = requests.get(url)
    print(req.text)
得到如下的结果

 
是的！我们得到了刚刚网站上的HTML信息，不由得为自己鼓掌！
但是先别高兴得太早了，这里面得到了所有的HTML代码信息，而我们只需要HTML中小说的内容，其他的我们都不需要鸭。
我们继续回到网站开发者模式，找一找文章内容在哪儿。
然后有了一个惊奇的发现，所有的文本内容都放在一个
标签下。

所以，要是我们在提取HTML代码时，加一个限定条件，是不是就可以将其他不要的信息过滤掉，只要我们需要的呢？
 
3.这时候我们需要另外一个帮手——BeautifulSoap。BeautifulSoap现在在bs4库里面，我们还是需要像刚刚那样安装requests库一样，安装bs4.

pip install bs4
安装结束后，我们回到Pycharm代码区，开始我们的“过滤”。
输入如下代码

   

import requests
from bs4 import BeautifulSoup
if __name__ == '__main__':
    url = 'https://read.qidian.com/chapter/kpwCq4fKJk01/LGKHGy9k73Q1'
    req = requests.get(url)
    text = req.text
    bf = BeautifulSoup(text)
    texts = bf.find_all('div',class_="read-content j_readContent")
    print(texts)
稍微解释一下，find_all函数的作用就是将HTML文本中的指定部分单独拿出来，这里我们要求它拿出‘div’标签下，class属性为"read-content j_readContent"的部分。
运行后出现了这样的结果：

这一次，只输出了小说的文本内容！但还是有一点美中不足的地方，就是有一些
标签，看起来不舒服，那让我们把它也删掉吧.。
将输出改成如下代码

print(texts[0].text)
然后输出以下内容

是不是要舒服很多呢！
 
4.好滴，现在我们已经成功的把第一章内容输出出来了，其他的章节也是如是做，但我们需要批量获得其他章节的URL（网络地址）。所以我们点进了小说目录的网页，进入开发者模式，发现每一个目录下都有一个链接，即每个章节的URL，并且注意到一个细节，所有的URL都保存在一个叫做a herf的标签下

 
现在我们输入一段代码，来获得每个章节的URL。

import requests
from bs4 import BeautifulSoup
if __name__ == '__main__':
    url = 'https://book.qidian.com/info/114559#Catalog'
    req = requests.get(url)
    text = req.text
    bf = BeautifulSoup(text)
    div_bf = bf.find_all('div',class_="volume")
    print(div_bf[0])
    a_bf = BeautifulSoup(str(div_bf[0]))
    a = a_bf.find_all('a')
    for each in a:
        print(each.get('href'))
 
 
这里和上述获得链接的方法一致，先找到所有的a标签，再把每个a中的href提取出来保存到each里面。输出的结果如下

这样就获得了每个章节的URL了，就可以顺着URL爬取每一个章节了！
 
5.现在我们来整合代码，将“获得URL”，“顺着URL爬取小说内容”，“输出到文件”分别写成函数，然后统一实现，下面就是全代码

from bs4 import BeautifulSoup
import requests, sys
class downloader(object):
    def __init__(self):
        self.server = 'https:'
        self.target = 'https://book.qidian.com/info/114559#Catalog/'
        self.urls = []
        self.nums = 0
    def get_download_url(self):
        req = requests.get(self.target)
        html = req.text
        div_bf = BeautifulSoup(html)
        div = div_bf.find_all('div', class_ = "volume")
        a_bf = BeautifulSoup(str(div[0]))
        a = a_bf.find_all('a')
        self.nums = len(a)
        for each in a:
            self.urls.append(self.server+each.get('href'))
    def get_contents(self, target):
        req = requests.get(target)
        html = req.text
        bf = BeautifulSoup(html)
        texts = bf.find_all('div', class_ = "read-content j_readContent")
        texts = texts[0].text
        return texts
    def writer(self, path, text):
        write_flag = True
        with open(path, 'a', encoding='utf-8') as f:
            f.writelines(text)
            f.write('\n\n')
if __name__ == "__main__":
    dl = downloader()
    dl.get_download_url()
    print('《庆余年》开始下载')
    print(dl.nums)
    for i in range(dl.nums):
        dl.writer('庆余年.txt', dl.get_contents(dl.urls[i]))
        sys.stdout.flush()
print('《庆余年》下载完成')
 
 
三、总结
是不是很有趣呢？赶快拿起身边的电脑开始吧！
我是Henry，我们下期再见！
 
欢迎大家关注我的微信公众号：今天我秃了吗

欢迎大家关注我的知乎账号：HenryLau

                    
                                        HenryLau7
                                                                                            
                    原创文章 2获赞 5访问量 344
                                            关注
                                                                私信
    
                展开阅读全文


作者：HenryLau7
                    
 
                

                            庆余年
                            python爬虫
                            小说
                            Python
                    
                

                
                    
                         1024 个赞
                        
                            
                                
                                    
                                
                                
                                    编辑
                                    举报


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            HTML 字符集
        
        
            Kamiisa
            2020-04-27
        
    
    
        703
    


    
        
    
    
        
            Node.js GET/POST请求
        
        
            Julie
            2021-07-10
        
    
    
        636
    


    
        
            AppML Customers - 完整的应用程序
        
        
            Pythia
            2020-03-03
        
    
    
        887
    


    
        
            用.NET如何生成二维码
        
        
            Miette
            2020-08-21
        
    
    
        852
    


    
        
            Docker部署Python应用的方法实现
        
        
            Madge
            2023-07-22
        
    
    
        687
    


    
        
            一文详解Python中多进程和进程池的使用方法
        
        
            Serafina
            2023-07-24
        
    
    
        338
    


    
        
            Python中常用功能的实现代码分享
        
        
            Kathy
            2023-07-24
        
    
    
        934
    


    
        
            python简单几步实现时间日期处理到数据文件的读写
        
        
            Nora
            2023-07-24
        
    
    
        926
    


    
        
    
    
        
            Python采集二手车数据的超详细讲解
        
        
            Pandora
            2023-07-24
        
    
    
        294
    


    
        
            Python进阶之利用+和*进行列表拼接
        
        
            Tani
            2023-07-24
        
    
    
        656
    


    
        
    
    
        
            Python进阶之列表推导与生成器表达式详解
        
        
            Tanisha
            2023-07-24
        
    
    
        1394
    


    
        
    
    
        
            Python实战使用XPath采集数据示例解析
        
        
            Diane
            2023-07-24
        
    
    
        1433
    


    
        
            Python 对象拷贝及深浅拷贝区别的详细教程示例
        
        
            Miette
            2023-08-09
        
    
    
        488
    


    
        
    
    
        
            使用Python对接OpenAi API实现智能QQ机器人的方法
        
        
            Miette
            2023-08-28
        
    
    
        1874
    


    
        
    
    
        
            python进阶学习实时目标跟踪示例详解
        
        
            Serafina
            2023-08-28
        
    
    
        1732
    


    
        
    
    
        
            Python人工智能语音合成实现案例详解
        
        
            Rhea
            2023-08-28
        
    
    
        744
    


    
        
    
    
        
            python Tkinter实例详解
        
        
            Malinda
            2023-08-28
        
    
    
        1999
    


    
        
            Python人工智能构建简单聊天机器人示例详解
        
        
            Kathy
            2023-08-28
        
    
    
        1370
    


    
        
    
    
        
            Python ttkbootstrap的介绍与使用教程
        
        
            Nora
            2023-08-28
        
    
    
        1592
    


    
        
    
    
        
            python中os模块和sys模块的使用详解
        
        
            Pandora
            2023-08-28
        
    
    
        600


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座



    
        
            
                
                    © 2021 1024问 MIT 京ICP备11031391号-29