python+django+mysql 从零搭建资讯类网站10

Delfina ·

更新时间:2024-11-10

· 522 次阅读

系列文章将记录本人从零开始搭建资讯类的网站，所有源码都开放哦！欢迎互相讨论学习！

源码下载地址：https://github.com/wuqiwenpk/babyteach

本系列文章导航：https://github.com/wuqiwenpk/babyteach/blob/master/README.md

本篇目的

通过爬虫爬取同类资讯网站新闻详情页，并保持内容到数据库中。

本次爬虫测试目标为

列表页：http://www.yuerzaixian.com/a/1171.aspx

爬取详情页:http://www.yuerzaixian.com/html/news/hangye/25320.html

本文将用到python解析库lxml、requests库对目标网页进行爬虫解析

（注：本系列所有爬虫操作仅用于学习用途）

1、在DjangoProject/babyteach下创建新目录spider

并添加py文件：newsspider.py

2、编辑newsspider.py内容

2.1、引用需要用到的相关库：


import os, django
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "DjangoProject.settings")# project_name 项目名称
django.setup()
import re
import datetime
from babyteach.models import Detail, Tags
import requests
from lxml import etree

2.2、添加方法：


#爬取详情页数据保存到表Detail中
def getdetailbyspider(url):
    response = requests.get(url).text
    response=response.encode("latin1").decode("UTF-8")#编码转码
    # print(response)
    x = etree.HTML(response)
    x = x.xpath('//div[(@class="content")]')
    for item in x:
        title = item.xpath('div[@class="title"]/text()')[0] #标题
        addtime = item.xpath('div[@class="info"]/span[@class="date"]/text()')[0] #时间
        orgwords = item.xpath('div[@class="intro"]') #正文
        words = etree.tostring(orgwords[0], encoding="utf-8", pretty_print=True).decode("utf-8")
        pic = "/static/babyteach/img/nophoto.gif" #默认封面图
        if len(item.xpath('div[@class="intro"]//img/@src'))!=0:
            pic ='http://www.yuerzaixian.com/'+ item.xpath('div[@class="intro"]//img/@src')[0]#正文存在图片时保持第一张图片作为封面图
    words = words.replace('src="/UploadFiles','src="http://www.yuerzaixian.com/UploadFiles')#处理正文中未添加域名的图片url
    pattern = re.compile(r']+>', re.S)
    summary = pattern.sub('', words).strip()[0:60]#截取正文前面文字作为简介
    print('标题:', title)
    print('时间:', addtime)
    print('简介:', summary)
    print('正文:', words)
#运行函数 
getdetailbyspider("http://www.yuerzaixian.com/html/news/hangye/25320.html")
2.3、右键代码运行查看效果：

内容能正常获取；

2.4、添加插入到数据库的代码：


#插入到Detail数据库中
detail = Detail()
detail.title = title
detail.summary = summary
detail.addtime = datetime.datetime.strptime(addtime, "%Y年%m月%d日")
detail.author = '育儿在线网'
detail.words = words
detail.clicks = 0
detail.pic = pic
detail.link = url
detail.tag = Tags.objects.get(id=5) #育儿资讯
detail.save()

再次执行代码：

数据库已添加对应数据：


运行网站，访问文章ID为28的看看效果：

本文总结：

通过爬虫爬取同类资讯网站新闻详情页，并保持内容到数据库中。

下一篇将介绍爬取目标网站的列表页，并批量导入详情页内容到数据库中；

完整源码地址：https://github.com/wuqiwenpk/babyteach

小明太难了

原创文章 11获赞 1访问量 329 关注私信展开阅读全文
作者：小明太难了

资讯 Django Python Mysql

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 实例

Kamaria 2021-07-24

846

HTML 字符集

Kamiisa 2020-04-27

703

CSS3 过渡

Vanora 2020-05-14

948

浅析用iframe来调用页面会不会缓存页面

Efia 2021-07-05

973

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

Python中的QPixmap用法详解

Tani 2023-08-28

951

python人工智能算法之线性回归实例

Diane 2023-08-28

527

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座