通过requests库re库进行淘宝商品爬虫爬取（对中国大学mooc嵩天老师爬虫进行修改）

Chipo ·

更新时间:2024-11-13

· 793 次阅读

中国大学mooc上的爬取淘宝页面商品已经因为淘宝的维护而无法爬取

比如，只出现个表头：
[外链图片转存失败,源站可能有防盗在这里插入!链机制,建描述]议将图片上https://传(implog.csdnimg.cn/20203Sdbz309195430123.png4)(https://img一直-blog.csdnimg.cn/20200309195430123.png)]
这是我按照嵩天老师代码学习，遇到的问题。

原代码如下：

import requests
import re
def getHTMLText(url):
   try:
        r= requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
   except:
        return ""
def parsePage(ilt,html):
    try:
        plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            ilt.append([price,title])
    except:
        print("F")
def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.format("序号","价格","商品名称"))
    count = 0
    for g in ilt:
        count = count +1
        print(tplt.format(count,g[0],g[1]))
def main():
    goods = '书包'
    depth = 2
    start_url = "https://s.taobao.com/search?q="+ goods
    infoList = []
    for i in range(depth):
        try:
            url = start_url +'&s='+str(44*i)
            html = getHTMLText(url)
            parsePage(infoList,html)
        except:
            continue
    printGoodsList(infoList)
main()

这段代码在过去是可以爬取淘宝商品信息，但是因为淘宝的反扒技术升级，便不能让你大摇大摆地进出自如了。

所以，想要用爬虫爬淘宝，先要学会伪装。

简单来说，就本课例而言，我们需要把headers内容中的referer和cookies进行替换，改头换面，就可以爬取我们所需要的淘宝信息了。

实际操作如下：

1.首先打开淘宝页面，搜索书包

有时必须登录才能搜索，或不，但都不会影响到爬虫运行。

2.然后按F12，进行如下图的操作,即按照红色箭头以此操作：Network→All→右击search文件→Copy→ Copy as cURL(bash)
在这里插入图片描述

3.然后将复制内容复制到https://curl.trillworks.com/中的curl command窗口中
在这里插入图片描述
4.将python requests框内的headers={**}内容进行复制，如下：
headers = {
‘authority’: ‘s.taobao.com’,
‘upgrade-insecure-requests’: ‘1’,
‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36’,
‘sec-fetch-dest’: ‘document’,
‘accept’: 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9’,
‘sec-fetch-site’: ‘same-origin’,
‘sec-fetch-mode’: ‘navigate’,
‘sec-fetch-user’: ‘?1’,
‘referer’: ***********,
‘accept-language’: ‘zh-CN,zh;q=0.9’,
‘cookie’: ***********，
}
（此处的headers信息中referer和cookie已经被我隐藏了，你直接复制你自己的headers={}就可以了）

5.最后，修改到原程序里，如下：

import requests
import re
def getHTMLText(url):
   try:
        header = { 'authority': 's.taobao.com',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
    'sec-fetch-dest': 'document',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'sec-fetch-site': 'same-origin',
    'sec-fetch-mode': 'navigate',
    'sec-fetch-user': '?1',
    'referer': '**********',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cookie': ‘***********’,}
        r= requests.get(url,headers = header)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
   except:
        return ""
def parsePage(ilt,html):
    try:
        plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            ilt.append([price,title])
    except:
        print("F")
def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.format("序号","价格","商品名称"))
    count = 0
    for g in ilt:
        count = count +1
        print(tplt.format(count,g[0],g[1]))
def main():
    goods = '书包'
    depth = 2
    start_url = "https://s.taobao.com/search?q="+ goods
    infoList = []
    for i in range(depth):
        try:
            url = start_url +'&s='+str(44*i)
            html = getHTMLText(url)
            parsePage(infoList,html)
        except:
            continue
    printGoodsList(infoList)
main()

除了添加更改header外，还要记得

r.requests.get(url,timeout=30)
改成
r.requests.get(url,headers=header)

运行

在这里插入图片描述

成功

作者：阿瞒oman

爬虫淘宝淘宝商品

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

Powershell小技巧之屏蔽输出结果

Fawn 2020-07-08

717

ASP.NET实现单点登陆(SSO)适用于多种情况

Jenny 2020-07-11

858

important的妙用解决firefox和ie的css兼容问题

Flower 2020-11-13

940

JavaScript仿淘宝实现固定右侧侧边栏

Viveka 2022-10-23

1863

Python数据分析之分析千万级淘宝数据

Damara 2022-10-23

746

python网络爬虫实现个性化音乐播放器示例解析

Faye 2022-10-23

1230

详解如何使用Python网络爬虫获取招聘信息

Roselani 2022-10-23

1253

详解如何用Python写个听小说的爬虫

Beth 2022-10-23

347

Python用requests模块实现动态网页爬虫

Tricia 2022-10-23

1277

Python使用爬虫爬取贵阳房价的方法详解

Fiorenza 2022-10-23

612

爬虫逆向抖音新版signature分析案例

Hazel 2022-10-23

1443

python异步爬虫之多线程

Nancy 2022-10-23

231

Python编写淘宝秒杀脚本

Rae 2022-10-23

1919

基于Python3制作一个带GUI界面的小说爬虫工具

Bonita 2022-10-23

1611

一篇文章带你了解Python之Selenium自动化爬虫

Liana 2022-10-23

1206

Python-Selenium自动化爬虫

Jenna 2022-10-23

1696

c#实现爬虫程序

Tia 2022-10-24

详解C#如何利用爬虫技术实现快捷租房

Bambi 2022-11-07

1010

Python用yieldfrom实现异步协程爬虫的实践

Tia 2023-01-19

1481

爬虫训练前端基础Bootstrap5排版表格图像

Rhea 2023-02-26

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座