基于Python采集爬取微信公众号历史数据

Hana ·

更新时间:2024-11-13

· 509 次阅读

鲲之鹏的技术人员将在本文介绍一种通过模拟操作微信App的方式采集指定公众号的所有历史数据的方法。

通过我们抓包分析发现，微信公众号的历史数据是通过HTTP协议加载的，对应的API接口如下图所示，其中有四个关键参数（__biz、appmsg_token、pass_ticket以及Cookie）。

为了能够拿到这四个参数，我们需要模拟操作App，让其产生这些参数，然后我们再抓包获取。对于模拟App操作，前面我们曾介绍过通过Python模拟安卓App的方法(详见http://www.site-digger.com/html/articles/20180912/664.html)。对于HTTP集成抓包，前面我们曾介绍过Mitmproxy（详见http://www.site-digger.com/html/articles/20181109/682.html）。

我们需要模拟操作微信完成如下步骤：

1. 启动微信App

2. 点击"通讯录"

3. 点击"公众号"

4. 点击要采集的公众号

5. 点击右上角的用户图像图标

6. 点击"全部消息"

此时，我们可以从https://mp.weixin.qq.com/mp/profile_ext?action=home的应答数据中捕获__biz、appmsg_token以及pass_ticket三个关键参数，以及请求头中的Cookie值。如下图所示。

有了上述四个参数，我们就可以构造出获取历史文章列表的API请求，通过调用API接口直接获取数据（不需要再模拟App操作）。核心参数如下所示，通过改变offset参数，可以拿到所有历史数据。


# Cookie 
headers = {'Cookie': 'rewardsn=; wxtokenkey=777; wxuin=584068438; devicetype=android-19; version=26060736; lang=zh_CN; pass_ticket=Rr8cO5c2******3tKGqe7aVZzV9TupvrK+1uHHmHYQGL2WFdKIE; wap_sid2=COKhxu4KElxckFZQ3QzTHU4WThEUk0zcWdrZjhGcUdYdEVSV3Y1X2NPWHNUakRrd1ZzMnpLTERpdE5rbmxjSTg******dlRBcUNRazZpOGxTZUVEQUTgNQJVO'} 
url = 'https://mp.weixin.qq.com/mp/profile_ext?' 
data = {} 
data['is_ok'] = '1' 
data['count'] = '10' 
data['wxtoken'] = '' 
data['f'] = 'json' 
data['scene'] = '124' 
data['uin'] = '777' 
data['key'] = '777' 
data['offset'] = '0' 
data['action'] = 'getmsg' 
data['x5'] = '0' 
# 下面三个参数需要替换 
# https://mp.weixin.qq.com/mp/profile_ext?action=home应答数据里会暴漏这三个参数 
data['__biz'] = 'MjM5MzQyOTM1OQ==' 
data['appmsg_token'] = '993_V8%2BEmfVD7g%2FvMZ****4DNUJNFkg~~' 
data['pass_ticket'] = 'Rr8cO5c23ZngeQHRGy8E7gv*****pvrK+1uHHmHYQGL2WFdKIE' 
url = url + urllib.urlencode(data)

以"数字工厂"这个微信公众号为例，采集过程运行截图如下所示：

输出结果截图如下所示：

您可能感兴趣的文章:python实现企业微信定时发送文本消息的实例代码python修改微信和支付宝步数的示例代码Python爬取微信小程序通用方法代码实例详解python向企业微信发送文字和图片消息的示例Python 实现微信自动回复的方法Python selenium爬取微信公众号文章代码详解Python爬虫爬取微信朋友圈python操作微信自动发消息的实现(微信聊天机器人)Python Flask微信小程序登录流程及登录api实现代码Python使用20行代码实现微信聊天机器人Python实现清理微信僵尸粉功能示例【基于itchat模块】用 python 进行微信好友信息分析

公众号数据微信公众号 Python

1024 个赞