Python 3 最新有道翻译爬取，破解反爬机制，解决{"errorCode":50}错误

Adelaide ·

更新时间:2024-09-21

· 966 次阅读

文章目录问题有人说：需要修改URL继续完成完美的爬取！附上python3爬取完美代码：补充说明问题

因为有道翻译有反爬机制，所以简单的爬肯定不行，最近用Python3 写了一个爬虫程序……
然而，返回结果却是{“errorCode”:50}，百感交集。

有人说：需要修改URL

我的URL：http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule
需要修改成http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule
就是把_o去掉，去掉之后确实能够正常翻译，既能中译英，也能英译中，但是不知道为什么非要这样做，而且貌似效果不是特别好，如果有大牛知道这两个url的区别还请告知，多谢！

继续完成完美的爬取！

从Form Data中分析原因得知，salt，sign，ts三个参数值是动态变化的，每次请求其值都不同，这表明网站对这三个参数作出了加密反爬机制，若想取得数据，就必须先破解其加密机制。

观察这几个参数，猜测salt和ts参数与时间戳有关，具体使用了何种加密方式，还要去看网页代码元素。

右键，查看网页源代码，在html中并没有找到对应参数，那么就可能在js文件中，在网页的最后一部分代码，根据js文件的文件名，猜测这几个参数的获取方式可能在"fanyi.min.js"文件中。

打开该js文件，发现这个文件是处理过的 js,直接看是难以看出逻辑的，所以可以把 js 代码放到一些可以重新排版的工具中再查看，如在线“站长工具”
在这里插入图片描述

最后可以通过搜索“salt”找到几个参数的生成位置，具体代码片段如下：
在这里插入图片描述
从上述参数生成代码中，可知：

（1）网站采用的是md5加密
（2）ts = "" + (new Date).getTime()  ，为时间戳
（3）salt = "" + (new Date).getTime() + parseInt(10 * Math.random(), 10)
（4）sign = n.md5("fanyideskweb" + e + i + "@6f#X3=cCuncYssPsuRUE")
其中，e为要翻译内容，i为时间戳，等于ts，其余为固定字符串

明确参数获取方式后，即可编写python代码，破解反爬虫机制。

附上python3爬取完美代码：

import hashlib
import random
import time
import urllib.request as requests
import json
import urllib.parse
"""
向有道翻译发送data，得到翻译结果
"""
class Youdao:
    def __init__(self, msg):
        self.msg = msg
        self.url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
        self.D = "Nw(nmmbP%A-r6U3EUn]Aj"  
        self.salt = self.get_salt()
        self.sign = self.get_sign()
        self.ts = self.get_ts()
    def get_md(self, value):
        # md5加密
        m = hashlib.md5()
        # m.update(value)
        m.update(value.encode('utf-8'))
        return m.hexdigest()
    def get_salt(self):
        # 根据当前时间戳获取salt参数
        s = int(time.time() * 1000) + random.randint(0, 10)
        return str(s)
    def get_sign(self):
        # 使用md5函数和其他参数，得到sign参数
        s = "fanyideskweb" + self.msg + self.salt + self.D
        return self.get_md(s)
    def get_ts(self):
        # 根据当前时间戳获取ts参数
        s = int(time.time() * 1000)
        return str(s)
    def get_result(self):
        Form_Data = {
            'i': self.msg,
            'type': 'AUTO',
            'smartresult': 'dict',
             'client': 'fanyideskweb',
            'salt': self.salt,
            'sign': self.sign,
            'ts': self.ts,
            'bv': 'c6b8c998b2cbaa29bd94afc223bc106c',
            'doctype': 'json',
            'version': '2.1',
            'keyfrom': 'fanyi.web',
            'ue' : 'UTF-8',
            'typoResult': 'true',
             'action': 'FY_BY_CLICKBUTTION'
        }
        Form_Data = urllib.parse.urlencode(Form_Data).encode('utf-8')
        headers = {
            # 'Accept': 'application/json, text/javascript, */*; q=0.01',
            # 'Accept-Encoding': 'gzip, deflate',
            # 'Accept-Language': 'zh-CN,zh;q=0.9,mt;q=0.8',
            # 'Connection': 'keep-alive',
            # 'Content-Length': '240',
            # 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
            'Cookie': 'OUTFOX_SEARCH_USER_ID=-2022895048@10.168.8.76;',
            # 'Host': 'fanyi.youdao.com',
            # 'Origin': 'http://fanyi.youdao.com',
            'Referer': 'http://fanyi.youdao.com/',
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; rv:51.0) Gecko/20100101 Firefox/51.0',
            # 'X-Requested-With': 'XMLHttpRequest'
        }
        req = requests.Request(self.url, Form_Data, headers, method='POST')
        response = requests.urlopen(req)
        html = response.read().decode('utf-8')
        translate_results = json.loads(html)
        # 找到翻译结果
        if 'translateResult' in translate_results:
            translate_results = translate_results['translateResult'][0][0]['tgt']
            print("翻译的结果是：%s" % translate_results)
        else:
            print(translate_results)
if __name__ == "__main__":
    y = Youdao('I am a soldier, LiLi the grass,wildfires burn born again when the spring breeze the spring, you are a silly force, I love you')
    y.get_result()

运行结果如下：

翻译的结果是：我是一名战士，丽丽的小草，野火烧尽时又重生春风春，你是一股傻傻的力量，我爱你

如果是修改_o的翻译结果如下：

翻译的结果是：我是一个士兵,丽丽的草,野火烧重生春风春时,你是一个傻,我爱你

补充说明

如果你用我的程序挂了，那很有可能是这个字符串的问题：

self.D = "Nw(nmmbP%A-r6U3EUn]Aj"  #这个字符串是关键

作者：倚剑天客

有道 Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

HTML 字符集

Kamiisa 2020-04-27

703

Shell中处理包含空格的文件名实例

Angie 2020-10-16

981

Docker部署Python应用的方法实现

Madge 2023-07-22

687

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

Python中的QPixmap用法详解

Tani 2023-08-28

951

python人工智能算法之线性回归实例

Diane 2023-08-28

527

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座