Python调用百度API实现语音识别（二）

Dagny ·

更新时间:2024-11-14

· 767 次阅读

咪哥杂谈

本篇阅读时间约为 5 分钟。

前言

上一篇文章里，大致介绍了百度官方 api 的一些前置准备工作。

想回顾的同学，可以看完本篇在下面找到历史链接。

今天就来上手实战编码，体验一下代码实现以及编程中遇到的坑。

环境准备

开始之前，安装百度语音 sdk ，Python 版。

pip install baidu-aip

环境很简单，就这一步，完成即可编码。

代码撸起

直接拷贝官方提供的代码，就行了，改点参数，上篇文章介绍百度官方申请到的 key 之类的信息自行填入：

from aip import AipSpeech""" 你的 APPID AK SK """APP_ID = '你的 App ID'API_KEY = '你的 Api Key'SECRET_KEY = '你的 Secret Key'client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)# 读取文件def get_file_content(file_path):    with open(file_path, 'rb') as fp:        return fp.read()# 识别本地文件result = client.asr(get_file_content('disco.wav'), 'wav', 16000, {    'dev_pid': 1537,  # 默认1537（普通话 输入法模型），dev_pid参数见本节开头的表格})

脚本同级目录下，把上次解析的 野狼disco.mp3 改下后缀，变成 wav 格式的，上传。注意下 dev_pid，这里贴出官方参数，用 1537 即可。

看下百度封装好的源码，我们最终以什么样的形式来接受数据。

封装请求的代码是 client.asr ，下面逐步来看下它。

1. asr 函数

进来可以看到，有几个默认参数，格式默认 pcm 音频后缀，采样率默认 16000。然后最终封装成 data 字典的形式传入到 _requests() 里，这里有个 __asUrl 变量，即百度请求的 api 地址。

2. _requests 函数

不论最终走到哪里，反正返回的 obj 对象都是经过 _proccessResult函数进行处理返回的。而传进的参数则是 requests 库请� �后返回的结果。

3. _proccessResult 函数

根据 sys.version_info.major 进行不同的 Python 版本号判断，进行不同的 json 解析，如果是 2，则不用对内容进行解码。

源码看到这里，所以了解最终返回的是什么类型了吗。。

json.loads，在之前小课堂 json 篇中说过，返回的是 dict 类型。

运行下代码：

哎，返回了 3301 ，错误信息写着，音频质量错误，查阅下官方文档：

看来是野狼 disco 背景音乐太嘈杂哦，那换一个无背景音乐的音频试试。

自己动手，丰衣足食，于是用 Siri 录了一段 11 s的音频，一定要亲自听一下，笑声挺鬼畜的

但是呢，这里又遇到个坑，当你从视频中如果提取音频时，也需要注意这个问题。

这个坑就是，音频的采样率：

用 mac 自带的 QuickTime 录制的音频采样率默认为 48 kHz。而百度要求采样率是 16 kHz。

如果你不把采样率转成符合它的要求，则会下面的状态码 3307 ，服务端语音识别错误：

解决方案很简单，按百度的要求来呗！把音频采样率转化一下。

安装第三方库 ffmpeg-python：

pip install ffmpeg-python

一行代码即可完成转化采样率：

import ffmpegffmpeg.input('mi.wav').output('mi2.wav', ar=16000).run()

如果执行这段代码后，报错：

mac的同学用下面命令安装下 ffmpeg 即可，windows同学估计不会遇到，如果遇到，自行去官网下载安装尝试下。

brew install ffmpeg

安装成功后，执行代码，可以看到生成了新的音频文件：

回到语音转文字代码的文件中，再次执行代码：

先看百度解析成功，返回的文字结果在 key 为 result 中，其中是个 list，所以直接取出来即可。

可以发现，结果中文并不准确。此时用的 1537，而 Siri 配音的可能带点外国口音，所以试试 1536 。

看来还是有一些误差的，Siri男版口音可能严重些，至于怎么选输入法模型的 dev_pid 码，自己尝试，看看准确率高的即可。上面有介绍到官方文档的码表。

4
总结
简单总结下，这篇文章即符合主线机器人，也符合之前后台提问题的那个小伙伴。上述所有过程，都是我在编码过程中亲身遇到的坑。
所以可以借鉴，没遇到相同错误更好，遇到了自己对着百度的官网看看到底是什么错误。
至于本篇文章的编码，涉及的不多，就不上传到 github 了，下一篇要讲下如何用 Python 玩转 Word 操作，所以打算把下篇文章涉及到的代码留个记录，转语音后的文字，落地到 Word 中，敬请期待！
如果学习中遇到什么问题的小伙伴，欢迎评论区下方留言！

▼

往期精彩回顾

▼

Python调用百度API实现语音识别（一）

用Python玩转视频剪辑，秀的飞起！

Python实现电脑录音（含音频基础知识讲解）

你点的每个在看，我都认真当成了喜欢

作者：weixin_38753698

语音识别 api Python 百度api

1024 个赞

编辑举报

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

HTML 字符集

Kamiisa 2020-04-27

703

Font Awesome 方向图标

Winona 2021-01-14

661

Perl 包和模块

Ilona 2020-09-10

820

Docker创建一个mysql容器并保存为本地镜像

Feronia 2021-04-18

729

一文详解Python中多进程和进程池的使用方法

Serafina 2023-07-24

338

Python中常用功能的实现代码分享

Kathy 2023-07-24

934

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

Python采集二手车数据的超详细讲解

Pandora 2023-07-24

294

Python进阶之利用+和*进行列表拼接

Tani 2023-07-24

656

Python进阶之列表推导与生成器表达式详解

Tanisha 2023-07-24

1394

Python实战使用XPath采集数据示例解析

Diane 2023-07-24

1433

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

Python中的QPixmap用法详解

Tani 2023-08-28

951

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。
软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座