本文是写给 JavaScript 程序员的 Python 教程。
Python 的异步编程,其他人可能觉得很难,但是 JavaScript 程序员应该特别容易理解,因为两者的概念和语法类似。JavaScript 的异步模型更简单直观,很适合作为学习 Python 异步的基础。
本文解释 Python 的异步模块 asyncio
的概念和基本用法,并且演示如何通过 Python 脚本操作无头浏览器 pyppeteer 。
历史上,Python 并不支持专门的异步编程语法,因为不需要。
有了多线程(threading
)和多进程(multiprocessing
),就没必要一定支持异步了。如果一个线程(或进程)阻塞,新建其他线程(或进程)就可以了,程序不会卡死。
但是,多线程有"线程竞争"的问题,处理起来很复杂,还涉及加锁。对于简单的异步任务来说(比如与网页互动),写起来很麻烦。
Python 3.4 引入了 asyncio
模块,增加了异步编程,跟 JavaScript 的async/await
极为类似,大大方便了异步任务的处理。它受到了开发者的欢迎,成为从 Python 2 升级到 Python 3 的主要理由之一。
asyncio
模块最大特点就是,只存在一个线程,跟 JavaScript 一样。
由于只有一个线程,就不可能多个任务同时运行。asyncio 是"多任务合作"模式(cooperative multitasking),允许异步任务交出执行权给其他任务,等到其他任务完成,再收回执行权继续往下执行,这跟 JavaScript 也是一样的。
由于代码的执行权在多个任务之间交换,所以看上去好像多个任务同时运行,其实底层只有一个线程,多个任务分享运行时间。
表面上,这是一个不合理的设计,明明有多线程多进程的能力,为什么放着多余的 CPU 核心不用,而只用一个线程呢?但是就像前面说的,单线程简化了很多问题,使得代码逻辑变得简单,写法符合直觉。
asyncio 模块在单线程上启动一个事件循环(event loop),时刻监听新进入循环的事件,加以处理,并不断重复这个过程,直到异步任务结束。事件循环的内部机制,可以参考 JavaScript 的模型,两者是一样的。
三、asyncio API下面介绍 asyncio
模块最主要的几个API。注意,必须使用 Python 3.7 或更高版本,早期的语法已经变了。
第一步,import
加载 asyncio
模块。
import asyncio
第二步,函数前面加上 async
关键字,就变成了 async 函数。这种函数最大特点是执行可以暂停,交出执行权。
async def main():
第三步,在 async 函数内部的异步任务前面,加上await
命令。
await asyncio.sleep(1)
上面代码中,asyncio.sleep(1)
方法可以生成一个异步任务,休眠1秒钟然后结束。
执行引擎遇到await
命令,就会在异步任务开始执行之后,暂停当前 async 函数的执行,把执行权交给其他任务。等到异步任务结束,再把执行权交回 async 函数,继续往下执行。
第四步,async.run()
方法加载 async 函数,启动事件循环。
asyncio.run(main())
上面代码中,asyncio.run()
在事件循环上监听 async 函数main
的执行。等到 main
执行完了,事件循环才会终止。
下面是 async 函数的例子,新建一个脚本async.py
,代码如下。
#!/usr/bin/env python3
# async.py
import asyncio
async def count():
print("One")
await asyncio.sleep(1)
print("Two")
async def main():
await asyncio.gather(count(), count(), count())
asyncio.run(main())
上面脚本中,在 async 函数main
的里面,asyncio.gather()
方法将多个异步任务(三个 count()
)包装成一个新的异步任务,必须等到内部的多个异步任务都执行结束,这个新的异步任务才会结束。
脚本的运行结果如下。
$ python3 async.py
One
One
One
Two
Two
Two
上面运行结果的原因是,三个 count()
依次执行,打印完 One
,就休眠1秒钟,把执行权交给下一个 count()
,所以先连续打印出三个 One
。等到1秒钟休眠结束,执行权重新交回第一个 count()
,开始执行 await
命令下一行的语句,所以会接着打印出三个Two
。脚本总的运行时间是1秒。
作为对比,下面是这个例子的同步版本 sync.py
。
#!/usr/bin/env python3
# sync.py
import time
def count():
print("One")
time.sleep(1)
print("Two")
def main():
for _ in range(3):
count()
main()
上面脚本的运行结果如下。
$ python3 sync.py
One
Two
One
Two
One
Two
上面运行结果的原因是,三个 count()
都是同步执行,必须等到前一个执行完,才能执行后一个。脚本总的运行时间是3秒。
最后是一个异步编程的真实例子:操作无头浏览器。异步编程对代码的简化,在这个例子体现得淋漓尽致。
我们需要用到 pyppeteer 模块,它是无头浏览器 Puppeteer 的 Python 移植,API 跟 JavaScript 版本基本一致。下面是安装命令。
$ python3 -m pip install pyppeteer
然后,写一个网页截图脚本screenshot.py
。
#!/usr/bin/env python3
# screenshot.py
import asyncio
from pyppeteer import launch
async def main():
browser = await launch()
page = await browser.newPage()
await page.goto('http://example.com')
await page.screenshot({'path': 'example.png'})
await browser.close()
asyncio.run(main())
上面代码中,启动浏览器(launch
)、打开新 Tab(newPage()
)、访问网址(page.goto()
)、截图(page.screenshot()
)、关闭浏览器(browser.close()
),这一系列操作都是异步任务,使用 await
命令写起来非常自然简单。
执行这个脚本,当前目录下就会生成截图文件 example.png
。
$ python3 screenshot.py
如果脚本执行时报错 No usable sandbox!
,可以参考这里。另外,第一次执行这个脚本,会下载安装 Puppeteer,可能需要等待较长时间,但是此后的执行就会很快。
Pyppeteer 的官网还有其他实例,比如向网页注入 JavaScript 代码,大家可以自己试玩。
六、参考链接 Async IO in Python: A Complete Walkthrough, Brad Solomon(正文完)
如何通过实战项目快速提升 Python 开发技能?Python 是当下最火的编程语言,房地产大佬潘石屹都说要学。
它上手极为简单,短时间内你就能写出解决实际问题的小程序,甚至去面试初级 Python 工程师的职位。
不过,要写出更复杂的应用,或者从事数据分析、机器学习、Web 开发等工作,就需要正规系统的学习了。建议从一个简单的小项目开始,然后不断完善功能,去学习更多新东西。
第一步:写一个最简单的爬虫,比如获取 B 站的弹幕或豆瓣的书评影评。 第二步:单线程爬虫扩展为多线程爬虫,了解进程、线程、锁。 第三步:对收集的数据进行清洗和分析。 第四步:将数据报告在 Web 端展示,了解 MVC 设计模式、Web 框架、数据库操作。完成以上四步,就从一个初级 Python 使用者成长为一名熟练工了。当然说起来简单,真正实践起来并不容易。每一步都会有比较多的坑,对于没有经验的人来说,自学效率比较低。如果有一个经验丰富的老师带,效果会好很多。
尹会生,金山公司西山居运维总监,在极客时间讲过《零基础学Python》和《Linux实战技能100讲》两个课程,参与编写过 《白话大数据与机器学习》 《运维前线》等书籍。
他与极客时间合作,推出了线下+线上相结合的《Python 进阶训练营》,手把手、面对面地帮助你,50天内实现 Python 开发技能的进阶和突破,完成上面四步,从初级使用者成长为专业选手。
4 个实战项目串联起全部关键知识 4 天线下教学 + 5 次线上直播 + 7 周刻意练习 + 助教每日答疑 高效学习社群 + 班主任带班 一线大厂和 TGO 鲲鹏会600多家企业面试直通车。优秀毕业生一年内获得两次企业内推服务。原价 ¥3600, 早鸟特惠 ¥2499,早鸟仅限 100 人 ,微信扫描下方二维码,立即加入????
无论是否报名,微信扫描下方二维码,即可免费获取 Python 学习资料包。
(完)