“网络爬虫”又称“网络蜘蛛”。是一种在互联网上自动采集数据的自动化程序,爬虫的规模可大可小,大到百度,谷歌搜索,小到自动下载图片等。
采集数据,所采集的数据是结构化的,批量提取,提高效率的。例如,我们希望在某电商平台上获取某产品相关信息,其中包含信息可能存在产品名称、产品价格、参评参数、广告、评论内容等,我们只想要其中的用户好评信息,其他的都不要,以表格形式保存,表格就是结构化以后的结果,如果该数据量较小的话我们可以手动复制粘贴,但当有 1000,100000 或更庞大的数据量时,显然复制粘贴效率就太低了还不能保证正确率,使用爬虫提取,正确率都,效率都得意保证,下次再有类似的网页,改一改就可以用。
爬虫的本质是网络请求(request),请求访问一个网页获得响应后(response),提取其中的数据。
我们使用 pycharm 来进行爬虫的编写,所以需要下载个 pycharm,下载地址:
https://www.jetbrains.com/pycharm/
首先要新建个空项目文件夹,用来保存我们写的爬虫文件,后依次点击左上角 File -> New Project。
1:把路径设置成刚刚建的空文件夹
2:选择现有环境,指的是你电脑下载的 python 环境
3:你的电脑下载的 python 的环境的路径
4:创建
即可以开始编写程序