python爬虫之代理ip正确使用方法实例

Aine ·

更新时间:2024-11-13

· 99 次阅读

目录

代理ip原理

输入网址后发生了什么呢？

代理ip做了什么呢？

为什么要用代理呢？

爬虫代码中使用代理ip

检验代理ip是否生效

未生效问题排查

1.请求协议不匹配

2.代理失效

总结

主要内容：代理ip使用原理，怎么在自己的爬虫里设置代理ip，怎么知道代理ip是否生效，没生效的话哪里出了问题，个人使用的代理ip(付费）。

代理ip原理 输入网址后发生了什么呢？

1.浏览器获取域名

2.通过DNS协议获取域名对应服务器的ip地址

3.浏览器和对应的服务器通过三次握手建立TCP连接

4.浏览器通过HTTP协议向服务器发送数据请求

5.服务器将查询结果返回给浏览器

6.四次挥手释放TCP连接

7.浏览器渲染结果

其中涉及到了：

应用层：HTTP和DNS

传输层：TCP UDP

网络层：IP ICMP ARP

代理ip做了什么呢？

简单来说，就是：

原本你的访问

使用代理后你的访问

为什么要用代理呢？

因为我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么美好，然而一杯茶的功夫可能就会出现错误，比如403 Forbidden，这时候打开网页一看，可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如，服务器会检测某个IP在单位时间内的请求次数，如果超过了这个阈值，就会直接拒绝服务，返回一些错误信息，这种情况可以称为封IP。而代理ip就避免了这个问题：

爬虫代码中使用代理ip

就像是请求时伪装头一样，伪装ip，注意是 { }

proxies = {
           'https':'117.29.228.43:64257',
           'http':'117.29.228.43:64257'
       }
requests.get(url, headers=head, proxies=proxies, timeout=3) #proxies

检验代理ip是否生效

我们访问一个网站，这个网站会返回我们的ip地址：

print(requests.get('http://httpbin.org/ip', proxies=proxies, timeout=3).text)

我们看一下我使用了四个不同的代理ip，全部生效了，

未生效问题排查

如果你返回的还是本机地址，99%试一下两种情况之一：

1.请求协议不匹配

简单来说就是，如果你请求的是http，就要用http的协议，如果是https，就要用https的协议。

如果我请求是http ，但只有https，就会使用本机ip。

2.代理失效

便宜没好货，好货不便宜。如果确实大规模爬虫是必须的话，还是买代理ip比较好，网上广告满天飞的某些代理实际性价比有些低了，自己常用的就不分享了，总是被当成广告，推荐一些其他的比如：

1、IPIDEA

2、Stormproxies

3、YourPrivateProxy

4、GeoSurf

当然还有大家熟知的快代理，西刺等等，都有一些免费代理可供使用。

总结

到此这篇关于python爬虫之代理ip正确使用方法的文章就介绍到这了,更多相关python爬虫代理ip内容请搜索软件开发网以前的文章或继续浏览下面的相关文章希望大家以后多多支持软件开发网！

ip 方法代理ip python爬虫 Python

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

相关文章

HTML 字符集

Kamiisa 2020-04-27

703

AppML Customers - 完整的应用程序

Pythia 2020-03-03

887

详解Go中Set的实现方式

Gretel 2021-02-06

660

Laravel 中使用简单的方法跟踪用户是否在线(推荐)

Serwa 2020-03-20

874

VS2015 Update2 构建 Android 程序问题汇总

Brenda 2021-03-03

784

阿里云服务IIS搭建Web网站外网无法访问的解决方法

Elina 2023-08-08

897

ssh报错nokeyalg的解决方法(关于低版本连接高版本ssh)

Jacinthe 2023-08-08

339

在没有Docker缓存的情况下构建镜像的方法分享

Viridis 2023-08-08

1779

docker-compose中启动镜像失败的几种解决方法

Hana 2023-08-08

725

Windows服务器默认IE浏览器无法下载文件的解决方法

Cybill 2023-08-08

1355

Windows服务器长时间保持远程桌面不被自动断开的方法

Elsa 2023-08-08

1249

Python 对象拷贝及深浅拷贝区别的详细教程示例

Miette 2023-08-09

488

使用Python对接OpenAi API实现智能QQ机器人的方法

Miette 2023-08-28

1874

python进阶学习实时目标跟踪示例详解

Serafina 2023-08-28

1732

Python人工智能语音合成实现案例详解

Rhea 2023-08-28

744

python Tkinter实例详解

Malinda 2023-08-28

1999

Python人工智能构建简单聊天机器人示例详解

Kathy 2023-08-28

1370

Python ttkbootstrap的介绍与使用教程

Nora 2023-08-28

1592

python中os模块和sys模块的使用详解

Pandora 2023-08-28

600

Python中的QPixmap用法详解

Tani 2023-08-28

951

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座