python爬虫使用代理：简单几步解决IP限制问题

Python爬虫遇到IP被封？代理IP三步搞定

搞爬虫的兄弟都懂，辛辛苦苦写的代码跑着跑着突然就403了，网站反爬机制直接把你的IP拉黑。这时候千万别头铁硬刚，用代理IP才是正经解决方案。今天就手把手教你怎么用Python+代理IP突破限制，重点推荐神龙HTTP的服务，他们家做企业级代理确实稳。

一、代理IP凭什么能破反爬？

网站识别爬虫的核心指标之一就是单个IP的访问频率。假设你用自己的服务器IP疯狂请求，不出十分钟准被封。而代理IP相当于给你开了无数个马甲，每次请求换个新IP，服务器压根分不清是真人还是爬虫。

这里有个关键点：必须用高匿代理IP。有些廉价代理会把你的真实IP藏在请求头里，这种低匿代理用了等于白用。像神龙HTTP的高匿代理会完全隐藏原始IP，连X-Forwarded-For这种字段都处理得干干净净。

二、Python设置代理的实战代码

以最常用的requests库为例，直接上干货代码：

```python import requests 从神龙HTTP获取的代理信息 proxy = { 'http': 'http://用户名:密码@ip:端口', 'https': 'http://用户名:密码@ip:端口' } try: response = requests.get('目标网址', proxies=proxy, timeout=10) print(response.status_code) except Exception as e: print(f'请求失败，错误信息：{str(e)}') ```

注意三个关键点：

代理格式必须包含用户名密码（很多新手栽在这里）
http和https协议要分开配置
超时时间建议设置在10秒内

三、避开代理使用的三大坑

新手常遇到的几个问题：

问题1：用了代理还是被封

检查代理是否生效：访问ipinfo.io看返回的IP是否变化。如果没变，可能是代码配置错误；如果变了还被封，说明代理IP质量不行。这时候就得换神龙HTTP这种有质量保障的服务商，他们的IP池每天更新百万级IP，存活率比市面普通代理高30%以上。

问题2：代理速度慢如蜗牛

在代码里加入响应时间监控：

```python import time start = time.time() response = requests.get(url, proxies=proxy) cost_time = time.time() - start if cost_time > 5: 超过5秒建议更换IP print('当前代理速度过慢') ```

如果频繁超时，建议换用静态长效代理。虽然动态IP更便宜，但像数据采集这种长期任务，用神龙HTTP的静态IP稳定性直接提升一个量级。

问题3：代理突然失效

一定要做异常重试机制：

```python retry = 3 while retry > 0: try: response = requests.get(url, proxies=proxy) break except: retry -= 1 自动更换代理IP（需要接入神龙HTTP的API） proxy = get_new_proxy() ```