python设置代理ip：自动化爬虫开发必备技巧详解

一、为什么自动化爬虫必须用代理IP？

搞过数据采集的老铁都懂，直接用本机IP狂撸网站，分分钟就会被封。比如某天你正用Python设置代理IP抓取商品价格，突然发现返回的全是403错误——这就是典型的IP被封症状。网站服务器发现同一个IP高频访问，直接拉黑没商量。

举个真实案例：去年有个做比价工具的团队，没注意更换IP，结果整个办公室网络被目标电商平台封了24小时。他们后来算过账，用代理IP的成本比耽误业务损失便宜20倍不止。

二、靠谱代理IP怎么选？

市面上代理IP主要分三种类型（见下表）：

类型	速度	稳定性	成本
数据中心代理	快	一般	低
住宅代理	中等	高	中
移动代理	慢	最高	高

新手建议先用短效代理IP练手，按量付费更划算。做长期项目的话，还是买带认证的私有代理池靠谱，毕竟要防止IP被重复使用导致污染。

三、Python设置代理IP的三种姿势

这里教大家几个实用的Python设置代理IP的方法，直接上代码：

姿势1：requests库基础版

import requests
proxies = {
    'http': 'http://用户名:密码@ip地址:端口',
    'https': 'https://用户名:密码@ip地址:端口'
}
response = requests.get('目标网址', proxies=proxies, timeout=10)

注意要把用户名密码替换成真实信息，很多新手栽在这个坑里。超时参数建议设置在10秒以内，避免卡死程序。

姿势2：随机切换代理池

from random import choice
import requests

proxy_pool = [
    'http://ip1:port',
    'http://ip2:port',
    ...更多代理
]

current_proxy = {'http': choice(proxy_pool)}
response = requests.get('目标网址', proxies=current_proxy)

这种写法能有效分散请求压力，记得定期检测代理IP的存活状态。有个小技巧：可以用多线程并行检测，比单线程快5倍以上。

四、避开代理IP的五大深坑

1. 代理失效不处理：建议每次请求前做存活检测，像这样：

def check_proxy(proxy):
    try:
        requests.get('http://www.baidu.com', proxies=proxy, timeout=5)
        return True
    except:
        return False

2. 请求头暴露身份：有些代理服务商会检测User-Agent，记得随机生成常用浏览器的UA。

3. SSL证书问题：遇到https报错时，可以加上verify=False参数，但不要长期用这个方案。