python使用ip代理：代码实例详解，程序员必看的实操指南

为什么你的Python程序需要代理IP？

想象一下这个场景：你写了个Python脚本，从某个公开的网站定时抓取一些行业数据，用来做市场分析。一开始运行得好好的，但没过多久，脚本就报错了，提示“连接被拒绝”或者直接拿不到数据了。这很可能是因为你的请求过于频繁，触发了目标服务器的访问频率限制，你的真实IP地址被暂时“请出了场”。

这时候，代理IP就派上用场了。简单说，代理IP就像一个“中间人”。你的程序不再直接对目标网站说话，而是把请求先发给这个“中间人”（代理服务器），再由它去访问目标网站，最后把结果回传给你。对目标网站而言，这次访问来自代理服务器的IP，而不是你的真实IP。通过轮换使用不同的代理IP，可以有效分散请求，让你的数据采集工作更顺畅、更稳定，避免因单一IP访问过量而中断。

准备工作：获取可靠的代理IP资源

在写代码之前，你得先有代理IP。市面上有很多服务商，质量和稳定性参差不齐。选择一个靠谱的服务商是成功的第一步。这里以神龙HTTP为例，它提供了多种类型的代理IP套餐，适合不同场景。

对于大多数数据采集任务，短效动态IP池是个高性价比的选择。这类IP存活时间短（比如几分钟到半小时），但池子巨大，每天更新千万级IP，能很好地模拟大量不同用户的访问行为，适合需要高并发、高频次更换IP的场景。如果你需要某个IP在较长时间内（几小时到一天）保持稳定不变，比如维护一个需要登录状态的会话，那么长效静态IP池会更合适。

注册神龙HTTP后，你通常可以在用户中心找到获取代理IP的API链接、端口、用户名和密码（或隧道验证信息）。把这些信息记下来，我们马上要在代码里用到。

基础实战：给requests库加上代理

Python里最常用的HTTP库是requests，给它设置代理非常简单。神龙HTTP支持HTTP、HTTPS和SOCKS5协议，我们以HTTP协议为例。

假设你从神龙HTTP获取到的代理格式是 IP:端口，并且需要用户名密码认证，代码如下：

import requests

 从神龙HTTP用户中心获取的代理信息
proxy_host = "您的代理服务器地址"   例如 api.shenlonghttp.com
proxy_port = "您的代理端口"
proxy_user = "您的用户名"
proxy_pass = "您的密码"

 构建代理地址字符串（格式：http://用户名:密码@服务器地址:端口）
proxy_url = f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"

 将代理配置放入字典，键为协议（http/https），值为代理URL
proxies = {
    "http": proxy_url,
    "https": proxy_url,
}

 目标网址
url = "https://httpbin.org/ip"   这个网址会返回你当前使用的IP

try:
     发起请求，通过proxies参数传入代理设置
    response = requests.get(url, proxies=proxies, timeout=10)
    response.raise_for_status()   检查请求是否成功
    print("请求成功！")
    print("目标网站看到的IP是：", response.text)
except requests.exceptions.RequestException as e:
    print("请求出错：", e)

运行这段代码，如果一切正常，打印出来的IP地址应该是神龙HTTP提供的代理IP，而不是你本机的真实IP。这就说明代理设置生效了。

进阶技巧：实现代理IP的自动轮换

单一代理IP用久了也可能失效。更常见的做法是准备一个IP池，每次请求随机或按顺序从池中选取一个IP使用，实现自动轮换。

我们可以利用神龙HTTP提供的API接口，动态获取一批IP，然后结合requests的Session对象或自定义适配器来实现。下面是一个简化版的轮换示例：

import requests
import random
import time

 假设这是你通过神龙HTTP API获取到的一个IP列表（实际中请调用API动态获取）
 格式：[{"http": "http://user:pass@ip1:port"}, {"http": "http://user:pass@ip2:port"}, ...]
proxy_list = [
    {"http": "http://您的用户名:您的密码@代理服务器1:端口"},
    {"http": "http://您的用户名:您的密码@代理服务器2:端口"},
     ... 更多代理
]

def make_request_with_retry(url, retries=3):
    """使用随机代理发起请求，失败重试"""
    for attempt in range(retries):
         随机选择一个代理
        proxy = random.choice(proxy_list)
        print(f"第{attempt+1}次尝试，使用代理：{proxy}")
        
        try:
            response = requests.get(url, proxies=proxy, timeout=15)
             检查状态码，有些网站返回200但内容可能是封禁提示，这里需要根据实际情况调整
            if response.status_code == 200:
                print("请求成功！响应内容长度：", len(response.text))
                return response
        except (requests.exceptions.ProxyError,
                requests.exceptions.ConnectTimeout,
                requests.exceptions.ReadTimeout) as e:
            print(f"代理请求失败: {e}")
            time.sleep(2)   失败后等待2秒再重试
            continue
    
    print(f"经过{retries}次重试后仍然失败。")
    return None

 使用函数
url = "您要访问的目标网页"
result = make_request_with_retry(url)
if result:
     处理成功的响应
    pass

在实际项目中，你需要编写一个更健壮的代理IP管理器，负责定时从神龙HTTP API拉取新鲜IP、检测IP有效性、剔除失效IP、分配IP给爬虫任务等，这样就能构建一个稳定的数据采集系统。

常见问题QA

Q1：代码设置了代理，但测试发现还是用的本地IP，怎么办？

A1：请按以下步骤排查：
1. 检查代理格式：确保proxies字典中的URL格式完全正确，特别是用户名、密码、冒号和@符号。
2. 检查网络环境：有些公司网络或会强制使用系统代理，可能与代码代理冲突。尝试在干净的网络环境下测试。
3. 验证代理IP本身：将你获取到的代理IP和端口，在代码中替换成一个简单的在线IP查询网站（如httpbin.org/ip）进行测试，看返回的IP是否改变。如果没变，可能是代理服务未生效或认证失败，需要检查神龙HTTP用户中心的IP提取状态和授权信息。
4. 使用抓包工具：用Wireshark或Fiddler等工具查看网络请求实际发出的地址，这是最直接的排查方法。

Q2：遇到SSL证书验证错误（如CERTIFICATE_VERIFY_FAILED）该如何处理？

A2：在使用HTTPS代理时，可能会遇到SSL证书问题。你可以尝试以下方法，但请知晓安全风险：
1. 临时关闭验证（不推荐用于生产环境）：在requests.get()中添加参数verify=False。但这会降低连接安全性。
2. 指定自定义证书路径：如果代理服务商提供了证书，可以使用verify=‘/path/to/certificate.pem’参数指定。
3. 最佳实践：建议联系神龙HTTP的技术支持，获取关于HTTPS代理连接的最佳配置建议，他们通常能提供稳定的解决方案。