python爬虫加代理ip：requests和httpx两种方式都给你，附带异常重试处理逻辑

代理IP在Python爬虫里的角色

写爬虫的时候，一个绕不开的问题就是请求频率过高导致IP被目标网站暂时限制访问。这时候，使用代理IP就成了一个非常实用的解决方案。简单来说，代理IP就像一个中转站，你的爬虫请求先发到代理服务器，再由它转发给目标网站。这样，目标网站看到的是代理IP的地址，而不是你本机的真实IP，从而有效分散请求来源，让数据采集工作更顺畅。

选择代理IP服务时，需要考虑几个关键点：IP的纯净度与可用率、网络延迟和稳定性、以及是否支持你需要的协议。市面上服务商很多，质量参差不齐。以神龙HTTP为例，它提供三大运营商正规授权的IP资源，纯净度高，延迟低，并且支持HTTP、HTTPS和SOCKS5多种协议，能很好地满足大多数爬虫项目的需求。

使用Requests库配置代理IP

Requests是Python里最常用的HTTP库，用法简单直观。给它加上代理功能，只需要在发起请求时传递一个proxies参数就行了。这个参数是一个字典，指定协议和对应的代理服务器地址。

这里有个关键细节：代理地址的格式。如果你从神龙HTTP这类服务商那里通过API获取到的是一个IP和端口，比如1.2.3.4:8080，那么构建字典时需要写成完整的URL形式，即http://1.2.3.4:8080。如果你的代理需要认证（用户名密码），格式则是http://user:pass@1.2.3.4:8080。

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

 从你的代理服务商API获取代理IP（这里用示例IP）
proxy_ip = "1.2.3.4"
proxy_port = "8080"
 假设不需要用户名密码认证
proxy_url = f"http://{proxy_ip}:{proxy_port}"

proxies = {
    "http": proxy_url,
    "https": proxy_url,
}

 创建一个带重试机制的会话
session = requests.Session()
retry_strategy = Retry(
    total=3,   总重试次数
    backoff_factor=1,   重试等待时间间隔
    status_forcelist=[500, 502, 503, 504]   遇到这些状态码才重试
)
adapter = HTTPAdapter(max_retries=retry_strategy)
session.mount("http://", adapter)
session.mount("https://", adapter)

try:
    response = session.get("https://httpbin.org/ip", proxies=proxies, timeout=10)
    response.raise_for_status()   如果状态码不是200，抛出异常
    print("请求成功，当前使用的IP是：", response.json().get("origin"))
except requests.exceptions.RequestException as e:
    print(f"请求失败，错误信息：{e}")
     这里可以添加逻辑，比如标记此代理IP失效，并从IP池中获取新的IP

上面的代码展示了两个要点：一是如何配置代理，二是如何增加异常重试处理逻辑。通过Retry和HTTPAdapter，我们可以让请求在遇到临时性网络错误或服务器错误（如5xx状态码）时自动重试，提高爬虫的健壮性。

使用Httpx库配置代理IP

Httpx是一个新兴的HTTP客户端，它支持异步请求，性能上比Requests更有优势，尤其适合高并发场景。它的代理配置方式和Requests类似，但功能更强大一些。

Httpx同样通过proxies参数接受代理配置。一个重要的区别是，Httpx对SOCKS5协议的支持是内置的（但需要安装httpx[socks]），而Requests需要额外依赖。如果你使用的代理服务商（如神龙HTTP）提供SOCKS5协议，用Httpx会非常方便。

import httpx
import asyncio

async def fetch_with_proxy():
     从你的代理服务商API获取代理IP（这里用示例IP）
    proxy_ip = "1.2.3.4"
    proxy_port = "8080"
    proxy_url = f"http://{proxy_ip}:{proxy_port}"   如果是SOCKS5，则写为 socks5://...

     配置代理和重试
    transport = httpx.AsyncHTTPTransport(retries=3)   内置简单重试
    async with httpx.AsyncClient(proxies=proxy_url, transport=transport, timeout=10.0) as client:
        try:
            response = await client.get("https://httpbin.org/ip")
            response.raise_for_status()
            print("请求成功，当前使用的IP是：", response.json().get("origin"))
        except httpx.RequestError as e:
            print(f"请求失败，错误信息：{e}")
             处理失败逻辑，如更换代理IP

 运行异步函数
asyncio.run(fetch_with_proxy())

这段代码演示了Httpx的异步用法。我们创建了一个AsyncClient，并通过transport参数设置了重试次数。Httpx的异步特性意味着你可以轻松地同时发起大量请求，配合代理IP池，能极大提升数据采集效率。

构建健壮的代理IP处理逻辑

仅仅在代码里写死一个代理IP是远远不够的。一个成熟的爬虫项目，需要一套完整的代理IP管理机制。这通常包括：IP获取、IP验证、IP轮换和失效剔除。

1. IP获取：通过调用代理服务商（如神龙HTTP）的API接口，定时或按需获取一批新鲜的IP，放入你自己的IP池中。神龙HTTP的API设计简洁，返回格式清晰，很容易集成到你的爬虫管理系统里。

2. IP验证：不是所有获取到的IP都能立刻使用。在将IP加入可用池之前，应该用一个稳定的、可访问的测试地址（比如各大搜索引擎的首页）进行连通性和匿名度测试，确保IP有效且符合你的需求。

3. IP轮换与失效处理：在爬虫发起请求时，从可用IP池中随机或按顺序选取一个IP使用。一旦某次请求失败（超时、返回错误码等），应立即将该IP标记为“可疑”或移入失败列表，并尝试使用池中的下一个IP。需要一个后台任务定期清理失效的IP，并补充新的IP进来。

import random
import time

class SimpleProxyPool:
    def __init__(self, proxy_service):
        self.proxy_service = proxy_service   假设这是一个封装了神龙HTTP API的类
        self.usable_proxies = []   可用代理池
        self.failed_proxies = []   失败代理池
        self.refresh_pool()

    def refresh_pool(self):
        """从服务商获取新IP并验证后加入可用池"""
        raw_ips = self.proxy_service.get_ips(count=10)   示例：获取10个IP
        new_usable = []
        for ip in raw_ips:
            if self._test_proxy(ip):
                new_usable.append(ip)
        self.usable_proxies = new_usable
        print(f"IP池刷新完成，当前可用IP数：{len(self.usable_proxies)}")

    def _test_proxy(self, proxy_url):
        """验证代理IP是否有效"""
        try:
            resp = requests.get("https://httpbin.org/ip", proxies={"https": proxy_url}, timeout=5)
            return resp.status_code == 200
        except:
            return False

    def get_proxy(self):
        """从可用池中随机获取一个代理"""
        if not self.usable_proxies:
            self.refresh_pool()
        return random.choice(self.usable_proxies)

    def report_failure(self, proxy_url):
        """报告代理失效，将其移入失败列表"""
        if proxy_url in self.usable_proxies:
            self.usable_proxies.remove(proxy_url)
            self.failed_proxies.append(proxy_url)
         如果可用池过少，触发刷新
        if len(self.usable_proxies) < 3:
            self.refresh_pool()

 使用示例
pool = SimpleProxyPool(your_proxy_service)
proxy = pool.get_proxy()
try:
     使用proxy发起请求...
    pass
except Exception as e:
    pool.report_failure(proxy)   请求失败，报告此代理失效

这是一个极简的代理池管理示例。在实际项目中，你可能需要考虑并发安全、更复杂的验证策略、失败IP的重试机制等。

常见问题与解答 (QA)

Q1：我测试代理IP时发现有的能用有的不能用，这是为什么？如何提高代理IP的可用率？

A1： 这是正常现象。代理IP本质上是从各地网络节点租用或共享的线路，其稳定性受当地网络状况、使用人数、目标网站封禁策略等多种因素影响。提高可用率可以从以下几方面入手：选择像神龙HTTP这样提供高纯净度、高可用率承诺的服务商，它们有严格的IP筛选和验证机制。在自己的爬虫里实现实时验证与动态剔除逻辑，确保每次请求使用的都是当前时刻可用的IP。根据业务需求选择合适的代理类型，例如，对稳定性要求极高、IP需求量不大的场景，可以考虑神龙HTTP的固定IP池；对于大规模并发采集，则适合使用其短效动态IP池，利用海量IP进行轮询。

Q2：使用代理IP后，爬虫速度变慢了怎么办？

A2： 速度变慢可能由代理服务器本身的网络延迟、带宽不足，或你本机到代理服务器的链路质量引起。可以尝试以下优化：1) 选择低延迟的代理服务：神龙HTTP强调低延迟与高并发，其节点质量相对有保障。2) 做好IP筛选：在将IP加入可用池前，不仅测试连通性，也测试响应速度，只保留速度较快的IP。3) 优化爬虫并发策略：对于Httpx异步爬虫，可以适当增加并发数，用数量弥补单个请求的延迟。设置合理的超时时间（如5-10秒），避免在慢速IP上等待过久。4) 考虑地理位置：如果目标网站对访问速度敏感，可以优先选用神龙HTTP提供的、在物理位置上离目标网站服务器或你采集区域更近的城市级节点IP。