pytho爬虫代理ip：爬虫脚本挂上代理再也不怕被封锁

为什么爬虫需要代理IP？

很多朋友在写Python爬虫时都遇到过这样的问题：刚开始还好好的，运行一段时间后，目标网站就突然访问不了了，要么返回错误码，要么直接拒绝连接。这通常是因为你的爬虫行为被对方服务器识别出来，从而对你的IP地址进行了封锁。一个IP频繁、快速地访问同一个网站，在服务器看来就像“不速之客”，自然会被拒之门外。

解决这个问题的核心思路很简单：让你的请求看起来像是来自不同的、正常的用户。代理IP服务就是实现这个思路的利器。通过代理IP，你的爬虫请求会先经过一个中间服务器（代理服务器），再由这个服务器去访问目标网站。对于目标网站而言，访问者是代理服务器的IP，而不是你本机的真实IP。这样，即使一个代理IP被封锁，你还可以切换到另一个，爬虫工作可以持续进行。

如何为Python爬虫配置代理IP？

在Python中，为你的爬虫请求挂上代理非常方便。无论是使用经典的requests库，还是异步的aiohttp库，都提供了简单的代理配置参数。下面我们以最常用的requests库为例，看看具体怎么做。

假设你已经从代理服务商那里获得了一个可用的代理IP，格式通常是IP:端口，比如123.45.67.89:8080。如果代理需要认证，格式则是用户名:密码@IP:端口。

import requests

 设置代理（以HTTP代理为例）
proxies = {
    'http': 'http://123.45.67.89:8080',
    'https': 'http://123.45.67.89:8080',  注意：很多HTTP代理也支持HTTPS，但协议头写http
}

 或者需要用户名密码认证的代理
proxies_with_auth = {
    'http': 'http://username:password@123.45.67.89:8080',
    'https': 'http://username:password@123.45.67.89:8080',
}

try:
     发起带代理的请求
    response = requests.get('http://httpbin.org/ip', proxies=proxies, timeout=10)
    print('通过代理获取的IP:', response.json())
except requests.exceptions.RequestException as e:
    print('请求失败:', e)

运行上面的代码，如果代理设置成功，httpbin.org/ip这个接口返回的将是你代理服务器的IP地址，而不是你本机的IP。这就证明你的爬虫已经成功“隐身”了。

构建一个简单的代理IP池管理器

单个代理IP并不保险，它也可能失效或被封。更稳健的做法是使用一个代理IP池，即准备多个代理IP，在每次请求时随机或按策略选取一个使用，并自动剔除失效的代理。

我们可以写一个简单的管理器来实现这个功能。这里我们假设你通过API从服务商那里获取了一批代理IP。

import random
import requests
from threading import Lock

class SimpleProxyPool:
    def __init__(self, proxy_list=None):
         初始化代理池列表，格式为 ['http://ip:port', ...]
        self.proxies = proxy_list if proxy_list else []
        self.lock = Lock()   用于线程安全
        self.current_index = 0

    def add_proxy(self, proxy):
        """向池子里添加一个代理"""
        with self.lock:
            if proxy not in self.proxies:
                self.proxies.append(proxy)

    def remove_proxy(self, proxy):
        """从池子里移除一个失效的代理"""
        with self.lock:
            if proxy in self.proxies:
                self.proxies.remove(proxy)
                print(f"移除失效代理: {proxy}")

    def get_random_proxy(self):
        """随机获取一个代理"""
        with self.lock:
            if not self.proxies:
                return None
            return random.choice(self.proxies)

    def get_proxy_dict(self):
        """获取一个可供requests直接使用的代理字典"""
        proxy_url = self.get_random_proxy()
        if proxy_url:
            return {'http': proxy_url, 'https': proxy_url}
        return None

    def test_proxy(self, proxy_url, test_url='http://httpbin.org/ip', timeout=5):
        """测试一个代理是否有效"""
        proxies = {'http': proxy_url, 'https': proxy_url}
        try:
            resp = requests.get(test_url, proxies=proxies, timeout=timeout)
            if resp.status_code == 200:
                 简单验证返回的IP是否确实是代理IP（这里逻辑可根据实际情况调整）
                return True
        except Exception:
            pass
        return False

 使用示例
if __name__ == '__main__':
     模拟从API获取的代理列表
    raw_proxies = ['http://IP1:端口', 'http://IP2:端口', 'http://IP3:端口']
    pool = SimpleProxyPool(raw_proxies)

     使用代理池发起请求
    for i in range(5):
        proxy_dict = pool.get_proxy_dict()
        if proxy_dict:
            try:
                resp = requests.get('http://httpbin.org/ip', proxies=proxy_dict, timeout=10)
                print(f'请求{i+1}成功，使用代理: {list(proxy_dict.values())[0]}')
                print(f'返回结果: {resp.json()}')
            except Exception as e:
                print(f'请求{i+1}失败，错误: {e}')
                 可以将失效代理从池中移除
                 pool.remove_proxy(list(proxy_dict.values())[0])
        else:
            print("代理池已空")

这个简单的管理器包含了代理的获取、随机选择、失效剔除和有效性测试等基本功能。在实际项目中，你可能需要增加更复杂的逻辑，比如根据代理响应速度进行优先级排序、定时从API更新代理池等。

选择靠谱的代理IP服务：神龙HTTP

自己搭建代理服务器费时费力，且IP资源有限，稳定性也难以保证。对于大多数爬虫项目，选择一个专业的代理IP服务是更高效、更经济的选择。这里以神龙HTTP为例，介绍专业服务能带来的好处。

神龙HTTP提供海量、合规的代理IP资源，其核心优势在于：

资源丰富且纯净：拥有千万级代理IP资源库，覆盖全国300多个城市，IP纯净度高达99.8%，确保你的请求不会被目标网站轻易关联。
高可用与低延迟：通过运营商正规授权，代理线路连通率和稳定性有保障，延迟低，能满足高并发数据采集的需求。
灵活的代理类型：提供短效动态IP、长效静态IP和固定IP等多种套餐。例如，对于需要频繁更换IP的普通采集任务，短效动态IP池是性价比之选，IP存活时间从几分钟到半小时不等，资源每日更新，能有效应对反爬。而对于需要稳定会话的采集，则可以选择长效静态IP。
便捷的集成方式：提供简单明了的API接口，可以轻松集成到上述的代理池管理器中，实现自动获取和更换IP。同时提供详细的技术文档和724小时支持，集成过程遇到问题能快速得到解决。

使用这类服务，你无需关心IP从哪里来、是否有效，只需调用API获取IP，然后专注于你的爬虫业务逻辑即可。

常见问题QA

Q1：我已经用了代理IP，为什么爬虫还是被发现了？

A1：这可能涉及几个原因：1) 代理IP质量不高：如果使用的代理IP是公开的、被很多人共用，很可能早已被目标网站列入黑名单。2) 爬虫行为特征明显：即使IP不同，但你的请求频率过高、请求头过于简单、或行为模式过于规律，仍然会被高级反爬系统识别。解决方案是结合使用高质量代理IP（如神龙HTTP的纯净IP）并完善你的爬虫，例如添加合理的请求头、设置随机的请求间隔、模拟正常浏览器的行为等。

Q2：我应该选择动态短效IP还是长效静态IP？

A2：这取决于你的具体任务：
- 动态短效IP：适合大规模、并发式的数据采集，需要IP频繁更换的场景。例如，快速抓取公开的商品列表、新闻资讯等。神龙HTTP的动态IP池资源量巨大，能很好地支持这类需求。
- 长效静态IP：适合需要维持登录状态、进行连续交互操作的爬虫任务。例如，需要模拟用户完成一系列操作（浏览、点击）的场景。它在一段时间内IP不变，稳定性更好。