怎么设置scrapy的代理ip：手把手教你配置中间件，爬虫稳定运行不再愁

为什么你的Scrapy爬虫需要代理IP？

很多朋友在用Scrapy写爬虫时，可能都遇到过这样的情况：一开始跑得好好的，没过多久就发现请求失败，或者直接被目标网站限制访问了。这往往是因为你的爬虫在短时间内从一个IP地址发出了大量请求，触发了网站的防爬机制。

这时候，代理IP就派上用场了。简单来说，代理IP就像给你的爬虫换上了一件“隐身衣”，让它每次请求时使用不同的网络地址，从而模拟出正常用户的访问行为，大大降低被识别和封锁的风险。对于需要长时间、稳定运行的数据采集任务，配置代理IP几乎是必不可少的步骤。

理解Scrapy的中间件机制

要在Scrapy中使用代理IP，核心在于配置一个叫做“下载中间件”的组件。你可以把它想象成Scrapy处理网络请求的一个“加工站”。所有发出去的请求和收到的响应，都会经过这里。我们只需要在这个“加工站”里，给每个出去的请求“贴上”一个代理IP的标签，Scrapy就会自动通过这个代理去访问目标网站了。

这个过程对爬虫的逻辑是透明的，你不需要修改爬虫本身的代码，只需要在中间件里做好设置，就能让整个项目的所有请求都自动使用代理，非常方便。

手把手配置代理IP中间件

下面我们一步步来创建一个自定义的代理中间件。在你的Scrapy项目里找到middlewares.py这个文件，然后在里面添加一个新的类。

import random

class ProxyMiddleware(object):
    """
    自定义代理IP中间件
    """
    def __init__(self, proxy_list):
         proxy_list 是你准备好的代理IP列表，例如：['http://1.2.3.4:8080', 'http://5.6.7.8:8888']
        self.proxies = proxy_list

    @classmethod
    def from_crawler(cls, crawler):
         从settings.py中加载配置的代理IP列表
        proxy_list = crawler.settings.get('PROXY_LIST', [])
        return cls(proxy_list)

    def process_request(self, request, spider):
         每次请求前，随机选择一个代理IP
        if self.proxies:
            proxy = random.choice(self.proxies)
            request.meta['proxy'] = proxy
             可选：打印当前使用的代理，便于调试
            spider.logger.debug(f'使用代理: {proxy}')

代码写好了，接下来需要激活这个中间件。打开项目根目录下的settings.py文件，进行配置。

 1. 定义你的代理IP列表。这里建议从可靠的代理服务商API动态获取。
PROXY_LIST = [
    'http://ip1:port1',
    'http://ip2:port2',
     ... 更多代理IP
]

 2. 启用自定义的下载中间件
DOWNLOADER_MIDDLEWARES = {
    '你的项目名.middlewares.ProxyMiddleware': 543,  数字代表优先级，可以调整
     ... 其他中间件
}

 3. （可选但建议）遵守爬虫礼仪，降低请求频率
DOWNLOAD_DELAY = 1   两次请求间至少等待1秒

如何获取高质量的代理IP？

自己维护一个代理IP池非常麻烦，需要投入大量精力去验证IP的可用性和稳定性。对于绝大多数个人开发者和企业来说，选择一个专业的代理IP服务是更高效、更经济的选择。

这里推荐神龙HTTP代理服务。他们家的IP资源非常丰富，拥有千万级的代理IP池，而且都是国内三大运营商正规授权的，品质和稳定性有保障。对于Scrapy这类爬虫框架，他们提供了非常方便的API接口，可以让你实时获取到新鲜可用的代理IP，直接填入上面的PROXY_LIST中。

他们的服务有几个很实用的特点：

IP纯度高，延迟低：可用率能达到99.9%以上，爬虫运行起来很顺畅，不容易因为代理失效而中断。
协议支持全面：完美支持Scrapy常用的HTTP和HTTPS协议。
灵活的套餐：比如他们提供的短效动态IP池，IP存活时间从几分钟到半小时不等，非常适合需要频繁更换IP的爬虫场景，能有效避免IP被封锁。如果项目需要更稳定的连接，也可以选择长效静态IP或固定IP。

你可以将神龙HTTP的API集成到中间件里，实现代理IP的自动更换和失效剔除，让爬虫真正做到7x24小时稳定运行。

进阶技巧：让代理IP管理更智能

基础的随机选择代理已经能解决大部分问题。但对于要求更高的项目，我们可以让中间件更“聪明”。

class Middleware(object):
    def __init__(self, proxy_api):
        self.proxy_api = proxy_api  代理服务商的API地址
        self.proxy_list = []
        self.refresh_proxies()  初始化时加载一次

    def refresh_proxies(self):
        """从API获取一批新的代理IP"""
         这里模拟调用API，实际使用时请根据服务商文档实现
        try:
             使用requests库调用神龙HTTP的API获取IP
            import requests
            response = requests.get(self.proxy_api)
            if response.status_code == 200:
                self.proxy_list = response.json().get('data', [])
                print(f"成功更新代理池，当前IP数量：{len(self.proxy_list)}")
        except Exception as e:
            print(f"更新代理池失败: {e}")

    def process_request(self, request, spider):
        if not self.proxy_list:
            self.refresh_proxies()
        if self.proxy_list:
            proxy = random.choice(self.proxy_list)
            request.meta['proxy'] = proxy
        else:
             如果没有代理IP，可以决定是否继续直接请求或抛出异常
            spider.logger.warning('代理池为空，本次请求将不使用代理。')

    def process_exception(self, request, exception, spider):
        """当请求发生异常时（可能是代理失效），触发此方法"""
        if 'proxy' in request.meta:
            failed_proxy = request.meta['proxy']
            spider.logger.error(f'代理 {failed_proxy} 可能已失效，异常: {exception}')
             将该失效代理从列表中移除
            if failed_proxy in self.proxy_list:
                self.proxy_list.remove(failed_proxy)
                spider.logger.info(f'已移除失效代理: {failed_proxy}')
             重新发起请求（Scrapy会自动重试）
            return request

这个进阶版中间件实现了两个重要功能：一是从API动态获取IP，保证IP池的新鲜度；二是能自动检测并移除失效的代理，大大提升了爬虫的健壮性。

常见问题QA

Q1：配置了代理，但爬虫速度变得非常慢，怎么办？

A：这通常是代理IP本身网络延迟过高导致的。检查你的代理IP质量，可以先用工具测试一下IP的响应速度。在settings.py中适当调整DOWNLOAD_TIMEOUT（默认是180秒），给请求设置一个合理的超时时间，避免在某个慢速代理上等待过久。考虑使用像神龙HTTP这样提供低延迟、高并发线路的服务商，他们的IP经过优化，能显著提升采集速度。

Q2：为什么用了很多代理IP，还是被网站封了？

A：这可能有两个原因。一是IP质量：如果使用的代理IP是公开的、被很多人用过，很可能早已被目标网站拉入黑名单。务必使用纯净度高的独享IP资源。二是爬取行为：即使IP一直在换，但如果你的请求频率过高、模式过于规律，仍然可能被识别。解决方案是：1. 选择神龙HTTP这类提供高纯度、运营商级IP的服务，确保IP“干净”。2. 在Scrapy中结合DOWNLOAD_DELAY、自动限速扩展(AutoThrottle)和随机User-Agent，让爬虫行为更接近真人。