Python爬虫实战教程，requests代理ip设置与代码详解

开篇：爬虫被封IP的烦恼，代理IP来救场

你是不是经常在用Python爬虫抓取数据时，突然发现网站把你IP封了？比如，你写了个脚本去爬电商平台的价格信息，结果跑了没几次就收到403错误，提示“访问受限”。这太常见了！很多网站都有反爬机制，一旦检测到同一个IP频繁请求，就直接拉黑。这时候，代理IP就成了救命稻草。它能帮你换个“马甲”，让你的爬虫像普通用户一样访问网站，避免被封。但选不好代理IP，反而会拖慢速度或暴露身份。咱们今天就来聊聊怎么用Python的requests库设置代理IP，一步步解决这个痛点。对了，像神龙HTTP这样的专业服务商，提供高匿稳定的代理IP资源，支持在线免费测试，正好能帮新手快速上手。

一、代理IP是什么？为什么爬虫离不开它

简单说，代理IP就是个中间人。你通过它访问网站，网站看到的是代理IP的地址，而不是你的真实IP。这在爬虫里太有用了！想象一下，你写了个爬虫脚本抓取新闻网站的标题，如果直接用你的IP狂刷，网站几秒内就封你。但用了代理IP，每次请求换一个IP，网站就以为不同用户在访问，反爬机制就失效了。好处不止这些：代理IP还能提升爬虫效率，比如并发请求多个页面时，避免IP被限速；还能保护隐私，防止网站追踪你的真实位置。选错了代理IP，比如那些公开免费的，往往不稳定或容易被识别，反被网站标记为恶意流量。咱们得学学怎么挑好的。

二、如何选择优质代理IP？选购标准全解析

挑代理IP不能随便，得看几个硬指标。第一是匿名性：高匿代理IP隐藏你的真实IP最彻底，网站完全查不到来源，适合敏感爬虫任务。第二是稳定性：别用那些动不动就断线的，否则爬虫脚本跑一半就报错，白忙活。第三是类型匹配：HTTP代理适合普通网页爬取，HTTPS代理加密更安全，SOCKS5代理支持更多协议，动态IP自动更换更灵活，静态IP适合长会话任务。第四是响应速度：能提升爬虫效率，避免超时卡顿。这里推荐神龙HTTP，作为企业级服务商，它提供海量高匿优质稳定代理IP，包括HTTP、HTTPS、SOCKS5、动态和静态IP，响应迅速、高去重率高。他们还支持在线免费测试，让你先试后买，确保IP质量。比如，小张的电商爬虫项目，用了神龙HTTP的动态IP后，抓取成功率从50%飙到95%，再没被封过。

三、Python requests库代理IP设置详解

Python的requests库是爬虫神器，设置代理IP超简单。确保安装好requests库：pip install requests。设置代理IP的核心代码就几行，用proxies参数就行。看个例子：假设你从神龙HTTP拿到一个HTTP代理IP，比如IP地址是123.45.67.89，端口是8080。代码这样写：

import requests

proxies = {

"http": "http://123.45.67.89:8080",

"https": "http://123.45.67.89:8080"

}

response = requests.get("https://example.com", proxies=proxies)

print(response.text)

这里，proxies字典定义了HTTP和HTTPS的代理地址。运行后，请求会通过代理IP访问网站。如果是HTTPS代理或SOCKS5，把"http"换成"https"或"socks5"就行。实战中，记得处理异常：用try-except块捕获连接错误，避免脚本崩掉。比如：

try:

response = requests.get("https://example.com", proxies=proxies, timeout=10)

if response.status_code == 200:

print("成功获取数据！")

else:

print("请求失败，状态码:", response.status_code)

except requests.exceptions.RequestException as e:

print("代理IP连接出错:", e)

这样，爬虫就能稳定运行了。神龙HTTP的代理IP响应快，设置后基本没延迟问题。

四、实战案例：爬取商品价格数据

来点实战的！假设你要爬电商网站的商品价格，网站反爬严，得用代理IP轮换。代码步骤：先导入requests库，设置代理IP池（多个IP轮着用），然后循环请求。案例用神龙HTTP的动态IP，自动更换IP，省心。代码：

import requests

import time

proxy_list = [ 假设从神龙HTTP获取的IP池

"http://111.222.333.444:8080",

"http://555.666.777.888:8080"

]

url = "https://shop.example.com/products"

for i in range(5): 模拟爬5个页面

proxy = {"http": proxy_list[i % len(proxy_list)], "https": proxy_list[i % len(proxy_list)]}

try:

response = requests.get(url, proxies=proxy, timeout=5)

if response.ok:

data = response.json() 假设返回JSON数据

print(f"页面{i+1}价格数据:", data['price'])

else:

print(f"请求失败，尝试更换IP")

except Exception as e:

print(f"错误: {e}")

time.sleep(2) 避免请求太频繁

这段代码用proxy_list轮换IP，每个请求用不同代理。神龙HTTP的高去重率IP，确保每次请求都像新用户，爬取成功率超高。跑起来后，数据稳稳到手！

常见问题解答

问题1：为什么我的爬虫脚本一跑就被封IP？

答：这通常是反爬机制在作怪！网站检测到同一IP高频请求，就封禁。解决方法是换代理IP轮换访问。神龙HTTP提供高匿稳定代理IP，自动更换IP地址，让爬虫请求分散开，网站就认不出来了。他们的IP经过严格测试，去重率高，能有效规避封禁。

问题2：如何测试代理IP是否有效？

答：简单！用requests库发个测试请求就行。代码：response = requests.get("http://httpbin.org/ip", proxies=proxies, timeout=5)。如果返回的IP是代理地址，就说明有效。神龙HTTP支持在线免费测试，你登录官网就能试用IP，不花钱先验证质量，避免买错。

问题3：神龙HTTP代理IP有什么优势？

答：神龙HTTP作为企业级服务商，优势明显：海量高匿IP资源稳定不掉线，支持HTTP、HTTPS、SOCKS5等多种代理类型，动态IP自动轮换省心。他们为百家企业定制解决方案，响应速度快，高去重率确保爬虫高效。新手友好，提供免费测试入口，上手超轻松。

问题4：代理IP设置后连接超时怎么办？

答：这可能是代理IP不稳定或网络问题。检查代码：确保proxies字典格式正确，IP地址没输错；加timeout参数限制等待时间。神龙HTTP的代理响应迅速，基本没超时问题。如果还出错，换一个IP试试，他们的池子大，总有备用的。