python3如何代理访问

在 Python3 中代理访问可以通过多种方式实现，常用的方法包括使用 requests 库、urllib 库、以及设置系统级别的代理。其中，使用 requests 库是最为常见和便捷的方法。下面我将详细介绍通过 requests 库设置代理访问的具体方法。

一、使用 `requests` 库设置代理

requests 是一个强大的 HTTP 客户端库，它不仅简化了 HTTP 请求的处理，还提供了简单的代理设置方法。通过 requests 库，设置代理非常简单，只需要在请求方法中传入 proxies 参数即可。

1、安装 `requests` 库

首先，需要确保已经安装了 requests 库。如果尚未安装，可以通过以下命令进行安装：

pip install requests

2、基本的代理设置

设置代理的基本方法如下：

import requests
proxies = {
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
}
response = requests.get("http://example.com", proxies=proxies)
print(response.text)

在这个例子中，我们设置了 HTTP 和 HTTPS 的代理服务器地址。requests 库会自动根据 URL 的协议选择合适的代理服务器。

3、代理认证

有些代理服务器需要认证，这时可以在代理 URL 中包含用户名和密码：

import requests
proxies = {
    "http": "http://user:password@10.10.1.10:3128",
    "https": "http://user:password@10.10.1.10:1080",
}
response = requests.get("http://example.com", proxies=proxies)
print(response.text)

在这个例子中，我们在代理 URL 中添加了用户名 user 和密码 password。

二、使用 `urllib` 库设置代理

urllib 是 Python 内置的一个用于处理 URL 请求的库，它也可以用来设置代理。

1、基本的代理设置

以下是使用 urllib 库设置代理的基本方法：

import urllib.request
proxy_handler = urllib.request.ProxyHandler({
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
})
opener = urllib.request.build_opener(proxy_handler)
urllib.request.install_opener(opener)
response = urllib.request.urlopen("http://example.com")
print(response.read().decode('utf-8'))

在这个例子中，我们创建了一个 ProxyHandler 并指定了代理服务器地址，然后使用 build_opener 方法创建了一个 OpenerDirector 对象，并通过 install_opener 方法将其设置为默认的 opener。

2、代理认证

如果代理服务器需要认证，可以使用 urllib.request.HTTPPasswordMgrWithDefaultRealm 和 urllib.request.ProxyBasicAuthHandler：

import urllib.request
proxy_handler = urllib.request.ProxyHandler({
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
})
password_mgr = urllib.request.HTTPPasswordMgrWithDefaultRealm()
password_mgr.add_password(None, "10.10.1.10:3128", "user", "password")
auth_handler = urllib.request.ProxyBasicAuthHandler(password_mgr)
opener = urllib.request.build_opener(proxy_handler, auth_handler)
urllib.request.install_opener(opener)
response = urllib.request.urlopen("http://example.com")
print(response.read().decode('utf-8'))

在这个例子中，我们创建了一个 HTTPPasswordMgrWithDefaultRealm 对象，并使用 add_password 方法添加了代理服务器的认证信息，然后使用 ProxyBasicAuthHandler 创建了一个认证处理器，并将其与 ProxyHandler 一起传递给 build_opener 方法。

三、设置系统级别的代理

有时我们可能需要设置系统级别的代理，这样所有的网络请求都会通过代理服务器。这可以通过设置环境变量来实现。

1、在 Windows 系统上设置环境变量

可以通过以下命令设置环境变量：

set http_proxy=http://10.10.1.10:3128
set https_proxy=http://10.10.1.10:1080

2、在 Unix/Linux 系统上设置环境变量

可以通过以下命令设置环境变量：

export http_proxy=http://10.10.1.10:3128 export https_proxy=http://10.10.1.10:1080

设置环境变量后，所有通过 requests 或 urllib 库发起的 HTTP 请求都会自动使用这些代理服务器。

四、总结

通过上述方法，我们可以在 Python3 中轻松实现代理访问。requests 库提供了最为简便的代理设置方法，适合大多数场景使用。对于需要更高控制和定制化需求的场景，可以选择使用 urllib 库。最后，通过设置系统级别的代理，可以让所有网络请求都通过代理服务器进行访问。

五、实践应用

在实际应用中，代理访问常用于以下几种场景：

1、爬虫

在爬虫项目中，使用代理可以有效绕过目标网站的 IP 限制，提高爬取效率和成功率。例如：

import requests
from bs4 import BeautifulSoup
proxies = {
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
}
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get("http://example.com", headers=headers, proxies=proxies)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.prettify())

2、数据采集

在数据采集项目中，代理服务器可以帮助我们访问一些受地理位置限制的资源。例如：

import requests
proxies = {
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
}
url = "http://example.com/api/data"
response = requests.get(url, proxies=proxies)
data = response.json()
print(data)

3、测试

在开发和测试过程中，使用代理可以模拟不同的网络环境，帮助我们发现和解决潜在的问题。例如：

import requests
proxies = {
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
}
response = requests.get("http://example.com", proxies=proxies)
print(response.status_code)