python 如何下载文档

使用Python下载文档的主要方法包括：requests库、urllib库、BeautifulSoup库。其中，requests库是最常用的，因为它功能强大且易于使用。下面将详细介绍如何使用requests库下载文档。

要使用requests库下载文档，首先需要确保已安装requests库。可以使用pip命令进行安装：

pip install requests

然后，使用requests库下载文档的示例如下：

import requests
url = "http://example.com/document.pdf"
response = requests.get(url)
with open("document.pdf", "wb") as file:
    file.write(response.content)

在上面的示例中，首先导入requests库，然后使用requests.get()方法请求文档的URL，接着将响应内容写入文件中。这种方法简单易用且适合大多数场景。

接下来将进一步详细介绍其他方法及其使用场景。

一、使用requests库下载文档

1、基本用法

requests库是一个简便且功能强大的HTTP请求库，适用于各种HTTP请求场景。基本用法如下：

import requests
url = "http://example.com/document.pdf"
response = requests.get(url)
if response.status_code == 200:
    with open("document.pdf", "wb") as file:
        file.write(response.content)
else:
    print("Failed to retrieve the document.")

在上面的代码中，requests.get()方法用于发送HTTP GET请求，如果响应状态码为200（OK），则将响应内容写入文件。

2、处理大文件

下载大文件时，应避免一次性将文件内容加载到内存中，可以使用流式下载：

import requests
url = "http://example.com/large_document.pdf"
response = requests.get(url, stream=True)
if response.status_code == 200:
    with open("large_document.pdf", "wb") as file:
        for chunk in response.iter_content(chunk_size=8192):
            file.write(chunk)
else:
    print("Failed to retrieve the document.")

在上面的代码中，stream=True参数使请求以流式方式进行，response.iter_content()方法用于逐块读取内容，从而避免占用过多内存。

3、设置请求头

有时需要设置请求头以模拟浏览器请求或提供身份验证信息：

import requests
url = "http://example.com/document.pdf"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
    with open("document.pdf", "wb") as file:
        file.write(response.content)
else:
    print("Failed to retrieve the document.")

在上面的代码中，headers参数用于设置请求头，以模拟浏览器的User-Agent。

二、使用urllib库下载文档

1、基本用法

urllib库是Python内置的HTTP请求库，适用于需要更细粒度控制的场景。基本用法如下：

import urllib.request
url = "http://example.com/document.pdf"
urllib.request.urlretrieve(url, "document.pdf")

在上面的代码中，urllib.request.urlretrieve()方法用于下载文档并将其保存到本地文件。

2、处理大文件

与requests库类似，可以使用流式下载处理大文件：

import urllib.request
url = "http://example.com/large_document.pdf"
with urllib.request.urlopen(url) as response, open("large_document.pdf", "wb") as file:
    while True:
        chunk = response.read(8192)
        if not chunk:
            break
        file.write(chunk)

在上面的代码中，urllib.request.urlopen()方法用于打开URL，response.read()方法用于逐块读取内容。

3、设置请求头

可以使用urllib.request.Request类设置请求头：

import urllib.request
url = "http://example.com/document.pdf"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
request = urllib.request.Request(url, headers=headers)
with urllib.request.urlopen(request) as response, open("document.pdf", "wb") as file:
    file.write(response.read())

在上面的代码中，urllib.request.Request()类用于创建带有请求头的请求对象。

三、使用BeautifulSoup库解析和下载文档

1、基本用法

BeautifulSoup库主要用于解析HTML文档，从中提取所需信息。首先需要安装BeautifulSoup库和lxml解析器：

pip install beautifulsoup4 lxml

2、解析HTML并下载文档

下面示例展示了如何使用BeautifulSoup库解析HTML文档并下载其中链接的文档：

import requests
from bs4 import BeautifulSoup
url = "http://example.com/page_with_links"
response = requests.get(url)
soup = BeautifulSoup(response.content, "lxml")
for link in soup.find_all("a"):
    href = link.get("href")
    if href.endswith(".pdf"):
        file_url = href
        file_name = href.split("/")[-1]
        file_response = requests.get(file_url)
        with open(file_name, "wb") as file:
            file.write(file_response.content)

在上面的代码中，首先使用requests库获取HTML文档，然后使用BeautifulSoup库解析HTML文档并找到所有链接，最后下载以.pdf结尾的文档。

3、处理相对链接

有时HTML文档中的链接是相对链接，需要将其转换为绝对链接：

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
base_url = "http://example.com/page_with_links"
response = requests.get(base_url)
soup = BeautifulSoup(response.content, "lxml")
for link in soup.find_all("a"):
    href = link.get("href")
    if href and href.endswith(".pdf"):
        file_url = urljoin(base_url, href)
        file_name = file_url.split("/")[-1]
        file_response = requests.get(file_url)
        with open(file_name, "wb") as file:
            file.write(file_response.content)

在上面的代码中，urljoin()函数用于将相对链接转换为绝对链接，从而确保正确下载文档。

四、总结

使用Python下载文档可以通过多种方法实现，包括requests库、urllib库、BeautifulSoup库等。requests库由于其简洁和强大的功能，通常是首选。对于较大文件，可以使用流式下载方式以节省内存。对于需要解析HTML文档并提取链接的情况，可以结合使用BeautifulSoup库。根据具体需求选择合适的方法，可以高效地完成文档下载任务。

相关问答FAQs：

如何在Python中下载特定格式的文档？
在Python中下载文档可以使用requests库来实现。首先，确保你已经安装了该库，可以通过命令pip install requests来安装。接着，使用requests.get()方法获取文件，利用文件的二进制模式写入本地文件。例如，下载一个PDF文档的基本代码如下：

import requests

url = 'https://example.com/document.pdf'
response = requests.get(url)

with open('document.pdf', 'wb') as file:
    file.write(response.content)

这样，你就可以轻松下载任何类型的文档，只需更换URL和文件扩展名即可。

有没有其他库可以用来下载文档？
除了requests库，Python的urllib库也可以用来下载文档。urllib是Python标准库的一部分，因此不需要额外安装。使用urllib.request模块可以快速实现下载功能，示例如下：

import urllib.request

url = 'https://example.com/document.pdf'
urllib.request.urlretrieve(url, 'document.pdf')

这种方法同样有效，适合用于处理简单的下载需求。

下载文档时如何处理异常和错误？
在下载文档时，网络问题或文件不存在等情况可能会导致错误。建议在代码中添加异常处理机制，以便于捕获错误并进行相应处理。可以使用try-except语句来实现，例如：

import requests

url = 'https://example.com/document.pdf'

try:
    response = requests.get(url)
    response.raise_for_status()  # 检查请求是否成功
    with open('document.pdf', 'wb') as file:
        file.write(response.content)
except requests.exceptions.RequestException as e:
    print(f"下载文档时发生错误: {e}")

这种方式可以帮助你更好地管理下载过程中可能遇到的各种问题。