python如何爬取带图片的文本

Python 爬取带图片的文本的方法有：使用 requests 请求网页、解析网页获取所需内容、下载图片并保存、将文本和图片结合存储。 其中，使用 requests 请求网页、解析网页获取所需内容是关键步骤。首先，我们需要发送 HTTP 请求获取网页内容，然后用 BeautifulSoup 解析 HTML 结构，提取文本和图片链接。接下来，下载图片并保存到本地，最后将文本和图片结合存储到文件中。

下面将详细展开这些步骤：

一、发送 HTTP 请求获取网页内容

要爬取网页，首先需要发送 HTTP 请求获取网页内容。Python 中常用的库是 requests 库，它简洁易用，可以轻松发送 GET 或 POST 请求获取网页内容。

import requests
url = 'http://example.com'
response = requests.get(url)
if response.status_code == 200:
    html_content = response.text
else:
    print(f"Failed to retrieve the webpage. Status code: {response.status_code}")

在上面的代码中，我们使用 requests.get() 方法发送 GET 请求，并检查响应的状态码是否为 200（表示成功）。如果请求成功，我们将网页内容存储在 html_content 变量中。

二、解析网页获取所需内容

获取网页内容后，需要解析 HTML 结构，提取所需的文本和图片链接。常用的解析库是 BeautifulSoup，它能够轻松解析 HTML 并提取特定元素。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
text_elements = soup.find_all('p')
image_elements = soup.find_all('img')
texts = [element.get_text() for element in text_elements]
image_urls = [element['src'] for element in image_elements]

在上面的代码中，我们使用 BeautifulSoup 解析 HTML 内容，并查找所有的 <p> 标签（通常用于文本）和 <img> 标签（用于图片）。然后，我们提取每个文本元素的文本内容和每个图片元素的 src 属性（图片链接）。

三、下载图片并保存

获取图片链接后，需要下载图片并保存到本地。可以使用 requests 库的 get 方法下载图片，并将其写入文件。

import os
image_folder = 'images'
os.makedirs(image_folder, exist_ok=True)
for idx, image_url in enumerate(image_urls):
    image_response = requests.get(image_url)
    if image_response.status_code == 200:
        image_path = os.path.join(image_folder, f'image_{idx}.jpg')
        with open(image_path, 'wb') as f:
            f.write(image_response.content)
    else:
        print(f"Failed to download image {image_url}. Status code: {image_response.status_code}")

在上面的代码中，我们创建了一个 images 文件夹，并下载每个图片链接的图片，将其保存到该文件夹中。

四、将文本和图片结合存储

最后，将提取的文本和下载的图片结合存储。可以将文本和图片的路径存储到一个文件中，也可以将它们组合成一个 HTML 文件以便于查看。

output_file = 'output.html'
with open(output_file, 'w', encoding='utf-8') as f:
    for idx, text in enumerate(texts):
        f.write(f"<p>{text}</p>\n")
        if idx < len(image_urls):
            image_path = os.path.join(image_folder, f'image_{idx}.jpg')
            f.write(f'<img src="{image_path}" />\n')

在上面的代码中，我们将每段文本和对应的图片路径写入到 output.html 文件中，以 HTML 格式存储，便于查看。

五、处理特殊情况

在实际应用中，网页内容可能包含复杂的 HTML 结构，图片链接可能是相对路径等情况。需要进行特殊处理以确保解析和下载的正确性。

处理相对路径

如果图片链接是相对路径，需要将其转换为绝对路径。可以使用 urljoin 方法进行转换。

from urllib.parse import urljoin
base_url = 'http://example.com'
image_urls = [urljoin(base_url, element['src']) for element in image_elements]

处理复杂 HTML 结构

如果网页内容包含复杂的 HTML 结构，可以使用 CSS 选择器或正则表达式等方法精确提取所需内容。

text_elements = soup.select('div.article-content p')
image_elements = soup.select('div.article-content img')

在上面的代码中，我们使用 select 方法结合 CSS 选择器提取特定部分的文本和图片元素。

处理异常情况

在实际应用中，可能会遇到网络请求失败、解析错误等异常情况。需要进行异常处理以确保程序的健壮性。

try:
    response = requests.get(url, timeout=10)
    response.raise_for_status()
except requests.RequestException as e:
    print(f"Request failed: {e}")

在上面的代码中，我们使用 try-except 语句捕获并处理网络请求中的异常情况。

总结

通过上述步骤，我们可以使用 Python 爬取带图片的文本内容。首先，发送 HTTP 请求获取网页内容；然后，使用 BeautifulSoup 解析 HTML 结构，提取文本和图片链接；接着，下载图片并保存到本地；最后，将文本和图片结合存储到文件中。需要注意处理相对路径、复杂 HTML 结构和异常情况，以确保程序的健壮性。