python如何提取网页图片并保存本地

使用Python提取网页图片并保存到本地的方法有很多，其中主要步骤包括：发送HTTP请求获取网页内容、解析HTML提取图片URL、下载图片并保存到本地。下面将详细介绍一种常用的方法，具体包括使用requests库发送HTTP请求、使用BeautifulSoup解析HTML、使用os库保存图片。

首先，安装所需的第三方库：requests、BeautifulSoup。可以通过pip工具进行安装：

pip install requests pip install beautifulsoup4

接下来，下面是一个完整的示例代码，演示如何提取网页中的图片并保存到本地：

import requests
from bs4 import BeautifulSoup
import os
def fetch_image_urls(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
    response = requests.get(url, headers=headers)
    response.raise_for_status()  # 检查请求是否成功
    soup = BeautifulSoup(response.content, 'html.parser')
    img_tags = soup.find_all('img')
    img_urls = [img['src'] for img in img_tags if 'src' in img.attrs]
    return img_urls
def save_images(img_urls, save_dir='images'):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    for img_url in img_urls:
        try:
            img_response = requests.get(img_url)
            img_response.raise_for_status()
            img_name = os.path.join(save_dir, img_url.split('/')[-1])
            with open(img_name, 'wb') as img_file:
                img_file.write(img_response.content)
            print(f'{img_name} saved successfully.')
        except requests.RequestException as e:
            print(f'Failed to download {img_url}: {e}')
if __name__ == '__main__':
    url = 'https://example.com'
    img_urls = fetch_image_urls(url)
    save_images(img_urls)

一、发送HTTP请求获取网页内容

使用requests库发送HTTP请求获取网页内容是非常基础的操作。requests库是一个简单易用的HTTP库，支持多种请求方式（如GET、POST等）。在上面的代码中，通过调用requests.get()方法，向指定的URL发送GET请求，并获取响应内容。为了避免被服务器拒绝访问，可以在请求头中添加User-Agent信息，伪装成浏览器请求。

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
response = requests.get(url, headers=headers)
response.raise_for_status()  # 检查请求是否成功

二、解析HTML提取图片URL

获取到网页内容后，接下来需要解析HTML以提取出所有图片的URL。BeautifulSoup是一个非常强大的HTML解析库，它可以帮助我们轻松地从HTML文档中提取所需的信息。在示例代码中，通过调用BeautifulSoup()方法，将HTML内容解析成BeautifulSoup对象。接着，使用find_all()方法查找所有的<img>标签，并提取出其中的src属性值，这些值即为图片的URL。

soup = BeautifulSoup(response.content, 'html.parser')
img_tags = soup.find_all('img')
img_urls = [img['src'] for img in img_tags if 'src' in img.attrs]

三、下载图片并保存到本地

提取到图片URL后，最后一步是下载图片并将其保存到本地。为了将图片保存到指定目录，需要先检查目录是否存在，如果不存在则创建之。然后，对于每一个图片URL，通过调用requests.get()方法发送请求获取图片数据，并将数据以二进制写入文件中。在保存图片文件时，使用图片URL的最后一部分作为文件名。

if not os.path.exists(save_dir):
    os.makedirs(save_dir)
for img_url in img_urls:
    try:
        img_response = requests.get(img_url)
        img_response.raise_for_status()
        img_name = os.path.join(save_dir, img_url.split('/')[-1])
        with open(img_name, 'wb') as img_file:
            img_file.write(img_response.content)
        print(f'{img_name} saved successfully.')
    except requests.RequestException as e:
        print(f'Failed to download {img_url}: {e}')

四、注意事项

处理相对URL：在某些网页中，图片的URL可能是相对路径而不是完整的URL。在这种情况下，需要将相对路径转换为完整URL。可以使用urllib.parse.urljoin()方法来完成这一转换。
异常处理：在执行HTTP请求时，可能会遇到网络问题或其他异常情况。为了使程序更加健壮，应该在请求时加入异常处理机制。requests库中的raise_for_status()方法可以帮助我们检查请求是否成功，如果失败则抛出异常。此外，在保存图片时也应捕获异常，避免程序崩溃。
并发下载：如果需要下载大量图片，逐个下载可能会花费较长时间。可以考虑使用多线程或异步IO来提高下载效率。例如，可以使用concurrent.futures库中的ThreadPoolExecutor来实现多线程下载。

五、代码改进建议

为了提高代码的可读性和可维护性，可以对代码进行适当的重构。例如，将获取网页内容、解析HTML、下载图片等功能分别封装成独立的函数，并在主函数中调用这些函数。此外，可以添加更多的参数和选项，以使代码更加灵活和通用。

import requests
from bs4 import BeautifulSoup
import os
from urllib.parse import urljoin
from concurrent.futures import ThreadPoolExecutor
def fetch_image_urls(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.content, 'html.parser')
    img_tags = soup.find_all('img')
    img_urls = [urljoin(url, img['src']) for img in img_tags if 'src' in img.attrs]
    return img_urls
def download_image(img_url, save_dir):
    try:
        img_response = requests.get(img_url)
        img_response.raise_for_status()
        img_name = os.path.join(save_dir, img_url.split('/')[-1])
        with open(img_name, 'wb') as img_file:
            img_file.write(img_response.content)
        print(f'{img_name} saved successfully.')
    except requests.RequestException as e:
        print(f'Failed to download {img_url}: {e}')
def save_images(img_urls, save_dir='images', max_workers=5):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        for img_url in img_urls:
            executor.submit(download_image, img_url, save_dir)
if __name__ == '__main__':
    url = 'https://example.com'
    img_urls = fetch_image_urls(url)
    save_images(img_urls)

通过以上示例代码，可以更高效地提取网页中的图片并保存到本地。希望这些内容能对您有所帮助，祝您编程愉快！