如何用python批量下载图片大小

使用Python批量下载图片的方法有多种、可以通过requests库发送HTTP请求来获取图片数据、通过BeautifulSoup库解析网页HTML内容并提取图片URL、使用os库管理文件系统。其中，使用requests库发送HTTP请求来获取图片数据是一种常见且高效的方法。接下来，我将详细描述如何使用requests库来实现这一功能。

为了实现批量下载图片，我们需要执行以下几个步骤：

获取图片的URL列表
发送HTTP请求下载图片数据
将图片数据保存到本地文件

一、获取图片URL列表

在批量下载图片之前，我们需要获取图片的URL列表。有多种方法可以获取图片的URL列表，比如：

手动收集图片URL并保存到一个文本文件中
使用爬虫程序自动提取网页中的图片URL

在这里，我们将使用BeautifulSoup库来自动提取网页中的图片URL。

import requests
from bs4 import BeautifulSoup
def get_image_urls(page_url):
    response = requests.get(page_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    image_tags = soup.find_all('img')
    image_urls = [img['src'] for img in image_tags if 'src' in img.attrs]
    return image_urls
示例：获取一个网页中的所有图片URL
page_url = 'https://example.com'
image_urls = get_image_urls(page_url)
print(image_urls)

二、发送HTTP请求下载图片数据

获取到图片的URL列表后，我们需要发送HTTP请求来下载图片数据。可以使用requests库中的requests.get函数来获取图片数据。

def download_image(image_url):
    response = requests.get(image_url, stream=True)
    if response.status_code == 200:
        return response.content
    else:
        return None
示例：下载一张图片
image_url = 'https://example.com/image.jpg'
image_data = download_image(image_url)
if image_data:
    print('图片下载成功')
else:
    print('图片下载失败')

三、将图片数据保存到本地文件

下载到图片数据后，我们需要将其保存到本地文件。可以使用Python内置的open函数来创建文件并写入数据。

import os
def save_image(image_data, file_path):
    with open(file_path, 'wb') as file:
        file.write(image_data)
示例：保存一张图片到本地文件
file_path = 'image.jpg'
save_image(image_data, file_path)
print(f'图片保存到 {file_path}')

四、批量下载图片

将以上步骤结合起来，我们就可以实现批量下载图片的功能。

import os
def batch_download_images(image_urls, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    for i, image_url in enumerate(image_urls):
        image_data = download_image(image_url)
        if image_data:
            file_name = f'image_{i+1}.jpg'
            file_path = os.path.join(save_dir, file_name)
            save_image(image_data, file_path)
            print(f'图片下载并保存到 {file_path}')
        else:
            print(f'图片下载失败: {image_url}')
示例：批量下载图片
page_url = 'https://example.com'
image_urls = get_image_urls(page_url)
save_dir = 'images'
batch_download_images(image_urls, save_dir)

五、错误处理和优化

在实际应用中，我们可能会遇到各种问题，比如网络连接错误、无效的URL、重复的图片等。为了提高代码的健壮性，我们可以添加一些错误处理和优化措施。

添加错误处理

def download_image(image_url):
    try:
        response = requests.get(image_url, stream=True)
        if response.status_code == 200:
            return response.content
        else:
            print(f'HTTP错误: {response.status_code}')
            return None
    except requests.RequestException as e:
        print(f'网络错误: {e}')
        return None

处理无效的URL

def get_image_urls(page_url):
    try:
        response = requests.get(page_url)
        soup = BeautifulSoup(response.content, 'html.parser')
        image_tags = soup.find_all('img')
        image_urls = [img['src'] for img in image_tags if 'src' in img.attrs]
        return image_urls
    except requests.RequestException as e:
        print(f'无法获取图片URL: {e}')
        return []

去重处理

def batch_download_images(image_urls, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    unique_image_urls = list(set(image_urls))
    for i, image_url in enumerate(unique_image_urls):
        image_data = download_image(image_url)
        if image_data:
            file_name = f'image_{i+1}.jpg'
            file_path = os.path.join(save_dir, file_name)
            save_image(image_data, file_path)
            print(f'图片下载并保存到 {file_path}')
        else:
            print(f'图片下载失败: {image_url}')

六、并发下载

为了提高下载效率，我们可以使用并发技术同时下载多个图片。可以使用concurrent.futures模块来实现并发下载。

from concurrent.futures import ThreadPoolExecutor
def batch_download_images_concurrent(image_urls, save_dir, max_workers=5):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    unique_image_urls = list(set(image_urls))
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        future_to_url = {executor.submit(download_image, url): url for url in unique_image_urls}
        for future in future_to_url:
            image_url = future_to_url[future]
            try:
                image_data = future.result()
                if image_data:
                    file_name = f'image_{unique_image_urls.index(image_url)+1}.jpg'
                    file_path = os.path.join(save_dir, file_name)
                    save_image(image_data, file_path)
                    print(f'图片下载并保存到 {file_path}')
                else:
                    print(f'图片下载失败: {image_url}')
            except Exception as e:
                print(f'图片下载异常: {image_url}, 错误: {e}')
示例：并发批量下载图片
page_url = 'https://example.com'
image_urls = get_image_urls(page_url)
save_dir = 'images'
batch_download_images_concurrent(image_urls, save_dir)