如何用python下载百度图片

如何用Python下载百度图片

在用Python下载百度图片时，通常需要通过以下几个步骤：发送HTTP请求获取网页内容、解析网页获取图片链接、下载并保存图片。我们将在本文详细介绍每个步骤，并展示如何通过代码实现整个过程。

一、发送HTTP请求获取网页内容

首先，我们需要发送一个HTTP请求到百度图片搜索页面，并获取返回的HTML内容。为了实现这一点，我们可以使用Python的requests库。requests库是一个用于发送HTTP请求的简单易用的库。

import requests
def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return None
url = 'https://image.baidu.com/search/index?tn=baiduimage&word=cat'
html_content = get_html(url)
print(html_content)

在这个代码段中，我们定义了一个名为get_html的函数，该函数接受一个URL作为参数，并返回该URL对应的HTML内容。我们使用requests.get方法发送HTTP GET请求，并添加了一个headers参数以模拟浏览器请求，从而避免被百度服务器拒绝。

二、解析网页获取图片链接

获取到网页的HTML内容后，我们需要解析HTML以提取图片链接。为了实现这一点，我们可以使用BeautifulSoup库。BeautifulSoup是一个用于解析HTML和XML文档的库，可以轻松地从中提取数据。

from bs4 import BeautifulSoup
def parse_html(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    images = []
    for img in soup.find_all('img'):
        if 'src' in img.attrs:
            images.append(img['src'])
    return images
image_urls = parse_html(html_content)
print(image_urls)

在这个代码段中，我们定义了一个名为parse_html的函数，该函数接受HTML内容作为参数，并返回一个包含图片链接的列表。我们使用BeautifulSoup解析HTML内容，并通过find_all方法找到所有的img标签，然后提取每个img标签的src属性值。

三、下载并保存图片

获取到图片链接后，我们需要下载这些图片并将其保存到本地。为了实现这一点，我们可以使用requests库再次发送HTTP请求，并将响应内容写入文件。

import os
def download_images(image_urls, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    for i, url in enumerate(image_urls):
        try:
            response = requests.get(url)
            if response.status_code == 200:
                with open(os.path.join(save_dir, f'image_{i}.jpg'), 'wb') as f:
                    f.write(response.content)
                print(f'Downloaded image {i} from {url}')
            else:
                print(f'Failed to download image {i} from {url}')
        except Exception as e:
            print(f'Error downloading image {i} from {url}: {e}')
save_dir = 'images'
download_images(image_urls, save_dir)

在这个代码段中，我们定义了一个名为download_images的函数，该函数接受图片链接列表和保存目录作为参数，并下载图片到指定目录。我们使用requests.get方法发送HTTP GET请求，并将响应内容写入文件。为了确保保存目录存在，我们使用os.makedirs方法创建目录。

四、整合代码

最后，我们将上述代码整合到一个完整的脚本中。

import requests
from bs4 import BeautifulSoup
import os
def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return None
def parse_html(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    images = []
    for img in soup.find_all('img'):
        if 'src' in img.attrs:
            images.append(img['src'])
    return images
def download_images(image_urls, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    for i, url in enumerate(image_urls):
        try:
            response = requests.get(url)
            if response.status_code == 200:
                with open(os.path.join(save_dir, f'image_{i}.jpg'), 'wb') as f:
                    f.write(response.content)
                print(f'Downloaded image {i} from {url}')
            else:
                print(f'Failed to download image {i} from {url}')
        except Exception as e:
            print(f'Error downloading image {i} from {url}: {e}')
if __name__ == '__main__':
    url = 'https://image.baidu.com/search/index?tn=baiduimage&word=cat'
    html_content = get_html(url)
    if html_content:
        image_urls = parse_html(html_content)
        save_dir = 'images'
        download_images(image_urls, save_dir)
    else:
        print('Failed to retrieve HTML content')

通过运行这个脚本，我们可以从百度图片搜索页面下载图片并将其保存到本地。这个脚本展示了如何使用Python的requests和BeautifulSoup库实现网页抓取和图片下载的全过程。

五、添加错误处理和优化

为了使脚本更加健壮和高效，我们可以添加一些错误处理和优化。例如，我们可以添加超时和重试机制，以处理网络问题；可以使用多线程或异步IO来加快下载速度；还可以过滤无效的图片链接。

import requests
from bs4 import BeautifulSoup
import os
import threading
from concurrent.futures import ThreadPoolExecutor
def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers, timeout=10)
    if response.status_code == 200:
        return response.text
    else:
        return None
def parse_html(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    images = []
    for img in soup.find_all('img'):
        if 'src' in img.attrs and img['src'].startswith('http'):
            images.append(img['src'])
    return images
def download_image(url, save_dir, i):
    try:
        response = requests.get(url, timeout=10)
        if response.status_code == 200:
            with open(os.path.join(save_dir, f'image_{i}.jpg'), 'wb') as f:
                f.write(response.content)
            print(f'Downloaded image {i} from {url}')
        else:
            print(f'Failed to download image {i} from {url}')
    except Exception as e:
        print(f'Error downloading image {i} from {url}: {e}')
def download_images(image_urls, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    with ThreadPoolExecutor(max_workers=10) as executor:
        for i, url in enumerate(image_urls):
            executor.submit(download_image, url, save_dir, i)
if __name__ == '__main__':
    url = 'https://image.baidu.com/search/index?tn=baiduimage&word=cat'
    html_content = get_html(url)
    if html_content:
        image_urls = parse_html(html_content)
        save_dir = 'images'
        download_images(image_urls, save_dir)
    else:
        print('Failed to retrieve HTML content')