如何用python下载百度图片

使用Python下载百度图片可以通过以下步骤进行：使用requests库发送HTTP请求、使用BeautifulSoup库解析网页、获取图片URL、保存图片。 在下文中，我们将详细说明这些步骤，帮助你理解如何实现这一过程。

一、安装必要的Python库

在开始之前，需要安装一些必要的Python库。你可以使用以下命令来安装这些库：

pip install requests pip install beautifulsoup4 pip install lxml

这些库分别用于发送HTTP请求、解析HTML内容、处理HTML文件。

二、构建HTTP请求

首先，构建一个HTTP请求来获取百度图片搜索的页面内容。可以使用requests库来实现这一点：

import requests
def get_search_results(query, num_results):
    url = f"https://image.baidu.com/search/index?tn=baiduimage&word={query}"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    return response.text

三、解析网页内容

接下来，使用BeautifulSoup库解析网页内容，提取出图片的URL。以下是一个示例代码：

from bs4 import BeautifulSoup
def parse_image_urls(html_content, num_results):
    soup = BeautifulSoup(html_content, 'lxml')
    image_elements = soup.find_all('img', limit=num_results)
    image_urls = [img['src'] for img in image_elements if 'src' in img.attrs]
    return image_urls

四、下载图片

获取到图片URL后，可以使用requests库下载并保存这些图片。以下是一个示例代码：

import os
def download_images(image_urls, save_directory):
    if not os.path.exists(save_directory):
        os.makedirs(save_directory)
    for i, url in enumerate(image_urls):
        response = requests.get(url)
        file_path = os.path.join(save_directory, f'image_{i+1}.jpg')
        with open(file_path, 'wb') as file:
            file.write(response.content)
        print(f'Downloaded {file_path}')

五、整合所有步骤

最后，将所有步骤整合在一起，形成一个完整的脚本：

def main(query, num_results, save_directory):
    html_content = get_search_results(query, num_results)
    image_urls = parse_image_urls(html_content, num_results)
    download_images(image_urls, save_directory)
if __name__ == "__main__":
    query = "猫咪"
    num_results = 10
    save_directory = "./downloaded_images"
    main(query, num_results, save_directory)

通过以上步骤，你就可以使用Python脚本来下载百度图片搜索结果中的图片。

六、处理反爬虫机制

百度等搜索引擎通常会有反爬虫机制，可能会导致上述代码无法正常运行。为了应对这一问题，可以采取以下措施：

1、设置请求头

设置合适的请求头，模拟浏览器行为：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

2、使用代理

使用代理IP，可以绕过某些反爬虫机制：

proxies = {
    'http': 'http://your_proxy_ip:your_proxy_port',
    'https': 'https://your_proxy_ip:your_proxy_port',
}
response = requests.get(url, headers=headers, proxies=proxies)

3、添加延时

添加延时，避免频繁请求触发反爬虫机制：

import time
for url in image_urls:
    response = requests.get(url)
    file_path = os.path.join(save_directory, f'image_{i+1}.jpg')
    with open(file_path, 'wb') as file:
        file.write(response.content)
    print(f'Downloaded {file_path}')
    time.sleep(2)  # 延时2秒

七、处理图片格式

有些图片可能不是以jpg格式存储的，可以在下载时检查图片格式并保存为相应格式：

from PIL import Image
from io import BytesIO
def download_images(image_urls, save_directory):
    if not os.path.exists(save_directory):
        os.makedirs(save_directory)
    for i, url in enumerate(image_urls):
        response = requests.get(url)
        img = Image.open(BytesIO(response.content))
        file_format = img.format.lower()
        file_path = os.path.join(save_directory, f'image_{i+1}.{file_format}')
        img.save(file_path)
        print(f'Downloaded {file_path}')