Python如何抓取百度图片

Python抓取百度图片的步骤包括：了解网页结构、发送请求获取页面、解析HTML提取图片URL、下载图片。这些步骤确保了你能够有效地获取和保存百度图片。在具体实现过程中，解析HTML提取图片URL 是最关键的一步，因为百度的页面结构可能会频繁变化，影响抓取效果。

一、了解网页结构

在开始编写代码之前，我们需要了解百度图片页面的结构。使用浏览器的开发者工具（如Chrome的F12）查看页面源代码和网络请求，找到图片的URL和其他相关信息。百度图片搜索结果通常是由JavaScript动态加载的，因此需要特别关注这些动态内容。

1.1、查看页面源代码

通过查看页面源代码，我们可以找到图片的URL。这些URL通常嵌套在复杂的HTML结构中，需要使用解析库提取。

1.2、分析网络请求

当我们在百度图片中搜索一个关键词时，浏览器会发送多个网络请求来加载图片。通过分析这些请求，我们可以找到包含图片URL的API接口。

二、发送请求获取页面

我们需要使用Python的requests库发送HTTP请求来获取百度图片的搜索结果页面。这个库非常简单易用，适合网络爬虫的初学者。

import requests
def get_html(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    return response.text
url = 'https://image.baidu.com/search/index?tn=baiduimage&word=example'
html = get_html(url)

三、解析HTML提取图片URL

为了从HTML中提取图片URL，我们可以使用BeautifulSoup库。这个库可以帮助我们解析HTML文档，并通过标签和属性查找特定的内容。

3.1、安装并导入`BeautifulSoup`

首先，我们需要安装BeautifulSoup：

pip install beautifulsoup4

然后，在代码中导入BeautifulSoup：

from bs4 import BeautifulSoup
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    images = []
    for img_tag in soup.find_all('img'):
        img_url = img_tag.get('src')
        if img_url:
            images.append(img_url)
    return images
images = parse_html(html)

3.2、处理动态加载内容

由于百度图片的搜索结果是动态加载的，我们可能需要使用selenium库来模拟浏览器行为，获取完整的页面内容。

from selenium import webdriver
def get_html_with_selenium(url):
    driver = webdriver.Chrome()
    driver.get(url)
    html = driver.page_source
    driver.quit()
    return html
html = get_html_with_selenium(url)
images = parse_html(html)

四、下载图片

最后，我们需要下载提取到的图片。我们可以使用requests库来发送HTTP请求并保存图片文件。

4.1、创建保存目录

首先，我们需要创建一个目录来保存下载的图片：

import os
def create_directory(directory):
    if not os.path.exists(directory):
        os.makedirs(directory)
create_directory('images')

4.2、下载并保存图片

接下来，编写下载图片的函数：

def download_images(images, directory):
    for i, img_url in enumerate(images):
        try:
            response = requests.get(img_url)
            if response.status_code == 200:
                with open(os.path.join(directory, f'image_{i}.jpg'), 'wb') as f:
                    f.write(response.content)
        except Exception as e:
            print(f'Error downloading {img_url}: {e}')
download_images(images, 'images')

五、处理反爬虫机制

百度等大型网站通常会有反爬虫机制，防止大量自动化请求。我们可以采取以下措施来应对：

5.1、使用随机用户代理

通过使用不同的用户代理，我们可以伪装成不同的浏览器，减少被检测到的风险。

import random
user_agents = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.3 Safari/605.1.15',
    # 添加更多用户代理
]
def get_html_with_random_user_agent(url):
    headers = {
        'User-Agent': random.choice(user_agents)
    }
    response = requests.get(url, headers=headers)
    return response.text
html = get_html_with_random_user_agent(url)

5.2、添加请求间隔

通过添加随机的请求间隔，我们可以模仿人类的行为，避免频繁请求导致被封禁。

import time
def download_images_with_delay(images, directory):
    for i, img_url in enumerate(images):
        try:
            response = requests.get(img_url)
            if response.status_code == 200:
                with open(os.path.join(directory, f'image_{i}.jpg'), 'wb') as f:
                    f.write(response.content)
            time.sleep(random.uniform(1, 3))  # 添加1到3秒的随机延迟
        except Exception as e:
            print(f'Error downloading {img_url}: {e}')
download_images_with_delay(images, 'images')

六、处理验证码

有时百度可能会要求输入验证码来验证请求的合法性。我们可以使用selenium库来处理这种情况。

6.1、自动化处理验证码

def get_html_with_selenium_and_captcha(url):
    driver = webdriver.Chrome()
    driver.get(url)
    # 等待用户手动输入验证码
    input('请在浏览器中输入验证码，完成后按回车键继续...')
    html = driver.page_source
    driver.quit()
    return html
html = get_html_with_selenium_and_captcha(url)
images = parse_html(html)
download_images(images, 'images')

七、综合示例

以下是一个综合示例，展示了如何将上述步骤结合起来，完成百度图片的抓取：

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
import os
import time
import random
user_agents = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.3 Safari/605.1.15',
    # 添加更多用户代理
]
def get_html(url):
    headers = {
        'User-Agent': random.choice(user_agents)
    }
    response = requests.get(url, headers=headers)
    return response.text
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    images = []
    for img_tag in soup.find_all('img'):
        img_url = img_tag.get('src')
        if img_url:
            images.append(img_url)
    return images
def create_directory(directory):
    if not os.path.exists(directory):
        os.makedirs(directory)
def download_images(images, directory):
    for i, img_url in enumerate(images):
        try:
            response = requests.get(img_url)
            if response.status_code == 200:
                with open(os.path.join(directory, f'image_{i}.jpg'), 'wb') as f:
                    f.write(response.content)
            time.sleep(random.uniform(1, 3))  # 添加1到3秒的随机延迟
        except Exception as e:
            print(f'Error downloading {img_url}: {e}')
def main():
    url = 'https://image.baidu.com/search/index?tn=baiduimage&word=example'
    html = get_html(url)
    images = parse_html(html)
    create_directory('images')
    download_images(images, 'images')
if __name__ == '__main__':
    main()

通过以上代码，我们可以实现从百度图片抓取图片并保存到本地的功能。注意，网络爬虫需要遵守网站的robots.txt协议和相关法律法规，避免对网站造成不必要的负担和侵权行为。