python如何从百度图片里爬取图片

Python如何从百度图片里爬取图片

Python爬取百度图片的核心在于：利用Python的requests库发送HTTP请求、解析返回的HTML页面、获取图片URL、并使用Python的os库下载图片。 其中，使用requests库发送HTTP请求和解析HTML页面是关键步骤。接下来详细讲解如何实现这一过程。

一、使用requests库发送HTTP请求

在爬取百度图片时，首先需要模拟浏览器发送HTTP请求。requests库是Python中常用的HTTP库，它提供了简单的API来发送HTTP请求，并返回服务器的响应。

1. 安装requests库

在开始编写代码之前，首先需要安装requests库。可以使用以下命令进行安装：

pip install requests

2. 发送HTTP请求

使用requests库发送HTTP请求非常简单，只需调用requests.get()方法即可。以下是一个简单的示例：

import requests
url = 'https://image.baidu.com/search/index?tn=baiduimage&word=python'
response = requests.get(url)
print(response.text)

这个示例代码发送了一个GET请求到百度图片搜索页面，并打印了返回的HTML内容。

二、解析返回的HTML页面

百度图片搜索结果页面的HTML内容中包含了图片的URL。为了从HTML页面中提取图片URL，可以使用BeautifulSoup库。BeautifulSoup是一个Python库，用于从HTML和XML文件中提取数据。

1. 安装BeautifulSoup库

同样，首先需要安装BeautifulSoup库，可以使用以下命令进行安装：

pip install beautifulsoup4

2. 解析HTML页面

以下是一个使用BeautifulSoup解析HTML页面并提取图片URL的示例代码：

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
img_tags = soup.find_all('img')
for img in img_tags:
    print(img['src'])

这个示例代码使用BeautifulSoup解析HTML页面，并找到所有的img标签，然后打印每个img标签的src属性（即图片的URL）。

三、获取图片URL并下载图片

在解析出图片的URL之后，就可以使用requests库下载图片，并使用os库将图片保存到本地。

1. 创建保存图片的目录

首先需要创建一个目录来保存下载的图片，可以使用os库创建目录：

import os
if not os.path.exists('images'):
    os.makedirs('images')

2. 下载图片并保存到本地

以下是一个下载图片并保存到本地的示例代码：

for img in img_tags:
    img_url = img['src']
    img_data = requests.get(img_url).content
    img_name = os.path.join('images', img_url.split('/')[-1])
    with open(img_name, 'wb') as handler:
        handler.write(img_data)

这个示例代码下载每个img标签的图片，并将图片保存到本地的images目录中。

四、处理反爬虫机制

在实际爬取过程中，可能会遇到百度的反爬虫机制。以下是一些常用的应对方法：

1. 设置请求头

可以设置User-Agent等请求头，模拟浏览器请求，以绕过反爬虫机制：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)

2. 使用代理

使用代理服务器可以隐藏真实的IP地址，减小被封禁的风险：

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080',
}
response = requests.get(url, headers=headers, proxies=proxies)

五、代码优化与扩展

为了提高代码的可维护性和扩展性，可以将各个功能模块化，编写成函数。

1. 模块化代码

以下是一个模块化的示例代码：

import requests
from bs4 import BeautifulSoup
import os
def fetch_html(url, headers):
    response = requests.get(url, headers=headers)
    return response.text
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    img_tags = soup.find_all('img')
    return [img['src'] for img in img_tags]
def download_image(img_url, save_dir):
    img_data = requests.get(img_url).content
    img_name = os.path.join(save_dir, img_url.split('/')[-1])
    with open(img_name, 'wb') as handler:
        handler.write(img_data)
def main():
    url = 'https://image.baidu.com/search/index?tn=baiduimage&word=python'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    html = fetch_html(url, headers)
    img_urls = parse_html(html)
    if not os.path.exists('images'):
        os.makedirs('images')
    for img_url in img_urls:
        download_image(img_url, 'images')
if __name__ == '__main__':
    main()

六、处理图片格式和质量

在实际应用中，可能需要处理不同格式和质量的图片。以下是一些常用的方法：

1. 检查图片格式

可以在下载图片之前检查图片的格式，确保只下载特定格式的图片：

def is_valid_image(img_url):
    valid_formats = ['.jpg', '.jpeg', '.png']
    return any(img_url.endswith(fmt) for fmt in valid_formats)
for img_url in img_urls:
    if is_valid_image(img_url):
        download_image(img_url, 'images')

2. 调整图片质量

下载图片后，可以使用PIL（Python Imaging Library）调整图片的质量：

from PIL import Image
def adjust_image_quality(img_name, quality=85):
    img = Image.open(img_name)
    img.save(img_name, quality=quality)
for img_url in img_urls:
    if is_valid_image(img_url):
        img_name = download_image(img_url, 'images')
        adjust_image_quality(img_name)

七、处理大规模爬取

在大规模爬取时，可能需要考虑并发请求和数据存储等问题。以下是一些常用的方法：

1. 使用多线程或多进程

可以使用多线程或多进程提高爬取速度：

from concurrent.futures import ThreadPoolExecutor
def download_images(img_urls, save_dir):
    with ThreadPoolExecutor(max_workers=10) as executor:
        executor.map(lambda img_url: download_image(img_url, save_dir), img_urls)
download_images(img_urls, 'images')

2. 存储图片信息

可以将图片信息存储到数据库或文件中，方便后续处理和分析：

import json
def save_image_info(img_urls, file_name):
    with open(file_name, 'w') as file:
        json.dump(img_urls, file)
save_image_info(img_urls, 'image_info.json')