python如何爬虫下载百度图片

一、Python爬虫下载百度图片的方法包括：发送请求获取页面、解析网页内容、提取图片链接、下载图片。其中，解析网页内容是关键步骤。

解析网页内容时，我们首先需要使用请求库（如requests）来获取网页的HTML代码，然后使用解析库（如BeautifulSoup）来提取图片的链接。了解HTML结构和CSS选择器有助于更好地提取需要的内容。下面我们将详细介绍每个步骤。

一、发送请求获取页面

在进行网页爬取时，首先需要向目标网页发送请求，并获取网页的HTML内容。我们可以使用Python的requests库来完成这一步。

import requests
def get_html(url):
    headers = {
        'User-Agent': 'Your User Agent String Here'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return None
url = 'https://image.baidu.com/search/index?tn=baiduimage&word=cat'
html = get_html(url)

在这段代码中，我们定义了一个函数get_html，接受一个URL作为参数，并返回该URL对应的HTML内容。使用headers模拟浏览器请求，避免被反爬虫机制拦截。

二、解析网页内容

获取网页HTML内容后，需要解析其中的图片链接。我们可以使用BeautifulSoup库来完成这一步。

from bs4 import BeautifulSoup
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    img_tags = soup.find_all('img')
    img_urls = [img['src'] for img in img_tags if 'src' in img.attrs]
    return img_urls
img_urls = parse_html(html)

这段代码中，我们定义了parse_html函数，接受HTML内容作为参数，并返回所有图片的链接。使用BeautifulSoup解析HTML，并通过find_all方法找到所有img标签。

三、提取图片链接

从解析的HTML中提取图片链接后，我们需要进一步筛选和整理这些链接，以便后续下载图片。

def filter_img_urls(img_urls):
    filtered_urls = [url for url in img_urls if url.startswith('http')]
    return filtered_urls
filtered_urls = filter_img_urls(img_urls)

在这段代码中，我们定义了filter_img_urls函数，接受图片链接列表作为参数，并返回过滤后的链接列表。通过startswith方法筛选出以http开头的链接。

四、下载图片

最后一步是下载图片。我们可以使用requests库来完成这一步，并将下载的图片保存到本地。

import os
def download_images(img_urls, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    for idx, url in enumerate(img_urls):
        try:
            response = requests.get(url, stream=True)
            if response.status_code == 200:
                img_path = os.path.join(save_dir, f'image_{idx}.jpg')
                with open(img_path, 'wb') as f:
                    for chunk in response.iter_content(1024):
                        f.write(chunk)
                print(f'Downloaded {img_path}')
        except Exception as e:
            print(f'Failed to download {url}: {e}')
save_dir = './downloaded_images'
download_images(filtered_urls, save_dir)

在这段代码中，我们定义了download_images函数，接受图片链接列表和保存目录作为参数，并下载图片到指定目录。使用requests.get方法获取图片数据，并通过with open将其保存到本地。

五、完整代码示例

将上述步骤整合起来，形成完整的代码示例：

import requests
from bs4 import BeautifulSoup
import os
def get_html(url):
    headers = {
        'User-Agent': 'Your User Agent String Here'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return None
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    img_tags = soup.find_all('img')
    img_urls = [img['src'] for img in img_tags if 'src' in img.attrs]
    return img_urls
def filter_img_urls(img_urls):
    filtered_urls = [url for url in img_urls if url.startswith('http')]
    return filtered_urls
def download_images(img_urls, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    for idx, url in enumerate(img_urls):
        try:
            response = requests.get(url, stream=True)
            if response.status_code == 200:
                img_path = os.path.join(save_dir, f'image_{idx}.jpg')
                with open(img_path, 'wb') as f:
                    for chunk in response.iter_content(1024):
                        f.write(chunk)
                print(f'Downloaded {img_path}')
        except Exception as e:
            print(f'Failed to download {url}: {e}')
url = 'https://image.baidu.com/search/index?tn=baiduimage&word=cat'
html = get_html(url)
if html:
    img_urls = parse_html(html)
    filtered_urls = filter_img_urls(img_urls)
    save_dir = './downloaded_images'
    download_images(filtered_urls, save_dir)