如何用python 爬去一页页的图片

要用Python爬取网页上的图片，你需要使用一些强大的库，如requests、BeautifulSoup和os。核心步骤包括：发送HTTP请求获取网页内容、解析HTML提取图片URL、下载图片并保存到本地。其中，使用BeautifulSoup解析HTML是一个关键步骤，因为它能高效地提取出网页中的所有图片链接。下面将详细描述如何完成这些步骤，并提供代码示例。

一、导入必要的库

首先，确保你已经安装了所需的Python库。如果没有安装，可以使用pip进行安装：

pip install requests beautifulsoup4

导入这些库：

import requests
from bs4 import BeautifulSoup
import os

二、发送HTTP请求获取网页内容

使用requests库发送HTTP请求获取网页内容：

def get_page_content(url):
    try:
        response = requests.get(url)
        response.raise_for_status()  # 检查请求是否成功
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return None

三、解析HTML并提取图片URL

使用BeautifulSoup解析HTML并提取所有的图片链接：

def extract_image_urls(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    img_tags = soup.find_all('img')
    img_urls = [img['src'] for img in img_tags if 'src' in img.attrs]
    return img_urls

四、下载图片并保存到本地

编写函数下载并保存图片：

def download_image(img_url, save_dir):
    try:
        img_data = requests.get(img_url).content
        img_name = os.path.basename(img_url)
        img_path = os.path.join(save_dir, img_name)
        with open(img_path, 'wb') as img_file:
            img_file.write(img_data)
        print(f"Downloaded {img_url}")
    except requests.exceptions.RequestException as e:
        print(f"Error downloading {img_url}: {e}")

五、整合以上步骤

创建一个主函数来整合以上步骤并处理多个页面：

def main(base_url, num_pages, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    for page_num in range(1, num_pages + 1):
        url = f"{base_url}/page/{page_num}"
        html_content = get_page_content(url)
        if html_content:
            img_urls = extract_image_urls(html_content)
            for img_url in img_urls:
                download_image(img_url, save_dir)
if __name__ == "__main__":
    base_url = "https://example.com"
    num_pages = 5  # 要爬取的页数
    save_dir = "./images"
    main(base_url, num_pages, save_dir)

六、处理异步请求提高效率

对于大规模图片爬取，可以使用aiohttp和asyncio进行异步请求，提高爬取效率：

import aiohttp
import asyncio
async def fetch(session, url):
    try:
        async with session.get(url) as response:
            return await response.read()
    except aiohttp.ClientError as e:
        print(f"Error fetching {url}: {e}")
        return None
async def download_image_async(session, img_url, save_dir):
    img_data = await fetch(session, img_url)
    if img_data:
        img_name = os.path.basename(img_url)
        img_path = os.path.join(save_dir, img_name)
        with open(img_path, 'wb') as img_file:
            img_file.write(img_data)
        print(f"Downloaded {img_url}")
async def main_async(base_url, num_pages, save_dir):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    async with aiohttp.ClientSession() as session:
        tasks = []
        for page_num in range(1, num_pages + 1):
            url = f"{base_url}/page/{page_num}"
            html_content = await fetch(session, url)
            if html_content:
                img_urls = extract_image_urls(html_content)
                for img_url in img_urls:
                    tasks.append(download_image_async(session, img_url, save_dir))
        await asyncio.gather(*tasks)
if __name__ == "__main__":
    base_url = "https://example.com"
    num_pages = 5  # 要爬取的页数
    save_dir = "./images"
    asyncio.run(main_async(base_url, num_pages, save_dir))

七、处理分页中的URL变化

有些网站的分页URL可能不是简单的/page/格式，需要根据具体情况处理：

def construct_page_url(base_url, page_num):
    if page_num == 1:
        return base_url
    else:
        return f"{base_url}/page/{page_num}"

在主函数中调用该函数：

for page_num in range(1, num_pages + 1):
    url = construct_page_url(base_url, page_num)
    html_content = get_page_content(url)
    # 继续处理...

八、处理反爬机制

有些网站会有反爬机制，如使用CAPTCHA或IP封锁。可以使用以下策略来应对：

使用代理：通过代理池来避免IP被封锁。
设置User-Agent：模拟真实浏览器请求。
延时请求：在每次请求之间加入随机延时。

import random
import time
def get_page_content(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0'
    }
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        time.sleep(random.uniform(1, 3))  # 随机延时
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return None

九、总结

通过上述步骤，你可以用Python高效地爬取网页上的图片。从发送HTTP请求、解析HTML提取图片URL、到下载并保存图片，每一步都需要精心处理，确保效率和稳定性。在实际应用中，还需要根据目标网站的特点进行调整，处理分页URL变化和反爬机制等问题。使用异步请求可以显著提高爬取效率，但需要确保异步操作的正确性。通过这些方法，你将能够顺利完成图片爬取任务。