如何用python图片爬取并保存

要用Python爬取图片并保存，你需要掌握一些基本的网络爬虫知识以及Python的相关库。Python中可以使用requests库获取网页内容、BeautifulSoup库解析网页、通过正则表达式提取图片链接、使用os模块创建目录并保存图片。其中，掌握requests库是关键，因为它能够方便地进行HTTP请求并获取网页内容。接下来我会详细介绍如何使用这些技术来实现图片的爬取和保存。

一、安装所需库

在开始编写代码前，你需要确保安装了以下Python库：requests、BeautifulSoup4和os。你可以使用pip进行安装：

pip install requests pip install beautifulsoup4

二、导入库并设置请求头

import requests
from bs4 import BeautifulSoup
import os

首先，导入所需的库。requests库用于发送HTTP请求，BeautifulSoup库用于解析HTML内容，os库用于文件操作。

三、发送请求获取网页内容

url = "http://example.com"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
}
response = requests.get(url, headers=headers)
response.raise_for_status()  # 检查请求是否成功

在这一部分，设置请求头是为了模拟浏览器访问，避免被网站识别为爬虫而封禁。response.raise_for_status()用于检查请求是否成功，如果失败会抛出异常。

四、解析网页内容

soup = BeautifulSoup(response.text, "html.parser")

使用BeautifulSoup解析HTML内容，创建一个BeautifulSoup对象。

五、提取图片链接

image_tags = soup.find_all("img")
image_urls = [img['src'] for img in image_tags]

使用BeautifulSoup的find_all方法找到所有的<img>标签，并提取其中的src属性，这样就得到了所有图片的链接。

六、创建文件夹并保存图片

if not os.path.exists("images"):
    os.makedirs("images")
for i, url in enumerate(image_urls):
    img_data = requests.get(url).content
    with open(f"images/image_{i+1}.jpg", "wb") as handler:
        handler.write(img_data)

首先检查是否存在一个名为“images”的文件夹，如果不存在就创建一个。然后遍历所有的图片链接，发送请求获取图片内容，并将其保存到本地。

七、完整代码示例

import requests
from bs4 import BeautifulSoup
import os
def download_images(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, "html.parser")
    image_tags = soup.find_all("img")
    image_urls = [img['src'] for img in image_tags]
    if not os.path.exists("images"):
        os.makedirs("images")
    for i, url in enumerate(image_urls):
        img_data = requests.get(url).content
        with open(f"images/image_{i+1}.jpg", "wb") as handler:
            handler.write(img_data)
if __name__ == "__main__":
    url = "http://example.com"
    download_images(url)

八、处理相对路径和异常

在实际应用中，图片链接可能是相对路径，因此你需要处理这些情况。另外，网络请求可能会失败，因此需要添加异常处理。

from urllib.parse import urljoin
def download_images(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
    }
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()
    except requests.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return
    soup = BeautifulSoup(response.text, "html.parser")
    image_tags = soup.find_all("img")
    image_urls = [urljoin(url, img['src']) for img in image_tags]
    if not os.path.exists("images"):
        os.makedirs("images")
    for i, url in enumerate(image_urls):
        try:
            img_data = requests.get(url).content
            with open(f"images/image_{i+1}.jpg", "wb") as handler:
                handler.write(img_data)
        except requests.RequestException as e:
            print(f"Error downloading {url}: {e}")
if __name__ == "__main__":
    url = "http://example.com"
    download_images(url)