如何用python爬取网络图片

如何用python爬取网络图片

使用Python爬取网络图片的方法有很多，比如使用requests库、BeautifulSoup库、Selenium库、Scrapy库。 在这篇文章中，我将详细讲解如何使用requests库和BeautifulSoup库来爬取网络图片，并介绍如何处理图片的存储问题。requests库是一个简单而强大的HTTP库，BeautifulSoup库是一个用于解析HTML和XML文档的库。这两者结合使用，可以让我们轻松地从网页上提取图片链接并下载图片。

一、使用Requests库获取网页内容

Requests库是Python中非常流行的HTTP库，用于发送HTTP请求和接收响应。我们可以使用Requests库获取网页的HTML内容，然后再使用BeautifulSoup库解析这些内容。

import requests
def get_html(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        return None
url = 'http://example.com'
html_content = get_html(url)
print(html_content)

在上面的代码中，我们定义了一个名为get_html的函数，该函数接受一个URL作为参数，并使用requests.get方法发送GET请求。如果请求成功（状态码为200），则返回网页的HTML内容，否则返回None。

二、使用BeautifulSoup库解析HTML内容

BeautifulSoup是一个用于解析HTML和XML文档的库，它能够方便地提取我们需要的信息。我们可以使用BeautifulSoup库解析从网页上获取的HTML内容，并提取图片的链接。

from bs4 import BeautifulSoup
def parse_html(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    img_tags = soup.find_all('img')
    img_urls = [img['src'] for img in img_tags if 'src' in img.attrs]
    return img_urls
img_urls = parse_html(html_content)
print(img_urls)

在上面的代码中，我们定义了一个名为parse_html的函数，该函数接受HTML内容作为参数，并使用BeautifulSoup库解析这些内容。我们通过find_all方法找到所有的<img>标签，并提取其中的src属性，返回图片的链接列表。

三、下载图片并保存到本地

现在我们已经获取了图片的链接，接下来我们需要下载这些图片并保存到本地。我们可以再次使用Requests库来发送请求下载图片，并将图片数据写入文件。

import os
def download_image(img_url, save_dir):
    response = requests.get(img_url)
    if response.status_code == 200:
        img_data = response.content
        img_name = os.path.join(save_dir, os.path.basename(img_url))
        with open(img_name, 'wb') as f:
            f.write(img_data)
        print(f'Downloaded {img_name}')
    else:
        print(f'FAIled to download {img_url}')
save_dir = 'images'
os.makedirs(save_dir, exist_ok=True)
for img_url in img_urls:
    download_image(img_url, save_dir)

在上面的代码中，我们定义了一个名为download_image的函数，该函数接受图片的URL和保存目录作为参数，并使用requests.get方法发送GET请求下载图片。如果请求成功（状态码为200），则将图片数据写入文件。我们使用os.path.join方法构建图片的保存路径，并使用os.path.basename方法获取图片的文件名。

四、处理图片链接的完整性

有些网页上的图片链接可能是相对路径而不是完整的URL。在这种情况下，我们需要将相对路径转换为完整的URL。我们可以使用urllib.parse模块中的urljoin函数来完成这个任务。

from urllib.parse import urljoin
def parse_html_with_base_url(html_content, base_url):
    soup = BeautifulSoup(html_content, 'html.parser')
    img_tags = soup.find_all('img')
    img_urls = [urljoin(base_url, img['src']) for img in img_tags if 'src' in img.attrs]
    return img_urls
img_urls = parse_html_with_base_url(html_content, url)
print(img_urls)

在上面的代码中，我们定义了一个名为parse_html_with_base_url的函数，该函数接受HTML内容和基础URL作为参数，并使用urljoin函数将相对路径转换为完整的URL。

五、处理图片的重命名和去重

在下载图片时，我们可能会遇到文件名重复的问题。为了解决这个问题，我们可以在保存图片时给图片重新命名，或者检查文件是否已经存在，避免重复下载。

def download_image_with_unique_name(img_url, save_dir):
    response = requests.get(img_url)
    if response.status_code == 200:
        img_data = response.content
        img_name = os.path.join(save_dir, os.path.basename(img_url))
        if os.path.exists(img_name):
            base, ext = os.path.splitext(img_name)
            count = 1
            while os.path.exists(img_name):
                img_name = f"{base}_{count}{ext}"
                count += 1
        with open(img_name, 'wb') as f:
            f.write(img_data)
        print(f'Downloaded {img_name}')
    else:
        print(f'Failed to download {img_url}')
for img_url in img_urls:
    download_image_with_unique_name(img_url, save_dir)

在上面的代码中，我们定义了一个名为download_image_with_unique_name的函数，该函数在保存图片时检查文件是否已经存在。如果文件存在，则在文件名后添加一个数字后缀，直到找到一个唯一的文件名。

六、处理图片的格式和大小

有时我们可能需要对下载的图片进行处理，比如调整图片的大小或转换图片的格式。我们可以使用Pillow库来完成这些任务。

from PIL import Image
from io import BytesIO
def download_and_process_image(img_url, save_dir, size=(800, 800), format='JPEG'):
    response = requests.get(img_url)
    if response.status_code == 200:
        img_data = response.content
        img = Image.open(BytesIO(img_data))
        img = img.resize(size, Image.ANTIALIAS)
        img_name = os.path.join(save_dir, os.path.basename(img_url))
        if os.path.exists(img_name):
            base, ext = os.path.splitext(img_name)
            count = 1
            while os.path.exists(img_name):
                img_name = f"{base}_{count}{ext}"
                count += 1
        img.save(img_name, format)
        print(f'Downloaded and processed {img_name}')
    else:
        print(f'Failed to download {img_url}')
for img_url in img_urls:
    download_and_process_image(img_url, save_dir)

在上面的代码中，我们定义了一个名为download_and_process_image的函数，该函数使用Pillow库对下载的图片进行处理。我们通过Image.open方法打开图片，并通过resize方法调整图片的大小。最后，我们通过save方法保存处理后的图片。

七、处理网页的反爬虫机制

有些网站可能会采取反爬虫机制来阻止自动化爬取，比如通过检测用户代理或限制请求频率。在这种情况下，我们需要采取一些措施来绕过这些机制。

使用自定义的User-Agent

许多网站会检查请求头中的User-Agent字段，以判断请求是否来自浏览器。我们可以通过设置自定义的User-Agent来模拟浏览器请求。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
def get_html_with_headers(url):
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return None
html_content = get_html_with_headers(url)
print(html_content)

在上面的代码中，我们定义了一个名为headers的字典，用于存储自定义的User-Agent。然后，我们在发送请求时通过headers参数传递自定义的请求头。

使用代理服务器

如果一个网站对请求频率进行了限制，我们可以通过使用代理服务器来绕过这些限制。我们可以使用Requests库的proxies参数来设置代理服务器。

proxies = {
    'http': 'http://your_proxy_server:port',
    'https': 'https://your_proxy_server:port'
}
def get_html_with_proxies(url):
    response = requests.get(url, headers=headers, proxies=proxies)
    if response.status_code == 200:
        return response.text
    else:
        return None
html_content = get_html_with_proxies(url)
print(html_content)

在上面的代码中，我们定义了一个名为proxies的字典，用于存储代理服务器的地址。然后，我们在发送请求时通过proxies参数传递代理服务器。

八、处理动态加载的图片

有些网页上的图片是通过JavaScript动态加载的，使用Requests库和BeautifulSoup库无法直接获取这些图片。在这种情况下，我们可以使用Selenium库来模拟浏览器操作，并获取动态加载的内容。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
def get_html_with_selenium(url):
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
    driver.get(url)
    html_content = driver.page_source
    driver.quit()
    return html_content
html_content = get_html_with_selenium(url)
print(html_content)

在上面的代码中，我们使用Selenium库启动一个无头浏览器，并通过driver.get方法打开网页。然后，我们通过driver.page_source获取网页的HTML内容，并关闭浏览器。

九、总结

在本文中，我们详细介绍了如何使用Python爬取网络图片，包括获取网页内容、解析HTML内容、下载图片、处理图片链接的完整性、处理图片的重命名和去重、处理图片的格式和大小、处理网页的反爬虫机制以及处理动态加载的图片。通过合理使用Requests库、BeautifulSoup库、Selenium库和Pillow库，我们可以轻松地从网络上爬取并处理图片。希望这篇文章能对你有所帮助。