python如何爬取百度地图的店铺数据

Python爬取百度地图店铺数据：使用百度地图API、解析JSON响应、处理数据

爬取百度地图的店铺数据主要涉及以下步骤：注册并获取百度地图API密钥、构建API请求、发送请求并获取响应、解析JSON数据、处理并存储数据。其中，获取API密钥是最为关键的一步，因为它直接关系到后续能否成功调用百度地图的服务。以下是详细的操作步骤及代码示例：

一、注册并获取百度地图API密钥

首先，需要在百度开发者平台（http://lbsyun.baidu.com/）注册一个账号，并申请一个百度地图API密钥。这个密钥是你访问百度地图API的通行证。

注册账号：访问百度开发者平台，注册一个百度账号。
创建应用：登录之后，进入控制台，创建一个新的应用。
获取密钥：在应用信息中，可以看到一个密钥（API Key），这个密钥将在后续的API请求中使用。

二、构建API请求

百度地图提供了多种API接口，例如地点检索（Place API）、周边检索等。我们可以使用这些API来获取店铺的相关数据。以下是一个地点检索API的示例请求：

import requests
API_KEY = '你的API密钥'
QUERY = '餐厅'
REGION = '北京'
URL = f'http://api.map.baidu.com/place/v2/search?query={QUERY}&region={REGION}&output=json&ak={API_KEY}'
response = requests.get(URL)
data = response.json()
print(data)

三、解析JSON数据

从API返回的数据通常是JSON格式的，解析这些数据需要使用Python的json库。以下是解析返回数据的示例代码：

import json
假设data是API返回的JSON数据
data = response.json()
解析店铺信息
for result in data['results']:
    name = result.get('name', 'N/A')
    address = result.get('address', 'N/A')
    location = result.get('location', {})
    lat = location.get('lat', 'N/A')
    lng = location.get('lng', 'N/A')
    print(f'店铺名称: {name}, 地址: {address}, 纬度: {lat}, 经度: {lng}')

四、处理并存储数据

解析完成后，可以将数据存储到本地文件或数据库中，方便后续的数据分析和处理。以下是将数据存储到CSV文件的示例代码：

import csv
假设data是API返回的JSON数据
data = response.json()
打开CSV文件，准备写入数据
with open('shops.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['店铺名称', '地址', '纬度', '经度'])  # 写入表头
    # 写入店铺信息
    for result in data['results']:
        name = result.get('name', 'N/A')
        address = result.get('address', 'N/A')
        location = result.get('location', {})
        lat = location.get('lat', 'N/A')
        lng = location.get('lng', 'N/A')
        writer.writerow([name, address, lat, lng])

五、处理分页数据

由于API每次返回的数据量有限，如果需要获取更多数据，需要处理分页。可以通过设置API请求中的page_num参数来获取不同页的数据。以下是处理分页的示例代码：

import time
API_KEY = '你的API密钥'
QUERY = '餐厅'
REGION = '北京'
PAGE_SIZE = 20  # 每页返回的数据量
TOTAL_PAGES = 5  # 总共需要获取的页数
with open('shops.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['店铺名称', '地址', '纬度', '经度'])  # 写入表头
    for page in range(TOTAL_PAGES):
        URL = f'http://api.map.baidu.com/place/v2/search?query={QUERY}&region={REGION}&output=json&ak={API_KEY}&page_size={PAGE_SIZE}&page_num={page}'
        response = requests.get(URL)
        data = response.json()
        # 写入店铺信息
        for result in data['results']:
            name = result.get('name', 'N/A')
            address = result.get('address', 'N/A')
            location = result.get('location', {})
            lat = location.get('lat', 'N/A')
            lng = location.get('lng', 'N/A')
            writer.writerow([name, address, lat, lng])
        # 等待一段时间再发送下一次请求，以避免触发API限制
        time.sleep(1)

六、处理异常和错误

在实际操作中，可能会遇到各种异常和错误，例如网络请求失败、API限流等。需要添加异常处理机制，提高程序的健壮性。以下是示例代码：

import logging
logging.basicConfig(level=logging.INFO)
API_KEY = '你的API密钥'
QUERY = '餐厅'
REGION = '北京'
PAGE_SIZE = 20
TOTAL_PAGES = 5
with open('shops.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['店铺名称', '地址', '纬度', '经度'])
    for page in range(TOTAL_PAGES):
        try:
            URL = f'http://api.map.baidu.com/place/v2/search?query={QUERY}&region={REGION}&output=json&ak={API_KEY}&page_size={PAGE_SIZE}&page_num={page}'
            response = requests.get(URL)
            response.raise_for_status()
            data = response.json()
            if 'results' not in data:
                logging.error(f"Error in response: {data}")
                continue
            for result in data['results']:
                name = result.get('name', 'N/A')
                address = result.get('address', 'N/A')
                location = result.get('location', {})
                lat = location.get('lat', 'N/A')
                lng = location.get('lng', 'N/A')
                writer.writerow([name, address, lat, lng])
            time.sleep(1)
        except requests.exceptions.RequestException as e:
            logging.error(f"Request failed: {e}")
            time.sleep(5)
        except Exception as e:
            logging.error(f"An error occurred: {e}")