如何用python爬取天眼查的数据

通过Python爬取天眼查的数据可以通过以下几种方法：使用requests库发送HTTP请求、解析网页内容、模拟用户行为、使用第三方API。 其中，使用requests库发送HTTP请求并解析网页内容是最常见的方法。为了详细说明，我们将重点讨论如何通过requests库获取数据。

一、使用requests库发送HTTP请求

使用requests库发送HTTP请求是爬取网页数据的第一步。首先，你需要了解目标网站的URL，并通过requests库发送请求来获取网页内容。

import requests
url = 'https://www.tianyancha.com/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
response = requests.get(url, headers=headers)
print(response.text)

在上面的代码中，我们使用requests库向天眼查发送了一个HTTP GET请求，并打印了响应内容。注意，我们在请求头中添加了一个User-Agent字段，以模拟浏览器访问。

二、解析网页内容

获取网页内容后，接下来需要解析HTML结构，提取我们需要的数据。常用的解析库有BeautifulSoup和lxml。

from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
例如，提取公司名称
company_name = soup.find('div', class_='company-name').text
print(company_name)

在上面的代码中，我们使用BeautifulSoup库解析HTML内容，并通过find方法提取公司名称。

三、模拟用户行为

有些网站会检测并阻止频繁的自动化请求，因此我们需要模拟用户行为，例如添加延时、随机更换User-Agent等。

import time
import random
添加延时
time.sleep(random.uniform(1, 3))
随机更换User-Agent
user_agents = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
]
headers['User-Agent'] = random.choice(user_agents)
response = requests.get(url, headers=headers)

在上面的代码中，我们通过time.sleep()函数添加了一个随机延时，并在每次请求前随机更换User-Agent。

四、使用第三方API

天眼查提供了付费的API服务，通过API可以更方便地获取数据。使用API的前提是注册并获取API Key。

import requests
api_url = 'https://api.tianyancha.com/services/v4/open/baseinfo.json'
api_key = 'your_api_key'
params = {
    'key': api_key,
    'name': '公司名称'
}
response = requests.get(api_url, params=params)
data = response.json()
print(data)

在上面的代码中，我们通过requests库向天眼查API发送请求，并获取了公司基本信息。

五、处理反爬虫机制

对于一些具有反爬虫机制的网站，可能需要更高级的技术手段，如使用Selenium进行浏览器自动化操作，或者使用代理IP。

使用Selenium进行浏览器自动化操作

from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://www.tianyancha.com')
模拟用户行为，如点击、滚动等
search_box = driver.find_element_by_id('searchBox')
search_box.send_keys('公司名称')
search_box.submit()
等待页面加载完成
time.sleep(5)
提取数据
company_name = driver.find_element_by_class_name('company-name').text
print(company_name)
driver.quit()

在上面的代码中，我们使用Selenium库打开Chrome浏览器，模拟用户输入搜索关键词，并提取公司名称。

使用代理IP

proxies = {
    'http': 'http://your_proxy_ip:port',
    'https': 'https://your_proxy_ip:port'
}
response = requests.get(url, headers=headers, proxies=proxies)

在上面的代码中，我们通过proxies参数设置了代理IP，以绕过反爬虫机制。

六、处理数据存储

爬取到的数据需要进行存储，常用的存储方式包括存储到本地文件、数据库等。

存储到本地文件

with open('data.txt', 'w', encoding='utf-8') as f:
    f.write(company_name)

在上面的代码中，我们将公司名称存储到本地文本文件中。

存储到数据库

import sqlite3
conn = sqlite3.connect('data.db')
cursor = conn.cursor()
cursor.execute('CREATE TABLE IF NOT EXISTS companies (name TEXT)')
cursor.execute('INSERT INTO companies (name) VALUES (?)', (company_name,))
conn.commit()
conn.close()

在上面的代码中，我们将公司名称存储到SQLite数据库中。

七、处理异常情况

在爬取过程中，可能会遇到各种异常情况，如网络异常、数据解析错误等。为了提高爬虫的稳定性，需要进行异常处理。

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    print(f"Request failed: {e}")
else:
    soup = BeautifulSoup(response.text, 'html.parser')
    company_name = soup.find('div', class_='company-name').text
    print(company_name)

在上面的代码中，我们通过try-except块捕获请求异常，并在请求成功后继续进行数据解析。

总结

通过Python爬取天眼查数据可以使用requests库发送HTTP请求、解析网页内容、模拟用户行为、使用第三方API等方法。在实际操作中，需要注意处理反爬虫机制、数据存储和异常情况。希望本文对你有所帮助，祝你成功爬取到所需的数据！