python如何爬取js加密的网页教程

一、Python爬取JS加密网页的步骤

分析网页结构、使用工具获取加密请求、使用Python模拟请求、处理返回数据、解析网页内容。首先，我们可以使用浏览器的开发者工具来分析网页结构，找到JS加密的请求，然后使用Python的requests库模拟该请求。接下来，处理返回的数据，并解析出我们需要的内容。

分析网页结构

首先，我们需要了解目标网页的结构，确定数据所在的位置。通过浏览器的开发者工具（如Chrome的开发者工具）来检查网页的结构。具体步骤如下：

打开目标网页，右键点击需要爬取的数据，选择“检查”。
在开发者工具中，找到相应的HTML元素，确认数据的位置。
查看网络请求，找到JS加密的请求，记录下请求的URL、请求方法、请求头和请求参数。

使用工具获取加密请求

在分析网页结构时，我们可以使用一些工具来帮助获取加密请求的详细信息。例如，Fiddler、Charles等抓包工具可以捕获所有网络请求，方便我们查看加密请求的细节。

使用Python模拟请求

为了模拟加密请求，我们可以使用Python的requests库。首先，安装requests库：

pip install requests

然后，编写Python代码，模拟加密请求：

import requests
url = '加密请求的URL'
headers = {
    'User-Agent': '你的浏览器User-Agent',
    '其他请求头': '请求头值'
}
params = {
    '请求参数': '参数值'
}
response = requests.get(url, headers=headers, params=params)
data = response.text
print(data)

处理返回数据

返回的数据通常是加密的，我们需要对其进行解密。解密的方法取决于具体的加密方式，常见的加密方式有Base64、AES、RSA等。我们可以使用Python的相关库来解密数据，例如：

Base64解密：使用base64库
AES解密：使用pycryptodome库
RSA解密：使用pycryptodome库

安装pycryptodome库：

pip install pycryptodome

示例代码：

from Crypto.Cipher import AES
import base64
AES解密示例
def decrypt_aes(data, key, iv):
    cipher = AES.new(key, AES.MODE_CBC, iv)
    decrypted_data = cipher.decrypt(base64.b64decode(data))
    return decrypted_data
key = b'你的AES密钥'
iv = b'你的AES偏移量'
encrypted_data = '加密的数据'
decrypted_data = decrypt_aes(encrypted_data, key, iv)
print(decrypted_data)

解析网页内容

解密后的数据可能是HTML、JSON等格式，我们需要对其进行解析，提取出需要的内容。常用的解析库有BeautifulSoup、lxml、json等。

安装BeautifulSoup和lxml库：

pip install beautifulsoup4 lxml

示例代码：

from bs4 import BeautifulSoup
import json
解析HTML
def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    data = soup.find_all('需要提取的元素')
    return data
解析JSON
def parse_json(json_data):
    data = json.loads(json_data)
    return data
html_data = '解密后的HTML数据'
json_data = '解密后的JSON数据'
parsed_html_data = parse_html(html_data)
parsed_json_data = parse_json(json_data)
print(parsed_html_data)
print(parsed_json_data)

二、实例：爬取某电商网站加密的商品信息

在本部分中，我们将以爬取某电商网站加密的商品信息为例，详细介绍整个流程。

分析目标网页

首先，打开电商网站，找到商品信息的网页。在开发者工具中，确定商品信息的位置，并查看网络请求，找到加密的请求。

使用工具获取加密请求

使用Fiddler或Charles等抓包工具捕获加密请求，记录下请求的URL、请求方法、请求头和请求参数。

使用Python模拟请求

编写Python代码，模拟加密请求：

import requests
url = 'https://example.com/encrypted_request'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36',
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'X-Requested-With': 'XMLHttpRequest'
}
params = {
    'category': 'electronics',
    'sort': 'price_asc'
}
response = requests.get(url, headers=headers, params=params)
encrypted_data = response.text
print(encrypted_data)

处理返回数据

假设返回的数据是AES加密的，我们需要对其进行解密。使用pycryptodome库进行AES解密：

from Crypto.Cipher import AES
import base64
def decrypt_aes(data, key, iv):
    cipher = AES.new(key, AES.MODE_CBC, iv)
    decrypted_data = cipher.decrypt(base64.b64decode(data))
    return decrypted_data
key = b'16_byte_aes_key'
iv = b'16_byte_iv'
encrypted_data = '加密的数据'
decrypted_data = decrypt_aes(encrypted_data, key, iv)
print(decrypted_data)

解析网页内容

假设解密后的数据是JSON格式，我们需要对其进行解析，提取商品信息：

import json
def parse_json(json_data):
    data = json.loads(json_data)
    products = data['products']
    for product in products:
        print(f"Product Name: {product['name']}")
        print(f"Price: {product['price']}")
        print(f"Description: {product['description']}")
        print('-' * 20)
json_data = '解密后的JSON数据'
parsed_json_data = parse_json(json_data)