如何用python爬网易云

使用Python爬取网易云的步骤包括：选择合适的爬虫库、分析网页结构、发送请求获取网页内容、解析并提取数据、处理反爬机制、数据存储。 其中，选择合适的爬虫库是一个关键步骤，推荐使用requests和BeautifulSoup库来进行网页请求和解析。

requests库是一个简单易用的HTTP库，能够方便地发送HTTP请求并获取响应内容；BeautifulSoup库则是一个用于解析HTML和XML文档的库，能够轻松地从网页中提取所需的数据。

一、选择合适的爬虫库

Python有很多爬虫库可以选择，其中requests和BeautifulSoup是最常用的两个库。requests库用于发送HTTP请求并获取响应内容，BeautifulSoup库用于解析HTML和XML文档。以下是使用这两个库的基本示例：

import requests
from bs4 import BeautifulSoup
url = 'https://music.163.com/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
print(soup.prettify())

二、分析网页结构

在开始爬取网易云音乐的数据之前，需要先了解网页的结构。可以使用浏览器的开发者工具（例如Chrome的F12）来查看网页的HTML结构，找到需要爬取的数据所在的位置。以网易云音乐的歌曲评论为例，需要找到评论数据所在的HTML标签。

三、发送请求获取网页内容

使用requests库发送HTTP请求并获取网页内容。以下是获取网易云音乐某首歌曲评论的示例：

url = 'https://music.163.com/weapi/v1/resource/comments/R_SO_4_1407551413'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
data = {
    'params': 'encryptedParams',
    'encSecKey': 'encryptedSecKey'
}
response = requests.post(url, headers=headers, data=data)
print(response.json())

四、解析并提取数据

使用BeautifulSoup库解析获取到的网页内容，并提取所需的数据。以下是解析歌曲评论的示例：

import json
comments = response.json().get('comments')
for comment in comments:
    content = comment.get('content')
    user = comment.get('user').get('nickname')
    print(f'User: {user}, Comment: {content}')

五、处理反爬机制

为了防止被网站的反爬机制检测到，需要进行一些处理。例如，可以设置请求头中的User-Agent，模拟浏览器请求；可以使用代理IP，避免频繁请求同一个IP地址；可以设置请求间隔，避免短时间内发送大量请求。

六、数据存储

最后，将爬取到的数据存储到本地文件或数据库中。可以使用Python的内置文件操作函数将数据存储到文本文件中，或者使用pandas库将数据存储到CSV文件中。以下是存储数据到CSV文件的示例：

import pandas as pd
data = []
for comment in comments:
    content = comment.get('content')
    user = comment.get('user').get('nickname')
    data.append({'User': user, 'Comment': content})
df = pd.DataFrame(data)
df.to_csv('comments.csv', index=False)

一、选择合适的爬虫库

选择合适的爬虫库是进行网页爬取的第一步。Python有很多优秀的爬虫库，其中requests和BeautifulSoup是最常用的两个库。

1. Requests库

Requests库是一个简单易用的HTTP库，能够方便地发送HTTP请求并获取响应内容。以下是Requests库的基本用法示例：

import requests
url = 'https://example.com'
response = requests.get(url)
print(response.content)

在这个示例中，我们使用requests.get()方法发送一个GET请求，并输出响应内容。

2. BeautifulSoup库

BeautifulSoup库是一个用于解析HTML和XML文档的库，能够轻松地从网页中提取所需的数据。以下是BeautifulSoup库的基本用法示例：

from bs4 import BeautifulSoup
html_content = '<html><head><title>Example</title></head><body><p>Hello, World!</p></body></html>'
soup = BeautifulSoup(html_content, 'html.parser')
print(soup.title.string)
print(soup.p.string)

在这个示例中，我们创建了一个BeautifulSoup对象，并提取了网页中的标题和段落内容。

二、分析网页结构

在开始爬取网易云音乐的数据之前，需要先了解网页的结构。可以使用浏览器的开发者工具（例如Chrome的F12）来查看网页的HTML结构，找到需要爬取的数据所在的位置。

1. 使用开发者工具查看网页结构

打开浏览器并访问网易云音乐的网页，按下F12键打开开发者工具。然后，使用开发者工具的“元素”面板查看网页的HTML结构，找到需要爬取的数据所在的位置。例如，如果我们想要爬取某首歌曲的评论数据，可以在“元素”面板中找到评论数据所在的HTML标签。

2. 分析网页中的数据

在找到需要爬取的数据所在的HTML标签后，需要进一步分析网页中的数据。例如，网易云音乐的评论数据通常包含评论内容、评论用户、评论时间等信息。我们可以在HTML标签中找到这些信息，并记录下它们的结构和位置，以便后续解析和提取数据。

三、发送请求获取网页内容

在了解网页结构后，可以使用requests库发送HTTP请求并获取网页内容。以下是获取网易云音乐某首歌曲评论的示例：

import requests
url = 'https://music.163.com/weapi/v1/resource/comments/R_SO_4_1407551413'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
data = {
    'params': 'encryptedParams',
    'encSecKey': 'encryptedSecKey'
}
response = requests.post(url, headers=headers, data=data)
print(response.json())

在这个示例中，我们使用requests.post()方法发送一个POST请求，并输出响应内容。需要注意的是，网易云音乐的评论数据通常需要经过加密处理，因此在发送请求时需要提供加密后的参数和密钥。

四、解析并提取数据

使用BeautifulSoup库解析获取到的网页内容，并提取所需的数据。以下是解析歌曲评论的示例：

import json
comments = response.json().get('comments')
for comment in comments:
    content = comment.get('content')
    user = comment.get('user').get('nickname')
    print(f'User: {user}, Comment: {content}')

在这个示例中，我们使用response.json()方法将响应内容转换为JSON格式，并提取评论数据中的评论内容和评论用户。

五、处理反爬机制

1. 设置请求头中的User-Agent

设置请求头中的User-Agent，可以模拟浏览器请求，避免被网站的反爬机制检测到。以下是设置User-Agent的示例：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)

2. 使用代理IP

使用代理IP，可以避免频繁请求同一个IP地址，降低被反爬机制检测到的风险。以下是使用代理IP的示例：

proxies = {
    'http': 'http://10.10.10.10:1080',
    'https': 'http://10.10.10.10:1080'
}
response = requests.get(url, proxies=proxies)

3. 设置请求间隔

设置请求间隔，可以避免短时间内发送大量请求，降低被反爬机制检测到的风险。以下是设置请求间隔的示例：

import time
for i in range(10):
    response = requests.get(url)
    time.sleep(1)  # 等待1秒

六、数据存储

import pandas as pd
data = []
for comment in comments:
    content = comment.get('content')
    user = comment.get('user').get('nickname')
    data.append({'User': user, 'Comment': content})
df = pd.DataFrame(data)
df.to_csv('comments.csv', index=False)

在这个示例中，我们使用pandas库将爬取到的评论数据存储到CSV文件中。

七、示例代码：爬取网易云音乐歌曲评论

以下是一个完整的示例代码，用于爬取网易云音乐某首歌曲的评论数据并存储到CSV文件中：

import requests
import pandas as pd
import time
url = 'https://music.163.com/weapi/v1/resource/comments/R_SO_4_1407551413'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
data = {
    'params': 'encryptedParams',
    'encSecKey': 'encryptedSecKey'
}
comments_list = []
for i in range(10):  # 爬取10页评论
    response = requests.post(url, headers=headers, data=data)
    comments = response.json().get('comments')
    for comment in comments:
        content = comment.get('content')
        user = comment.get('user').get('nickname')
        comments_list.append({'User': user, 'Comment': content})
    time.sleep(1)  # 设置请求间隔，避免被反爬机制检测到
df = pd.DataFrame(comments_list)
df.to_csv('comments.csv', index=False)

在这个示例中，我们使用requests.post()方法发送POST请求，获取网易云音乐某首歌曲的评论数据，并使用pandas库将评论数据存储到CSV文件中。我们还设置了请求间隔，避免被反爬机制检测到。

八、处理加密参数

爬取网易云音乐的评论数据时，需要处理加密参数。网易云音乐的接口通常会对请求参数进行加密处理，需要使用对应的加密算法生成加密参数。以下是处理加密参数的示例代码：

import base64
import hashlib
import json
from Crypto.Cipher import AES
def aes_encrypt(text, key):
    iv = '0102030405060708'
    pad = 16 - len(text) % 16
    text = text + pad * chr(pad)
    encryptor = AES.new(key.encode('utf-8'), AES.MODE_CBC, iv.encode('utf-8'))
    ciphertext = encryptor.encrypt(text.encode('utf-8'))
    return base64.b64encode(ciphertext).decode('utf-8')
def rsa_encrypt(text, pub_key, modulus):
    text = text[::-1]
    rs = int(text.encode('utf-8').hex(), 16)  int(pub_key, 16) % int(modulus, 16)
    return format(rs, 'x').zfill(256)
def get_params(data):
    first_key = '0CoJUm6Qyw8W8jud'
    second_key = 'FFFFFFFFFFFFFFFF'
    enc_text = aes_encrypt(data, first_key)
    enc_text = aes_encrypt(enc_text, second_key)
    return enc_text
def get_encSecKey():
    pub_key = '010001'
    modulus = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c938701c4fa7a84a9a4c7dbb56f2e57da8a630d3b4f1d4ae2f5c8cd12bd0d9c5f72e9f9e40e2d4a2c3d5b6e44c5de3d1e3e272a2d8f3e5f4a3d7a6fb'
    text = 'FFFFFFFFFFFFFFFF'
    return rsa_encrypt(text, pub_key, modulus)
data = {
    'params': get_params(json.dumps({'rid': 'R_SO_4_1407551413', 'offset': '0', 'total': 'true', 'limit': '20', 'csrf_token': ''})),
    'encSecKey': get_encSecKey()
}

在这个示例中，我们使用AES加密和RSA加密算法生成加密参数。需要注意的是，网易云音乐的加密算法可能会不定期更新，因此在实际使用中可能需要根据最新的加密算法进行调整。

九、处理分页评论

网易云音乐的评论数据通常是分页显示的，每页包含一定数量的评论。为了获取所有评论数据，需要处理分页评论。以下是处理分页评论的示例代码：

import requests
import pandas as pd
import time
url = 'https://music.163.com/weapi/v1/resource/comments/R_SO_4_1407551413'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
data_template = {
    'params': '',
    'encSecKey': ''
}
comments_list = []
for offset in range(0, 100, 20):  # 爬取前100条评论，每页20条
    data = data_template.copy()
    data['params'] = get_params(json.dumps({'rid': 'R_SO_4_1407551413', 'offset': str(offset), 'total': 'false', 'limit': '20', 'csrf_token': ''}))
    data['encSecKey'] = get_encSecKey()
    response = requests.post(url, headers=headers, data=data)
    comments = response.json().get('comments')
    for comment in comments:
        content = comment.get('content')
        user = comment.get('user').get('nickname')
        comments_list.append({'User': user, 'Comment': content})
    time.sleep(1)  # 设置请求间隔，避免被反爬机制检测到
df = pd.DataFrame(comments_list)
df.to_csv('comments.csv', index=False)