python爬虫如何构造字典存储参数

Python爬虫构造字典存储参数的核心要点包括：使用requests库发送请求、使用BeautifulSoup解析HTML、构造字典存储爬取的数据、利用字典的键值对来组织数据。通过构造字典存储参数，可以使数据结构更加清晰、方便后续的数据处理和分析。

一、使用requests库发送请求

在Python爬虫中，requests库是一个非常流行的HTTP请求库。它简单易用，功能强大，可以帮助我们轻松地发送HTTP请求，并获取服务器的响应内容。

import requests
url = 'http://example.com'
response = requests.get(url)
if response.status_code == 200:
    print("Request was successful")
else:
    print("Request failed")

以上代码中，我们首先导入了requests库，然后定义了一个目标URL，并使用requests.get()方法发送GET请求。如果请求成功，我们会收到状态码200，并可以通过response.text获取响应内容。

二、使用BeautifulSoup解析HTML

BeautifulSoup是一个用于解析HTML和XML文档的Python库。通过BeautifulSoup，我们可以轻松地从网页中提取所需的数据，并将其存储在字典中。

from bs4 import BeautifulSoup
html_content = response.text
soup = BeautifulSoup(html_content, 'html.parser')
例如，提取所有的标题和链接
titles = soup.find_all('h1')
links = soup.find_all('a')
for title in titles:
    print(title.text)
for link in links:
    print(link.get('href'))

以上代码中，我们首先将响应内容传递给BeautifulSoup，并指定解析器为'html.parser'。然后，我们使用find_all()方法查找所有的标题和链接，并遍历它们以提取文本内容和链接地址。

三、构造字典存储爬取的数据

通过构造字典存储爬取的数据，我们可以更好地组织和管理数据。字典是一种键值对的数据结构，具有快速查找和插入的优点。

data = {
    'titles': [],
    'links': []
}
for title in titles:
    data['titles'].append(title.text)
for link in links:
    data['links'].append(link.get('href'))
print(data)

在上述代码中，我们首先创建一个空字典data，并定义两个键'titles'和'links'，分别用于存储标题和链接。然后，我们遍历标题和链接，将提取到的内容添加到相应的列表中。最后，我们输出字典data，查看存储的数据。

四、利用字典的键值对来组织数据

字典的键值对可以帮助我们更好地组织和管理数据。我们可以根据需要定义多个键，并将相关数据存储在相应的键下。

data = {
    'titles': [],
    'links': [],
    'descriptions': []
}
descriptions = soup.find_all('p')
for title in titles:
    data['titles'].append(title.text)
for link in links:
    data['links'].append(link.get('href'))
for description in descriptions:
    data['descriptions'].append(description.text)
print(data)

在上述代码中，我们在字典data中添加了一个新的键'descriptions'，用于存储描述内容。然后，我们使用BeautifulSoup查找所有的描述，并将提取到的文本内容添加到'descriptions'列表中。最终，我们可以通过打印字典data，查看存储的所有数据。

五、结合多个参数构造复杂字典

在实际应用中，爬虫可能需要处理更加复杂的数据结构。我们可以结合多个参数，构造复杂的字典，以满足不同的数据需求。

data = []
articles = soup.find_all('article')
for article in articles:
    title = article.find('h1').text
    link = article.find('a').get('href')
    description = article.find('p').text
    article_data = {
        'title': title,
        'link': link,
        'description': description
    }
    data.append(article_data)
print(data)

在上述代码中，我们首先创建一个空列表data，用于存储多个文章的数据。然后，我们使用BeautifulSoup查找所有的文章，并遍历每篇文章，提取标题、链接和描述。接着，我们将每篇文章的数据存储在一个字典article_data中，并将该字典添加到列表data中。最终，我们可以通过打印列表data，查看存储的所有文章数据。

六、处理动态网页

有些网页内容是通过JavaScript动态加载的，使用requests库无法直接获取这些内容。对于这种情况，我们可以使用Selenium等工具，模拟浏览器行为，获取动态加载的内容。

from selenium import webdriver
url = 'http://example.com'
driver = webdriver.Chrome()
driver.get(url)
html_content = driver.page_source
soup = BeautifulSoup(html_content, 'html.parser')
之后可以按照前面介绍的方法解析和存储数据
driver.quit()

在上述代码中，我们首先导入了Selenium的webdriver模块，并使用webdriver.Chrome()创建一个Chrome浏览器实例。然后，我们使用get()方法打开目标URL，并通过page_source获取页面的HTML内容。接下来，我们可以按照前面介绍的方法，使用BeautifulSoup解析和存储数据。最后，我们关闭浏览器实例，释放资源。

七、处理分页数据

在实际应用中，爬虫可能需要处理分页数据。我们可以通过构造循环，发送多个请求，获取所有分页的数据。

data = []
for page in range(1, 6):
    url = f'http://example.com/page/{page}'
    response = requests.get(url)
    if response.status_code == 200:
        html_content = response.text
        soup = BeautifulSoup(html_content, 'html.parser')
        articles = soup.find_all('article')
        for article in articles:
            title = article.find('h1').text
            link = article.find('a').get('href')
            description = article.find('p').text
            article_data = {
                'title': title,
                'link': link,
                'description': description
            }
            data.append(article_data)
print(data)