Python如何实现百度搜索

Python实现百度搜索的方法有：使用requests库进行网页请求、使用BeautifulSoup库进行网页解析、使用Selenium库模拟浏览器操作。其中，使用requests库进行网页请求是一种常见且简单的方法，通过发送HTTP请求并解析响应内容，可以实现百度搜索功能。接下来将详细介绍如何使用requests库和BeautifulSoup库来实现百度搜索。

一、使用requests库进行网页请求

使用requests库可以发送HTTP请求，并获取网页的HTML内容。以下是一个简单的例子，演示如何使用requests库进行百度搜索。

import requests
def bAIdu_search(query):
    url = 'https://www.baidu.com/s'
    params = {'wd': query}
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    response = requests.get(url, params=params, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        return None
示例调用
html_content = baidu_search('Python')
print(html_content)

在上述代码中，我们定义了一个名为baidu_search的函数，该函数接受一个查询参数query，并使用requests库发送HTTP GET请求。请求的URL为https://www.baidu.com/s，其中wd参数用于指定搜索关键词。我们还设置了一个HTTP头User-Agent，以模拟浏览器请求。

二、使用BeautifulSoup库进行网页解析

获取到网页的HTML内容后，我们可以使用BeautifulSoup库进行解析，提取搜索结果。以下是一个示例，演示如何使用BeautifulSoup库解析百度搜索结果页面，并提取搜索结果的标题和链接。

from bs4 import BeautifulSoup
def parse_search_results(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    results = []
    for item in soup.find_all('div', class_='result'):
        title = item.find('h3').get_text()
        link = item.find('a')['href']
        results.append({'title': title, 'link': link})
    return results
示例调用
html_content = baidu_search('Python')
search_results = parse_search_results(html_content)
for result in search_results:
    print(f"Title: {result['title']}, Link: {result['link']}")

在上述代码中，我们定义了一个名为parse_search_results的函数，该函数接受一个HTML内容参数html_content，并使用BeautifulSoup库进行解析。我们查找所有包含搜索结果的div元素，提取其标题和链接，并将结果存储在一个列表中。

三、处理百度搜索结果中的重定向链接

百度搜索结果中的链接通常是经过重定向的，我们需要进一步处理这些重定向链接，以获取最终的目标URL。以下是一个示例，演示如何处理百度搜索结果中的重定向链接。

def resolve_redirect(link):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    response = requests.get(link, headers=headers, allow_redirects=True)
    return response.url
示例调用
for result in search_results:
    resolved_link = resolve_redirect(result['link'])
    print(f"Title: {result['title']}, Resolved Link: {resolved_link}")

在上述代码中，我们定义了一个名为resolve_redirect的函数，该函数接受一个链接参数link，并使用requests库发送HTTP GET请求。通过设置allow_redirects=True，requests库会自动处理重定向，并返回最终的目标URL。

四、使用Selenium库模拟浏览器操作

Selenium库是一种强大的工具，可以模拟浏览器操作，执行更复杂的网页交互。以下是一个示例，演示如何使用Selenium库实现百度搜索。

首先，需要安装Selenium库和对应的浏览器驱动程序，例如ChromeDriver：

pip install selenium

接下来，编写代码实现百度搜索：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
def baidu_search_selenium(query):
    driver = webdriver.Chrome()
    driver.get('https://www.baidu.com')
    search_box = driver.find_element(By.NAME, 'wd')
    search_box.send_keys(query)
    search_box.send_keys(Keys.RETURN)
    results = []
    search_results = driver.find_elements(By.CSS_SELECTOR, 'div.result')
    for item in search_results:
        title = item.find_element(By.CSS_SELECTOR, 'h3').text
        link = item.find_element(By.CSS_SELECTOR, 'a').get_attribute('href')
        results.append({'title': title, 'link': link})
    driver.quit()
    return results
示例调用
search_results = baidu_search_selenium('Python')
for result in search_results:
    print(f"Title: {result['title']}, Link: {result['link']}")