python 如何爬取js

Python爬取JavaScript生成内容的方法包括：使用Selenium模拟浏览器、使用Pyppeteer、使用Requests-HTML库。 其中，使用Selenium是最为常见和强大的方法之一，因为它可以完全模拟浏览器的行为，加载JavaScript并获取最终渲染的页面内容。接下来，我将详细介绍如何使用Selenium来实现这个任务。

一、使用SELENIUM模拟浏览器

Selenium是一个功能强大的工具，可以模拟用户与浏览器的交互。它可以用于测试Web应用程序，也可以用来抓取包含JavaScript的动态页面。

安装与设置

要使用Selenium，首先需要安装Selenium库和浏览器驱动程序（如ChromeDriver）。在Python环境中，可以通过pip安装Selenium：
```
pip install selenium
```
然后，下载与浏览器版本匹配的驱动程序。例如，对于Chrome浏览器，可以从ChromeDriver官方网站下载相应版本的驱动程序。

基本用法

使用Selenium抓取JavaScript生成的内容非常简单。以下是一个基本示例：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
设置ChromeDriver路径
service = Service(executable_path='path/to/chromedriver')
启动浏览器
driver = webdriver.Chrome(service=service)
打开目标网页
driver.get('http://example.com')
等待页面加载完毕，获取动态内容
content = driver.find_element(By.TAG_NAME, 'body').text
print(content)
关闭浏览器
driver.quit()

在这个例子中，Selenium打开了一个Chrome浏览器窗口，加载了指定的URL，并获取页面的文本内容。由于Selenium会等待JavaScript加载，因此可以获取动态生成的内容。

二、使用PYPPETEER

Pyppeteer是Puppeteer的Python版本，用于控制无头Chrome浏览器。与Selenium类似，它也是一个强大的工具，可以用于抓取JavaScript渲染的网页。

安装Pyppeteer

可以通过pip安装Pyppeteer：
```
pip install pyppeteer
```

使用Pyppeteer抓取内容

Pyppeteer可以用于抓取JavaScript生成的内容，以下是一个简单的示例：

import asyncio
from pyppeteer import launch
async def main():
    # 启动无头浏览器
    browser = await launch()
    page = await browser.newPage()
    # 打开目标网页
    await page.goto('http://example.com')
    # 等待内容加载
    content = await page.evaluate('document.body.textContent', force_expr=True)
    print(content)
    # 关闭浏览器
    await browser.close()
asyncio.get_event_loop().run_until_complete(main())

在这个示例中，我们使用Pyppeteer启动了一个无头浏览器，加载了指定网页，并通过JavaScript获取了页面的文本内容。

三、使用REQUESTS-HTML库

Requests-HTML是一个集成了Requests和PyQuery的Python库，能够方便地抓取和解析网页内容，甚至可以渲染JavaScript。

安装Requests-HTML

可以通过pip安装Requests-HTML：
```
pip install requests-html
```
使用Requests-HTML抓取内容

Requests-HTML可以用于抓取并渲染JavaScript生成的内容，以下是一个示例：
```
from requests_html import HTMLSession
创建会话
session = HTMLSession()
发起请求
response = session.get('http://example.com')
渲染JavaScript
response.html.render()
获取渲染后的内容
content = response.html.text
print(content)
```
在这个例子中，我们使用Requests-HTML发起了一个请求，并使用render方法渲染了页面中的JavaScript，最后获取了渲染后的文本内容。