python爬虫如何记录cookies

Python爬虫记录cookies可以通过使用requests库中的Session对象、在请求中手动设置cookie头、利用浏览器开发者工具导出cookie等方式实现。其中，使用requests库中的Session对象是最为便捷和常用的方法。通过Session对象，不仅可以自动管理cookies，还能在多个请求之间保持会话的状态，模拟浏览器的行为。接下来将详细介绍如何使用Session对象来记录和管理cookies。

一、SESSION对象在记录COOKIES中的应用

使用requests库中的Session对象可以自动管理cookies，这是处理需要登录或维持会话状态的网站时非常有用的工具。Session对象能够跨请求保持状态，自动处理cookie的接收与发送。

创建Session对象并发送请求

使用requests库创建Session对象，通过Session对象发送请求，自动记录服务器返回的cookies。以下是一个简单的例子：
```
import requests
创建一个Session对象
session = requests.Session()
发送请求
response = session.get('http://example.com')
输出cookies
print(session.cookies.get_dict())
```
在上面的例子中，Session对象在发送请求时，会自动接收服务器返回的cookies，并存储在session对象的cookies属性中。通过session.cookies.get_dict()可以获取所有的cookies。
自动维护会话状态

使用Session对象可以在多个请求之间自动维护会话状态。例如，当需要先登录一个网站，然后才能访问其他页面时，Session对象会自动携带登录时获取的cookies，从而保持登录状态。
```
# 登录请求
login_data = {'username': 'your_username', 'password': 'your_password'}
session.post('http://example.com/login', data=login_data)
登录后访问其他页面
response = session.get('http://example.com/dashboard')
检查是否成功访问
print(response.text)
```
在这个例子中，首先通过Session对象的post方法进行登录请求。随后，Session对象会自动携带登录时获取的cookies，访问其他需要登录的页面。

二、手动设置COOKIES头

在某些情况下，可能需要手动设置请求的cookie头，比如从浏览器中复制cookie，或者在没有使用Session对象的情况下维持会话状态。通过requests库可以轻松实现这一点。

从浏览器复制cookies

可以通过浏览器的开发者工具复制当前页面的cookies，然后在请求中手动设置cookie头。

import requests
设置cookie头
cookies = {
    'cookie_name_1': 'cookie_value_1',
    'cookie_name_2': 'cookie_value_2',
}
发送请求
response = requests.get('http://example.com', cookies=cookies)
print(response.text)

这种方法适用于简单的cookie设置，但不建议用于复杂的会话管理。

在请求中手动设置cookie

有时候需要在请求中动态设置或修改cookie，这可以通过构建自己的cookie头来实现。
```
import requests
自定义cookie
custom_cookie = {
    'sessionid': 'your_session_id',
}
发送请求
response = requests.get('http://example.com', cookies=custom_cookie)
print(response.text)
```
手动设置cookie头适用于简单的场合，但在处理复杂的会话管理时，建议使用Session对象。

三、利用浏览器开发者工具导出COOKIES

浏览器开发者工具能够帮助我们查看和导出当前页面的cookies，这对于模拟登录状态或需要维持会话状态的爬虫任务非常有帮助。

使用开发者工具查看cookies

在浏览器中打开开发者工具（通常使用F12或右键检查），切换到“应用”或“存储”选项卡，可以查看当前页面的所有cookies。
导出并使用cookies

在开发者工具中手动复制需要的cookies，然后在爬虫代码中设置这些cookies。可以使用requests库的cookies参数来设置。
```
import requests
从浏览器导出的cookie
cookies = {
    'cookie_name_1': 'cookie_value_1',
    'cookie_name_2': 'cookie_value_2',
}
发送请求
response = requests.get('http://example.com', cookies=cookies)
print(response.text)
```
这种方法适用于需要快速获取并使用cookie的场合，尤其是在处理需要模拟登录的网站时。

四、COOKIE持久化存储与更新

在某些复杂的爬虫项目中，可能需要将cookie持久化存储，以便在不同的爬虫运行中重用。

持久化存储

可以将cookies序列化为JSON格式，并将其存储在文件中，以便在下次运行时重新加载。

import requests
import json
创建Session对象
session = requests.Session()
发送请求
session.get('http://example.com')
将cookies持久化存储
with open('cookies.json', 'w') as f:
    json.dump(session.cookies.get_dict(), f)

加载与更新cookies

在下次爬虫运行时，可以加载之前存储的cookies，并在请求中使用。需要注意的是，某些cookies可能会过期，因此需要在每次请求后更新。

import requests
import json
创建Session对象
session = requests.Session()
加载存储的cookies
with open('cookies.json', 'r') as f:
    cookies = json.load(f)
    session.cookies.update(cookies)
发送请求
response = session.get('http://example.com')
更新并存储cookies
with open('cookies.json', 'w') as f:
    json.dump(session.cookies.get_dict(), f)

这种方法适用于需要长期维护会话状态的场合，通过自动更新和存储cookies，能够有效模拟真实用户的行为。

五、处理复杂的COOKIE场景

在某些复杂的爬虫任务中，可能需要处理涉及多种cookie类型的情况，如HttpOnly、Secure等。

HttpOnly与Secure属性
- HttpOnly属性的cookie不能通过JavaScript访问，这增加了cookie的安全性。对于爬虫而言，HttpOnly cookie的处理与普通cookie相同。
- Secure属性的cookie只能通过HTTPS连接传输，确保数据在传输过程中不被窃取。在发送请求时，需确保目标URL使用HTTPS协议。

多域名cookie管理

某些网站可能涉及多个域名的cookie交互，需在请求中同时管理多个域的cookie。

import requests
创建Session对象
session = requests.Session()
发送请求获取多个域的cookies
session.get('https://sub.example.com')
session.get('https://another.example.com')
输出所有cookies
print(session.cookies.get_dict())

使用Session对象可以自动处理多域名的cookie管理，确保在请求时携带正确的cookie。

六、常见问题与解决方案