python 如何抓包得到url

Python 抓包得到 URL的方式有多种，例如使用抓包工具、代理服务器、直接解析网络请求等。其中，最常用的方法包括使用 Python 库（如requests、BeautifulSoup、Selenium 等）进行网页数据抓取、使用抓包工具（如mitmproxy、Fiddler）进行网络流量分析、以及通过设置系统代理来捕捉 HTTP/HTTPS 请求。本文将详细介绍其中一种方法：使用抓包工具 mitmproxy。

一、使用 mitmproxy 抓包

1. mitmproxy 安装和配置

mitmproxy 是一个强大的抓包工具，它可以拦截和修改 HTTP 和 HTTPS 流量，适用于 Python 开发者进行网络分析和调试。首先，我们需要安装 mitmproxy：

pip install mitmproxy

安装完成后，可以使用以下命令启动 mitmproxy：

mitmproxy

启动后，mitmproxy 会在本地启动一个代理服务器，默认端口为8080。接下来需要配置系统或浏览器的代理设置，指向 mitmproxy 代理服务器。

2. 配置 SSL 证书

对于 HTTPS 流量，需要配置 mitmproxy 的 SSL 证书。mitmproxy 提供了生成自签名证书的功能。可以通过以下命令生成证书：

mitmproxy --certs

生成的证书需要安装到系统或浏览器中，具体步骤可以参考 mitmproxy 官方文档。

3. 抓包分析

在配置好代理和证书后，启动 mitmproxy 并访问目标网站，可以在 mitmproxy 的界面中看到所有的网络请求。通过查看请求详情，可以获取到 URL、请求头、请求体等信息。

二、使用 Python 库抓取 URL

1. Requests 库

Requests 是 Python 中最常用的 HTTP 请求库，可以方便地发送 GET、POST 等请求，并获取响应内容。

import requests
url = "http://example.com"
response = requests.get(url)
print(response.url)
print(response.text)

通过 requests.get 方法发送 GET 请求，可以获取到响应对象，响应对象的 url 属性即为请求的 URL。

2. BeautifulSoup 解析 HTML

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的库，可以方便地提取网页中的 URL。

from bs4 import BeautifulSoup
import requests
url = "http://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
for link in soup.find_all('a'):
    print(link.get('href'))

通过 BeautifulSoup 提取网页中的所有链接，可以获取到网页中包含的所有 URL。

3. Selenium 模拟浏览器操作

Selenium 是一个用于自动化测试的工具，可以模拟浏览器操作，适用于动态网页的抓取。

from selenium import webdriver
driver = webdriver.Chrome()
driver.get("http://example.com")
获取当前页面的 URL
print(driver.current_url)
获取页面中的所有链接
links = driver.find_elements_by_tag_name('a')
for link in links:
    print(link.get_attribute('href'))
driver.quit()

通过 Selenium 可以模拟用户操作，访问目标网站，并获取当前页面的 URL 以及页面中包含的所有链接。

三、代理服务器

1. 使用 Proxy 抓取 URL

可以通过设置代理服务器来捕捉 HTTP/HTTPS 请求，并获取 URL。

import requests
proxies = {
    'http': 'http://127.0.0.1:8080',
    'https': 'http://127.0.0.1:8080',
}
url = "http://example.com"
response = requests.get(url, proxies=proxies)
print(response.url)
print(response.text)

通过设置代理服务器，可以将所有请求通过代理服务器转发，并在代理服务器上进行抓包分析。

2. ProxyChain 工具

ProxyChain 是一个代理链工具，可以通过多个代理服务器转发请求，适用于需要高度匿名的场景。

sudo apt-get install proxychains

安装完成后，可以配置 ProxyChain 的代理链，并通过 ProxyChain 运行 Python 脚本：

proxychains python your_script.py

通过 ProxyChain，可以将请求通过多个代理服务器转发，增加匿名性和安全性。

四、解析网络请求

1. 使用 Scapy 分析网络流量

Scapy 是一个强大的网络分析工具，可以用于捕捉和解析网络数据包。

from scapy.all import sniff
def packet_callback(packet):
    if packet.haslayer('HTTP'):
        print(packet['HTTP'].Host, packet['HTTP'].Path)
sniff(filter="tcp port 80", prn=packet_callback, store=0)

通过 Scapy 可以捕捉网络流量，并解析 HTTP 请求，获取 URL。