使用python如何获取网页的href

作者：Joshua Lee发布时间：2026-03-29 01:56阅读时长：13 分钟阅读次数：27

常见问答

如何使用Python提取网页中的所有链接地址？

我想用Python来抓取网页上的所有超链接地址，该怎么做比较高效？

用Python抓取网页中的超链接

可以使用requests库获取网页HTML代码，再通过BeautifulSoup库解析HTML并提取所有标签的href属性，示例代码如下：

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
links = [a.get('href') for a in soup.find_all('a') if a.get('href')]
print(links)

这样可以方便地获得网页中所有有效的链接地址。

Python中如何处理获取的href链接中的相对路径？

抓取网页上的href属性时，有些链接是相对路径，如何将它们转换为完整的URL？

将相对路径转换为完整URL的方法

相对路径链接需要结合网页的基础URL转换为完整链接。可以用urllib.parse模块中的urljoin函数，例如：

from urllib.parse import urljoin
base_url = 'http://example.com'
relative_link = '/page1.html'
full_url = urljoin(base_url, relative_link)
print(full_url)  # 输出：http://example.com/page1.html

使用这种方法，可以确保无论链接是相对还是绝对路径，都能获得有效的完整URL。

有哪些Python库适合用来抓取网页中的href信息？

除了BeautifulSoup，还有哪些Python库可以用来提取网页上的超链接？

Python中常用的网页解析库推荐

常用的Python库包括：