python怎么获取href

作者：William Gu发布时间：2026-03-25 02:53阅读时长：15 分钟阅读次数：39

常见问答

如何使用Python提取网页中的所有链接？

我想用Python程序获取一个网页中的所有href链接，应该使用哪些工具或库？

使用BeautifulSoup提取网页中的href链接

可以使用Python的BeautifulSoup库来解析HTML内容，结合requests库获取网页源代码。通过遍历所有标签并访问其href属性，可以提取所有链接。示例代码：

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

links = [a.get('href') for a in soup.find_all('a') if a.get('href')]
print(links)

这段代码会打印出网页上所有标签的href属性值。

使用Python如何只获取网页中特定部分的链接？

有没有办法用Python只抓取网页中某个div或者class里的链接？

通过定位HTML元素范围来限制提取的链接

使用BeautifulSoup时，可以先定位到特定的HTML元素，比如通过id或class找到相应的区块，然后只在该区块内查找标签，获取href。示例：

container = soup.find('div', {'class': 'target-class'})
links = [a.get('href') for a in container.find_all('a') if a.get('href')]

这样提取的链接都限制在该div区域内，方便筛选特定内容。

如何确保用Python提取的href链接是完整的URL？

很多网页href是相对路径，怎样把相对路径转成绝对的链接？

结合urllib.parse.urljoin补全相对链接

提取的href有时是类似'/page1.html'的相对链接，需要和网页的基础URL拼接成完整链接。Python提供了urllib.parse.urljoin方法：

from urllib.parse import urljoin

base_url = 'http://example.com'
full_url = urljoin(base_url, '/page1.html')  # 结果是http://example.com/page1.html

遍历所有href并使用urljoin对相对路径进行处理，能保证获取到规范的绝对链接。

* 文章含AI生成内容

标签：

编程开发数据处理网络爬取