python获取网页中的url

作者：William Gu发布时间：2026-03-28 22:05阅读时长：12 分钟阅读次数：36

常见问答

如何用Python提取网页中的所有链接？

我想使用Python从一个网页中抓取所有的URL链接，应该使用哪些库以及怎样实现？

使用requests和BeautifulSoup提取网页中的URL

可以使用requests库获取网页的HTML内容，然后使用BeautifulSoup解析HTML并查找所有的标签，进而提取href属性的值。示例代码：

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

links = [a.get('href') for a in soup.find_all('a') if a.get('href')]
print(links)

这样可以获得网页中所有有效的超链接。

使用Python获取网页中的URL时如何处理相对路径？

抓取网页中的链接时，经常会遇到相对路径，怎样用Python将相对路径转换成完整的URL？

借助urllib.parse.urljoin函数完成相对URL转换

在获取到的链接中，如果遇到相对路径，用Python自带的urllib.parse模块中的urljoin函数可以将其转换成绝对URL。示例代码：

from urllib.parse import urljoin

base_url = 'http://example.com'
relative_url = '/about'
full_url = urljoin(base_url, relative_url)
print(full_url)  # 输出：http://example.com/about

结合爬取的链接，可以统一转换后保存，确保链接地址完整。

是否有不使用第三方库的方法用Python获取网页中的URL？

我希望用纯Python的方式提取网页中的URL，没有安装额外包的条件下可能吗？

利用Python内置的HTMLParser进行URL提取

Python自带的html.parser模块提供了HTMLParser类，可以通过继承这个类并重写handle_starttag方法来解析标签并获取href。示例：

from html.parser import HTMLParser

class LinkParser(HTMLParser):
    def __init__(self):
        super().__init__()
        self.links = []
    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            for attr in attrs:
                if attr[0] == 'href':
                    self.links.append(attr[1])

parser = LinkParser()
html_text = '<a href="http://example.com">Example</a>'
parser.feed(html_text)
print(parser.links)

这个方法不依赖于第三方库，但在处理复杂网页时可能不如BeautifulSoup等库方便。

* 文章含AI生成内容

标签：

数据获取网络分析自动化处理