python如何获取标签的内容

作者：Joshua Lee发布时间：2026-01-13阅读时长：0 分钟阅读次数：79

用户关注问题

如何用Python提取HTML标签中的文本？

我想用Python来解析一个网页，并且获取特定标签内部的文字内容，有什么好的方法或库推荐吗？

使用BeautifulSoup库解析HTML并获取标签文本

可以使用Python的BeautifulSoup库来解析HTML文件。首先用BeautifulSoup加载HTML内容，然后通过标签名查找对应的标签，最后使用.get_text()方法获取标签内的文本。例如：

from bs4 import BeautifulSoup
html_doc = '

Hello World

'
soup = BeautifulSoup(html_doc, 'html.parser')
text = soup.find('div').get_text()
print(text) # 输出 Hello World

如何获取多层嵌套标签中的内容？

在HTML文档中，标签可能嵌套多层，我需要提取特定标签里面的文本内容，该怎么实现？

利用BeautifulSoup逐层遍历或直接定位目标标签获取文本

BeautifulSoup支持通过多种方式定位标签，例如通过soup.find()查找单个标签，或者soup.find_all()获取所有匹配标签。对于嵌套结构，可以先找到父标签，再从父标签中继续查找子标签。最终调用.get_text()方法即可获得文本内容。示例如下：

parent = soup.find('div', {'class':'container'})
text = parent.find('p').get_text()
print(text)

如何处理HTML标签中的属性以提高内容获取的准确性？

我发现网页中的相同标签可能有不同的属性，用属性筛选标签的内容是不是更准确？

通过属性筛选精确定位所需标签

BeautifulSoup支持通过标签的属性来过滤标签，可以使用参数attrs或者关键字参数定位具有特定属性的标签。例如：

soup.find('a', href='https://example.com')
soup.find_all('div', class_='content')
这样的筛选可以让你准确获取到目标标签中的文本，避免抓取到不相关的内容。

标签：