python 如何提取句子

在Python中提取句子的主要方法有：使用正则表达式、nltk库、spaCy库。正则表达式是一种强大的字符串处理工具，可以用来匹配和提取文本中的特定模式；nltk库是一个自然语言处理的开源库，提供了丰富的文本处理功能；spaCy是一个高级自然语言处理库，专门用于高效的文本处理和分析。下面将详细介绍这些方法。

一、正则表达式提取句子

正则表达式（Regular Expression，简称Regex）是一种用来匹配字符串中字符组合的模式。在Python中，re模块提供了正则表达式的功能。提取句子时，通常以句末标点符号（如句号、问号、感叹号）作为分隔符。

基本用法

使用正则表达式的split方法，可以根据标点符号分割文本，从而提取句子。常见的正则表达式模式是匹配句末标点符号。
```
import re
text = "你好！这是一个测试。你还好吗？"
sentences = re.split(r'[。！？]', text)
sentences = [s.strip() for s in sentences if s]  # 去除空白和空字符串
print(sentences)
```
在这个例子中，re.split使用正则表达式r'[。！？]'来匹配中文的句末标点符号，将文本分割成句子列表。
处理特殊情况

当文本中包含缩略词或数字时，句末标点符号可能不是句子的结束。因此，可以结合上下文信息，通过正则表达式进行更复杂的匹配，以避免误分割。
```
text = "今天是周五，气温25.5度。明天的活动有：1. 游泳 2. 登山。"
sentences = re.split(r'(?<!\d)\.(?!\d)|[！？]', text)
sentences = [s.strip() for s in sentences if s]
print(sentences)
```
通过(?<!\d)\.(?!\d)，匹配不在数字之间的句号，从而避免将小数点误认为句末。

二、nltk库提取句子

nltk是一个强大的自然语言处理库，提供了句子分割工具，可以轻松提取句子。

安装与使用

在使用nltk之前，需要先安装并下载相关的数据包。
```
pip install nltk
```
在代码中加载和使用nltk的句子分割功能：
```
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize
text = "你好！这是一个测试。你还好吗？"
sentences = sent_tokenize(text, language='chinese')
print(sentences)
```
sent_tokenize函数提供了多种语言的句子分割功能，使用时需要指定语言。

自定义分词器

如果默认的分词器不能满足需求，可以通过nltk自定义分词规则，以便更灵活地提取句子。

from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters
punkt_param = PunktParameters()
abbreviation = ['dr', 'vs', 'mr', 'mrs']
punkt_param.abbrev_types = set(abbreviation)
tokenizer = PunktSentenceTokenizer(punkt_param)
text = "Dr. Smith is a renowned scientist. He works at the lab."
sentences = tokenizer.tokenize(text)
print(sentences)

通过PunktParameters自定义缩略词，可以避免缩略词后面的句号被误识别为句子结束符。

三、spaCy库提取句子

spaCy是一个工业级别的自然语言处理库，提供了高效的文本分析功能。

安装与使用

在开始使用spaCy之前，需要安装spaCy库和语言模型。

pip install spacy python -m spacy download zh_core_web_sm

使用spaCy提取句子：

import spacy
nlp = spacy.load('zh_core_web_sm')
text = "你好！这是一个测试。你还好吗？"
doc = nlp(text)
sentences = [sent.text for sent in doc.sents]
print(sentences)

spaCy通过语言模型自动识别句子边界，提取出的句子更加准确。

自定义句子边界识别

如果需要在特定情况下自定义句子边界识别，可以使用spaCy的SentenceSegmenter。

from spacy.language import Language
@Language.component('custom_sentence_segmenter')
def custom_sentence_segmenter(doc):
    for token in doc[:-1]:
        if token.text in ['.', '!', '?']:
            doc[token.i + 1].is_sent_start = True
    return doc
nlp.add_pipe('custom_sentence_segmenter', before='parser')
text = "This is a test. Another test! And yet another?"
doc = nlp(text)
sentences = [sent.text for sent in doc.sents]
print(sentences)