文本分析技术类型有:1、文本分类,在文本分类中,文本分析软件学习如何将特定关键字与特定主题、用户意图或情绪相关联;2、文本提取,文本提取扫描文本并提取关键信息;3、主题建模,该方法识别非结构化成本中出现的相关关键字并将它们分组为主题或话题;4、PII 修订,它会自动检测和删除文档中的个人身份信息(PII),例如姓名等。
一、文本分析技术有哪些类型?
文本分析软件使用以下常见技术。
1、文本分类
在文本分类中,文本分析软件学习如何将特定关键字与特定主题、用户意图或情绪相关联。其使用以下方法实现此功能:
- 基于规则的分类根据预定义的语义成分或语法模式规则为文本分配标签。
- 基于机器学习的系统通过示例训练文本分析软件并提高其标记文本的准确性。其使用语言模型(例如朴素贝叶斯、支持向量机和深度学习)处理结构化数据和分类字词,以及开发两者之间的语法理解。
例如,积极评价通常包含好、快和太棒了等字词。 但是,消极评价可能包含不满意、慢和差等字词。数据科学家训练文本分析软件查找此类特定字词并将评价分类为积极或消极。这样,客户支持团队可以通过评论轻松监控客户情绪。
2、文本提取
文本提取扫描文本并提取关键信息。其可以识别一段文本中的关键字、产品属性、品牌名称、地点名称等。提取软件应用以下方法:
- 正则表达式 (REGEX):指作为需提取内容前提条件的特定格式符号数组。
- 条件随机场 (CRFs):指通过评估特定模式或短语提取文本的机器学习方法。其比 REGEX 更加精细和灵活。
例如,您可以使用文本提取监控社交媒体上的品牌提及。手动跟踪社交媒体上的每次品牌提及是不可能的。文本提取将实时提示您品牌提及。
3、主题建模
主题建模方法识别非结构化成本中出现的相关关键字并将它们分组为主题或话题。这些方法可以阅读多个文本文档并根据文档中多个字词的出现频率将这些文档按话题排列。主题建模方法为进一步分析文档提供背景信息。
例如,您可以使用主题建模方法通读扫描的文档归档并将文档分类为发票、法律文档和客户协议。然后,您可以将不同的分析方法用于发票以获得财务洞察,或者用于客户协议以获得客户洞察。
4、PII 修订
PII 修订会自动检测和删除文档中的个人身份信息(PII),例如姓名、地址或账号。PII 修订可帮助保护隐私和符合当地法律法规。
例如,您可以在索引搜索解决方案中的文档之前分析支持票证和知识文章来检测和修订 PII。在此之后,搜索解决方案将不包含文档中的 PII。