文本分析有四个阶段:1、数据收集,在此阶段,您从内部或外部资源收集文本数据;2、数据准备,这是文本提取的重要组成部分;3、文本分析,该阶段是流程的核心组成部分,文本分析软件在该流程中使用不同的方法处理文本;4、可视化,是指将文本分析结果转化为易于理解的格式。
一、文本分析有哪些阶段?
要实施文本分析,您需要遵循包含 4 个阶段的系统性流程。
第 1 阶段 — 数据收集
在此阶段,您从内部或外部资源收集文本数据。
内部数据
内部数据是指企业内部的文本内容,随时可供使用,例如电子邮件、聊天、发票和员工调查。
外部数据
您可以在社交媒体文章、线上评论、新闻文章和线上论坛等资源中查找外部数据。由于外部数据超出您的控制,所以很难获取这些数据。您可能需要使用网页抓取工具或与第三方解决方案集成以提取外部数据。
第 2 阶段 — 数据准备
数据准备是文本提取的重要组成部分。其涉及以分析时可接受的格式结构化原始文本数据。文本分析软件自动化该流程并涉及以下常见自然语言处理 (NLP) 方法。
令牌化
令牌化将原始文本分隔为具有语义意义的多个部分。例如,短语文本分析有利于企业令牌化为字词文本、分析、有利于和企业。
词性标记
词性标记为令牌化的文本分配语法标签。例如,将此步骤应用于上述令牌化的结果后为文本:名词;分析:名词;有利于:动词;企业:名词。
解析
解析通过英语语法在令牌化的字词之间建立有意义的联系。其帮助文本分析软件可视化字词之间的关系。
词形还原
词形还原是指将字词简化为其在词典中的词形,或简化为词根形式的语言学流程。例如,visualizing 一词在词典中的词形为 visualize。
停用词删除
停用词是指在句中提供很少或不提供语义背景信息的字词,例如和、或以及为。根据使用场景,软件可能从结构化文本中删除停用词。
第 3 阶段 — 文本分析
文本分析是流程的核心组成部分,文本分析软件在该流程中使用不同的方法处理文本。
文本分类
分类是指基于规则或基于机器学习系统为文本数据分配标签的流程。
文本提取
提取涉及识别文本中是否存在特定关键字,并将这些关键字与标签相关联。软件使用正则表达式和条件随机场 (CRFs) 等方法执行此操作。
第 4 阶段 — 可视化
可视化是指将文本分析结果转化为易于理解的格式。您将看到以图形、图表和表格显示的文本分析结果。可视化的结果帮助您识别模式和趋势并构建行动计划。例如,假设您遇到产品退货激增,但是您无法找到原因。借助可视化,您可在反馈中寻找缺陷、尺寸错误或不太适合等字词,并将它们制成图表。然后,您将知道需要优先考虑的主要问题。