AIOps(即人工智能 IT 运营)是应用人工智能 (AI) 来改进 IT 运营的方法。 具体而言,AIOps 使用大数据、分析和机器学习功能来执行以下操作:收集并汇总由多个 IT 基础架构组件、应用程序和性能监视工具生成的、不断增加的海量运营数据;智能地从“噪声”中筛选出“信号”,以识别与系统性能和可用性问题相关的重要事件和模式;诊断根本原因并将其报告给 IT 部门以便他们快速响应和补救,或在某些情况下自动解决这些问题而无需人工干涉。
一、什么是 AIOps
AIOps(即人工智能 IT 运营)是应用人工智能 (AI) 来改进 IT 运营的方法。 具体而言,AIOps 使用大数据、分析和机器学习功能来执行以下操作:
收集并汇总由多个 IT 基础架构组件、应用程序和性能监视工具生成的、不断增加的海量运营数据;智能地从“噪声”中筛选出“信号”,以识别与系统性能和可用性问题相关的重要事件和模式;诊断根本原因并将其报告给 IT 部门以便他们快速响应和补救,或在某些情况下自动解决这些问题而无需人工干涉。
通过将多个单独的手动 IT 运营工具替换为单一的智能自动化 IT 运营平台,AIOps 使 IT 运营团队能够更快地作出响应,甚至主动处理慢速和中断事件,从而大幅减少工作量。
它可以缩小下面两大对立面之间的差距:一方面是日益多样化、动态且难以监控的 IT 环境,另一方面是用户对应用程序性能和可用性几乎或根本无中断的期望。 大多数专家都认为 AIOps 是 IT 运营管理的未来。
二、AIOps的重要性
如今,大多数组织都在经历转型,从包含独立静态物理系统的传统基础架构转向包含本地环境、托管云环境、私有云环境和公有云环境的动态组合基础架构,后者是在虚拟化或软件定义的资源(用于不断扩展和重新配置)上运行。
这些环境中的应用程序和系统将会产生海量的数据,而且数据量还在不断增长。
基于领域的传统 IT 管理解决方案无法跟上数据量增长的步伐。 它们无法智能地从如此大量的相关数据中筛选出重要事件。 它们也无法将来自不同但相互依赖的环境的数据关联。 它们无法提供实时洞察和预测性分析,以便让 IT 运营团队快速响应问题,满足用户和客户对服务级别的期望。
走进 AIOps,它可以直观呈现所有环境的性能数据和依赖关系,分析数据以提取与慢速或中断情况相关的重要事件,并自动提醒 IT 人员关注问题、根本原因及建议的解决方案。
三、AIOps的工作原理
了解 AIOps 工作方式的最简便方法是查看每一种 AIOps 组件技术(包括大数据、机器学习和自动化)在这个流程中起到的作用。
AIOps 利用大数据平台将孤岛式 IT 运营数据汇总在一处。 这些数据包含:
- 历史性能和事件数据
- 流式实时运营事件
- 系统日志和指标
- 网络数据,包括包数据
- 事故相关数据和工单
- 基于文档的相关数据
然后,AIOps 会应用重点分析和机器学习功能:
1、从“噪声”中分离重要事件警报
AIOps 利用规则应用和模式匹配等分析功能来梳理 IT 运营数据,并将信号(即重要的异常事件警报)与噪声(其他数据)分离。
2、确定根本原因并提出解决方案
借助特定于行业或环境的算法,AIOps 可将异常事件与环境中的其他事件数据相关联,以确定中断或性能问题的原因,并建议补救措施。
3、自动响应,包括实时主动解决
AIOps 至少可以自动将警报和建议的解决方案传送给相应的 IT 团队,甚至可以根据问题的性质和解决方案来组建响应团队。 在许多情况下,它可以处理机器学习的结果,触发自动系统响应,甚至是在用户意识到问题之前实时解决问题。
4、不断学习,改进未来问题的处理
根据分析结果,机器学习功能可更改算法或创建新算法,以尽早识别问题并推荐更有效的解决方案。 AI 模型还可帮助系统了解和适应环境的变化,例如 DevOps 团队提供或重新配置的新基础架构。
四、AIOps 的优势
AIOps 的关键优势在于,它可以让 IT 运营人员识别、处理和解决慢速和中断事件,而且速度比在多个 IT 运营工具提供的警报中手动筛选更快。因此,它具有以下几个特定优势:
1、缩短了平均解决时间 (MTTR)
通过消除 IT 运营中的噪声并将多个 IT 环境中的运营数据相关联,AIOps 可以比人工操作更快、更准确地确定根本原因并提出解决方案。 因此,组织可以设立并实现以前无法想象的 MTTR 目标。
2、从被动管理到主动管理再到预测管理
由于不断学习,AIOps 更加擅长识别与较紧急情况相关的不太紧急的警报或信号。 换言之,它可以提供预测性警报,让 IT 团队提前解决潜在问题,从而避免导致慢速或中断事件。
3、实现 IT 运营和 IT 运营团队现代化
AIOps 运营团队仅接收满足特定服务级别阈值或参数的警报,从而免受每个环境所产生的大量警报的轰炸,同时还会补全必要的背景信息,以便做出优异诊断并采取非常快且优异的补救措施。 AIOps 学习越多且自动化程度越高,越能帮助在减少人力投入的情况下“保持警戒”,从而让 IT 运营团队集中精力完成能为企业创造更大战略价值的任务。