目录

什么是站点可靠性工程中的可观察性

站点可靠性工程中的可观察性指的是:当软件为最终用户投入使用时,软件团队为不确定性所做的准备。站点可靠性工程 (SRE) 团队使用工具来检测软件中的异常行为,更重要的是,收集有助于开发人员了解问题原因的信息。

一、什么是站点可靠性工程中的可观察性?

可观察性过程是指当软件为最终用户投入使用时,软件团队为不确定性所做的准备。站点可靠性工程 (SRE) 团队使用工具来检测软件中的异常行为,更重要的是,收集有助于开发人员了解问题原因的信息。可观察性涉及使用 SRE 工具收集以下信息。 

1、指标

指标是指反映应用程序性能或系统运行状况的可量化值。SRE 团队使用指标来确定软件是否消耗过多资源或行为异常。

2、日志

SRE 软件会生成详细的、带有时间戳的信息,称为日志,以响应特定事件。软件工程师使用日志来了解导致特定问题的事件链。 

3、轨迹

轨迹是对分布式系统中特定函数的代码路径的观察。例如,订单在购物车结账可能涉及以下步骤:

  • 与数据库核对价格
  • 使用支付网关进行身份验证
  • 向供应商提交订单

轨迹由 ID、名称和时间组成。可以帮助软件开发人员检测延迟问题并提高软件性能。 

二、什么是站点可靠性工程中的监控?

监控是指在应用程序中观察预定义指标的过程。开发人员决定哪些参数对于确定应用程序运行状况至关重要,并在监控工具中进行设置。站点可靠性工程 (SRE) 团队收集反映系统性能的关键信息,并在图表中进行可视化。

在 SRE 中,软件团队监控这些指标,以深入了解系统可靠性。

1、延迟

延迟描述了应用程序响应请求时的延时。例如,网站上提交表单需要 3 秒钟才能将用户引导到确认网页。 

2、流量

流量测量的是同时访问您的服务的用户数。有助于软件团队相应地预算计算资源,为所有用户保持满意的服务水平。

3、错误

错误是指应用程序未能按照预期执行或交付的情况。例如,当网页无法加载或交易未通过时,SRE 团队会使用软件工具自动跟踪和响应应用程序中的错误。 

4、饱和

饱和表示应用程序的实时容量。高饱和通常会导致性能下降。站点可靠性工程师会监控饱和水平,并确保其低于特定阈值。 

一站式研发项目管理平台 PingCode

一站式研发项目管理平台 PingCode

支持敏捷\瀑布、知识库、迭代计划&跟踪、需求、缺陷、测试管理,同时满足非研发团队的流程规划、项目管理和在线办公需要。