站点可靠性工程 (SRE) 是指使用软件工具自动执行 IT 基础架构任务(如系统管理和应用程序监控)的做法。组织使用 SRE 来确保其软件应用程序在开发团队频繁更新时保持可靠。
一、什么是站点可靠性工程?
站点可靠性工程 (SRE) 是指使用软件工具自动执行 IT 基础架构任务(如系统管理和应用程序监控)的做法。组织使用 SRE 来确保其软件应用程序在开发团队频繁更新时保持可靠。SRE 特别提高了可扩展软件系统的可靠性,因为使用软件管理大型系统比手动管理数百台计算机更具可持续性。
二、站点可靠性工程如何工作?
站点可靠性工程 (SRE) 涉及软件团队中站点可靠性工程师的参与。SRE 团队为 SRE 设置关键指标,并根据系统风险容忍度水平创建错误预算。如果错误数量较少,开发团队可以发布新功能。但是,如果错误超过了允许范围内的错误预算,团队将暂停新的更改并解决现有问题。
例如,站点可靠性工程师会使用服务来监控性能指标并检测异常应用程序行为。如果应用程序存在问题,SRE 团队将向软件工程团队提交报告。开发人员会修复报告的案例并发布更新的应用程序。
开发运维
DevOps 是一种软件文化,打破了开发和运营团队的传统界限。有了 DevOps,开发人员和运营工程师不再孤立地工作。相反,他们可以使用软件工具来改进协作,跟上软件快速更新发布。
SRE 与 DevOps 的对比
SRE 是 DevOps 的实际实现。DevOps 为在日益缩短的开发时间中保持软件质量提供了哲学基础。站点可靠性工程为如何成功实现 DevOps 提供了答案。SRE 确保了 DevOps 团队在速度和稳定性之间取得适当的平衡。