常见的站点可靠性工程工具有:1、容器编排工具;2、随时待命管理工具;3、事故响应工具;4、配置管理工具。比如软件开发人员要使用容器编排工具在各种平台上运行容器化应用程序。
一、常见的站点可靠性工程工具有哪些?
站点可靠性工程 (SRE) 团队使用不同类型的工具来促进监控、观察和事故响应。
1、容器编排工具
软件开发人员使用容器编排工具在各种平台上运行容器化应用程序。容器化应用程序将其代码文件和相关资源存储在称为容器的单个包中。例如,软件工程师使用 Amazon Elastic Kubernetes Service (Amazon EKS) 来运行和扩展云应用程序。
2、随时待命管理工具
随时待命管理工具是一种软件,允许 SRE 团队规划、安排和管理处理报告的软件问题的支持人员。SRE 团队使用该软件以确保始终有一个支持团队待命,以便及时接收有关软件问题的警报。
3、事故响应工具
事故响应工具可确保为检测到的软件问题提供清晰的升级途径。SRE 团队使用事故响应工具对报告案例的严重性进行分类并及时处理。这些工具还可以提供事故后分析报告,以防止类似问题再次发生。
4、配置管理工具
配置管理工具是指将软件工作流自动化的软件。SRE 团队使用这些工具来消除重复性任务,提高工作效率。例如,站点可靠性工程师可以使用 AWS OpsWorks 在 AWS 环境中自动设置和管理服务器。
二、站点可靠性工程师的职责有哪些?
站点可靠性工程师是指使用自动化工具监控和观察生产环境中的软件可靠性的 IT 专家。站点可靠性工程师在发现软件中的问题和编写代码来解决这些问题方面也很有经验。其通常是具有良好编码技能的前系统管理员或操作工程师。以下是一些站点可靠性职责。
1、运维
站点可靠性工程师将多达一半的时间用于运维工作。这其中包括多个任务,例如:
- 紧急事故响应
- 变更管理
- IT 基础设施管理
工程师使用站点可靠性工程 (SRE) 工具来自动执行多个运维任务并提高团队效率。
2、系统支持
站点可靠性工程师与开发团队密切合作,以创建新功能并稳定生产系统。站点可靠性工程师为整个软件团队创建一个 SRE 流程,并随时支持升级问题。更重要的是,站点可靠性团队会向客户支持部门提供成文的程序,以帮助其有效处理投诉。
3、流程改进
站点可靠性工程师通过举行事故后评审来改进软件开发生命周期。SRE 团队在共享的知识库中记录所有软件问题和相应的解决方案。这有助于软件团队在未来有效地应对类似问题。