运维中重要的事

当我们说运维中重要的事时, 第一反应是稳定性。毕竟SRE嘛, 这是所有一切的目标。

但是我想探讨的是为了达成这个目标,有哪些是重要的?

我们可以把这个目标转化一个区间- 上限和下限 。划两条线

image-20240219220429163

当然不管是上限还是下限两个数值肯定越高 说明你的系统越稳定。

对于上限的提高

  • 自动化和工程化的能力

    为了稳定性,为了整体运维能力的提升是有帮助的

    这里需要警戒的一点是: 敬畏生产,自动化对系统的破坏性和好处同样大

  • 对于业务架构的理解, 系统架构的进化

    懂业务

    支持高可用、支持多活

  • 应急演练,混沌演练

    加深对业务架构的认知

对于下限的提高

  • 规范和流程

    规范和流程是最明显提高下限的, 规范和流程尽最大化的努力来减少失误操作等影响
    好的规范和流程也会提高整个运维组织能力

  • 敬畏生产

    永远保持敬畏心

  • 故障复盘

    1. 好的故障过程复盘: 比如排查过程发现哪些耗时长? 怎么缩短。 哪些可以告警后自动获取?
    2. 复盘后的问题闭环
  • 风险识别, 闭环

    核心是减少风险 -> 故障

  • 备份

    备份这里要提一句: 几乎所有的资产都要备份

    这个资产包含: 脚本/代码/配置/日志 甚至你的操作历史的备份

  • 资产管理能力

    在oncall 时需要调动各种”资产”(这里的资产包含机器-上下游关系-脚本), 快速关联各种”资产” 。 这些动作越快, MTTR越短

...
2019-2024 zs1621