运维中重要的事
当我们说运维中重要的事时, 第一反应是稳定性。毕竟SRE嘛, 这是所有一切的目标。
但是我想探讨的是为了达成这个目标,有哪些是重要的?
我们可以把这个目标转化一个区间- 上限和下限 。划两条线
当然不管是上限还是下限两个数值肯定越高 说明你的系统越稳定。
对于上限的提高
自动化和工程化的能力
为了稳定性,为了整体运维能力的提升是有帮助的
这里需要警戒的一点是: 敬畏生产,自动化对系统的破坏性和好处同样大
对于业务架构的理解, 系统架构的进化
懂业务
支持高可用、支持多活
应急演练,混沌演练
加深对业务架构的认知
对于下限的提高
规范和流程
规范和流程是最明显提高下限的, 规范和流程尽最大化的努力来减少失误操作等影响
好的规范和流程也会提高整个运维组织能力敬畏生产
永远保持敬畏心
故障复盘
- 好的故障过程复盘: 比如排查过程发现哪些耗时长? 怎么缩短。 哪些可以告警后自动获取?
- 复盘后的问题闭环
风险识别, 闭环
核心是减少风险 -> 故障
备份
备份这里要提一句: 几乎所有的资产都要备份
这个资产包含: 脚本/代码/配置/日志 甚至你的操作历史的备份
资产管理能力
在oncall 时需要调动各种”资产”(这里的资产包含机器-上下游关系-脚本), 快速关联各种”资产” 。 这些动作越快, MTTR越短