运维的第一性原理?
运维工作性质
试着描述运维(operation)的几类
- 服务器资产保管员 ? - 基础设施, 数据中心类
- 为研发提供服务的服务人员 ? - devops 偏 ops 公司内部的工具平台运维
- 保障网站的可靠性 ? - SRE 业务稳定性
- 产品生命周期中偏运营部分 ? - 技术支撑工程师 为客户解决问题
运维的价值
以较小的成本,来支撑业务的高效稳定输出
运维工作要领
对生产环境敬畏 -1
- 任何时候要有备份。 重要系统要有备用环境,也即高可用
- 要明白命令-操作背后的影响及回滚方式 (这个很难,要求你对所运维领域足够理解)
- 变更操作前问一句: 我知道我在干嘛?
风险意识 很多 double check? - 2
- 定期梳理所负责产品的可能风险
- 负载 ? 流量?
- 机器?
- 备份是否按既定策略执行正?
- 演练
- 定期梳理所负责产品的可能风险
工具化 产品化 - 3
- 脏活累活
- 软件工程在发展过程中, 会出现各种工具,产品。 如果你有一直维护的工具。那么思考将其产品化
- 开源-也是产品化的思路
故障ONCALL 及定位 - 4
- 个人觉得最体现运维综合素质的能力
- 如果上面 1, 2 做好了 。故障会少。 3做好了可能给你的故障排查带来便利
- 故障一定要复盘。哪怕再小?
- 响应步骤是否合理
- 哪里阻碍了? 知识不够
- 实际的生产故障处理更重要的能力是快速恢复
- 对于用户忍耐度有限的重点业务, 重要的能力定界能力,并且定出大概范围,通过重启/切流/降流来减少用户影响实乃最重要的点。
- 定位根因: 需要在平常创造事后定位的条件 - 功夫在平时
- 日志全
- 指标曲线全
运维人始终需要关注的东西:
组件, 架构, 技术栈一直在变 。 运维人需要保持学习。 从稳定性目标考虑我们需要关注不变的东西
- 日志
- 指标
- 跟踪
- 事件