运维的第一性原理?

运维工作性质

试着描述运维(operation)的几类

  • 服务器资产保管员 ? - 基础设施, 数据中心类
  • 为研发提供服务的服务人员 ? - devops 偏 ops 公司内部的工具平台运维
  • 保障网站的可靠性 ? - SRE 业务稳定性
  • 产品生命周期中偏运营部分 ? - 技术支撑工程师 为客户解决问题

运维的价值

以较小的成本,来支撑业务的高效稳定输出

运维工作要领

  • 对生产环境敬畏 -1

    • 任何时候要有备份。 重要系统要有备用环境,也即高可用
    • 要明白命令-操作背后的影响及回滚方式 (这个很难,要求你对所运维领域足够理解)
    • 变更操作前问一句: 我知道我在干嘛?
  • 风险意识 很多 double check? - 2

    • 定期梳理所负责产品的可能风险
      • 负载 ? 流量?
      • 机器?
      • 备份是否按既定策略执行正?
    • 演练
  • 工具化 产品化 - 3

    • 脏活累活
    • 软件工程在发展过程中, 会出现各种工具,产品。 如果你有一直维护的工具。那么思考将其产品化
    • 开源-也是产品化的思路
  • 故障ONCALL 及定位 - 4

    • 个人觉得最体现运维综合素质的能力
    • 如果上面 1, 2 做好了 。故障会少。 3做好了可能给你的故障排查带来便利
    • 故障一定要复盘。哪怕再小?
      • 响应步骤是否合理
      • 哪里阻碍了? 知识不够
    • 实际的生产故障处理更重要的能力是快速恢复
      • 对于用户忍耐度有限的重点业务, 重要的能力定界能力,并且定出大概范围,通过重启/切流/降流来减少用户影响实乃最重要的点。
      • 定位根因: 需要在平常创造事后定位的条件 - 功夫在平时
        • 日志全
        • 指标曲线全
  • 运维人始终需要关注的东西:

    组件, 架构, 技术栈一直在变 。 运维人需要保持学习。 从稳定性目标考虑我们需要关注不变的东西

    • 日志
    • 指标
    • 跟踪
    • 事件
...
2019-2024 zs1621