GOPS2021流水

参会内容

GOPS-全球运维大会 - 上海- 2021年11月18-19日

链接: https://pan.baidu.com/s/1g025wgeq6VqT9PDnZG54wQ

提取码: 2hku

会场太多只参加了几个感兴趣的,下面是我觉得比较好的几个

标题 作者
研运体系的代差 党受辉-腾讯 IEG总经理
面向未来的云原生运维体系建设 网易-王新勇-资审架构师
AIOps技术实践之路 v5.0 华为消费 BG-胡鹏-技术总监
虎牙稳定性保障实践 虎牙-余万福-高级经理
容器如何在腾讯 IEG 引领运维系统的建设变革 吴俊宗-腾讯 IEG 容器平台负责人
AIOps 在腾讯 IEG 运维全场景下的构建和推广 盘隆-腾讯 IEG-AIOps 负责人

内容较多, 我梳理一些通用主题来说

  • 康威定律
  • 数字化转型
  • CD-CO 运营
  • 云原生
  • AIOps

康威定律

软件架构反映了组织架构。因此通过调整组织架构,反过来也能推动软件架构的演进

关于康威定律,腾讯大佬-党受辉的推演非常精彩。 腾讯 IEG 的技术运营团队,从减少团队人员流失的角度,将运维人员分层成 平台研发-运维服务团队 也就是基础能力研发和场景开发。平台研发: 基本是全职开发, 抽象运维场景的基础能力,如: 计算能力,调度能力,作业平台,配置管理 。 场景开发,可以组装这些基础能力来做些通用场景开发。其实可以再往上, 更贴近业务的组装(通过低代码方式)。 这种操作, 在 AIOps 和容器化中都是类似的思路。让运维能力迁移来赋能业务运维。 容器化也是让业务运维来定制场景化的容器方案,来释放平台开发的场景化需求。 AIOps,让部分业务运维来梳理数据,学习基本算法来解决业务运维的问题如故障诊断等。运维具有开发和算法能力,和一线的运维知识。利用这些能力,来将自己的知识固化到平台或场景中。最大化公司收益! 事实上虎牙-余万福的分享,也表达了此观点,团队人员3年流失率为0!

数字化转型

数据孤岛打通, 这个关键词出现在传统企业。

数字化转型在传统企业中在比较突出。因为传统企业的系统很多是外包开发。 导致是黑盒。不同的系统想要串联就很难推进。不同系统的数据就很难联系,无法走向数字运营。这几年的无纸化等流程操作其实就是政务企业中各个数字孤岛的打通。优势太明显了,办事效率很高。在上海待了几年,感受很明显。从几年前的排队办事,到现在随申办线上办理。效率提高太多。

​ 分享主题中, 国网电力上海分享了 CMDB 的实践。 背景: 服务太多, 管理混乱。 所以负责人从项目立项开始,资源申请,架构评审等方面集中管控, 来解决资源混乱的问题。这也是数字化转型中的一环,数据治理。

CD-CO 运营

运维到运营

两方面资产: 1. 运维监控, 告警, 日志数据 2. 业务数据, 业务日志 这些资产是整个公司的极大财富。 资产怎么转变为知识? 资产怎么转变为公司决策的依据 。这些数据通过领域专家的加工,抽象。 从数据-> 信息 -> 知识转化为公司可复用的知识资产。 华为消费 BG-胡鹏 的观点: SRE一部分会变成数据工程师。 华为消费者的案例中: 其数据是海量的(PB/天, 万条/秒),这是提前,导致华为只能将数据标签化,然后结合领域专家+算法 去处理,固化。 这也是一部分公司的方向。

云原生

云原生激进的确实踩了很多坑,当然好处是确实给企业带来降本增效。

这里有4个老师的分享,一个是虎牙, 虎牙的做法较为彻底,在基础架构做到了两地三中心,容器化90%。100%的弹性覆盖。 简直可怕。更牛逼的是这个保障团队3年人员流失率为0。提下重点: 业务接入就需要满足基础架构的标准(没有细说?-无状态) 。 监控点-线-面 可以做到网状监控(全链路监控使用字节码增强技术:好处是业务需要改动的很少) 。 弹性伸缩依赖监控(监控系统+AIOps[通过舆情和申报)。 融合云弹性(注意什么应用适合-专线打通各云)。 虎牙这么做的前提条件: 基础架构 + 内核团队 + SRE + 全链路 都是这个老师管 。

网易专家的分享。k8s实践很多坑,这些坑通过KubeDiag固化。把一些原子性操作固化到工具中。在产线遇到问题是可以自愈。网易的监控用到eBPF,对内核有比较多的经验。 在报警治理中通过 专家经验+ 数学统计的方法去分析指标(一些自愈可通过kubediag来处理)。 在混合部署有实践(存,算分离,CPU调度做了优化)

蓝鲸的bcs平台重点: 分层 - 基础团队(通用) - 能力团队(比如mac容器) - 服务团队(辅助业务接入)。应用场景: 1.微服务 2.虚拟化(容器里跑操作系统) 3.算了调度(编译加速/AI) 4. 云游戏

去哪儿网一组云原生收益数据: 1. 资源利用率60% 2.宿主机维护时间从天->分 3. 弹性扩容的时间降低12% 4. devops交付速度提升40%

AIOps

前提是数据,重点是一种模型需要持续运营升级。 而持续运营需要业务运维一线来跟进。 (注意前期的数据治理很重要,数据质量决定 训练决策的准确性)

华为消费者BG的分享: 专家经验 + 算法能力。 监控告警治理: 指标告警维度分级(同主机/同服务。。)。 分层聚合 + 全链路 + 关联事件聚合 .

腾讯IEG的思路: 前提: 自动化成熟+数字要全(metrics/日志/apm)。 从运维转型部分做 运维数据整合(数据统计,日志, 大数据能力) 。 AutoML 是AIops核心点。少量的反馈+模型训练能够提升模型准确度。 运维提供好的反馈来帮助AI成长。 AIOps场景的可持续建设: 业务运维持续跟进+反馈。 有些问题需要通过多种场景编排。

总结

技术一直在演进,怎么让团队和自己在新技术冲击中不被淘汰? 是每个管理者和业务运维需要花时间思考的事。这件事特别有意义, 这是一种集体进化。每个工种都能参与部分创造性工作。

今年参加的 GOPS 大会,几个基本主题都是各个企业的基础架构的 管理者或者高级技术专家来分享的。基本围绕 成本,效率, 稳定3个运维最重要的价值来展开的。

一些关键词

  • AutoML
  • 康威定律
  • eBPF
  • 字节码增强
  • 运维领域知识+AIOps
  • CI-CD-CO: 持续构建-持续部署-持续运营
  • 专家经验固化
  • 元宇宙
  • 场景开发
  • 平台开发
  • 研运一体化
  • 原子能力
    • 调度能力
    • 计算能力 也就是算力
    • 作业平台 跑脚本
    • 权限管控
    • ….

参考:

11月18日上午主会场 - 推荐看 00:18:05-00:24:30(去哪儿网的5分钟演讲) 03:30:00 - 最后(研运体系的代差-党受辉)

...
2019-2024 zs1621