在今天这样的一个云原生时代,业务系统不断上云,容器、微服务、持续发布等云原生技术被广泛采用,从而为IT系统的可控性带来了全新挑战。我们应该以什么样的方式对云原生应用进行监控和管理——为保障云原生应用的稳定性,可观测技术被越来越多的企业所采用。
在了解之前需要明确的是可观测性不仅是对技术的要求,更需要团队融入可观察性的理念,近些年,随着可观测性技术进一步普及,越来越多的企业进入尝试阶段,并逐步开展实施。通过可观测性技术,看到表象,锁定问题,解决问题,不仅成为企业系统内部状态的重要衡量方式,也成为解决系统问题的首选方案,这在阿里、腾讯、奇虎360及B站早已实现了稳步落地,并逐渐解锁产品研发的各个场景中。
为梳理行业的最佳实践,GOPS 全球运维大会·深圳站特别邀请了多位可观测性领域资深技术专家,希望在可观测性技术平台的架构理念、大数据技术下的云原生监控等多方面,与众多参会嘉宾共同探讨未来可观测性实践的更多可能。
李煌东,阿里巴巴架构师
演讲主题:基于 eBPF 的 Kubernetes 可观测性最佳实践
Kubernetes监控是ARMS打造的基于eBPF、实现无侵入、支持多语言&多协议的Kubernetes可观测一站式工具,核心场景支持应用黄金指标、应用拓扑感知、网络流量&性能分析、资源消耗分析等,具有无侵入、多语言、多协议的特点。本Topic将介绍:1、Kubernetes集群运维的痛点及应对方案;2、阿里Kubernetes监控的最佳实践和商业化路线
演讲提纲:
1、 什么是可观测性?
2、 Kubernetes中的可观测性痛点?
3、 Kubernetes监控解决方案、挑战
4、 Under the hood – Prometheus(事实标准)+ eBPF(超能力)
5、 Kubernetes问题排查全景图
6、 案例分析
7、 演进路线
胡喆骞,奇虎360 资深技术专家
演讲主题:大数据技术下的云原生监控
面对多云异构环境下,数万台服务器、数千台交换机,不仅需要专业的人员、严谨的流程,更需要适合新环境下的高效工具。基于可观测性理念的新一代工具,可以有效应对云原生时代下对于运维的艰难挑战。本次将围绕异构环境下,使用智能化工具对数据采集、指标度量、链路追踪领域的便捷性进行说明。
演讲提纲:
1、企业当前的业务变迁——离线业务为主变为在线业务为主
2、场景增多面对挑战的新应对——可发现、可度量、可追溯、可管理
3、大数据与云原生——云原生技术与大数据下产品形态
4、云原生监控的未来——云原生、大数据、AI相结合下更精准的监控
梁俊杰,腾讯IEG SRE技术专家
演讲主题:腾讯IEG可观测平台的建设及SRE实践
分享腾讯蓝鲸可观测平台的设计理念及架构设计,并介绍在平台建设过程中,如何通过SRE理念落地实践,提高系统的交付质量及降低系统的运维成本。
演讲提纲:
1、腾讯蓝鲸可观测平台设计理念
2、腾讯蓝鲸可观测平台架构设计
3、平台建设中的SRE实践
武安闯,bilibili基础架构部 在线业务SRE负责人
演讲主题:B站SRE的稳定性实践与反思
SRE如何转型落地?B站SRE做了什么事情?SRE按Google SRE模式实践是最佳吗?我们对Google SRE有哪些反思?本次分享会从组织转型,多活容灾、容量管理、活动保障、故障处理、质量运营等多个方面解析B站的稳定性体系建设实践与反思。
演讲提纲:
1、从业务运维到SRE的转型
2、SRE稳定性保障体系建设实践
3、SRE的左与右,再转型
4、SRE文化的建设与推广
张越,腾讯TEG 资深架构师
演讲主题:多元化可观测体系建设思考与实践
随着研发效能战略的推进,可观测性作为最常用且重要的能力,受到越来越多的关注。腾讯内部业务呈现多元化特点,可观测能力的统一就成为了挑战。本次分享将主要介绍腾讯TEG在满足多元化业务的可观测体系方面的设计思路、架构演进过程,以及在落地中的关键技术实践。希望我们在实践中总结的经验教训和思路可以为大家在探索可观测性带来帮助。
演讲提纲:
1、腾讯TEG可观测背景
· 多元化业务背景下的可观测
· 痛点和挑战
2、可观测体系构建思路和架构演进
· 可观测体系结构设计思路
· 架构演进思路
3、可观测核心问题落地实践
· TSDB设计
· 信息整合和关联
· 告警准确率
4、总结和展望
以上简介为 GOPS 全球运维大会 2022 · 深圳站的一部分
更多精彩内容请参见大会日程,报名参会可关注大会官网
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。