近日,智能运维国家标准工作组(ITSS)正式发布《2022-2023中国智能运维实践年度报告(第三期)》,该报告旨在助力行业各方更好了解智能运维产业发展现状。鼎茂科技作为工作组成员之一,为本次报告提供了智能运维领域创新实践案例。
报告案例来自于证券行业头部机构。该证券机构已经在业务侧进行了多中心多活以及云环境改造迁移。但在完成改造后,想进一步优化运维管理体系,进行精细化运维过程中,遇到了知识离散、细粒度对象动态快等问题。本案旨在基于一个包含有动态对象结构变化、指标知识可管理的基础上,提供出有效的健康分析模型能力。
可观测性指标中心在复杂AIOPS场景实践应用
前言
在“十四五”国家信息化规划中,明确一项重大任务为建立高效利用的数据要素资源体系。充分发挥数据作为新生产要素的关键作用,以数据资源开发利用、共享流通、全生命周期治理和安全保障为重点,建立完善数据要素资源体系,激发数据要素价值,提升数据要素赋能作用,以创新驱动、高质量供给引领和创造新需求。由此可以看出,在现阶段企业的数字化转型过程中,数据的价值已经获得全面且深刻的理解和认识,对于数据资产的生产、流通、保障维护、价值挖掘等环节提出了更高的要求。对此也逐渐形成了各个领域转型数据资产管理诉求和产品场景。并且随着AI技术的快速发展和演进,单项类别的AI场景已经逐渐开始向多源数据综合分析发展,这种变化对传统数据采集、治理、应用手段提出了新的挑战。以面向智能运维领域,AIOPS场景已经从单个类型的指标检测、日志分析、告警聚合,逐渐衍生出复杂的多源异构数据分析能力,通过多维度组合、结构组合的方法,建立更加贴近实际运维场景的计算能力,对此更加灵活和准确的资产-指标管理体系已经成为对该领域建设AIOPS应用的必然条件。能支持多结构、多源指标统一管理运营的指标中心,也逐渐成为运维领域的一项关键选择。
市场背景
指标运营理念脱胎于数据分析科学,从Gartner2022年报中,已经开始加重对数据分析在企业的应用占比,报告显示,在2022年数据战略的管理已经开始对公司的运营产生了大幅将低成本和风险的收益,因此对数据科学和数据分析专家的需求也在大幅上升。Gartner在2023年报中指出,在2023年已经90%的世界500强企业把数据分析治理方法,纳入到更广泛的经营领域,30%的企业对战略目标核心数据进行治理,采用更直观的可视方式推动决策场景化演进。同时预测未来5年内,将有85%的AI解决方案用于具体行业领域,应用可视和语义分析类方法的企业债务会比未应用的企业减少75%。
由此可以看出,在未来5年时间内,对运维领域的AIOPS解决方案将更专注于具体应用场景,同时结合图形和语义等多种数据管理方法,帮助企业在运维运营方面获取更直接的帮助和更大程度的ROI。
建设应用实践——证券业务健康度评价体系
如前文提到,数据分析工作在企业的运营过程中占据了越来越重的份额,在智能运维领域,数据分析类的智能算法也在逐渐成熟,如已经常见的多维度分析、指标异常检测、告警聚合分析等。但是仍然存在数据治理专项专治,存储分化,通用性查,可复用程度低等问题。在AIOPS场景愈发丰富的情况下,这些问题将更加带来更加严峻的需求。对此鼎茂采用建设可观测性指标中心的方式解决以上问题,为AIOPS运维场景演进助力赋能。
(一)企业需求分析
该证券企业为行业头部公司,具有深厚的运维管理知识积累和优秀的管理团队,已经在业务侧进行了多中心多活以及云环境改造迁移,但是在完成改造后,想进一步优化运维管理体系,进行精细化运维过程中,遇到了知识离散、细粒度对象动态快等问题。众所周知,在运维领域内,运维对象的定义是核心数据元素,在传统的对象管理方案中,对象的变化是可控的,通过变更、计划的方式,呈现给管理团队,从而实现对象及其关系的管理。随着云化方案的普及,越来越多的细粒度对象无法再有计划的同步给管理团队,比如指定交易服务的所在服务器,在云环境中,是随时会产生变化的,因此给对象结构的细化分析带来了极大影。同时对于对象状态发现的表现指标,也存在按技术分散,缺少统一规范问题。为此,本次方案旨在基于一个包含有动态对象结构变化、指标知识可管理的基础上,提供出有效的健康分析模型能力。
(二)整体建设方案
基于数据分析方法OSM,本次建设北极星目标为运维对象的健康度评价分析,拆解战略目标为单项对象健康度和关系影响健康度目标,最终分解成为明确对象指标评价体系和关系影响算法构建。并基于此完善健康度智能分析方案。
健康度智能分析方案中,主要包括智能应用场景、对象指标平台和运维大数据平台3层结构,其中智能运维应用场景包括有异常检测、容量规划、健康度评价等多层级智能管理场景。运维对象指标平台通过内置运维指标体系,汇总运维大数据平台数据,构建出标准数据模型,向智能应用场景提供统一对象数据模型,运维大数据平台通过集中CMDB、业务监控、基础监控等多种监控指标,实现数据统一存储,向对象指标中心提供数据服务。
(三)动态对象模型
整体对象运维模型内置于对象指标平台内,覆盖从交易-业务-服务-基础组件-基础设施全域运维对象体系,同时包含指标、日志全时序列数据,通过内置行业领域常见运维对象模型模板,实现快速构建可用于方案的对象体系模型。
本次方案中通过对证券业务的梳理分析,构建出需要的动态对象模型,模型对象数据基于流式数据动态分析采集,实时变更对象信息,以保证健康度分析数据基础实时性、准确性。
(四)运维指标体系
基于SRE理论的健康度分析算法,需要敛合对象、指标、时间多维度数据组合方案,对此进行多层次健康度实时分析检测,从而将监控和预测工作从单指标管理转向多维度组合健康管理,结合内置证券行业标准指标体系,构建出可用于健康度分析的指标体系设计,按交易、业务、网络、服务、基础设施多个层级分层进行设计对接,实现对指标和对象类别的可视动态配置管理。
建设成果
(一)动态实时多层级健康度分析检测
通过实时指标和异构原文输入,动态构建出对象健康分析结构模型,并基于算法检测能力,计算出对象异常情况。该平台目前可以同时对单应用系统内超过5000对象共计1w多指标进行实时动态配置分发,检测颗粒度达到5s级别,检测准确度得到大幅提高,有效帮助降低严重异常故障的发生频率和等级。
(二)可灵活扩展对象指标体系管理平台
基于对象指标中台,提供有可视化指标计算、治理、服务管理能力,并且内置指标体系知识,帮助运维团队快速创建可用运维指标管理体系,结合维度管理逻辑,提升运维管理指标精细程度。
通过对接入数据的质量和覆盖度分析,快速识别出问题指标和问题对象节点,提高数据管理便利性和质量。
(三)统一数据体系结构视图
通过指标数据可视和服务功能,向健康度和其他计算场景提供可视化数据服务能力,通过zhi标生命周期管理能力,实现数据安全可控和有效管理。
用户价值
(一)更实时的异常发现预测能力收益
通过建设基于可视化指标中心及其健康度分析场景,使得企业业务检测分析效率达到了5s颗粒度,覆盖范围达到全系统服务和基础环节,并且实现了动态结构更新,有效提高了异常发现的实时性和准确性,降低了严重异常的发现风险,提高了系统运维健壮性。
(一)更低的AI场景治理建设成本
不同于以往以场景为目标,频繁定制脚本的数据指标治理方法,可观测性指标中心提供了可视化模板化运维数据整合治理能力,并且内置标准指标体系、对象模板等工具,管理员通过按策略或者场景需要,拖拽点击的方法就完成了AI场景数据服务的构建,摆脱了不断编写验证脚本的工作,提高了数据治理效率,从以前的3-4天一套场景数据建设降为现在1小时完成1套数据场景建设,在提高了数据质量和完整度的同时,有效节省了人力投入。
(二)更丰富的资产价值提升
通过可观测指标中心的数据服务,可以对对象、指标进行更细粒度的拆分,同时提供了多种维度管理能力,除了智能运维应用领域,更可以面向业务运营分析,向运营侧提供基础资产计算数据和可观测场景服务,打通运维向运营之间的需求壁垒,从“让我取”向“我能给”转型,使得运维组织运营能力提升,促进运营团队更专注于业务分析,利用指标中心自助式数据服务能力,快速建设运营数据分析场景,实现更有效地数据分析工作,提高分析场景复杂度和真实性,帮助更精准的业务预测和决策辅助,从而提高企业ROI指标。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com