科技
业界 互联网 行业 通信 科学 创业

迎难直上!浙江移动携手华为构建自智网络L3级故障中心解决网络难题

2022-01-26 18:07:06
A+ A-

在云化、软件化、智能化、场景化、客户化的新形势下,网络业务场景多样化、网络规模及复杂度上升,给传统故障处理模式带来巨大挑战,亟需具备全景实时感知、故障智能预测、跨域跨场景精准定位、机器辅助决策/执行加持的故障自智网络体系,支撑网络体验迈上新台阶。

近日,浙江移动与华为。共同打造的浙江移动&华为自智网络L3级故障中心项目斩获《人民邮电》报2021年度“ICT优秀案例”“人工智能优秀应用”称号。

运维“融智”构筑网络云智能化故障防御系统

浙江作为移动集团最早启动、最快完成5GC/EPC/IMS/5G消息等业务上云的省份,云化业务量居全国前列,面对这张全球规模最大、业务种类最多、组网场景/厂家配对最复杂的云化网络,运维工作面临巨大挑战。本次浙江移动携手华为开展云核心网监控排障领域面向自智网络L3研究,以数智故障中心为自智网络基座,实现“监维预”一体的故障自闭环能力,运维“融智”构筑网络云智能化故障防御系统。

全景感知—动态识别1000+KPI历史变化数据,有效保障5GC数据业务故障识别 

传统的KPI异常感知都是通过人工收集和分析15分钟周期的KPI,为每一个KPI手动配置固定阈值,需要不断的调整阈值来适应网络变化,不仅费时费力,时延大(至少30多分钟),而且针对周期性变化的KPI容易出现误报和漏报。同时故障定界定位需要维护人员根据自己的经验收集和分析数据,对维护人员的技术要求高,耗时大于60分钟。

5GC预测预防自动收集5分钟周期的话统,使用boxplot、poisson/Bernoulli test、iForest AI算法自动学习浙江移动大区网络1000+KPI的历史变化数据,并使用该模型进行在线检测,10分钟感知异常KPI 自动更新模型。同时结合CHR等多维度数据和全球维护经验实现快速定界定位,支持业务快速恢复,传统被动运维逐步走向主动预防的运维新模式。

通过验证,核心网KPI异常检测特性较传统模式可以监控10W+KPI指标,提前几个小时发现异常,准确率高达85%以上。系统当前接入6台AMF和10台SMF的话统和CHR,接入38台UPF的话统,使用14天的历史数据进行模型训练,检测125个指标(UNC:79个,UDG:46个)。根据现网业务情况,联合客户进行算法参数和定界规则的优化,上报准确率为91.7%,定界准确率为82.8%

全景感知—日志异常检测,补足云化网络监控盲区,探索自智网络核心网隐患识别L4能力

一方面NFV设备由于是分层解耦的,NFVI层发生隐患时且未有告警生成时无法感知对上层业务影响,另一方面IT侧通过日志进行故障处理,但电信云资源池设备数量多,类型多,导致每个产品生成1T的日志,出现故障后难以快速分析定界定位。

基于以上问题采用大数据分析技术检测系统运行中产生的异常事件,建设故障中心-NFV智能日志分析模块,实现日志自动采集、根因日志推荐、故障异常检测,补齐监控盲区,同时指导运维人员快速找到问题根因。

主要通过稳定运行日志和历史日志相似度学习,运用卡方运算量化不同时间段日志和基线之间的距离来反应日志相似性,同时结合高斯分布的3sigma原则动态调整检测阈值,达到识别潜在隐患的能力。为避免日志过于分散模型无法收敛,使用正则匹配、朴素贝叶斯分类器等方法将日志中的变量归一化,构建日志模板,提升模型适应能力。模型能够通过持续无监督学习更新基线数据,动态的实现异常检测,再配合一定的专家知识,充分挖掘系统中的潜在风险,有效补充系统告警无法覆盖的问题。

当前系统已纳入生产,结合日志、告警、KPI进行隐患挖掘,已发现多个系统亚健康问题,整体准确性达到80%+,能有效发现系统隐患,覆盖告警数据源问题发现的不足。同时能提前15分钟发现系统运行的隐患,达到预测预防的效果。

诊断分析—跨层诊断,补足网络监控排障只监不控的断点,探索核心网排障L3能力

对于云化核心网新业务,浙江移动结合华为CT运维领域经验,梳理出NFV定界的9大类、1000+判断引子,自动采集进程/RU、POD,虚拟机、主机、交换板、存储,交换机等部件的故障数据,通过诊断原子+推导工作流的自动诊断架构,实现故障的自检查,自推导,自诊断。

双方于19年起成立创新项目组,打造实训基地,联合开展“混沌演练”、“哪吒行动”、“极限推演”“盘古行动”,在大区日常运维工作中,共验证2083个跨层诊断任务,不断优化诊断能力,从感知-分析-诊断-闭环业务流真正实现云化核心网故障场景自动诊断。

目前在已验证完成了5大类跨层故障场景诊断能力,实现15分钟精准定界NFV跨层问题,平均诊断准确率高达80%。

同时基于水平层,重点在探索如何基于知识图谱完成故障传播链的分析,以支撑5GC水平故障的快速诊断。

通过构建知识图谱平台,对维护知识进行抽取,建模,融合和计算,结合专家经验,形成5GC运维知识库。利用知识图谱相关技术对现网故障信息进行建模,结合5GC运维知识库,模型化辅助进行故障根因推导,该方案可以很好的辅助我们进行水平场景的故障定界。

一键容灾:

云化网络架构复杂、跨层跨域关联紧密,部分异常场景下,难以快速定位、解决故障。根据“先恢复、再修复”原则,对云化业务各种异常场景梳理分级容灾响应预案,制定确定阈值的启动条件、业务恢复方案,并通过一键容灾平台编排成自动化场景,支持异常情况下的一键式下发,保障业务快速、准确恢复。

一键容灾系统可对单网元故障容灾场景、网元组合故障容灾场景进行灵活编排,操作人员采用拖拽方式基于容灾系统原子能力对网元容灾流程进行编排,定义网元容灾场景。目前,一键容灾平台已覆盖浙江所有云化核心网元类型,共编排39类场景的一键容灾方案,并支撑了现网多次应急演练。

责任编辑:kj005
文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com

相关新闻

精彩推荐