传送网告警智能运维工具的研究与应用

known 发布于 2025-08-25 阅读(386)

摘" 要:传送网作为承载各类通信业务的基础性网络,往往存在较大的网络体量和网元数量。针对海量传送网告警信息严重影响网络运维效率的情况,构建基于Python数据分析Pandas库的一键式执行式告警智能运维工具,实现对告警信息的智能化统计和分析,极大压缩传送网日常运维中海量告警的梳理和晾晒时间,提升网络一线运维人员的工作效率,实现对传送网重要告警的高效监控和管理。

关键词:传送网;告警;智能运维

中图分类号:TP393 文献标识码:A 文章编号:2096-4706(2024)22-0041-06

Research and Application of Artificial Intelligence for IT Operations Tool for Transport Network Alarm

Abstract: As the basic network carrying all kinds of communication services, the transport network often has a large network volume and the number of network elements. Aiming at the situation that the alarm information of mass transport network seriously affects the efficiency of network operation and maintenance, a one-click execution alarm Artificial Intelligence for IT Operations tool based on Python data analysis Pandas library is constructed. It realizes the intelligent statistics and analysis of alarm information, greatly compresses the combing and drying time of massive alarms in the daily operation and maintenance of the transport network, improves the work efficiency of the front-line operation and maintenance personal of the network, and realizes the efficient monitoring and management of the important alarm of the transport network.

Keywords: transport network; alarm; Artificial Intelligence for IT Operations

0" 引" 言

进入5G时代以来,随着通信网络业务规模的快速增长,各层级传送网也随之不断扩大,网元数量与日俱增。在庞大的网络规模和运营商降本增效的背景下,传统的基于人工方式的运维技术已无法满足成本和效率的需求,总量大、种类多的传送网各类告警信息往往给故障的及时发现和处理带来较大影响。因此借助智能化运维技术,对传送网重要告警进行统计管理,实现传送网告警信息的自动梳理及晾晒就显得尤为重要。

1" 传送网智能运维的现状和挑战

随着网络业务类型的不断增加和业务带宽的不断增大,传送网的网络规模和业务承载量也在不断上升。有数据表明,年均近乎10%的传送网规模增长速度,带来的是日益繁重的传送网维护工作量和逐渐下降的传送网维护效率[1]。

与提供特定需求服务的互联网数据中心(Internet Data Center, IDC)等网络不同,作为运营商的基础性网络,传送网不仅规模大、类型多、网元多,而且由于传送网大多采用环形、网孔形组网方式,因此当上下游的传送网节点设备出现端口失效、光功率不足等异常情况时,便会衍生出大量关联告警,其网络告警的突发性、并发性特点较为明显[2]。此外传送网的网络节点分布往往较为分散,不同业务承载平面的多套设备叠加使用,端到端业务传送方案复杂多样,这些都给传送网的运维效率提升带来了极大的困难[3-4]。

近年来,随着人工智能及大数据技术的不断普及,借助相关新兴技术,开展智能化的网络运行状态分析和网络故障管理已成为网络运维的发展趋势之一[5],是提高网络运维效率、节约人力投入的必然选择[6]。例如伏玉笋等尝试将人工智能技术应用在通信网络中,提出了内外协同的反馈闭环架构[7]。兰巨龙等通过采用深度增强学习技术实现软件定义网络(Software Defined Network, SDN)背景下的通信路由优化机制[8]。裴丹等提出了基于机器学习的大语言模型目标背景下的智能运维新策略[9]等。

特别是针对传送网告警的智能运维管理,通过对传送网告警数据进行精准分类和数据分析,减少衍生告警的数量,实现根因告警的有效捕捉,帮助减轻传送网运维一线的工作量,同样衍生出了很多新思路[10-11]。例如Musumeci等利用深度学习技术开展传送网告警数据故障原因的挖掘和定位[12]。程雪等利用机器学习技术进行传送网告警的原因分析和故障定位[13]。杨刚刚等利用知识图谱,结合网络资源管理数据,开展传送网日常运维工作[14]。尹山等提出了一种基于传送网业务拓扑的告警聚类关联分析方法,实现对海量告警的压缩[15]。

但上述智能运维的实现需要有精准的网络资源数据和现网运行数据做支撑,在一线实际应用中尚未实现真正意义上的推广和使用。因此构建一种操作简单、运用高效、直击传送网运维一线痛点的智能告警运维工具,实现对海量告警的一键式梳理和晾晒,具有相当重要的实际意义。

2" 传送网告警智能运维工具研究

2.1" 方案设计

传送网告警智能运维工具的设计初衷在于着重实现对海量传送网告警的统计和管理,解决传送网日常运维中依赖于人工筛选重要告警清单以及比较分析频发告警类型、往期告警处理率等问题,为传送网的各类专项整治提供数据支撑,提升整体维护效能。因此该智能工具的实现可遵循以下的工作方案流程。

首先是在获取传送网各分类型设备原始告警数据的基础上,实现对重要告警晾晒模板的自定义设置;其次是选定处理的过程,如果需要比较往期告警的处理情况,则需补充相关的辅助字段,否则依据已选定的晾晒模板直接进入统计环节;最后智能运维工具应能自动给出分组统计的结果并分类输出相关内容,为后续的运维工作开展提供目标和抓手。

由上可归纳传送网告警智能运维工具方案流程图如图1所示。

2.2" 模板定制

实现高效的传送网告警梳理和晾晒,关键是定制科学合理的重要告警晾晒模板。由于传送网技术发展的前后关系和网络容量问题,不同承载业务所采用的传送网设备选型也不同,本节针对地市公司在网运行的光传送网(Optical Transport Network, OTN)、切片分组网(Slicing Packet Network, SPN)、分组传送网(Packet Transport Network, PTN)、同步数字体系(Synchronous Digital Hierarchy, SDH)四大类传送网设备类型,分别进行需晾晒重要告警模板定制。

2.2.1" OTN设备重要告警模板

OTN是高效承载网络上层业务的重要网络,具有速率快、容量大、距离远等网络特征,因此针对OTN设备类型中常见的硬件类、误码类、倒换类、时钟类、光功率类、软件类、通信类7大类告警类型,选取其中的49项重要告警作为晾晒模板,如表1所示。

2.2.2" SPN设备重要告警模板

SPN是高效承载5G切片等业务的重要网络,具有低时延、大带宽、灵活性强等网络特征,因此针对SPN设备类型中常见的硬件类、误码类、倒换类、时钟类、光功率类、控制面类6大类告警类型,选取其中的24项重要告警作为晾晒模板,如表2所示。

2.2.3" PTN设备重要告警模板

PTN是高效承载4G等业务的重要网络,具有高可靠、多业务、可扩展等网络特征,因此针对PTN设备类型中常见的硬件类、误码类、倒换类、时钟类、光功率类、业务类6大类告警类型,选取其中的25项重要告警作为晾晒模板,如表3所示。

2.2.4" SDH设备重要告警模板

SDH虽然是传送网的早期组网方式,但目前仍大量存在于现网,主要用于承载专线等集团类业务,具有多业务、灵活性强等网络特征,因此针对SDH设备类型中常见的硬件类、误码类、倒换类等3大类告警类型,选取其中的38项重要告警作为晾晒模板,如表4所示。

2.3" 工具搭建

传送网告警智能运维工具通过使用Python语言编写工具主体,引用Python的数据分析Pandas库,构建一键执行式exe程序,实现对告警源文件的统计分析,输出“当前重要告警晾晒”“当前重要告警清单”“超一周未处理重要告警清单”“当前与上次(周、月)告警晾晒对比”“上次(周、月)重要告警清单”等内容,协助一线运维工程师对地市传送网的监控管理。具体的传送网告警智能运维工具架构如图2所示。

其中搭建步骤如下:

1)导入传送网告警源文件。根据对文件的备注来标识告警所属的地市及设备类型,对于采用集中化网管的OTN、SPN等设备类型,可通过网元报表中的槽位、端口等附加信息来进一步标识具体告警来源。

2)建立传送网重要告警晾晒模板。根据自定义模板循环遍历来筛选重要的传送网告警信息,实现对海量告警信息中较为重要的硬件类、误码类、倒换类、时钟类、光功率类等告警信息的梳理和晾晒。

3)数据的分组和聚合。通过添加辅助时间字段cur 、last区分当前告警和上次(周、月)告警,将当前和上次告警的DataFrame型数据集合使用merge函数进行合并,同时设立若数据时间参数_cur与_last。若数据时间参数_cur等于空,则标记为已处理;若数据时间_last等于空,则标记为新增告警;若数据时间_cur等于cur,数据时间last等于last,则标记为未处理。

4)数据的可视化。使用groupby函数对上述告警进行分组统计,并计算处理率=已处理/last告警数,同时自动产生筛选结果映射表,直观呈现待处理重要告警信息清单及地市告警处理率比对表。

3" 传送网告警智能运维工具应用

3.1" 应用测试

以日常告警的晾晒为例,进行运维工具的测试,具体测试流程如图3所示。

1)导入告警源文件,保存为“xlsx”格式并放入所属网络类型文件夹中,区分为OTN、SPN、PTN、SDH四大类在网传送网类型,如图3所示。

2)打开原始数据文件夹中的重要告警筛选条件表,根据自己需求模块化定制需要梳理和晾晒的重要传送网告警名称。

3)如果需要将上次(周、月)和当前告警进行对比,需在文件夹中一并放入上次导入的告警源文件并将时间字段“cur”替换为“last”。

4)双击运行告警处理统计管理工具.exe文件即可在工具所在文件夹中一键式生成各传送网设备类型的重要告警信息的梳理和晾晒结果,相关内容以Excel表格的形式呈现,如图5所示。每个表格中的内容又涵盖“当前重要告警晾晒”“当前重要告警清单”“超一周未处理重要告警清单”“当前与上次(周、月)告警晾晒对比”“上次(周、月)重要告警清单”五个分表。

5)查看生成结果,进行维护调度。其中OTN、SPN、PTN、SDH四大类在网传送网设备的“分表1-重要告警晾晒”的结果分别如表5至表8所示。

此外对于各设备的“分表2-当前重要告警清单”,可以此为依据分别进行派单处理,尽快消除重要告警源。对于“分表3-超一周未处理重要告警清单”,可以此为依据对超期告警进行通报预警,督促一线有的放矢,加快办理。对于“分表4-当前与上次(周、月)告警晾晒对比”和“分表5-上次(周、月)重要告警清单”,可以此为依据对整体日常告警进行深度数据分析,发现现网的薄弱环节,例如横向比较频发告警的类型、频发告警的区域,频发网元的范围,帮助告警频发区域开展有针对性的传送网专项整治,强化网络健康度,提升整体维护效能。

3.2" 应用效果

1)创新性高。随着网络规模的增大和网管的集中化,总量大、种类多的各类告警信息往往给故障的及时发现带来较大影响,地市告警的梳理及晾晒尤为重要。使用传送网告警智能运维工具可全程一键式自动生产筛选结果映射表,实现对地市传送网所有现网告警的定期梳理和晾晒,有效管控告警处理效率,协助维护工程师对地市重要告警监控管理;

2)效益性好。该工具完全代替以往人工查找的弊端,显著提高网络维护效率,将人工统计的低效、不准等弊端进行过滤,告警筛选和晾晒时间从以往依靠人工统计分析的3小时压缩优化到5分钟,提高工作处理效率90%以上,释放大量人力,提高了准确率,经统计可节省维护人力成本3人/天,全年可以节约运维成本约60万元;

3)推广性强。该工具目前已应用于宿迁移动传送网的日常维护工作中,操作简便,便捷实用,成效显著,既可用于梳理当前现网告警处理的时效性,也在周、月问题总结中提供了很好的判断依据和数据支撑,易于向其他有同样需求的通信网维护单位推广。

4" 结" 论

本文提出的传送网告警智能运维工具,引用Python的数据分析Pandas库,通过自定义重要告警晾晒模板和比较字段,实现对各类传送网告警源文件的分组统计分析,借助一键式执行exe程序,输出各地市重要告警清单及各地市告警处理率,协助维护工程师对传送网重要告警监控管理。

该工具解决了人工监控和筛选海量传送网告警效率低下的问题,切合传送网日常运维的工作痛点,告警模板可自行动态增删调整,操作简单,实用性强,具有良好的可推广性和可移植性。

参考文献:

[1] 汪亚涛.基于深度学习的光传送网故障分析技术研究 [D].北京:北京邮电大学,2023.

[2] 戴诗月.传送网智能故障推理和路由优化算法 [D].北京:北京邮电大学,2023.

[3] 韩赛,张冬月,王泽林,等.跨专业承载网络智能运维研究与应用 [J].电信科学,2022,38(11):113-122.

[4] 韩冰,谭敏.人工智能在网络运维中的应用研究 [J].电信工程技术与标准化,2019,32(7):83-87.

[5] 曹汐,余立,马键,等.移动通信网络智能化分级评估方法研究 [C]//5G网络创新研讨会(2019)论文集.北京:《移动通信》编辑部,2019:337-343.

[6] HAN S,MA H,CHEN D,et al. Streaming Video Optimization in Mobile Communications [C]//Proceedings of IEEE/CIC International Conference on Communications in China (ICCC).Beijing:IEEE,2018:738-742.

[7] 伏玉笋,杨根科.人工智能在移动通信中的应用:挑战与实践 [J].通信学报,2020,41(9):190-201.

[8] 兰巨龙,于倡和,胡宇翔,等.基于深度增强学习的软件定义网络路由优化机制 [J].电子与信息学报,2019,41(11):2669-2674.

[9] 裴丹,张圣林,孙永谦,等.大语言模型时代的智能运维 [J].中兴通讯技术,2024,30(2):56-62.

[10] ZHAN W,ZHA Z Y,JIN B,et al. Construction of Network Data Security Detection System Based on Data Mining Algorithm [C]//International Conference on Smart Technologies and Systems for Internet of Things.Singapore:Springer,2023:478-486.

[11] 李昀,史欣然.传送网管控系统智能化技术与应用研究 [J].通信与信息技术,2023(2):103-106+132.

[12] MUSUMECI F,ROTTONDI C,CORANI G,et al. A Tutorial on Machine Learning for Failure Management in Optical Networks [J].Journal of Lightwave Technology,2019,37(16):4125-4139.

[13] 程雪.基于机器学习的光传送网告警分析和故障定位技术 [D].北京:北京交通大学,2021.

[14] 杨刚刚,邵珠贵,尚逢亮,等.知识图谱在光传送网络智能运维中的应用研究 [J].电信科学,2024,40(3):136-146.

[15] 尹山,匡立伟.基于业务拓扑的告警聚类关联分析方法 [J].计算机与数字工程,2022,50(5):1069-1072.

标签:  重要 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor