摘 要:智轨列车的网络通信系统是保证智轨列车正常运行的关键系统,当发生严重通信故障时,智轨列车会触发安全制动以保护司乘安全,如何快速诊断通信故障、恢复车辆运营是故障发生后亟待解决的问题。文章针对初心号平台智轨的网络通信故障做了详细的分析;总结了已有通信故障的数据表征,以及异常通信故障数据拥有的一般性表征,并给出了应急策略和排查方法;最后对故障诊断未来的发展方向提出了展望。
关键词:智轨列车;网络通信;车辆控制;故障诊断;环网冗余
中图分类号:TN915;TP273 文献标识码:A 文章编号:2096-4706(2024)20-0001-04
Research on Network Communication Fault Based on the ART of Initial Center Platform
QI Kexin1,2, XIAO Lei1,2, SU Aijun1,2, LI Yiye1,2, LIU Zhen1,2
(1.Hunan CRRC Zhixing Technology Co., Ltd., Changsha 410006, China;
2.Hunan Multi-articulated Rubber Tire Transit Engineering Research Center, Changsha 410006, China)
Abstract: The network communication system of ART is the key system to ensure the normal operation of ART. When a serious communication fault occurs, the ART will trigger a safety brake to protect the safety of the driver and passengers. How to quickly diagnose the communication fault and restore the vehicle operation are urgent problems to be solved after the fault occurs. This paper makes a detailed analysis of the network communication fault of the ART of initial center platform. It summarizes the data representation of existing communication fault, explains the general representation of abnormal communication fault data, and provides the emergency strategies and troubleshooting methods. Finally, the future development direction of fault diagnosis is prospected.
Keywords: ART; network communication; vehicle control; fault diagnosis; ring redundancy
0 引 言
智能轨道快运系统(简称“智轨”)是由中车智行科技有限公司独创研发的新一代轨道交通制式运输系统,其结合了轨道交通与公共交通的优势,具有成本低、线路建设周期短、维护成本低、载客量大等特点,是目前城市轨道交通网络扩展的新方向[1]。初心号平台智轨是智轨第一代产品,其采用以太网作为整车通信骨干网络[2],再加上中央控制单元就构成了智轨的网络控制系统。网络控制系统作为智轨的“大脑”,负责通各个子系统并进行相关决策控制,是保证列车正常运行的关键系统。
当发生网络通信故障时,子系统会因无法接收到网络控制系统发出的指令从而应急停止运行,且若涉及关键子系统还会造成整车瘫痪,导致列车的下线与清客。网络通信故障产生的原因有很多,但并不是每种故障都能自检并上报,因此如何快速诊断并排查网络通信故障原因,恢复列车的运营成为至关重要的问题。本文以智轨初心号为研究对象,着重介绍了初心号智轨列车的网络拓扑与通信网络组成;总结了智轨发生网络通信异常时的故障表现,并结合实验提出针对不同通信故障时的应对策略;最后对智轨未来的故障诊断方向进行展望。
1 智轨通信网络概述
智轨的通信网络由以太网、CAN总线和背板通信三者构成,分别应用于不同的通信场景。以太网是整车通信网络中的核心网络,不仅承担着车厢间的通信功能,车上部分设备也采用以太网进行通信。车辆以太网采用双层分级式实时网络,骨干网采用 ETB(Ethernet Train Backbone),车辆网络采用ECN(Ethernet Consist Network),通信速率分别可达1 000 Mb/s与100 Mb/s[3-4]。智轨的以太网信息传输采用TRDP协议。CAN总线是一种高性能和高可靠性的串行通信协议,被广泛应用于车辆控制领域。智轨的网络系统中采用CAN总线来进行车厢内部分设备的通信,并通过CAN网关接入整车以太网。而背板CPCI通信主要应用于智轨主控机箱中内部板卡间的通信,主要包括主控单元与CAN网关以及其他板卡间的通信。智轨的网络拓扑如图1所示[5]。
智轨骨干网建立起车厢与车厢之间的网络连接,而为了防止单链路出现网络故障导致整车瘫痪的情况,智轨骨干网采取环网冗余策略。当环网某一节点出现故障,环网冗余策略可以快速激活备用链路,从而保证车厢间的正常通信。智轨的环网冗余协议由中车株洲电力机车研究所自主研发,通过简化RSTP协议实现过程方式实现。快速生成树协议(Rapid Spanning Tree Protocol, RSTP)是在生成树协议(Spanning Tree Protocol, STP)的基础上改进而来,用于在局域网中消除数据链路层物理环路[6]。然而RSTP协议在链路故障发生时的收敛时间为秒级,还达不到工业以太网对于通信恢复速度的要求,因此需要通过简化RSTP协议来实现更快的收敛速度。
同时,列车上的关键系统都采取热备冗余配置,如配置在列车端的主控单元,当一端的系统失效时,另一端会立即采取接管,保证车辆的正常运行。而智轨列车在设计之初为了更方便地追踪故障产生原因,也分别配置了记录模块来记录与复原车辆运行时产生的关键数据。控制单元监测到故障发生时将故障数据通过以太网发送至记录模块进行记录,同时在屏幕上进行显示,以提示司机注意车辆状态。
2 网络通信故障的表征
为了监测系统的运行状态,各关键子系统均与控制单元建立生命信号传输模块,当中央控制单元接收子系统的生命信号数据不更新时,则判定与子系统的通信故障,并依据网络通信故障的严重程度采取列车的保护措施,如在提示警戒、牵引封锁甚至安全制动。由子系统异常或车辆网络质量问题产生的网络通信故障比较容易定位,且可以由中央控制单元准确监测,但由骨干网络质量问题产生的网络通信故障没有明确的故障表征,因此给问题定位、故障排查带来困难。
以智轨初心号为对象,本文进行多次实车实验以探究骨干网络通信质量对于整车运行的影响,总结了骨干网通信质量问题的故障表征如下。
2.1 安全制动以及断高压保护
骨干网的通信质量问题会导致不明原因的安全制动触发,严重时可进一步导致车辆整车的高压断开。对于智轨列车而言,安全制动以及断高压保护属于最高级别的保护措施,一般情形下中央控制单元会严格监测车辆状态,并在车辆触发保护措施时将具体原因保存至记录模块并通过显示屏提示司机。
在骨干网通信故障的实验案例中,中央控制单元没有监测到异常情况。如图2所示,在某次实验中,车辆先后触发了安全制动、断高压保护,但记录到的故障并没有指向性,从而给故障排查带来困难。
而正常情况下触发保护措施时,记录模块应记录到触发保护措施的来源、具体异常等信息。如图3所示,记录模块准确记录到此次安全制动由网络触发,因此技术人员可以快速查询故障时刻网络相关的信号与数据,从而锁定故障点。
2.2 子系统的生命信号异常
智轨电车上各子系统与中央控制单元的通信质量可以直观从生命信号记录上进行体现,当骨干网发生通信质量问题时,会影响整车各个子系统的生命信号记录,包括跳变不连续、跳变迟滞,甚至通信中断等现象。图4为实验中从记录模块提取的异常生命信号,表现有明显的震荡、清零现象。
2.3 记录模块的记录数据缺失
前文说到,智轨电车在骨干网两端分别配置了记录模块,可以同时对整车的运行数据进行记录。骨干网的通信问题可能导致本端的事件记录模块无法记录到另一端的信号数据,因此造成两端事件记录模块在记录同一信号时出现差异。如图5所示,在故障发生时刻,记录模块2对比记录模块1,其丢失了从06:53:48—06:53:52的全部数据。
2.4 交换机异常
骨干网线缆的质量问题会导致交换机记录到对应节点产生错包,除此之外,在一些实验案例中,通过查看交换机日志还可以看到大量的link up/down记录,但时间上与整车发生故障的时间不能完全对应。图6为智轨一端的交换机日志,其中PortX8为环网端口。
主控单元与各子系统的生命信号记录异常以及两端记录模块的数据不一致指示了骨干网通信的不畅,而环网端口的LINK变化同样指向了环网的不稳定。尽管在实验中,骨干网通信故障的发生事件与环网端口LINK变化时间并不能对应上,但频繁的link up/down记录仍然可以说明环网端口的不稳定性,其与整车骨干网的通信质量有着密不可分的联系。
3 网络通信故障的应急策略
骨干网的不稳定导致数据传输受到干扰,严重时会导致车辆安全制动,影响项目的调度计划和线路运营。但故障的排查与解决需要时间,从保障车辆上线率的角度出发,本文提供两种临时解决方案。
3.1 修改TRDP协议配置文件
前文说到,智轨列车中以太网的数据传输采用TRDP协议,当通信受到短暂的干扰时,如牵引、高压、制动等关键子系统收到的数据会全部清零,导致其无法响应车辆的正常动作而触发安全制动。从这个角度出发,通过修改TRDP协议配置文件,图7中将validity-behavior配置为“1”,则各子系统在整车发生通信干扰时,将收到的TRDP报文将短暂维持在上一个正常状态,从而保证车辆的正常运行。但这种方式只能应对短暂(几个周期)的通信中断,环网仍有小概率因产生长时间(几秒)通信中断导致安全制动。且由于TRDPCFG配置为保持后,实际发生通信中断时并不会在列车运行状态上产生表现,不利于技术人员排查故障,因此修改TRDP配置文件只能适用于排查异常通信故障时上线车辆的临时手段,仍需要及时排查故障的根本原因。
3.2 断开环网连接
端口反复的link up/down现象也被称为端口震荡,环网冗余协议表明,当一个节点发生故障无法通信,交换机立即启用备用链路,将原本的阻塞端口置为转发端口,从而保证网络的通畅[7-8]。但从故障现象来看,节点发生震荡时,环网无法及时响应并建立通路,反而受到震荡端口反复断开连接的影响。因此,通过物理隔离网络中发生端口震荡的节点,只保留无故障的单链通路,可以直接隔离可能产生干扰的节点,最大限度地保证骨干网的稳定性。但同样地,断开故障段线缆连接仅适用于排查骨干网通信问题时上线车辆的临时手段,单链通路对于车辆的正常运营仍有较大风险,需要及时排查并恢复正常的环网。
4 网络通信故障的排查策略
环网产生端口震荡的原因有很多,最常见的包括环网协议报文丢弃、网络流量拥塞、物理链路异常等,因此我们也可以从以上几个方面去进行故障点的排查与解决。
环网协议报文丢弃会造成环网协议报文转发失败,反复超时震荡,其一般是由错误的交换机配置或者环网协议配置导致的,这种情况可以通过对交换机配置或者底层软件进行更新、交换等操作进行排除。网络流量拥塞会导致网络中关键报文无法处理与转发,从而造成的各种各样的网络通信故障[9]。这种情况可以通过观察故障时刻的网络带宽或者抓取报文进行排除。物理链路异常指连接交换机、子系统、主控模块的物理层如线缆、接口等发生异常[10],通常包括屏蔽异常、线芯阻值异常、线芯短路断路等。
以智轨的通信故障为例,智轨的骨干网由两端的交换板卡、中间车厢的交换机、连接线缆以及跨接器组成,如图8所示。对于网络故障的排查应从设备和链路两方面进行。
具体排查思路如下:
1)锁定故障节点。根据实验数据,一般可以从端口震荡现象判断出故障节点。
2)检查交换机设备、底层软件、配置文件。锁定故障节点后,检查故障节点所在的交换机,包括硬件、底层软件、配置文件等是否正常,必要时可以通过与其他正常交换机进行交换,观察故障是否转移。
3)抓取报文,观察是否有大量非数据报文转发;观察网络带宽。智轨的骨干网采用千兆网,正常情况下网络带宽是远远够用的,但不排除异常情况下某子系统软件发送大量无用报文,从而造成网络的拥塞。
4)排查线缆及连接器问题。物理层的排查可以通过线缆测试仪来辅助判断其是否异常,如图9所示。没有线缆测试仪也可以采用万用表对线缆的常用标准值进行测量,如屏蔽接地情况、屏蔽阻值、线芯阻值等。
5 结 论
智轨电车搭载实时以太网技术实现整车通信,控制性能和稳定性优良,目前已在智轨各个项目上安全运营20万千米以上里程。对于智轨电车而言,故障诊断一直是重要研究部分,目前,智轨的中央控制单元可以自主识别及诊断近千种简单的整车故障,并进行提示预警。然而对于一些复杂成因的故障,仍然需要技术人员对数据进行详尽的分析与测试,这个过程占用过多时间会严重影响线路的运营与调度计划。因此如何实现智能诊断故障、快速恢复车辆状态是后续可以研究的方向。
参考文献:
[1] 杨勇,李晓光,银应时,等.智轨电车总体与轻量化设计 [J].控制与信息技术,2020(1):32-37.
[2] 李一叶,粟爱军,程玉溪,等.智轨电车列车网络控制系统设计与应用 [J].控制与信息技术,2020(1):48-52.
[3] 全国牵引电气设备与系统标准化技术委员会(SAC/TC 278).轨道交通电子设备 列车通信网络(TCN) 第3-4部分:以太网编组网(ECN):GB/T 28029.12—2020 [S].北京:中国标准出版社,2020.
[4] 全国牵引电气设备与系统标准化技术委员会(SAC/TC 278).轨道交通电子设备 列车通信网络(TCN)第2-5部分:以太网列车骨干网(ETB):GB/T 28029.6—2020 [S].北京:中国标准出版社,2020.
[5] 金妍希,曹兴.新兴技术企业跨界创新实现机制研究——基于智轨快运系统案例分析 [J].科学决策,2023(04):152-172.
[6] 张士宗.基于VxWorks的快速生成树协议研究与实现 [D].北京:北京邮电大学,2014.
[7] 肖贺,管海兵,宦飞.工业以太网冗余技术分析 [J].信息安全与通信保密,2012(3):59-63+67.
[8] 来晓,冯冬芹,褚健.分布式网络故障检测及恢复技术研究 [J].计算机工程与应用,2010,46(24):73-76.
[9] 朱卉乔,王卫东.网络拥塞控制的优化研究 [J].保密科学技术,2022(5):56-60.
[10] 顾华.工业以太网质量检测技术研究 [J].中国设备工程,2021(21):26-27.
作者简介:齐可心(1997—),男,汉族,湖南株洲人,助理工程师,硕士研究生,研究方向:车辆控制。