总控监控系统信号报警处理方法

  • 优秀论文奖
  • 文章作者:中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

    宋庆峰

    (中央电视台)

    摘要:随着总控系统规模的不断发展,总控控管监系统收集和处理的报警信息也在呈倍数的增长,在出现故障时工作人员需要从众多报警信息中快速定位真正的故障点并解决出现的问题。本文分析总控报警信息产生的典型场景,采取分析报警相关信息、过滤处理,对故障进行定位并呈现。实际搭建的监控系统基本实现了无漏报警少误报警的设计目标,其思路可供类似监控系统建设和实施时借鉴。关键词:总控 监控 报警 过滤

    1 前言

    中央电视台新址总控系统在设计之初就考虑到需要对设备及信号进行监测,而随着系统监控技术的不断升级,专业视音频设备厂家在设备和系统中也提供了基于网络的SNMP、TCP等方式进行监控和报警的功能,使得监控系统的实现成为可能。当利用这些设备组成总控系统以后,面对大量的报警信息,需要在对系统设备和信号统一监控的基础之上,将收集的各类信息进行重新整合,以实现信号质量的全流程自动检测告警,故障定位,提供应急处理和解决方案。为此需要先分析系统组成情况,了解报警信息类型和产生点,再根据实际工作情况将报警信息归总处理。

    2 总控系统概述

    总控系统是电视台节目播出、传送、信号交换的重要环节和枢纽,负责对全台的信号进行调度,同时也对信号本身质量进行调整和处理,它主要由信号接收、调度以及发送等部分组成,链路图如图1所示:

    图1、总控系统链路图

    系统链路中设备主要包括系统输入设备,主要是接收机、解码器、L-Band矩阵、ASI矩阵、光端机、帧同步器、上变换器等;环路设备,主要是高清视分、全功能视音频处理器;系统输出设备,主要是高清视分和光端机等。总控系统中的画面分割器用于监测输入设备、矩阵输入、矩阵输出、输出设备等关键节点的信号。针对该系统搭建的监测系统主要针对整个信号链路(设备及信号)进行监测测,通过获取接收机、帧同步、上下变换、环路、视分板卡、光发板卡、光收板卡等各类设备提供的信号信息和报警,同时使用画面分割器采集关键路由节点的信号报警,将所有的信号报警分析处理后展示到各客户端软件。使用户掌握信号在整个任务路由上的情况,直观地看到信号报警信息,并根据报警信息给出相应的解决方案便于查找问题原因,同时可以智能化确定故障点。总控系统中,还有一部分相对独立的业务,是针对播出信号的编码压缩、上行、下行接收。其信号监测链路如图2所示:

    图2、播出信号监测链路图

    该链路主要将各套从播出传来的播出信号通过系统内的高清视分(末端分配)、压缩系统处理后,送至卫星上行站;同时总控有专用的接收天线和接收机将上行至卫星的信号接收监看。针对播出信号监测链路搭建的监控系统主要分析由周边设备提供的图像和声音报警信息、压缩系统提供的信号报警信息、解码器和接收机提供的信号状态信息,以及由画面分割器提供的最终视频信号信息组成,形成播出信号传输的完整环路监测,通过匹配节目内容对报警信息进行分析处理,过滤无用的信号报警,并直观展示出故障点。

    3 系统报警分析

    对于系统中各类设备产生的报警,按其种类主要划分为设备报警和信号报警两类。设备报警是指由于设备本身产生问题而引发的报警,如电源故障、风扇故障等;信号报警指设备对经过自身的信号检测到问题时产生的报警,如视频丢失、音频静音等。3.1 设备报警分析对于设备报警,按照不同设备类型定义了一系列需要监测的KPI。当对应监测项出现报警时立即将故障展现在报警软件界面上。仅以服务器为例,需要监测的监测项,详见表1所示。如当内存的使用率超过80%时,监控系统会进行提示报警并展示。

    表1、服务器监测项KPI

    设备类别名称:服务器
    数据定义分类描述获取方法监测项英文名称监测项描述监测项示例数据类型单位
    数据定义性能数据系统轮询获得CPU使用率CPU usage主机所有CPU的平均使用率20长整型%
    内存使用率Memory usage主机内存的使用率80长整型%
    事件数据监测项数据变化时,上报CPU状态CPU status0=正常,1=任一或数个CPU发生故障0枚举
    内存状态Memory status0=正常,1=内存故障0枚举
    电源状态Power supply status0=正常,1=任一或数个电源发生故障0枚举
    机箱温度状态chassis temperature status0=正常,1=温度异常,过高或过低0枚举
    风扇状态Fan status0=正常,1=风扇不工作或转速低0枚举
    内置磁盘状态Disk status0=正常,1=一块或数块磁盘故障0枚举
    主板状态motherboard status0=正常,1=主板故障0枚举
    网卡状态Network Interface Card status网卡的工作状态。多网卡设备需上报网卡序号。0=正常,1=网卡故障0枚举

    3.2 信号报警分析

    除设备报警外,在实际工作中我们更为关注的是信号报警信息。总控系统中的视频基带信号格式主要是HD-1080i50、SD-625i50,音频信号则有单声道、立体声、DolbyE、DolbyD等多种情况。对于这些信号,不同的设备能提供不同的报警信息。针对不同设备也定义了各自的信号报警KPI。以卫星接收机为例,根据国家标准(如《GY/T 158-2000 演播室数字音频信号接口》)以及关注的内容,分别针对SDI输出、LBAND输出、数字音频输出、视频变换、视频帧同步或延时、解码系统、ASI码流监测等近十项内容定义了各自的KPI。以其中一项,视频帧同步或延时为例,定义的KPI内容如表2所示。对于监控系统而言,其获取的信号报警分别来自从任务链路内的设备(如上下变换、环路和接收机等设备有视音频报警)和画面分割器设备。从任务链路中设备获得的报警信息主要有:视频丢失、视频静帧、音频声道丢失/静音、音频声道过高、嵌入音频(如评论声道)丢失/静音等;而像视频黑场、DolbyE音频丢失等链路中设备不能提供的报警信息则需要从画面分割器来获取。在实际中可以发现,对于同一个含义的报警,不同设备提供的报警信息并不会完全一样,如视频静帧,卫星解码器提供的报警信息为“Output Video Frozen”,而多画面分割器提供的报警信息则为“Video still threshold”,对报警信息进行处理之前需要将不同设备的报警信息进行标志上的统一,便于软件处理和展示。

    表2 卫星接收机视频帧同步或延时的KPI

    监测项类型监测项中文名称监测项英文名称数据类型监测项备注设备自检报告方式
    报警轮询
    信号事件视频信号丢失Loss of Video枚举型:正常、丢失
    嵌入音频丢失Embedding audio Missing枚举型:正常、丢失嵌入音频
    参考信号丢失Ref Video Missing枚举型:正常、丢失有接口且外锁相则检测
    输入与参考信号标准不匹配Mismatched RefStandards枚举型:锁定、失锁有接口且外锁相则检测
    输出视频信号静帧(丢失)Output Video Frozen枚举型:正常、静帧
    配置信息视频帧存开关信息Frame Sync Bypass枚举型:YES/NO
    帧同步与帧延时选择信息Frame Sync Mode枚举型:延时模式/ 同步模式
    视频延时帧数Video Delay整型(int)frames
    场相位调整数Vertical Phase整型(int)lines
    行相位调整数Horizontal Phase浮点(float)μsec
    3.3获取信号报警相关信息当多个设备同时出现信号报警提示时,故障原因可能只是一个,为此需要分析信号的任务相关信息、信号链路信息以及设备间报警的相互影响信息。信号的任务相关信息:当出现一个信号报警时,先应判断该信号是否是正在执行中的任务,若不是,则可以不关注该报警;如果是,还需要明确信号的格式、声道等信息。可以从总控任务执行系统中获取任务执行信息;另外还需要从节目生产管理系统(TRM)获取播出时间信息;还需要通过与其它系统的接口获得信号路由的使用事件信息。信号链路信息:通过获取设备端口连接信息和设备内部链路信息,利用有向图等算法,计算得到硬件中实际的信号链路,然后通过任务执行系统获取任务路由的切换信息,从而将矩阵的输入端口链路和输出端口链路链接起来,从而得到完整的信号链路。链路信息的收集工作是总控监控系统中最基础也是任务量最大的工作,为准确记录各设备连接情况,将每个设备的端口、每一根线缆均进行的命名和定义。以一台卫星接收机为例,记录的其线缆连接关系如表3所示。

    表3 卫星接收机线缆连接关系表

    综合线号信源设备ID信源设备端口目的设备ID目的设备端口信源备注
    T-RX57-S1-D01-VJB-NC-05DOWN 7T-RX57RF IN 1卫星接收机57输入1
    T-RX57-D1-T-RX57HD-SDI OUT 104-503-D03-VB-01IN 14卫星接收机57输出1
    T-RX57-D2-T-RX57HD-SDI OUT 2T-ARD1IN 31卫星接收机57输出2
    T-RX57-D3-T-RX57HD-SDI OUT 3D04-VJB-NO-01DOWN 7卫星接收机57输出3
    该表说明,编号为57的卫星接收机射频输入口1连接线缆T-RX57-S1-;其输出口1、2、3分别连接线缆T-RX57-D1-、T-RX57-D2-、T-RX57-D3-。其设备连接关系可以构成一个有向图如图3所示。可以想象总控系统中有3500多种设备,其设备间连接关系图将远比该图复杂的多。

    3 一台卫星接收机的设备连接关系图

    设备之间报警的相互影响信息:可以在监控系统中进行定义,比如对于画面分割器提供的信号报警,它的实际意义是指接入画面分割器的设备输出信号有问题,所以需要把这类信号报警定义在接入画面分割器的设备的输出上,也可以定义在后级设备的输入上,或定义在前后两级设备的连接线上。然后再通过任务单信息对信号报警进行过滤。

    4 信号报警过滤

    针对上述提到的各种信号报警信息,如果只是简单的报出来,必然会导致许多无意义的报警存在。通过对上述信号报警的分析,结合实际的系统环境,可以从设备层报警设置、业务内容匹配以及逻辑处理等层面对报警进行过滤。首先针对不同的设备,对其信号报警进行预处理。许多设备信号报警的参数阈值可以进行调节,使其适应具体的使用环境,可以从底层过滤一些无意义的报警,比如对于音频静音报警,需要考虑到播音员等说话的停顿,所以把报警延迟时间设为3s~5s,这样就可以过滤很大一部分静音报警。通过上述预处理,得到了统一标志的信号报警信息,可以在业务层对信号报警进行进一步过滤。如当任务尚未开始时,任务链路上的设备可能会因为没有输入信号而产生的信号报警可以过滤掉,等任务即将开始时(如提前十分钟)才开始对相应的信号报警进行分析。其次将设备通过物理链路和矩阵路由等信息关联到任务中,判断该设备是否处于正在使用的任务路由中,即判断该设备是否为在用设备,将不在使用中的设备所发出的信号报警过滤掉。然后根据任务本身的视音频信息过滤任务路由上的设备信号报警,包括信号转换前和转换后的信息,如立体声节目中,设备产生的杜比音频丢失报警就可以过滤掉。经过业务层的处理,可以过滤大部分的信号报警,但是还有一些特殊情况的信号报警没办法过滤。比如当直播画面切换了全景并持续了一会,这时会有静帧报警,但这个报警是误报警。针对这种情况,可以设置信号报警持续时间,当信号报警时间达到或超过该时间后再将报警上报,小于此时间的信号报警将被过滤掉。

    5 信号故障定位

    经过上述过滤后,需要定位故障点,确定报警产生的位置和原因并直观的展示给值班人员,同时软件给出对应的解决方案。通过分析信号报警的关联性,得到了信号源使用信息、信号链路信息和设备之间报警的相互影响信息。综合这些数据之后,选取一个应用场景的报警来抽象出故障定位的逻辑和步骤。以接收机->演播室为例,输入信号使用1080i视频、PCM音频、1-2声道、无AFD。系统链路图如图4所示。

    4、 卫星接收信号至演播室系统链路图

    模拟三种情况:1、正常;2、接收机收不到信号;3、环路设备无输入。经过上述分析过滤后,汇总得到各个设备的信号报警,如表4所示:

    表4 模拟场景信号报警

     TVRO接收机上变换板卡矩阵输入监看1环路设备矩阵输入监看2矩阵输出监看
    正常无报警无报警无报警无报警无报警无报警
    接收机收不到信号VIDEO NOT RUNNING无报警CHANNEL 1-2 SILENTSDIX ch1-2 SILENTCHANNEL 1-2 SILENTCHANNEL 1-2 SILENT
    AUDIO1 NOT RUNNINGVIDEO AP FROZENVIDEO AP FROZENVIDEO AP FROZEN
    切断环路输入无报警无报警无报警SDIX ch1-2 SILENTCHANNEL 1-2 SILENTCHANNEL 1-2 SILENT
    SDI1 IP MISSINGVIDEO AP FROZENVIDEO AP FROZEN
    很明显可以看出第二种情况的故障点是接收机,第三种情况的故障点是环路设备的输入,因为从链路上看,这两个点是信号报警的源头。如果在第三种情况中,节目的声音有个长时间的停顿,这时矩阵输入监看1会有静音报警“CHANNEL 1-2 SILENT”,此时不能简单的判断矩阵输入是故障点,因为实际的故障点还是环路输入。从这个简单的例子可以看出,需要对各类信号报警进行综合分析,不能简单的把链路前端的报警视为故障点。为此,首先需要区分出信号报警的重要性,将重要性量化为不同的级别。在央视的系统中把报警分为四个级别:正常、一般报警、严重报警、致命报警。当信号故障时,设备上会通常同时出现多条信号报警,此时采用取大值的原则,判定高报警等级的设备是最可能的故障点;如果同一链路上不同设备的报警等级是一致的,此时判定处在链路前端的设备是最可能的故障点。针对上面分析得到的故障点,可以根据设备类型及其报警内容给出相应的解决方案。比如第二种情况可以提示值班员检查接收机的参数设置。把这些解决方案存储在数据库里,并提供修改的接口,方便值班员根据实际情况修改这些解决方案,使其更适应实际情况。同时可以把这些信号报警和故障定位记入数据库,便于统计和分析故障的原因,为以后系统的改进和优化提供依据。

    6 小结

    总控系统汇集了视音频处理的大量设备,在系统监控中既要考虑到整体的业务逻辑,也要区别对特不同设备的特性,更要注重播出的安全性,所以在设计中着重考虑了设备服从于业务,业务服务于设备的原则,使监控系统更贴近于业务逻辑,更满足值班员的操作需求。经过初步计算,这套系统运行以来,减少了95%以上的误报警,并能实时上报报警和进行故障定位,同时给值班员直观的展示出信号报警的任务链路,极大的方便了值班员的工作,有力的保障了总控系统的安全运行。 编辑:中国新闻技术工作者联合会

    评论 点击评论