总控监控系统信号报警处理方法
宋庆峰
(中央电视台)
摘要:随着总控系统规模的不断发展,总控控管监系统收集和处理的报警信息也在呈倍数的增长,在出现故障时工作人员需要从众多报警信息中快速定位真正的故障点并解决出现的问题。本文分析总控报警信息产生的典型场景,采取分析报警相关信息、过滤处理,对故障进行定位并呈现。实际搭建的监控系统基本实现了无漏报警少误报警的设计目标,其思路可供类似监控系统建设和实施时借鉴。关键词:总控 监控 报警 过滤1 前言
中央电视台新址总控系统在设计之初就考虑到需要对设备及信号进行监测,而随着系统监控技术的不断升级,专业视音频设备厂家在设备和系统中也提供了基于网络的SNMP、TCP等方式进行监控和报警的功能,使得监控系统的实现成为可能。当利用这些设备组成总控系统以后,面对大量的报警信息,需要在对系统设备和信号统一监控的基础之上,将收集的各类信息进行重新整合,以实现信号质量的全流程自动检测告警,故障定位,提供应急处理和解决方案。为此需要先分析系统组成情况,了解报警信息类型和产生点,再根据实际工作情况将报警信息归总处理。2 总控系统概述
总控系统是电视台节目播出、传送、信号交换的重要环节和枢纽,负责对全台的信号进行调度,同时也对信号本身质量进行调整和处理,它主要由信号接收、调度以及发送等部分组成,链路图如图1所示:图1、总控系统链路图
系统链路中设备主要包括系统输入设备,主要是接收机、解码器、L-Band矩阵、ASI矩阵、光端机、帧同步器、上变换器等;环路设备,主要是高清视分、全功能视音频处理器;系统输出设备,主要是高清视分和光端机等。总控系统中的画面分割器用于监测输入设备、矩阵输入、矩阵输出、输出设备等关键节点的信号。针对该系统搭建的监测系统主要针对整个信号链路(设备及信号)进行监测测,通过获取接收机、帧同步、上下变换、环路、视分板卡、光发板卡、光收板卡等各类设备提供的信号信息和报警,同时使用画面分割器采集关键路由节点的信号报警,将所有的信号报警分析处理后展示到各客户端软件。使用户掌握信号在整个任务路由上的情况,直观地看到信号报警信息,并根据报警信息给出相应的解决方案便于查找问题原因,同时可以智能化确定故障点。总控系统中,还有一部分相对独立的业务,是针对播出信号的编码压缩、上行、下行接收。其信号监测链路如图2所示:图2、播出信号监测链路图
该链路主要将各套从播出传来的播出信号通过系统内的高清视分(末端分配)、压缩系统处理后,送至卫星上行站;同时总控有专用的接收天线和接收机将上行至卫星的信号接收监看。针对播出信号监测链路搭建的监控系统主要分析由周边设备提供的图像和声音报警信息、压缩系统提供的信号报警信息、解码器和接收机提供的信号状态信息,以及由画面分割器提供的最终视频信号信息组成,形成播出信号传输的完整环路监测,通过匹配节目内容对报警信息进行分析处理,过滤无用的信号报警,并直观展示出故障点。3 系统报警分析
对于系统中各类设备产生的报警,按其种类主要划分为设备报警和信号报警两类。设备报警是指由于设备本身产生问题而引发的报警,如电源故障、风扇故障等;信号报警指设备对经过自身的信号检测到问题时产生的报警,如视频丢失、音频静音等。3.1 设备报警分析对于设备报警,按照不同设备类型定义了一系列需要监测的KPI。当对应监测项出现报警时立即将故障展现在报警软件界面上。仅以服务器为例,需要监测的监测项,详见表1所示。如当内存的使用率超过80%时,监控系统会进行提示报警并展示。表1、服务器监测项KPI
设备类别名称:服务器 | ||||||||
数据定义分类描述 | 获取方法 | 监测项 | 英文名称 | 监测项描述 | 监测项示例 | 数据类型 | 单位 | |
数据定义 | 性能数据 | 系统轮询获得 | CPU使用率 | CPU usage | 主机所有CPU的平均使用率 | 20 | 长整型 | % |
内存使用率 | Memory usage | 主机内存的使用率 | 80 | 长整型 | % | |||
事件数据 | 监测项数据变化时,上报 | CPU状态 | CPU status | 0=正常,1=任一或数个CPU发生故障 | 0 | 枚举 | ||
内存状态 | Memory status | 0=正常,1=内存故障 | 0 | 枚举 | ||||
电源状态 | Power supply status | 0=正常,1=任一或数个电源发生故障 | 0 | 枚举 | ||||
机箱温度状态 | chassis temperature status | 0=正常,1=温度异常,过高或过低 | 0 | 枚举 | ||||
风扇状态 | Fan status | 0=正常,1=风扇不工作或转速低 | 0 | 枚举 | ||||
内置磁盘状态 | Disk status | 0=正常,1=一块或数块磁盘故障 | 0 | 枚举 | ||||
主板状态 | motherboard status | 0=正常,1=主板故障 | 0 | 枚举 | ||||
网卡状态 | Network Interface Card status | 网卡的工作状态。多网卡设备需上报网卡序号。0=正常,1=网卡故障 | 0 | 枚举 |
3.2 信号报警分析
除设备报警外,在实际工作中我们更为关注的是信号报警信息。总控系统中的视频基带信号格式主要是HD-1080i50、SD-625i50,音频信号则有单声道、立体声、DolbyE、DolbyD等多种情况。对于这些信号,不同的设备能提供不同的报警信息。针对不同设备也定义了各自的信号报警KPI。以卫星接收机为例,根据国家标准(如《GY/T 158-2000 演播室数字音频信号接口》)以及关注的内容,分别针对SDI输出、LBAND输出、数字音频输出、视频变换、视频帧同步或延时、解码系统、ASI码流监测等近十项内容定义了各自的KPI。以其中一项,视频帧同步或延时为例,定义的KPI内容如表2所示。对于监控系统而言,其获取的信号报警分别来自从任务链路内的设备(如上下变换、环路和接收机等设备有视音频报警)和画面分割器设备。从任务链路中设备获得的报警信息主要有:视频丢失、视频静帧、音频声道丢失/静音、音频声道过高、嵌入音频(如评论声道)丢失/静音等;而像视频黑场、DolbyE音频丢失等链路中设备不能提供的报警信息则需要从画面分割器来获取。在实际中可以发现,对于同一个含义的报警,不同设备提供的报警信息并不会完全一样,如视频静帧,卫星解码器提供的报警信息为“Output Video Frozen”,而多画面分割器提供的报警信息则为“Video still threshold”,对报警信息进行处理之前需要将不同设备的报警信息进行标志上的统一,便于软件处理和展示。表2 卫星接收机视频帧同步或延时的KPI
监测项类型 | 监测项中文名称 | 监测项英文名称 | 数据类型 | 监测项备注 | 设备自检 | 报告方式 | |
报警 | 轮询 | ||||||
信号事件 | 视频信号丢失 | Loss of Video | 枚举型:正常、丢失 | √ | √ | √ | |
嵌入音频丢失 | Embedding audio Missing | 枚举型:正常、丢失 | 嵌入音频 | √ | √ | √ | |
参考信号丢失 | Ref Video Missing | 枚举型:正常、丢失 | 有接口且外锁相则检测 | √ | √ | √ | |
输入与参考信号标准不匹配 | Mismatched RefStandards | 枚举型:锁定、失锁 | 有接口且外锁相则检测 | √ | √ | √ | |
输出视频信号静帧(丢失) | Output Video Frozen | 枚举型:正常、静帧 | √ | √ | √ | ||
配置信息 | 视频帧存开关信息 | Frame Sync Bypass | 枚举型:YES/NO | √ | √ | ||
帧同步与帧延时选择信息 | Frame Sync Mode | 枚举型:延时模式/ 同步模式 | √ | √ | |||
视频延时帧数 | Video Delay | 整型(int) | frames | √ | √ | ||
场相位调整数 | Vertical Phase | 整型(int) | lines | √ | √ | ||
行相位调整数 | Horizontal Phase | 浮点(float) | μsec | √ | √ |
表3 卫星接收机线缆连接关系表
综合线号 | 信源设备ID | 信源设备端口 | 目的设备ID | 目的设备端口 | 信源备注 |
T-RX57-S1- | D01-VJB-NC-05 | DOWN 7 | T-RX57 | RF IN 1 | 卫星接收机57输入1 |
T-RX57-D1- | T-RX57 | HD-SDI OUT 1 | 04-503-D03-VB-01 | IN 14 | 卫星接收机57输出1 |
T-RX57-D2- | T-RX57 | HD-SDI OUT 2 | T-ARD1 | IN 31 | 卫星接收机57输出2 |
T-RX57-D3- | T-RX57 | HD-SDI OUT 3 | D04-VJB-NO-01 | DOWN 7 | 卫星接收机57输出3 |
图3 一台卫星接收机的设备连接关系图
设备之间报警的相互影响信息:可以在监控系统中进行定义,比如对于画面分割器提供的信号报警,它的实际意义是指接入画面分割器的设备输出信号有问题,所以需要把这类信号报警定义在接入画面分割器的设备的输出上,也可以定义在后级设备的输入上,或定义在前后两级设备的连接线上。然后再通过任务单信息对信号报警进行过滤。4 信号报警过滤
针对上述提到的各种信号报警信息,如果只是简单的报出来,必然会导致许多无意义的报警存在。通过对上述信号报警的分析,结合实际的系统环境,可以从设备层报警设置、业务内容匹配以及逻辑处理等层面对报警进行过滤。首先针对不同的设备,对其信号报警进行预处理。许多设备信号报警的参数阈值可以进行调节,使其适应具体的使用环境,可以从底层过滤一些无意义的报警,比如对于音频静音报警,需要考虑到播音员等说话的停顿,所以把报警延迟时间设为3s~5s,这样就可以过滤很大一部分静音报警。通过上述预处理,得到了统一标志的信号报警信息,可以在业务层对信号报警进行进一步过滤。如当任务尚未开始时,任务链路上的设备可能会因为没有输入信号而产生的信号报警可以过滤掉,等任务即将开始时(如提前十分钟)才开始对相应的信号报警进行分析。其次将设备通过物理链路和矩阵路由等信息关联到任务中,判断该设备是否处于正在使用的任务路由中,即判断该设备是否为在用设备,将不在使用中的设备所发出的信号报警过滤掉。然后根据任务本身的视音频信息过滤任务路由上的设备信号报警,包括信号转换前和转换后的信息,如立体声节目中,设备产生的杜比音频丢失报警就可以过滤掉。经过业务层的处理,可以过滤大部分的信号报警,但是还有一些特殊情况的信号报警没办法过滤。比如当直播画面切换了全景并持续了一会,这时会有静帧报警,但这个报警是误报警。针对这种情况,可以设置信号报警持续时间,当信号报警时间达到或超过该时间后再将报警上报,小于此时间的信号报警将被过滤掉。5 信号故障定位
经过上述过滤后,需要定位故障点,确定报警产生的位置和原因并直观的展示给值班人员,同时软件给出对应的解决方案。通过分析信号报警的关联性,得到了信号源使用信息、信号链路信息和设备之间报警的相互影响信息。综合这些数据之后,选取一个应用场景的报警来抽象出故障定位的逻辑和步骤。以接收机->演播室为例,输入信号使用1080i视频、PCM音频、1-2声道、无AFD。系统链路图如图4所示。图4、 卫星接收信号至演播室系统链路图
模拟三种情况:1、正常;2、接收机收不到信号;3、环路设备无输入。经过上述分析过滤后,汇总得到各个设备的信号报警,如表4所示:表4 模拟场景信号报警
TVRO接收机 | 上变换板卡 | 矩阵输入监看1 | 环路设备 | 矩阵输入监看2 | 矩阵输出监看 | |
正常 | 无报警 | 无报警 | 无报警 | 无报警 | 无报警 | 无报警 |
接收机收不到信号 | VIDEO NOT RUNNING | 无报警 | CHANNEL 1-2 SILENT | SDIX ch1-2 SILENT | CHANNEL 1-2 SILENT | CHANNEL 1-2 SILENT |
AUDIO1 NOT RUNNING | VIDEO AP FROZEN | VIDEO AP FROZEN | VIDEO AP FROZEN | |||
切断环路输入 | 无报警 | 无报警 | 无报警 | SDIX ch1-2 SILENT | CHANNEL 1-2 SILENT | CHANNEL 1-2 SILENT |
SDI1 IP MISSING | VIDEO AP FROZEN | VIDEO AP FROZEN |
评论 点击评论