全域全流程播出安全智能可视化应急决策系统的设计及实现

唐晓晖

(广西电视台)

 

摘要:《全域全流程播出安全智能可视化应急决策系统》能够有效监测节目生产、媒资、整备、播出、传输等电视台关键业务流的运行状态,涵盖信号、环境、网络、服务器、数据库、中间件和应用等部件和子系统,以全域全流程的广度和深度,全面、及时的掌握整个电视台大播控系统的运维信息,能够在早期预先发现隐患,将风险从播出端前移,提高业务流程故障处理的能力和效率,并为信息统计、系统评估和将来的科学决策提供重要依据。通过对新技术、新理念的应用尝试,

关键词:流程 播出安全 辅助 决策 应急

 

1  项目概况

《全域全流程播出安全智能可视化应急决策系统》是广西电视台根据多年电视节目制作播出的经验教训,结合当前各种新技术的应用,自主提出的旨在提高制播系统安全性和应急处理能力的解决方案,是对电视台制播安全的一次总结和升级,是制播系统智能化的重要尝试。通过对视音频技术、IT技术、B/S开发构架等前沿科技成果的综合应用和开发,强化了高新科技对电视台业务的强力支撑。

在设计和实施过程中,该项目贯彻了以人为本的思想,数据的采集方式和人机接口呈现方式都与传统的监测应急系统不同,让使用者能够从复杂的运行数据中便捷、准确地获取他们关心的信息,以全域全流程的广度和深度,全面、及时的掌握整个电视台大播控系统的运维信息,能够在早期预先发现隐患,将风险从播出端前移,提高业务流程故障处理的能力和效率,并为信息统计、系统评估和将来的科学决策提供重要依据。

正式运营以来,《全域全流程播出安全智能可视化应急决策系统》累计保障各种业务环境下的安全播出85917小时,各类大型直播和日常直播2832场,为84236条上载素材、5123条定时收录素材、1265条互连互通平台素材的上载、转码、整备、迁移等任务流程提供监管服务,完成了197358条节目素材的技审和校验,为台内日常播出和工作提供了安全保障。

 

2  设计思路

2.1  信息可视化

《全域全流程播出安全智能可视化应急决策系统》的信息可视化囊括了数据可视化、信息图形、知识可视化、科学可视化以及人机互动界面设计等方面,系统内的任何监测数据、运行状态等信息都通过简单易于理解的动态或静态的图表数据等形式直观展示。在客户端通过最新多媒体技术,将WebSocket、Canvas画面实时显示等HTML5技术用于B/S化网页报警页面,使数据表达更加准确和具象。同时,系统可对积累数据进行分析和归档,利用数据学习技术,对设备被监控KPI按照问题严重程度设定多重触发阈值,对历史分级阈值触发情况记入数据库并综合分析,挖掘可能引发问题的潜在风险,并转化为易于理解的直观图形图像向使用者发出预警,为使用者提供决策和分析依据。

2.2 全域全生命周期的播出系统监测与管理

《全域全流程播出安全智能可视化应急决策系统》在运行期间,根据预置的核心项目指标,利用自身积累的数据,按时间粒度和周期模型分析,自动筛选健康度指标异常的设备并标识为系统热点,创建并形成热点自检列表进行深度巡检,再将结果单独输出到表单界面中,实现了将系统全域设备按生命周期进行热点自动分析分类监测管理。

2.3  安全性

《全域全流程播出安全智能可视化应急决策系统》的架构设计安全可靠,具有较好的存储、设备、链路的冗余以及很强的软件容错能力和可靠性,所采用的设备及技术也兼顾了先进性与成熟性。采用B/S架构建立汇聚、分析、展现等模块,采用C/S架构建立数据采集模块,充分运用了不同架构的优势,使各个模块具有稳定、相对独立和易于维护等特性。同时,系统模块间建立了松耦合的连接模式,彼此间通过Socket通信、数据库异步通信、WebService通信等多种方式完成信息交互和工作协同,并具有足够的通信方式冗余。

2.4  智能性

《全域全流程播出安全智能可视化应急决策系统》以运行积累的大数据为基础,采用数据挖掘的方式建立并修整决策树,从而对故障进行自动分类,使本系统在监测到未处理过的故障类型时可根据以往人为处理记录自动给出故障决策处理意见。

2.5  应急决策提示

《全域全流程播出安全智能可视化应急决策系统》通过研究各项KPI指标与实际故障间的关联关系,为实际故障、应急决策处理方法建立多项报警阈值和告警模型,使得当播出系统出现多项阈值超标的情况时,《全域全流程播出安全智能可视化应急决策系统》可快速判断故障类型与故障位置,同时向工作人员发出故障告警并给出相应应急决策处理方案提示,帮助工作人员及时有效排除故障。

 

3  系统架构

在逻辑架构上,《全域全流程播出安全智能可视化应急决策系统》主要由数据采集、策略管理和报警显示三部分组成。

系统架构逻辑结构图

图1系统架构逻辑结构图

如上图所示,本系统采用B/S架构建立汇聚、分析、展现等模块,采用C/S架构建立数据采集模块,充分运用了不同架构的优势,使各个模块具有稳定、相对独立和易于维护等特性。其中数据采集服务模块可根据SNMP、WMI、MODBUS、WebService、数据库读取、串口通信等方式从监控对象处采集到监控数据,然后根据报警策略配置对采集到的监控数据进行初步的过滤,同时将重要的过程数据写入数据库,以备用户查询,最后将这些过滤后的监控数据发送到策略管理模块。策略管理模块通过相应算法将接收到的数据经过进一步计算加工后,将最终结果以告警或辅助决策的形式通过告警显示模块最终呈现给用户。

《全域全流程播出安全智能可视化应急决策系统》的数据采集模块为C/S架构,根据预先定义的管理对象和管理指标间的关联关系提供可选择的采集指标清单。除了采集对象和采集指标外,可以在图形界面中灵活定义采集周期、采集时间段等采集参数。

采集机制及实现方式可以分为三类,分别为:(1)通过定时轮循机制获取监测对象的性能、配置和故障数据信息;(2)能够对标准SNMP MIB管理数据进行采集,并能够接收、解析和翻译SNMP TRAP,获取事件信息并转换为便于用户理解的信息;(3)同时支持多种扩展采集手段,如数据库读取、WMI、MODBUS、WebService等。

本系统的策略管理、报警显示模块为B/S架构,采集服务器采集到的监控数据后,根据数据库中的报警策略配置和通道策略配置,对这些监控数据进行综合分析,并最终向B/S客户端给出报警决策。报警显示端根据接收到的报警决策进行数据展现和报警处理,将WebSocket、Canvas画面实时显示等HTML5技术用于B/S化网页报警页面,使数据表达更加准确和具象。

3.1 基于多时间粒度分析方法的系统鲁棒性自检

在本系统中采用用Q型聚类分析方法,加入基于多时间粒度分析方法的自检,通过对各被监控设备故障的时间分布的自动学习,按照研究对象的相似程度合理地进行归并和分类,当利用其解决样品的分类问题时称为Q型聚类。根据系统中各项KPI的历史报警频率和Q型聚类算法,《全域全流程播出安全智能可视化应急决策系统》可计算出各项KPI间的相似程度,从而将KPI以历史报警情况相似度为依据进行分类后重新划定采样时间粒度,实现对被监控对象抽样频率的多时间粒度分析,以此为基础完成本系统的鲁棒性自检,以自适应方式定期自动梳理各设备检测时间粒度,减少人工干预,维持系统定常。

3.2 人机联动并发鲁棒式热点巡检

在本系统中采用了人机联动并发式巡检模型,通过对人工巡查的步骤和行为进行记录和统计,提出基于节目序列驱动的人机联动并发式巡检模式:在节目序列涉及的制作域、上载域、备播域、播出域中,自动对节目序列的各项重要指标根据其重要程度、监测难度等特性分别进行人工巡检或机器巡检,使人机联动巡检深度化互补,并全面覆盖被监测目标的所有指征。

这样的人机联动并行工作可以实现大部分工作由自动巡检代替,可提高工作效率、巡检精度及准确性,而复杂性高的巡检项目则保留人机并行检查机制,既提高了监测频率与精度,又效避免了报警风暴、误报率高等机器巡检常见问题。

人机联动并发巡检播出视音频异常指标

图2人机联动并发巡检播出视音频异常指标

3.3 全频道链路可视化展示

本系统按照国家新闻出版广电总局在《广播电视安全播出管理规定》电视中心实施细则(下称总局62号令)中要求,实现了信号监测系统的全流程深度检测:三级应能对播出链路上的关键节点、节目输出点以及接收的自台播出信号进行视音频监看监听,应配置信号异常报警设备;二级、一级在符合三级保障要求的基础上,应能对关键节点信号的主要技术指标进行监测。

在全台所有频道的链路关键节点设置信号采集点,使用嵌入式设备对关键节点的SDI数字信号完成视音频采集、自动技审,并将采集到的视音频转换格式,连同自动技审报警信息一起通过以太网传输至采集端。同时,采集端还以SNMP协议通信方式监控设备链路工作状态。全频道所有链路关键节点各设备信息、视音频、技审结果经采集模块汇聚至展现端,展现端采用HTML5技术将链路工作状态、关键节点视频画面、自动技审信息及报警状态整合;同时,在B/S客户端界面完成信号异常报警、主要技术指标监测可视化,同时任何频道链路出现故障时全频道链路可视化展示界面将以声光方式报警,全频道链路可视化展示

图3全频道链路可视化展示

点击任何报警链路可跳转至相应频道链路关键节点画面监看页面,即下图中“单频道链路可视化展示”,从而第一个真正实现总局62号令对于链路关键节点监看及主要技术指标检测的要求。单频道链路可视化展示

图4单频道链路可视化展示

3.4 应急决策处理方案提示

本系统对播出系统中常见的典型多表征故障建立了告警模型,将各种监测指标与故障类型、故障处理提示之间构建联系,实现了对典型多表征故障的及时有效的应急决策处理方案提示。

以单频道的播出链路为例,当播出链路中多个相邻顺序节点出现相同画面内容自动技审不合格情况时,自动将根据故障现象依据下列真值表定位故障源头,向运维人员发出故障告警并滤除多余告警,同时根据既有告警模型提示运维人员及时切换应急播出链路后检查原链路故障原因,达到定位故障源头、发现故障原因、做出应急决策处理方案提示之目的。

表1链路信号应急决策处理提示

当前链路硬盘播出信号异常 当前链路切换台信号异常 当前链路2选1信号异常 应急决策处理提示
正常
当前链路硬盘播出信号异常,注意链路切换并检查原链路硬盘播出系统
当前链路切换台信号异常,注意链路切换并检查原链路切换台
当前链路2选1播出信号异常,注意链路切换并检查原链路2选1

3.5 决策树式数据挖掘算法

在本系统中,采用从历史告警数据及处理结果产生决策树的机器学习技术作为预测模型,把各监测对象和系统与监测指标之间的关系,转化为对象属性与对象值的映射关系,这样的映射关系即能用于系统对积累数据的分析,同样也能用来对未来运营趋势的预测。对于《全域全流程播出安全智能可视化应急决策系统》而言,决策树中每个节点即表示某个对象,每个分叉路径则代表的某个可能的属性值,每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

决策树构建的基本步骤为:(1)开始,所有记录看作一个节点;(2)遍历每个变量的每一种分割方式,找到最佳分割点,使分割得到节点的纯度之和大于其他任何分割方法;(3)分割成两个节点N1和N2;(4)对N1和N2分别继续执行2-3步,直到每个节点达到最小不纯度为止。

上述步骤中对纯度的量化方法取熵不纯度(Entropy)为计算方式:如果记录被分为n类,每一类的比例P(i)=第i类的数目/总数目,则熵不纯度。

根据以上步骤,通过遍历历史告警数据各项告警属性分支及人工处理意见,对流程出错处理方式决策建议的决策树可自动生成如下图所示,其他可能生成的决策树由于熵不纯度大于此决策树而被排除。流程处理决策树的生成

图5流程处理决策树的生成

此时如出现流程出错,且其告警阈值的属性组合在历史处理记录中未出现过,如{(流程引擎服务器硬件未告警),(数据库相应未超时),(流程状态接口响应时间2100ms),(流程所在子节点系统出现告警)},系统算法按照此决策树从根节点出发依次按照各项属性选择相应路径,将最终得出“检查流程接口是否正常”之分类结论并向运维人员进行决策建议,达到系统通过大数据自动学习故障分类方式并给出相应辅助决策意见之目的。

3.6 画面物件元素监测

本系统利用图像比对技术,从各信号节点中提取关键帧网格化并分配坐标,将各节点关键帧的物件元素与监测指标和变量建立对应关系,通过查找、定位和识别绝对坐标上物件元素的差异,并关联播出单、字幕单的核心信息,将纯画面比对技术与时间空间设置项自动读取分析技术相结合,并从中分析得到台标、字幕等画面物件元素入出点,根据实时节目单自动判定播出画面物件元素状态是否与设定相符,实现了对台标、字幕、广告角标等物件元素的播出时间、叠加状态等目标的监控,同时还兼顾到了监测告警响应的时效性和准确性。

实现方式为:(1)判断画面物件元素状态:使用画面自动比对技术对进入键控器前的原始画面及经过键控器后的叠加画面进行分区域比对,分别确定台标区域、时钟区域、角标区域、字幕区域是否被叠加了相应的画面物件元素。

(2)采集画面物件元素播出计划元数据信息:通过Web Service接口从播出系统接收播出单并解析,获得画面物件元素的播出计划,包括叠加时间入出点、叠加位置大小等。

(3)代入模型分析结果:《全域全流程播出安全智能可视化应急决策系统》采集端获取画面物件元素状态及相应的播出计划元数据信息,判断播出单中的字幕元数据与实际播出画面中的字幕状态是否一致,如不一致,则向《全域全流程播出安全智能可视化应急决策系统》汇聚展现端发送消息,由汇聚展现端向监测人员发出告警信息并给出处理建议。

画面物件元素监测图6画面物件元素监测

3.7 自动切换应急

在保证主备路同级信号完全镜像的前提下,本系统使用嵌入式设备对主备两路末级视音频输出信号进行自动技审,自动技审和画面比对两种方式同时检测画面是否异常,以尽可能减少、误报率。当主路或备路信号监测到异常现象,并且主备两路信号一致性比对不通过时,则判定出现异常。

对于如何根据异常判断情况进行链路切换,本系统的实现方式是:使用SNMP协议与主备路2选1切换台连接,当信号出现异常时根据算法向切换台发出协议控制指令,进行链路自动切换操作,并向运维人员发出相应告警及提示应急方案。

 表2信号异常链路故障判断算法

主路现象 备路现象 主备比对结果 切换动作 告警提示
正常 正常 相同 正常
异常 正常 不同 主倒换备 主路信号异常,已倒换至备路,请检查原主路信号异常原因
正常 异常 不同 备倒换主 备路信号异常,已倒换至主路,请检查原备路信号异常原因
异常 异常 相同 无(可酌情开启自动切换垫片功能) 主备两路信号异常,请切换垫片,并检查信号异常原因

本系统基于视音频异常监测及内容比对等关键技术实现链路视音频异常自动监测切换处理方法,实现了当出现信号异常情况时,播出系统主备路信号能够自动倒换应急并提示运维人员排查原故障,从而大大缩短信号事件的处理时间,提高节目播出安全性,基本达到单源故障、单链路故障时可以10帧内识别、处理,并在1秒内完成自动倒换处理。

 

4  项目创新成果

4.1  基于节目序列驱动的人机联动并发式巡检

采用了人机联动并发式巡检模型,大量收集系统运行的监测数据和人工巡查的步骤和行为进行记录和统计,以此为依据确定了全域全流程播出安全智能可视化应急决策系统的巡检范围和指标,将制播系统内的运维对象转化为逻辑关系,把静态的系统和设备结构转化为一系列动态弹性响应的策略,形成了基于节目序列驱动的人机联动并发式巡检模式,实现了在节目序列涉及的制作域、上载域、备播域、发布域中,自动对节目序列的幅型信息、技审信息、信号源、节目类型、间隙误差、时间长度、物理文件关键项目进行深度化检测,并将结果智能分析后,发出错误告警,提出应急处理方案。

4.2  台标、字幕、广告角标等物件元素的状态监控

利用图像比对技术,全域全流程播出安全智能可视化应急决策系统从各信号节点中提取关键帧网格化并分配坐标,将各节点关键帧的物件元素与监测指标和变量建立对应关系,通过查找、定位和识别绝对坐标上物件元素的差异,并关联播出单、字幕单的核心信息,将纯画面比对技术与时间空间设置项自动读取分析技术相结合,通过WebService接口从播出系统获得播出单,并从中分析得到台标、字幕等画面物件元素入出点,根据实时节目单自动判定播出画面物件元素状态是否与设定相符,实现了对台标、字幕、广告角标等物件元素的播出时间、叠加状态等目标的监控,。

4.3  多时间粒度热点分析以及Robustness自检

系统在运行期间会根据预置的核心项目指标,利用大数据处理技术,通过积累、挖掘与分析进一步优化了系统热点和核心指标的监测效果,按时间粒度和周期模型分析,自动筛选健康度指标异常的设备并标识为系统热点,创建并形成热点自检列表进行深度巡检,对设备被监控KPI按照问题严重程度设定多重触发阈值,对历史分级阈值触发情况记入数据库并综合分析,再将结果单独输出到表单界面中,实现了热点自动分析以及Robust式自检,维护制播系统的线性定常。

4.4  全频道链路状态展示和切换应急提示

采用B/S结构技术实现了全频道链路状态展示和告警,并根据播出系统特点和应急切换需要将关键节点划分为三个级别,分别是信号源、主备通道、末级视分。在链路状态界面中都以绿色和红色直观反映广西电视台各频道关键节点和信号路由状态,使用者无须专门客户端也无须关注千变万化的播出画面和音频信息,使用户可在一个页面全面直观了解电视台所有频道各播出链路的运行状态,并实现链路关键节点画面实时监看、关键技术指标监测功能,从而首个完成总局62号令对于播出信号监测之要求。

本系统基于视音频异常监测及内容比对等关键技术实现链路视音频异常自动监测切换处理方法,实现了当出现信号异常情况时,播出系统主备路信号能够自动倒换应急并提示运维人员排查原故障,从而大大缩短信号事件的处理时间,提高节目播出安全性,基本达到单源故障、单链路故障时可以10帧内识别、处理,并在1秒内完成自动倒换处理。

4.5  采用决策树进行数据挖掘提供应急辅助决策信息

本系统的决策树,采用从数据产生决策树的机器学习技术作为预测模型,免去了大量数据预处理工作,还能同时处理数据型和常规型属性,把各监测对象和系统与监测指标之间的关系,转化为对象属性与对象值的映射关系,这样的映射关系即能用于系统对积累数据的分析,同样也能用来对未来运营趋势的预测,尤其适合电视台的复杂业务环境和结构庞大、成分复杂的监测目标,也易于通过静态测试实现对模型的评测,在相对短的时间内就可以对大型数据源做出可行且效果良好的结果,运行效率和响应敏捷度较高,在发生突发故障时通过决策树保证输出有效和准确的应急辅助决策信息。

综上,《全域全流程播出安全智能可视化应急决策系统》基本实现了以下建设目标:

4.5.1  建立全面的故障预警机制;

4.5.2  建立全面的故障分析体系;

4.5.3  建立全面的故障应急处理机制;

4.5.4  提高技审和监测系统的准确性;

4.5.5  具备事故分析能力;

4.5.6  实现巡检自动化;

以上项目创新成果解决了普遍存在于现有广电监测、辅助系统中的报警不及时、界面不直观、播出业务状态难以监管、故障模型建立方式不智能等一系列问题,能够真正实现对播出系统故障及时报警、问题原因准确定位、辅助决策快速提示、应急处理措施自动响应之功能,相关研究成果可广泛用于广电行业的播出应急处理与辅助决策提示,具有良好的推广意义和广阔的应用空间。

5 总结

通过应用《全域全流程播出安全智能可视化应急决策系统》,广西电视台能够全天候监控播出机房环境、软硬件工作情况、制播送播流程状态、播出链路及画面状态等业务要素。同时,通过对新技术、新概念的应用尝试,本系统具备了一系列独特而有效的功能特点,能以最节约的人力成本、最快和最佳的方式发出警报并分析和提供有效应对措施,从而能够更加有效的进行应急处理,最大限度地降低故障损失。

全域全流程播出安全智能可视化应急决策系统的设计及实现

唐晓晖

(广西电视台)

 

摘要:全域全流程播出安全智能可视化应急决策系统》能够有效监测节目生产、媒资、整备、播出、传输等电视台关键业务流的运行状态,涵盖信号、环境、网络、服务器、数据库、中间件和应用等部件和子系统,以全域全流程的广度和深度,全面、及时的掌握整个电视台大播控系统的运维信息,能够在早期预先发现隐患,将风险从播出端前移,提高业务流程故障处理的能力和效率,并为信息统计、系统评估和将来的科学决策提供重要依据。通过对新技术、新理念的应用尝试,

关键词:流程 播出安全 辅助 决策 应急

 

1  项目概况

《全域全流程播出安全智能可视化应急决策系统》是广西电视台根据多年电视节目制作播出的经验教训,结合当前各种新技术的应用,自主提出的旨在提高制播系统安全性和应急处理能力的解决方案,是对电视台制播安全的一次总结和升级,是制播系统智能化的重要尝试。通过对视音频技术、IT技术、B/S开发构架等前沿科技成果的综合应用和开发,强化了高新科技对电视台业务的强力支撑。

在设计和实施过程中,该项目贯彻了以人为本的思想,数据的采集方式和人机接口呈现方式都与传统的监测应急系统不同,让使用者能够从复杂的运行数据中便捷、准确地获取他们关心的信息,以全域全流程的广度和深度,全面、及时的掌握整个电视台大播控系统的运维信息,能够在早期预先发现隐患,将风险从播出端前移,提高业务流程故障处理的能力和效率,并为信息统计、系统评估和将来的科学决策提供重要依据。

正式运营以来,《全域全流程播出安全智能可视化应急决策系统》累计保障各种业务环境下的安全播出85917小时,各类大型直播和日常直播2832场,为84236条上载素材、5123条定时收录素材、1265条互连互通平台素材的上载、转码、整备、迁移等任务流程提供监管服务,完成了197358条节目素材的技审和校验,为台内日常播出和工作提供了安全保障。

 

2  设计思路

2.1  信息可视化

《全域全流程播出安全智能可视化应急决策系统》的信息可视化囊括了数据可视化、信息图形、知识可视化、科学可视化以及人机互动界面设计等方面,系统内的任何监测数据、运行状态等信息都通过简单易于理解的动态或静态的图表数据等形式直观展示。在客户端通过最新多媒体技术,将WebSocketCanvas画面实时显示等HTML5技术用于B/S化网页报警页面,使数据表达更加准确和具象。同时,系统可对积累数据进行分析和归档,利用数据学习技术,对设备被监控KPI按照问题严重程度设定多重触发阈值,对历史分级阈值触发情况记入数据库并综合分析,挖掘可能引发问题的潜在风险,并转化为易于理解的直观图形图像向使用者发出预警,为使用者提供决策和分析依据。

2.2 全域全生命周期的播出系统监测与管理

《全域全流程播出安全智能可视化应急决策系统》在运行期间,根据预置的核心项目指标,利用自身积累的数据,按时间粒度和周期模型分析,自动筛选健康度指标异常的设备并标识为系统热点,创建并形成热点自检列表进行深度巡检,再将结果单独输出到表单界面中,实现了将系统全域设备按生命周期进行热点自动分析分类监测管理。

2.3  安全性

《全域全流程播出安全智能可视化应急决策系统》的架构设计安全可靠,具有较好的存储、设备、链路的冗余以及很强的软件容错能力和可靠性,所采用的设备及技术也兼顾了先进性与成熟性。采用B/S架构建立汇聚、分析、展现等模块,采用C/S架构建立数据采集模块,充分运用了不同架构的优势,使各个模块具有稳定、相对独立和易于维护等特性。同时,系统模块间建立了松耦合的连接模式,彼此间通过Socket通信、数据库异步通信、WebService通信等多种方式完成信息交互和工作协同,并具有足够的通信方式冗余。

2.4  智能性

《全域全流程播出安全智能可视化应急决策系统》以运行积累的大数据为基础,采用数据挖掘的方式建立并修整决策树,从而对故障进行自动分类,使本系统在监测到未处理过的故障类型时可根据以往人为处理记录自动给出故障决策处理意见。

2.5  应急决策提示

《全域全流程播出安全智能可视化应急决策系统》通过研究各项KPI指标与实际故障间的关联关系,为实际故障、应急决策处理方法建立多项报警阈值和告警模型,使得当播出系统出现多项阈值超标的情况时,《全域全流程播出安全智能可视化应急决策系统》可快速判断故障类型与故障位置,同时向工作人员发出故障告警并给出相应应急决策处理方案提示,帮助工作人员及时有效排除故障。

 

3  系统架构

在逻辑架构上,《全域全流程播出安全智能可视化应急决策系统》主要由数据采集、策略管理和报警显示三部分组成。

1系统架构逻辑结构图

如上图所示,本系统采用B/S架构建立汇聚、分析、展现等模块,采用C/S架构建立数据采集模块,充分运用了不同架构的优势,使各个模块具有稳定、相对独立和易于维护等特性。其中数据采集服务模块可根据SNMPWMIMODBUSWebService、数据库读取、串口通信等方式从监控对象处采集到监控数据,然后根据报警策略配置对采集到的监控数据进行初步的过滤,同时将重要的过程数据写入数据库,以备用户查询,最后将这些过滤后的监控数据发送到策略管理模块。策略管理模块通过相应算法将接收到的数据经过进一步计算加工后,将最终结果以告警或辅助决策的形式通过告警显示模块最终呈现给用户。

《全域全流程播出安全智能可视化应急决策系统》的数据采集模块为C/S架构,根据预先定义的管理对象和管理指标间的关联关系提供可选择的采集指标清单。除了采集对象和采集指标外,可以在图形界面中灵活定义采集周期、采集时间段等采集参数。

采集机制及实现方式可以分为三类,分别为:(1)通过定时轮循机制获取监测对象的性能、配置和故障数据信息;(2)能够对标准SNMP MIB管理数据进行采集,并能够接收、解析和翻译SNMP TRAP,获取事件信息并转换为便于用户理解的信息;(3)同时支持多种扩展采集手段,如数据库读取、WMIMODBUSWebService等。

本系统的策略管理、报警显示模块为B/S架构,采集服务器采集到的监控数据后,根据数据库中的报警策略配置和通道策略配置,对这些监控数据进行综合分析,并最终向B/S客户端给出报警决策。报警显示端根据接收到的报警决策进行数据展现和报警处理,将WebSocketCanvas画面实时显示等HTML5技术用于B/S化网页报警页面,使数据表达更加准确和具象。

3.1 基于多时间粒度分析方法的系统鲁棒性自检

在本系统中采用用Q型聚类分析方法,加入基于多时间粒度分析方法的自检,通过对各被监控设备故障的时间分布的自动学习,按照研究对象的相似程度合理地进行归并和分类,当利用其解决样品的分类问题时称为Q型聚类。根据系统中各项KPI的历史报警频率和Q型聚类算法,《全域全流程播出安全智能可视化应急决策系统》可计算出各项KPI间的相似程度,从而将KPI以历史报警情况相似度为依据进行分类后重新划定采样时间粒度,实现对被监控对象抽样频率的多时间粒度分析,以此为基础完成本系统的鲁棒性自检,以自适应方式定期自动梳理各设备检测时间粒度,减少人工干预,维持系统定常。

3.2 人机联动并发鲁棒式热点巡检

在本系统中采用了人机联动并发式巡检模型,通过对人工巡查的步骤和行为进行记录和统计,提出基于节目序列驱动的人机联动并发式巡检模式:在节目序列涉及的制作域、上载域、备播域、播出域中,自动对节目序列的各项重要指标根据其重要程度、监测难度等特性分别进行人工巡检或机器巡检,使人机联动巡检深度化互补,并全面覆盖被监测目标的所有指征。

这样的人机联动并行工作可以实现大部分工作由自动巡检代替,可提高工作效率、巡检精度及准确性,而复杂性高的巡检项目则保留人机并行检查机制,既提高了监测频率与精度,又效避免了报警风暴、误报率高等机器巡检常见问题。

2人机联动并发巡检播出视音频异常指标

3.3 全频道链路可视化展示

本系统按照国家新闻出版广电总局在《广播电视安全播出管理规定》电视中心实施细则(下称总局62号令)中要求,实现了信号监测系统的全流程深度检测:三级应能对播出链路上的关键节点、节目输出点以及接收的自台播出信号进行视音频监看监听,应配置信号异常报警设备;二级、一级在符合三级保障要求的基础上,应能对关键节点信号的主要技术指标进行监测。

在全台所有频道的链路关键节点设置信号采集点,使用嵌入式设备对关键节点的SDI数字信号完成视音频采集、自动技审,并将采集到的视音频转换格式,连同自动技审报警信息一起通过以太网传输至采集端。同时,采集端还以SNMP协议通信方式监控设备链路工作状态。全频道所有链路关键节点各设备信息、视音频、技审结果经采集模块汇聚至展现端,展现端采用HTML5技术将链路工作状态、关键节点视频画面、自动技审信息及报警状态整合;同时,在B/S客户端界面完成信号异常报警、主要技术指标监测可视化,同时任何频道链路出现故障时全频道链路可视化展示界面将以声光方式报警,

 

3全频道链路可视化展示

点击任何报警链路可跳转至相应频道链路关键节点画面监看页面,即下图中“单频道链路可视化展示”,从而第一个真正实现总局62号令对于链路关键节点监看及主要技术指标检测的要求。

 

4单频道链路可视化展示

3.4 应急决策处理方案提示

本系统对播出系统中常见的典型多表征故障建立了告警模型,将各种监测指标与故障类型、故障处理提示之间构建联系,实现了对典型多表征故障的及时有效的应急决策处理方案提示。

以单频道的播出链路为例,当播出链路中多个相邻顺序节点出现相同画面内容自动技审不合格情况时,自动将根据故障现象依据下列真值表定位故障源头,向运维人员发出故障告警并滤除多余告警,同时根据既有告警模型提示运维人员及时切换应急播出链路后检查原链路故障原因,达到定位故障源头、发现故障原因、做出应急决策处理方案提示之目的。

当前链路硬盘播出信号异常

当前链路切换台信号异常

当前链路21信号异常

应急决策处理提示

正常

当前链路硬盘播出信号异常,注意链路切换并检查原链路硬盘播出系统

当前链路切换台信号异常,注意链路切换并检查原链路切换台

当前链路21播出信号异常,注意链路切换并检查原链路21

1链路信号应急决策处理提示

3.5 决策树式数据挖掘算法

在本系统中,采用从历史告警数据及处理结果产生决策树的机器学习技术作为预测模型,把各监测对象和系统与监测指标之间的关系,转化为对象属性与对象值的映射关系,这样的映射关系即能用于系统对积累数据的分析,同样也能用来对未来运营趋势的预测。对于《全域全流程播出安全智能可视化应急决策系统》而言,决策树中每个节点即表示某个对象,每个分叉路径则代表的某个可能的属性值,每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

决策树构建的基本步骤为:(1)开始,所有记录看作一个节点;(2)遍历每个变量的每一种分割方式,找到最佳分割点,使分割得到节点的纯度之和大于其他任何分割方法;(3)分割成两个节点N1N2;(4)对N1N2分别继续执行2-3步,直到每个节点达到最小不纯度为止。

上述步骤中对纯度的量化方法取熵不纯度(Entropy)为计算方式:如果记录被分为n类,每一类的比例P(i)=i类的数目/总数目,则熵不纯度

根据以上步骤,通过遍历历史告警数据各项告警属性分支及人工处理意见,对流程出错处理方式决策建议的决策树可自动生成如下图所示,其他可能生成的决策树由于熵不纯度大于此决策树而被排除。

 

5流程处理决策树的生成

 

此时如出现流程出错,且其告警阈值的属性组合在历史处理记录中未出现过,如{(流程引擎服务器硬件未告警),(数据库相应未超时),(流程状态接口响应时间2100ms),(流程所在子节点系统出现告警)},系统算法按照此决策树从根节点出发依次按照各项属性选择相应路径,将最终得出“检查流程接口是否正常”之分类结论并向运维人员进行决策建议,达到系统通过大数据自动学习故障分类方式并给出相应辅助决策意见之目的。

3.6 画面物件元素监测

本系统利用图像比对技术,从各信号节点中提取关键帧网格化并分配坐标,将各节点关键帧的物件元素与监测指标和变量建立对应关系,通过查找、定位和识别绝对坐标上物件元素的差异,并关联播出单、字幕单的核心信息,将纯画面比对技术与时间空间设置项自动读取分析技术相结合,并从中分析得到台标、字幕等画面物件元素入出点,根据实时节目单自动判定播出画面物件元素状态是否与设定相符,实现了对台标、字幕、广告角标等物件元素的播出时间、叠加状态等目标的监控,同时还兼顾到了监测告警响应的时效性和准确性。

实现方式为:(1)判断画面物件元素状态:使用画面自动比对技术对进入键控器前的原始画面及经过键控器后的叠加画面进行分区域比对,分别确定台标区域、时钟区域、角标区域、字幕区域是否被叠加了相应的画面物件元素。

2)采集画面物件元素播出计划元数据信息:通过Web Service接口从播出系统接收播出单并解析,获得画面物件元素的播出计划,包括叠加时间入出点、叠加位置大小等。

3)代入模型分析结果:《全域全流程播出安全智能可视化应急决策系统》采集端获取画面物件元素状态及相应的播出计划元数据信息,判断播出单中的字幕元数据与实际播出画面中的字幕状态是否一致,如不一致,则向《全域全流程播出安全智能可视化应急决策系统》汇聚展现端发送消息,由汇聚展现端向监测人员发出告警信息并给出处理建议。

 

6画面物件元素监测

 

3.7 自动切换应急

在保证主备路同级信号完全镜像的前提下,本系统使用嵌入式设备对主备两路末级视音频输出信号进行自动技审,自动技审和画面比对两种方式同时检测画面是否异常,以尽可能减少、误报率。当主路或备路信号监测到异常现象,并且主备两路信号一致性比对不通过时,则判定出现异常。

对于如何根据异常判断情况进行链路切换,本系统的实现方式是:使用SNMP协议与主备路21切换台连接,当信号出现异常时根据算法向切换台发出协议控制指令,进行链路自动切换操作,并向运维人员发出相应告警及提示应急方案。

 

主路现象

备路现象

主备比对结果

切换动作

告警提示

正常

正常

相同

正常

异常

正常

不同

主倒换备

主路信号异常,已倒换至备路,请检查原主路信号异常原因

正常

异常

不同

备倒换主

备路信号异常,已倒换至主路,请检查原备路信号异常原因

异常

异常

相同

无(可酌情开启自动切换垫片功能)

主备两路信号异常,请切换垫片,并检查信号异常原因

2信号异常链路故障判断算法

 

本系统基于视音频异常监测及内容比对等关键技术实现链路视音频异常自动监测切换处理方法,实现了当出现信号异常情况时,播出系统主备路信号能够自动倒换应急并提示运维人员排查原故障,从而大大缩短信号事件的处理时间,提高节目播出安全性,基本达到单源故障、单链路故障时可以10帧内识别、处理,并在1秒内完成自动倒换处理。

 

4  项目创新成果

4.1  基于节目序列驱动的人机联动并发式巡检

采用了人机联动并发式巡检模型,大量收集系统运行的监测数据和人工巡查的步骤和行为进行记录和统计,以此为依据确定了全域全流程播出安全智能可视化应急决策系统的巡检范围和指标,将制播系统内的运维对象转化为逻辑关系,把静态的系统和设备结构转化为一系列动态弹性响应的策略,形成了基于节目序列驱动的人机联动并发式巡检模式,实现了在节目序列涉及的制作域、上载域、备播域、发布域中,自动对节目序列的幅型信息、技审信息、信号源、节目类型、间隙误差、时间长度、物理文件关键项目进行深度化检测,并将结果智能分析后,发出错误告警,提出应急处理方案。

4.2  台标、字幕、广告角标等物件元素的状态监控

利用图像比对技术,全域全流程播出安全智能可视化应急决策系统从各信号节点中提取关键帧网格化并分配坐标,将各节点关键帧的物件元素与监测指标和变量建立对应关系,通过查找、定位和识别绝对坐标上物件元素的差异,并关联播出单、字幕单的核心信息,将纯画面比对技术与时间空间设置项自动读取分析技术相结合,通过WebService接口从播出系统获得播出单,并从中分析得到台标、字幕等画面物件元素入出点,根据实时节目单自动判定播出画面物件元素状态是否与设定相符,实现了对台标、字幕、广告角标等物件元素的播出时间、叠加状态等目标的监控,。

4.3  多时间粒度热点分析以及Robustness自检

系统在运行期间会根据预置的核心项目指标,利用大数据处理技术,通过积累、挖掘与分析进一步优化了系统热点和核心指标的监测效果,按时间粒度和周期模型分析,自动筛选健康度指标异常的设备并标识为系统热点,创建并形成热点自检列表进行深度巡检,对设备被监控KPI按照问题严重程度设定多重触发阈值,对历史分级阈值触发情况记入数据库并综合分析,再将结果单独输出到表单界面中,实现了热点自动分析以及Robust式自检,维护制播系统的线性定常。

4.4  全频道链路状态展示和切换应急提示

采用B/S结构技术实现了全频道链路状态展示和告警,并根据播出系统特点和应急切换需要将关键节点划分为三个级别,分别是信号源、主备通道、末级视分。在链路状态界面中都以绿色和红色直观反映广西电视台各频道关键节点和信号路由状态,使用者无须专门客户端也无须关注千变万化的播出画面和音频信息,使用户可在一个页面全面直观了解电视台所有频道各播出链路的运行状态,并实现链路关键节点画面实时监看、关键技术指标监测功能,从而首个完成总局62号令对于播出信号监测之要求。

本系统基于视音频异常监测及内容比对等关键技术实现链路视音频异常自动监测切换处理方法,实现了当出现信号异常情况时,播出系统主备路信号能够自动倒换应急并提示运维人员排查原故障,从而大大缩短信号事件的处理时间,提高节目播出安全性,基本达到单源故障、单链路故障时可以10帧内识别、处理,并在1秒内完成自动倒换处理。

4.5  采用决策树进行数据挖掘提供应急辅助决策信息

本系统的决策树,采用从数据产生决策树的机器学习技术作为预测模型,免去了大量数据预处理工作,还能同时处理数据型和常规型属性,把各监测对象和系统与监测指标之间的关系,转化为对象属性与对象值的映射关系,这样的映射关系即能用于系统对积累数据的分析,同样也能用来对未来运营趋势的预测,尤其适合电视台的复杂业务环境和结构庞大、成分复杂的监测目标,也易于通过静态测试实现对模型的评测,在相对短的时间内就可以对大型数据源做出可行且效果良好的结果,运行效率和响应敏捷度较高,在发生突发故障时通过决策树保证输出有效和准确的应急辅助决策信息。

综上,《全域全流程播出安全智能可视化应急决策系统》基本实现了以下建设目标:

4.5.1  建立全面的故障预警机制;

4.5.2  建立全面的故障分析体系;

4.5.3  建立全面的故障应急处理机制;

4.5.4  提高技审和监测系统的准确性;

4.5.5  具备事故分析能力;

4.5.6  实现巡检自动化;

以上项目创新成果解决了普遍存在于现有广电监测、辅助系统中的报警不及时、界面不直观、播出业务状态难以监管、故障模型建立方式不智能等一系列问题,能够真正实现对播出系统故障及时报警、问题原因准确定位、辅助决策快速提示、应急处理措施自动响应之功能,相关研究成果可广泛用于广电行业的播出应急处理与辅助决策提示,具有良好的推广意义和广阔的应用空间。

 

5 总结

通过应用《全域全流程播出安全智能可视化应急决策系统》,广西电视台能够全天候监控播出机房环境、软硬件工作情况、制播送播流程状态、播出链路及画面状态等业务要素。同时,通过对新技术、新概念的应用尝试,本系统具备了一系列独特而有效的功能特点,能以最节约的人力成本、最快和最佳的方式发出警报并分析和提供有效应对措施,从而能够更加有效的进行应急处理,最大限度地降低故障损失。