数据挖掘技术在广播发射台中的应用与研究
王晓平 王铁英 宋晓红
(国家新闻出版广电总局二〇二二台)
摘要: 随着广播发射台信息化建设的迅速发展,各种广播发射机及其附属设备的自动化系统应运而生,相应的数据库规模也不断扩大,传统的数据查询和报表工具已经无法满足从这庞大的数据中挖掘有效信息的需求,这就需要利用数据挖掘技术帮助人们分析数据和理解数据,提炼隐藏在其中的有价值的信息,反映出设备实际运行状态,对潜在的故障隐患进行提前预测,提升发射台安全播出保障能力。 关键词:广播发射机 数据挖掘 数据库 预测分析 1 引言近几年,中、短波广播发射台的发射机自动化系统、电力自动化系统、天线自动控制系统以及台站环境监控系统等一系列的自动化系统或平台逐步建设起来,计算机技术和数据收集技术以不可想象的速度收集和存储信息,台站数据库中的数据迅速膨胀,其中收集了海量的设备的运行数据和相关参数。收集这些数据的主要目的为了得到信息,然而大量数据的获得并不代表信息的获得。尽管借助数据库技术我们可以实现大量数据流的存储,但是却无法对数据进行分析和理解,使数据以一种可以理解的信息的方式呈现出来。当前,我们获取数据中信息的主要方法是通过台站工程师或专家依据经验对数据进行分析、比较、筛选、综合和再提取来实现的,工程师或专家的水平或看待问题的角度不同,所反馈的信息也就不同,那么这个信息的可信度也就无法得到保障。知识发现(Knowledge-Discovery in Databases)和数据挖掘(Data Mining)技术的发展为台站工程师提供了高效利用数据的解决思路,通过数据算法可以搜索隐藏其中的有效数据信息,而不仅仅是简单实现信息检索(Information Retrieval)功能。这样,就可以高效的对数据进行深层次的分析和处理,挖掘数据内在的规律或信息,解决数据高速增加和数据分析方法滞后的矛盾,让台站数据库中存储记录的的大量的广播发射机及其附属设备的运行数据和相关参数“活”起来,让这些“沉睡”的数据变成可以理解的有效信息,为设备的管理者和维护者提供决策支持,实现可预见性的检修和维护,提升设备运行的安全可靠性。 2 知识发现与数据挖掘知识发现,即在数据库中获取知识,从数据集中发现有效的、潜在的以及最终可理解的模式的过程。它代表从低层次数据信息中提取高层次知识的全过程,包括数据信息收集、数据原型确定、相关函数分析、知识抽取和数据模式分析。数据挖掘,即从大量的数据中搜索事先不知道却又隐含其中的潜在信息的过程。数据挖掘是知识发现中的一个步骤,一般与计算机科学相关,通过统计、在线分析处理、专家系统、机器学习和模式识别等方法实现上述目标。数据挖掘以数据库、人工智能、数理统计、可视化等为技术基础。我们知道,算法设计主要包括输入、输出和处理过程等三个部分。对于数据挖掘来说,算法输入是数据库,算法输出是要发现的知识或模式,算法的处理过程就是设计搜索方法的过程。这样,就可以确定数据挖掘涉及的三个主要方面:挖掘对象、挖掘任务和挖掘方法。挖掘对象包括各种数据库或数据源,例如关系数据库、文本数据库、多媒体数据库、历史数据库、面向对象数据库以及万维网(WEB)等;挖掘方法主要包括统计方法、机器学习方法、神经网络方法和数据库方法等,上述方法又各自包含多种分支算法或分析方法。数据挖掘的过程是一个复杂的过程,首先要从数据库或数据源中获取数据,选择特征属性,挑选样本策略,删除异常或非法数据并补足不足部分,用恰当的降维、变换使数据挖掘过程与数据模型相匹配,辨别结果是否是知识则需要对其信息化或可视化,最后与现有的知识相比较。这些过程是数据到知识的必由之路,每一个阶段或步骤都是决定成败与否的关键因素。3 广播发射台应用数据的归纳分析图1 广播发射台自动化系统示意图
中、短波广播发射台的应用数据主要来自台站发射机及其附属设备的自动化系统或平台,主要包含设备运行数据、历史信息数据、故障信息数据和运维数据等。典型数据源主要包括发射机自动化控制系统、节目监听监测系统、播出质量保证系统、电力综保自动化系统、天线交换开关矩阵自动化控制系统以及台站环境监控系统等的数据库,如图1所示。要在上述数据源中进行数据挖掘,提取大量的、人们事先不知道、而又隐含其中的信息,首先就要对这些数据源中的应用数据进行归纳分析。广播发射台发射机及其附属设备自动化控制系统基本涉及到台站全部技术设施,虽然各种自动化控制系统或平台分别负责不同设备的自动化控制和运行数据记录,但是,各自动化数据库中的数据类型主要包括模拟量数据、开关量数据、故障信息、历史记录和文本提示信息等。图2 通信数据规范及应用数据归类示意图
在台站自动化系统或平台构建初期,开发设计人员首先对台站自动化平台和各个子自动化系统的通信接口数据格式进行了统一规范,如图2所示。以发射机自动化控制系统为例,发射机的模拟运行数据以模拟量数据的格式记录存储,开关量数据以数字开关量的格式记录存储,故障信息、文本信息和历史记录首先通过标识码映射表查询对应的数字信息识别,然后将数字信息识别码进行传输和存储。3.1 关联性分析数据关联是数据库中存在一种重要的、可被发现的知识。关联可分为:简单关联、因果关联和时序关联。通过关联分析可以找出数据中的隐含的关联网,寻找两个及以上变量的取值之间存在的某种规律。如图2所示,故障信息、文本信息和历史记录与数字信息识别码之间就存在关联。这样,我们就可通过这种简单关联通过对数字信息识别码的统计分析实现其关联变量的分析。3.2 聚类分析聚类是按照相似度把数据归纳成不同类别,同一类别种的数据彼此相似,相反,不同类别中的数据彼此相异。通过聚类分析可以建立宏观的概念,把不同系统中的相似数据进行归类,发现数据之间的可能的相关属性。这样,就可以实现发射台各子系统中数据聚类分析。3.3 时序模式时序模式是通过时间序列搜索出重复发生概率较高的模式,用已知的数据推测未来的趋势,只不过是变量数据所处时间不同。通过对不同时间点上发射台设备的运行数据进行分析和比较,归纳设备运行的规律。3.4 预测分析预测分析是使用历史数据推测出未来的变化规律,建立模型,对数据的未来属性或特征发展趋势进行预测。通过对发射台设备存储的历史数据或记录的变化,总结其规律,建立其模型,就可对设备运行的趋势进行预测。4 数据挖掘技术在发射台中的应用对于中、短广播发射台来说,安全播出是永恒的主题,发射机及其附属设备运行是否稳定可靠,是保障安全传输发射工作的基石和根本。利用数据挖掘技术对设备运行数据进行分析,掌握当前设备的运行状态是否健康,预测运行状态演变趋势,具有十分重大的现实意义。图3 运行状态判断及故障预测流程
现在,利用上文中提到的数据归纳及分析方法,以数据挖掘技术在TSW2500型发射机运行维护中的应用为例,来探讨其应用方案及前景。首先,在发射机自动化控制系统中提取相关数据,对数据进行预处理、筛选、归纳、对比和综合分析,建立数据仓库,构建发射机运行状态与记录数据的关联。如图3所示,发射机的实时运行状态发送至最佳运行数据模型库中进行比对分析,若数据偏离波动界限,则判断数据是否为偶发性数据噪声,若是则抛弃数据,流程返回,若否则将数据发送至数据比对数据库中查询相似数据,若发现相似数据,则通过故障信息库的数据映射表查询故障信息,预测可能发生故障信息,提供解决方案,如果无法查询到相似数据,则将数据保存至比对数据库供以后查询分析。图4 发射机元器件更换流程监视流程
在发射机运行维护中,如何高质量的完成元器件的更换,是保障检修维护质量的根本,因此,数据挖掘技术在这个过程中应用意义重大。如图4所示,当发射机元器件进行更换时,如果更换后发射机实时状态通过比对超过偏离界限,则需要重新调整元器件,若否则把当前调谐数据发送至调谐数据比对库比较,若调谐数据偏离过大,则需要继续重新调整元器件,若否则元器件更换成功。数据挖掘技术在广播发射台中的应用还处于不断摸索的初级阶段,需要广大技术人员不断的、深入的进行研究和探索,但是,不可否认的是该项技术的广泛应用必定能够使安全播出质量和水平出现质的飞跃。5 结束语本文通过在广播发射台中的一些应用实践论述,简单论述了数据挖掘技术的基本理论和概念,这项技术作为一个新兴的研究领域,仍然有许多问题需要进行深入研究。但是,随着对数据挖掘技术日益广泛的应用和数据资源共享及技术发展的跨域,必定能够促进安全传输发射工作实现质的飞跃。参考文献
[1] 何新贵.人工智能新进展[M] .北京:清华大学出版社,1994.[2] 陶浦周,李强.Sybase数据库技术大全[M] .北京:科学出版社,1995. 论文作者联系方式:联 系 人:王铁英联系电话:136-5753-4567电子邮箱:abrs_wty@163.com 论文作者信息汇总:第一作者:王晓平单位:国家新闻出版广电总局二〇二二台职务/职称:总工/高级工程师第二作者:王铁英单位:国家新闻出版广电总局二〇二二台职务/职称:主任/高级工程师第三作者:宋晓红单位:国家新闻出版广电总局二〇二二台职务/职称:无 /工程师 编辑:中国新闻技术工作者联合会
评论 点击评论