基于大数据采集、处理和关联技术的北京电视台可视化智能监控系统的设计与实践
冯新春、苏爽
(北京电视台)
【摘要】 随着IT技术应用的普及和网络规模的不断拓展,网络及其网络上内容的运行安全问题日益增多,如何构建一个智能、高效的信息监控管理工具逐渐成为企事业信息管理者们关注的问题。本文概要性介绍了北京电视台全台办公网监控系统的研制背景、项目目标和采用的技术要素,并就目前国内外监控系统的发展状况和北京电视台监控系统的方案设计和综合技术应用特色、亮点以及在应用中取得的成果进行了简要说明。【主题词】 智能监控 数据采集 可视化 关联分析 业务仿真 1.项目背景近年来随着北京电视台整体事业的发展,新的业务和需求不断涌现,与之相应,作为服务于电视业务和电视台日常办公需要的IT信息管理系统数量和网络系统规模也在急剧增长。面对网络上越来越多的业务系统和数据,如何管理和保障网络、业务系统及相关数据的运行安全,使得管理人员具有超强的发现问题、解决问题的能力,成为北京电视台IT部门急需解决的问题。以往的经验告诉我们,在北京电视台这样一个拥有数千台各式IT设备和二十多套IT业务系统,网络范围跨越东西新老北京电视台的环境下,没有先进、智能的管理工具,仅凭人员自身的专业技能很难高效的完成一个庞大系统的维护管理任务。2013年初,在前期广泛需求调研、详细技术设计、多种方案反复测试的基础上,北京电视台监控系统的建设正式启动,经过8个月的紧张工作,该系统与2013年10月开始运行。 2.项目建设目标通过监控管理平台的建设应能实现对北京电视台新旧台网络流量、网络设备、服务器、应用系统、业务服务、运维管理、资产信息等内容进行智能统一的展示、分析和管理。同时具备完整的告警工单触发、工单流转的功能,并可与北京电视台现有的相关系统和设备进行对接。实现对北京电视台新老台现有的办公网络和与其独立的各子网(如:演播室专用网络、无线专网等)的流量和设备状态进行统一的监控。通过这个综合业务监控管理平台,提供较完善的运维管理功能,具有符合管理员使用习惯的知识库和资产管理功能。建立完善的CMDB库,实现与各个部门的协同和协作管理。建立符合电视台信息化发展特点的运维管理机制,从而实现运维工作的标准化、规范化和流程化管理。遵循关键业务流程监控和快速故障定位的原则将关键业务层次化,分别对应用服务、应用和中间件以及物理设施进行监控,并能进行关联分析和关联告警。 3. 系统设计3.1总体架构基于Mocha BSM Visto产品的北京电视台监控系统采用B/S架构,通过Portal的统一展现,对基础架构和应用系统进行全面监控,提供面向服务的端到端响应时间管理,不断改善用户体验;系统遵循ITIL流程框架,将运维工作纳入IT管理流程,最终建立业务服务管理;通过有效的报告报表分析,使办公网管理员能够动态可视的了解到IT 基础架构与业务服务之间的变化关系,最终进行帮助BTV实现IT系统的持续优化和长期规划。总体架构如“图1”所示:3.2系统技术架构基于Mocha BSM Visto产品的网络和服务器实施监控解决方案的技术架构拥有以下几方面的特性:图1 系统总体架构
基于Java 2 Enterprise Edition(J2EE)开发,符合现在受欢迎的主流技术。Mocha BSM Visto可以在不同的Java容器上运行,包括Tomcat,Weblogic或者WebSphere。采用标准Java Database Connectivity (JDBC), 支持广大的数据库,如MySQL、 Oracle 9i/10g等。支持国际标准协议,如HTTP、HTTPS、JMX、SNMP、JDBC、Telnet、SSH、WMI等。3.3系统部署架构北京电视台办公网监控系统的逻辑架构分为三个层次,即:被监控层、数据处理展现层。三层采用松耦合的方式关联,层次与层次之间的沟通都是通过API接口。每一个不同的层次又包含数个具有松耦合的关系的关键模块,修改一个模块不会影响其他模块。1)被监控层:被监控层中包含所有被管理的对象,系统通过Agent或AgentLess方式以及和其他产品整合的方式来获取数据从被监控层获取数据。,监控对象包括:各种网络设备、主机、数据库、J2EE平台、Web服务器(Apache、IIS等)、中间件(Tuxedo、MQ等)、邮件服务器(Lotus Domino、Exchange、其他通用邮件服务器)、存储等。2)数据处理层:负责将监控服务器的监控策略的下发执行,将采集的原始数据经数据汇总,并写入数据库,以供展现层从数据库调用监控数据;同时也用于处理展现层传递的用户操作与设定。3)展现层:提供统一的Portal,数据统一展现。展现层通过Portal以完全B/S方式来展现各个管理模块;实现与用户互动,响应用户的操作与设定以及集成第三方监控产品等。Portal还提供统一登入,通过统一入口登入“企业的服务监控门户”。系统部署的逻辑结构如“图2”所示。 4. 系统设计特色和技术应用亮点1)采用agent和agentless相结合的数据采集技术,广泛监控市场上几乎所有的企业级软硬件,涵盖了网络设备、主机、存储设备、中间件、应用服务器、数据库系统、Web服务器、邮件服务器等;2)采用三层监控模型(DMS采集层、CMS汇聚层、Portal综合展现层)及分布式数据处理技术,通过横向扩展数据处理服务器数量,能够高效率、持久的和高频率的采集;3)采用数据挖掘的关联分析(Association Rules)和聚类分析(Clustering)技术,从海量的原始监控数据中发现潜在的IT运维事故风险和已发生事故的根本原因;图2 系统部署的逻辑结构
4)采用虚拟现实的3D技术和深度缓冲(Z-Buffer)算法,以交互式3D形式模拟机房内实时真实状况,包括机架、机架上的设备,大幅提高了IT运维人员的工作效率和反应速度;5) 采用基于BPEL和服务编排(service orchestration)技术和标准的工作流引擎,灵活编排IT部门的IT运维流程,结合实际情况实现了ITIL规范里定义的各种IT服务流程;6)采用UML、xml、flash、java语言技术实现业务视图相互关联可视化,即从业务角度观察IT系统,以业务可用性为监控管理核心,突破传统监控系统以设备监控和故障报警为核心;7)采用frame+jsp+js+ext4+flash链接URL元素创建包含另外一个或多个页面的内联框架,实现多标签关联,通过监控对象的任意一个属性就可以关联到任何管理关注点,实现快速定位;8)采用业务仿真技术模拟人的操作习惯和巡检足迹,通过执行WMI+SSH+SNMP方式登录并执行预定脚本,代替人完成复杂的业务服务水平监测和机房检查。9)从业务的视角进行 IT 基础架构的管理与维护,将复杂的、海量的技术信息以业务服务视图的方式呈现给客户。支持从业务服务监控、业务服务影响、业务服务分析等三个视角进行全方位业务监控,满足客户“业务服务视角”的个性化运维需求。 5. 国内外同类技术比较目前在信息监控领域,国内外不同行业的发展水平参差不齐。以监控管理的范围为例,目前国内外监控系统的监控功能所能覆盖的监控范围,仅包括对IT基础资源进行监控,而目前随着网络结构的日益复杂,终端用户支持范围的不断扩大,对IT设备业务运行状态、终端用户管理、网络性能监控分析等越来越重要,急需面向最终用户以IT服务支持为核心的监控,其次,国内外监控系统目前把事件监控和IT资源的管理分为两块,彼此之间没有数据关联,造成发生IT问题后,不能通过快速有效的数据关联分析准确定位问题点和故障资源位置。第三,监控管理与运维管理分离,缺少联动机制和有效的一体化流程将监控与运维功能有机的关联在一起。除此之外,对被监控对象的展示方式及故障的警示标志上缺乏新意,不适合监控者直观、准确、快速的发现问题。基于以上情况,北京电视台可视化智能监控系统采用大规模分布式数据处理和数据挖掘的关联分析(Association Rules)和聚类分析(Clustering)技术,通过横向扩展数据处理服务器,能够高效、持久和高频率的采集和处理监控数据,使系统达到了较高级别的监控能力, 通过设计可视化信息监控模式和多维关联的数据分析方法,能够从海量的原始监控数据中实时发现潜在的事故风险和原因,并通过智能化监控和运维的集中统一管理,克服了如上文所述中监控系统存在的弊病,实现了系统监控的全资源覆盖、监控数据的关联分析、监控管理与运维管理的全贯通以及监控资源展现形式的多元化。除此之外,本系统在功能设计上将系统功能分为监控管理、网络管理、业务管理等9个模块,9个模块的功能即各自独立,相互之间又存在着业务逻辑、服务关系、设备系统、模块组件等多重相互关联,这种功能设计方法不仅可以让用户根据工作岗位的需要使用不同模块查看所关注设备、业务的状态,还能通过模块间的相互关联关系跨越模块直接查找下一步所关注的目标,这对于快速发现问题、快速定位故障、提高搜索效率十分有效。为更好地观察业务系统的运行状态,可视化地了解每一个业务系统各个组件的可用性情况,北京电视台可视化智能监控系统将业务系统的监控模型设计为三层架构,即:物理层、应用层和访问层,三层之间通过业务功能逻辑、服务关系相互关联,每一个业务系统的运行状况能够通过三层架构清晰展现,一旦出现问题则可以借助业务层次结构准确定位故障点。除业务系统外,本系统还提供了北京电视台全网不同层次、不同视角的网络拓扑结构展示,包括子网之间的网络连接关系及每一子网上的资源,能直观看到各个资源的状态变化、链路流量变化。当网络结构发生变化时,自动发现引擎能够迅速发现并及时调整网络的拓扑结构图,保证与实际网络状态的一致。另外,通过悬浮式数据技术可即时提供网段的实时数据流量分析。在中心机房的管理方面,系统采用了3D技术使机房环境、机房内存放的设备全部3D化,机房可360度视角展示机房布局,并支持与用户互动,模拟人进行机房巡检。另外,本系统将服务器和终端设备以ip-mac-墙面端口-配线架号-设备端口-用户名-计算机名-房间号-所属VLAN的方式关联绑定,通过对网络端点物理位置的管理,即可实现了网络内所有资源的全覆盖管理。在监控功能与运维功能之间关联数据的处理上,本系统采用以CMDB(数据内容管理)为核心、监控和运维数据的集中管理的方式,实现了监控与运维流程的有机联动。其中,监控功能通过多个采集服务器实时采集全网被监控资源运行状态数据,数据经加工整理后以图形化的方式展现,并通过多维关联分析定位并预警设备或业务系统中潜在的风险和问题、报警突发故障。对于可导致设备宕机或业务不可用的问题,监控功能在报警的同时还能够将问题迅速转为维修工单,并以短信的形式通知运维管理人员,启动运维流程。另外本系统还借助业务仿真技术,模拟人的操作习惯和巡检足迹,自动完成日常值班巡检和机房检查。随着北京电视台IT规模的不断壮大,系统维护的工作不断增加,在运维工程师人数不足的情况下,如何建立运维管理流程,怎样合理的指派运维任务,可以既提高工作效率又能使用户满意,需要有一套能提供任务所需技能及人员占用情况查询的工单系统去支撑,目前国内外工单系统尚没有这方面可借鉴的经验。此次,本系统在运维流程设计和工单分配管理方面,采用基于BPEL和服务编排(service orchestration)技术和标准的工作流引擎,按照ITIL规范实现了运维工作流程的灵活编排,并通过建立运维人员空闲时间、工单维护预估处理时间以及人员技能三者之间数据的互相参考关系,使合理化安排运维人员的工作有了可以信赖的依据。 6. 系统应用情况北京电视台可视化智能监控系统自投入运行以来成果显著,监控与运维一体的综合化智能管理平台的实现使北京电视台的IT管理水平和使用效率得到明显提高。截止到目前系统监控已成功预警网内系统性能引发的问题多起,快速定位并彻底解决了由于突发事件引发的3次重大故障。该系统的使用实现了对北京电视台新旧两个办公区域、近千台核心设备、上千个技术指标实时的监控分析,而且在对核心设备监控管理的基础上,还扩大监控范围至全网2000多台终端设备,实现了北京电视台网络资源的全覆盖管理。可视化、多为关联的监控管理模式,使查找和管理网内资源变得容易简单,更便于问题的精确定位。基于仿真技术开发的自动化值班巡检和机房巡检的,使每次巡检工作时间由原来的40分钟缩短为2到3分钟,为工作人员节省出大量宝贵时间,也使日常工作效率得到极大提高。另外全网信息监控和运维管理联动的一体化管理,使信息的分析管理、问题的发现、工单的生成、分派、处理组成了一个规范、完整、高效的工作流程,为北京电视台网络信息系统安全稳定的运行提供了有力的保障。 7. 小结北京电视台可视化智能监控系统的使用,为北京电视台IT运维模式带来了质的改变。通过对资源全方位、多层次的监控,使办公网的日常运维工作已经由原来的被动变为主动、由分散变为集中、由手工变为了自动。为进一步推进办公网信息化的发展,提高信息的管理和运维水平,我们将会在后期的建设中结合实际需求对监控系统进行一些必要的改进,如:监控触发工单关联分析统计、智能化获取IT资产信息、用户桌面带宽的可视化管理以及更人性化的告警通知能力和告警预测能力等方面,以使系统性能更加完善。 编辑:中国新闻技术工作者联合会
评论 点击评论