浅谈IT化下播出系统运维保障体系的构建

  • 优秀论文奖
  • 文章作者:中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

    宋蔚 张娟

    (中央电视台)

    内容简介:安全播出是每一个从事播出工作的人员,甚至是全台技术系统首要的任务。对于现代化的广电业务系统来说,其生命周期中约有80%的时间属于系统运营阶段,运行维护就成为在运营阶段必不可少的工作。近年来,IT化的渗透给播出系统带来的变化可以说是翻天覆地的,系统运行维护已经不仅仅是网络管理层面的维护工作,而是内容丰富的一整套体系化管理工作。本文结合实际,在基于IT化建设的新一代播出系统的投入使用之际,谈一谈我们规划并建立的运维方法,探讨如何确保运维保障,保证在线业务的正常运行。关键词:IT化 运维保障 安全管理 监控中心 规章制度 人员管理随着IT技术的渗透,播出系统的建设日益先进,从手动到自动,模拟到数字,从磁带到硬盘,一直到全流程的文件化,每一次技术的进步与应用,都会使系统的故障率有显著的降低。比起上一代主要基于AV架构、计算机只是独立点使用的传统播出系统来说,IT化深入后播出系统的复杂度增加,业务系统涉及环节逐渐增多,让我们对系统运行的关注点已从单点管理向综合管理角度转变,从关注单一网络向对关注业务系统转变。在满足对系统资源进行统一管理、降低运行成本、提高突发事件应对能力、提高服务质量和效率的基础上,更需要保障业务系统的正常运行,才可以保证新技术投资的价值体现。在这样的前提下,IT运维管理的概念和产品逐步产生并迅速被投入应用。

    1. 什么是IT运维保障

    在传统的播出系统中,我们的运维是主要基于AV设备、播出服务器群、独立的PC工作站等来进行的设备运行状态巡检、单一设备逐项维护等工作,对于传统播出系统的运维,我们有规程化的操作、巡检内容要求、应急操作及故障处理流程等一套较完善的运维办法。但对于IT化、网络化渗透之后的播出业务系统来说,运维保障有了新的关注点,已经不仅仅是对单机设备的巡检维修,也不是网管层面的维护工作,而是内容丰富的一整套体系化管理工作。通常意义上讲,IT运行维护管理包括:设备运行管理、应用/服务管理、数据及数据安全管理、信息安全管理、资源资产管理、业务管理、日常事务管理等多个方面。将如此多方面的工作纳入到系统运行维护的层面,就是要强调系统运行维护工作的重要性,强调系统运行维护工作对于维护系统的性能和功能、保证系统的长期稳定运行所起的重要意义。

    2. IT运维保障为何重要

    现在的播出系统规模大、复杂程度高、设备种类多,业务也表现得更为丰富,系统之间也都依据企业总线的架构互联互通。更新快、变化多的新技术应用、新业务开展以及应急事件的处理也更为复杂,对播出安全和技术服务的要求也被提到更高水平。播出安全是我们工作的核心,而保障播出系统的业务安全是完成好这个核心工作的重中之重。保障基于IT架构系统的业务安全的重点在于两个方面,一个是保障业务提供的连续性,保障业务持续有效。二是保障数据安全,防止数据实体出现丢失、错乱会破坏业务的运行,导致错播、劣播等播出事故。要保障业务安全,就要建立起完善的系统运维保障体系,在业务连续性、数据安全等方面确保万无一失,保证播出安全。

    3. IT运维保障如何实现

    随着网络信息技术的迅速发展,各类信息系统及网络产品层出不穷,播出系统也随着快速建设的IT系统从传统封闭的业务系统向大型关键业务系统扩展,所涉及的应用类型也日趋增加。IT系统的广泛应用一方面带来了规范、便捷、高效的办公流程和业务模式,也引发了对IT系统的安全性问题。所以,我们要通过建立安全的IT运行维护管理体系,来主动防范故障的发生。IT运维保障我们主要通过技术支撑体系、制度规范体系、组织管理模式三个方面来体现。

    1 IT运维保障体系示意图

    3.1 构建统一的运维技术体系,夯实IT运维基础1) 建立4A安全管理平台新的播出系统由于业务的切分更加细化,出现了诸如播出整备、播出控制、频道包装、监控管理、业务支撑、安全防护、运行管理等多个子系统。对于每个子系统分别维护一套用户信息数据,孤立的以日志形式审计系统内的操作行为,这种方式已远远不能满足业务的发展需求,问题主要表现在几个方面:各业务子系统,认证、授权和审计方式不统一;由厂商代维的设备缺乏统一监管;个别账号多人共用;缺乏对所有主机或应用系统的集中统一的访问审计,无法进行综合分析,因此不能及时发现安全隐患。综上,建立基于4A安全思想模型的技术框架是势在必行的。如图所示,4A安全思想模型的基本内容:

    2 4A安全思想模型技术框架示意图

    A:你是谁?--统一身份管理针对目前运维时存在的多种远程操作方式及操作分散无序管理的问题,对运维审计用户进行统一的身份管理及安全的身份认证,解决难定位责任人、身份伪造和账户共享问题,身份认证管理是解决运维管理溯源难的前提和基础。B:你能去哪里?--访问控制管理通过运维审计系统的管理以及网络的配置,将网络、主机及应用等访问资源进行严格的控制与有效管理,确保合法操作者在其账号有效期内和权限范围内访问对应的操作资源,有效的控制和降低运维操作的风险。C:你能做什么?--人员权限管理把“你是谁”和“你能去哪里”进行整合并建立对应关系,将用户的操作权限做到更细颗粒度的真实有效控制,例如:访问者使用的IP、操作发生的时间区间、允许或禁止执行的指令、允许使用的协议和访问工具以及能访问的对象资源等,建立起这些操作的访问策略,实现单点登录,有效的降低运维操作的风险并提高管理效率。D:你做了什么?--行为审计管理运维审计系统可以对运维的操作进行全面审计和实时监控,严格规范运维操作,禁止未授权的访问,能更好的规范和约束操作行为,预防和杜绝核心信息的盗取、敏感信息泄露等问题,并降低运维事故发生的几率。4A安全管理平台的建立,为播出系统的IT运维提供了基础。划定了运维人员的行为范围,当事故发生后能快速的定位操作者以及操作的行为,还原现场举证,快速找到事故原因;在事故发生过程中能通过策略规则触发告警,及时通知管理员并实施阻断,并可对敏感和关键操作进行全程监控,一旦发现可疑风险及时阻断并确认。2) 建立IT运维监控中心从传统的播出监控来看,监控预警主要是针对设备的故障提示,运维人员在收到预警提示后再进行逐一排查和经验分析。信息技术和网络化设备的应用越来越多,这样的运维方式会越来越显得被动,也显现出一些弊端:出现故障后有众多单一的厂商管理工具,但无法迅速定位事件起因;信息系统的管理维护主要依赖“业务骨干”,缺少相应的流程和知识积累,多依赖于人;对故障预警事件缺少关联性分析和评估分析,并且没有明确的处理流程,更多是依靠人的经验和责任心,缺少必要的审核和工具支撑。为此,为信息化管理建立运维监控中心是非常必要的,基于关键业务点面向业务系统可用性和业务连续性进行布控和监测,全面覆盖业务系统,对各类事件作出快速、准确的定位和展现。如图,示意了播出系统监控数据流。

    3 播出系统监控数据流示意图

    播出监控系统实现对播出信息、播出文件、播出信号、播出设备、播出业务流程、播出环境和人员操作等进行全局监测。播出监控系统主要包括:A:集中监控采用开放的、遵循国际及行业标准的、可扩展的架构,整合各类监控管理工具的监控信息,实现对IT资产的集中监视、查看,以及智能化、可视化管理。监控的内容包括基础环境、网络、安全、主机、中间件、数据库和核心应用系统等。B:综合展现合理规划布控,整合来自各种不同的监控管理工具和信息员,进行标准化、归一化处理,并进行智能过滤和归并,实现集中综合展现。C:快速定位和预警经过同构和归并的信息,将依据预先配置的策略规则、事件知识库、关联关系进行快速的故障定位,并进行预警和排故提示。D:事件基础库维护事件知识库的基础定义,内置好标准事件,按事件类型进行合理划分和维护管理,可基于事件名称和事件描述信息进行归一化处理的配置,定义多源、异构信息的同构规则和过滤规则。E:智能关联分析借助基于规则的分析算法,对获取的各类信息进行分析,找到信息之间的逻辑关系,结合事件产生的网络环境、资产重要程度,对事件进行深度分析,消除事件的误报和重复报警。监控中心的建立不仅能帮助值班人员对紧急事故快速处理、完成流程监看,还能提供故障发生设备的智能判断,帮助工程师排除故障。并可以对各个监测对象进行分类管理、提供统计报表、了解整个播出系统的运行状况,建立设备健康档案,为管理部门提供数据,及时排除可能出现的事故等等。3.2 建立全面的运维管理制度,持续提升IT价值在播出系统的信息化建设中,制度建设是一道必要的保障,应该从以下几个方面来进行IT运维制度化。

    4 IT运维管理制度示意图

    1) 树立规范化的运维管理意识IT化构架下,要树立与加强运维人员的制度化运维意识。在传统的播出系统运维过程中,运维人员工作比较被动,常常是事件已发生并造成业务影响时才能发现和处理。在事件处理流程上规范不足,没有形成闭环跟踪。应该从以下几方面来建立规范化。A:IT资产管理规范化在传统的播出系统中,IT设备的更换与维修主要依靠当班的运维人员自行管理,对设备维修和更换也没有完整的相应时间记录,难以形成设备生命周期跟踪的全过程。信息化后的播出系统建立了规范化的资产管理系统,运维人员应树立起规范化意识,在处理资产采购、入库、维修、借用、折旧、报废等各个环节,对经手的资产属性变更都要求在资产管理系统中进行变更记录,为资产的生命周期管理提供基础数据,实现更好的运维。B:IT运维巡检规范化运维巡检是播出系统的传统流程,IT化后,增加了运维巡检的工作量以及工作难度,从传统的看设备状态灯已经深入到随时了解系统运行性能状态的层次,巡检范围扩大以及巡检难度增加导致可能出现的遗漏或疏忽。所以,建立规范化的电子巡检制度,巡检定时提醒,巡检报表的电子化提取以及人工确认都能帮助运维人员更好的完成工作,也加强了对巡检规范化的要求和监管。2) 建立规范化的事件处理流程播出系统中IT事件有故障事件、设备更换事件、升级操作、备份操作等。这都是日常要处理的多种任务。对于每一种任务,都要建立规范化处理指南,减少运维操作的随意性,降低由于运维操作导致故障发生的概率。例如,对设备、软件、病毒库等的升级操作,对升级的内容及版本、功能点列表、可能的影响范围、升级的时间、回退办法等应有明确的方案说明;在执行升级时,对升级包的更新和入网方式应有严格的要求,从运维审计工作站进行操作,并经过防病毒服务器确保升级包的安全;升级完成后,还要做好操作系统备份工作,建立还原点。除此以外,还要建立运维日志库,并定期回顾,从中辨识和发现问题的线索和根源。加强执行力监管制度,强化执行制度比建立制度更重要的观念和意识。3.3 优化运维人员管理,拒绝“消防员”角色播出系统信息化建设不断深入和完善,随着虚拟化、云计算、信息安全等新技术的快速发展,IT运行环境以及IT业务系统的综合管理难度也越来越大。IT运维人员经常被定位为“消防员”,哪里“着火”扑哪里,出现故障定位慢、恢复慢的问题。我们应该好好梳理IT运维人员管理难题,从服务连续性、服务能力、技术能力、成长空间等几个方面来要求和培养运维人员,让IT运维管理人员预见性的把问题消灭在萌芽状态。

    5 IT运维管理人员组织示意图

    1) 运维人员练好内功,降低风险指数拒绝“消防员”角色,对于逐步建立起IT化系统的播出部门来说是有难度的。不仅需要运维人员长时间的投入到系统中去深入了解业务流程,理解系统设计,熟知设备功能及性能,甚至从管理上要对运维流程有所改变。IT运维工作特别依靠人的积极参与来完成。在人员管理过程中,可能涉及到人员的利益、思维模式、工作方式等多方面内容,产生的消极和阻力不容忽视,因此要积极采取多方面的措施疏通,包括运维意识培训、运维技能培养、发展规划等。IT运维人员的培训应从系统化、制度化、多样化、主动性、效益性等多方面考虑。对于业务体系和规章制度,应建立长期培训机制,确保对业务的熟知度以及对规章规程的深入学习;对于专项技术知识,应建立短期培训目标,并形成分小组不同专项的培养策略,确保针对系统出现的不同门类的问题,有专人对接;在内部创建学习型组织,激发员工主动学习、贡献所长。练好内功,才能及早发现问题,将问题消除在萌芽状态,提升IT运维质量,降低系统运行风险。2) 高效代维管理,有章可循传统的播出系统的运维方式是核心设备由代维公司完成,其他则由播出部门自己完成。随着系统IT化、网络化的大规模建设,播出系统代维服务领域正在发生深刻变化,业务需求的日益复杂、系统数据流量的极具增长、数据安全性要求的提高以及技术的飞速发展,给维护服务提出了诸多新的要求:建设周期短,设备增多,终端服务多样,维护工作量、协调的难度和复杂性加大以及测试和优化要求频繁等。在此背景下,集中化综合代维的理念应运而生,播出系统的代维服务也逐步变为由综合代维公司完成。综合代维服务是对播出部门运维能力的补充,从硬件代维服务、第三方软件代维服务、紧急事件管理、服务管理、沟通管理、故障管理以及服务文档管理等几个方面,协助播出部门实现业务应用和系统的正常运营。对于代维管理,我们要制定好内外运维管理的接口章程,引入优先处理原则与服务水平协议,建立能够量化的运维目标,提高代维服务在人员、技术、设备、流程等方面的质量,实现系统功能并维护系统长期稳定运行。总体来说,IT化给播出系统带来了很多新的变化,运维保障体系的建立要在规划上做到“重点有序,逐步开展”。现在运维管理的技术体系已经有了很多成熟的产品来支撑,也随着系统改造逐步建立起来,而管理制度和人员的培养还有很多工作要做。高效IT运维保障体系的建立需要一个持续改进、不断优化的长期过程。 编辑:中国新闻技术工作者联合会

    评论 点击评论