基于高标清全台网络化制播体系管理维护模式的研究与实践
毕江 王学奎 栾花
(北京电视台)
摘要在国内广电行业信息化建设和系统维护发展过程中,普遍存在制播网运行维护管理模式不成熟、各地电视台运维管理发展不均衡等问题。根据国内制播网运维管理现状,结合运维信息化的新型发展思路,本文设计了在电视台制播网络环境下具备广泛推广价值的通用运维管理模型和实现模式,并借助北京电视台制播网实际环境对运维管理模式进行实践验证。 关键词制播网 运维管理 体系 模式 实践1 背景随着全台网络化制播体系相关技术和架构趋向成熟,国内大型电视台大部分已经完成或正在推进全台制播网建设。但与全台网建设相对成熟的现状相比,制播网系统管理维护模式尚未成型,基本处于被动式运维状态,故障恢复及时性和有效性、处理流程规范性和标准化有待提高。制播网系统运维需要综合考虑涉及人员、组织、设备、系统、流程、监控、工具、安全等诸多复杂因素。总局62号令和等级保护等行业标准发布和国内ITSS标准成型,为制播网络系统管理维护模式的研究与实践提供充分借鉴基础。2 国内制播网运维管理现状全台制播网络基本实现了电视业务“采、编、播、存、管”在IT系统上以文件化、流程化方式运转,但在实际建设和使用过程中,各电视台在系统规模、技术架构、业务覆盖和应用承载等方面差异十分显著,关键业务流程应用度不高导致网络化应用整体效果受限。目前,国内制播网运维管理整体还存在以下不足。人员管理:台方、集成商、服务商运维人员混合使用,岗位结构不清晰,管理机制欠完善,缺乏统一有效的组织体系和管理机制。运维流程:工作分类不清楚,过程记录不详细,运维经验分享效果有限,流程执行自由度较高,运维流程标准化、规范化程度较低。运维工具:IT基础设施监控不完备,部分业务监控功能在应用系统内部简单实现,缺乏全面的业务数据统计功能,缺乏系统、业务统一监控方案和专业运维平台。设备维护:大多未签订设备首保之外维护合同,设备维护经常采取一事一议方式,具备一定的应急备件,设备故障恢复保障不力,设备维护模式被动、缺乏专业度。安全管理:具有基本的安全管理制度,且大多可以做到有效执行,未进行系统化的等级保护建设,信息安全防护体系尚不完整。3.制播网运维管理体系架构本文基于国内制播网运维管理现状,并参考ITSS标准设计了制播网运维管理体系。该体系架构综合考虑了制播网运维管理所有要素,并对这些要素进行归类、分层。体系主要包含五个组成部分:运维资源、运维管理、安全管理、运维对象和持续改进。其中资源主要包括支撑运维工作的核心工具和管理资源,主要基于ITSS中的“资源”能力要素进行设计。运维管理是运维体系框架的核心部分,反映ITSS中的“技术、人员、过程”三个能力要素。安全管理主要指信息安全防护要求,目标是形成安全可信的运行环境。图1 制播网运维管理体系图
3.1运维对象运维对象包括IT基础设备(主机、存储、网络设备、数据库和中间件等)和业务流程的运行状态全面监控。全业务数据状态的采集,为运维管理层提供了运维管理基层数据。3.2运维资源运维资源包括工作库、技能库、知识库、配置库等运维基础数据库,监控工具、过程管理工具、安全管理工具等运维工具,及运维管理服务台,是实现制播网运维目标需要依托的工具和资产。工作库:以岗位结构、岗位定义、岗位说明为基础,梳理、整合、归纳并标准化运维中的工作项,构建以实际运维工作项为核心的工作库,在工作库中尽量穷举运维活动中的各项工作,并对每项工作进行格式化描述。监控工具:以业务拓扑为核心对全台网络化制播系统的运行状态全天候、全方位监控,使用图形化的方式查看底层设备、业务组件、业务流程的关联关系,并能够对故障原因进行深入钻取和影响分析,能够直观的显示物理位置、拓扑关系等内容,是服务台故障信息来源的重要渠道。流程工具:又称过程管理工具,按照运行维护服务需要的交付过程,完成对运维过程的管理支撑,过程管理工具包括运行维护管理、记录、测量、监督和评估等功能。它实现了运维管理中多专业、多部门的协同,提升处理效率及管控运维质量,完整记录运维过程。服务台:使用有效手段和方法受理用户的运行维护服务请求,及时跟踪服务请求的处理进展,确保实现SLA(服务水平管理)要求。是制播网用户和制播网维护部门的服务接口。3.3运维管理层运维管理层是体系架构的核心,包括管控层、管理层和操作层三个部分。3.3.1管控层负责管控制播网运维质量和运维效率,是展示制播网运维价值的重要窗口。管控层涵盖组织体系、绩效管理、需求管理、服务目录、服务水平管理及对服务商的管理。组织体系:主要是指参与制播网运维的管理岗、技术岗、操作岗的设置,以及部门或团队的人员组织架构方式,并明确这个团队与执行信息化其他团队(软件开发、项目建设)之间的关联关系,人员管理至少包括人员储备、人员培训、人员绩效等内容。绩效管理:又称KPI体系,KPI(Key Performance Indication)即关键业绩指标,绩效管理清晰定义本体系各运维流程环节的关键指标项,并建立起联动关系。需求管理:是运维服务目录的基础信息来源,通过对不同来源的需求进行记录、分析、审批、跟踪、变更控制,并对需求实施结果进行评估。服务目录:提供并维护已投入制播网服务的信息,服务目录中信息可以准确反应制播网服务的具体细节、状态、接口及与其他服务的依赖关系。服务商管理:对服务商及其提供的服务进行管理的一系列活动,以确保运维服务提供商对全台网络化制播体系运维服务的目标实现。服务水平管理(SLA):主要指制播网运维管理部门对台内用户服务水平的管理。3.3.2管理层是实现管控目标的手段和方法,一方面需要响应管控层中传递过来的要求,另一方面需要给操作层中的具体任务执行提供规范。管理层涉及事件管理、问题管理、变更管理、配置管理、发布管理、知识管理、日常作业计划管理和研发管理等内容。重点对以下几个管理流程进行描述。事件管理流程:负责处理制播网技术性事件和用户请求。它的目的是尽快恢复被中断或受到影响的制播网服务,是以尽快恢复业务为目的运维活动。问题管理流程:负责解决重大事件或具有相同特征的一组故障事件。它的目的是找出这些事件的根本原因,并通过解除该根本原因防止类似事件的再次发生。变更管理:通过控制和管理制播网系统重要参数的变更,使变更对生产环境可能的影响和风险降到最小,从而提高制播网IT环境的整体稳定性。配置管理:负责描述、跟踪和汇报所有制播网IT基础架构中的每一个设备或系统的配置管理流程。3.3.3操作层操作层针对运维对象,通过运维人员与IT系统的交互,完成各类运维任务。包括非日常作业计划任务执行、系统监控、基线维护、数据备份、备件维护、工作规范等。基线维护:运维中的基线是指系统运行稳定的配置版本,基线配置是运维工作的基础性安全保障,通过基线+增量变化的方式实现系统运行状态的可恢复性。数据备份:是数据安全和容灾的基础,防止系统出现因操作失误或系统故障导致数据丢失。备件维护:备件是运维工作中不可缺少的资源支撑,主要包括备件的部件定义、备件计划、备件储存、备件抽检、备件测试、备件的出入库管理、备件的补充与报废等。工作规范:是指与运维工作配套的规范化制度,一般包括意识规范、行为规范、质量规范、操作规范、应急规范等。3.4安全管理制播网运行维护要遵循《广播电视相关信息系统等级保护基本要求》的要求,用于指导安全层面运维工作。3.5持续改进机制制播网的运维效果和服务质量需要持续不断优化以满足业务对IT运维的需求。基于运维能力四要素(人员、过程、技术、资源),通过P(PLAN)--计划、D(Do)--执行、C(CHECK)--检查、A(Action)--行动,成功的经验加以肯定并适当推广和标准化,失败的教训加以总结,并把未解决的问题放到下一个PDCA循环里。4.制播网运维模式定义4.1 模式定义由于国内电视台制播网在系统规模、技术架构、业务覆盖和应用承载等方面差异十分显著,其运维管理模式也会存在很大的差别。经过探索和深入研究,以人员、过程、技术、资源为核心要素,以制播网规模和复杂度为分类依据,按照制播网运维管理体系中的各模块的实现深度与细度进行分类的方法是可行的。规模代表运维对象及其管理所涉及的设备或业务数量,复杂度代表运维对象及其管理所涉及的架构方式、技术含量,以及发现、解决问题和技术研发的难度。规模和复杂度可以细分为组织容量、管控目标、业务承载量、业务涵盖度、系统架构、设备规模等六个关键因素。模式的编码采用“模式+关键特征”的汉语拼音首字母。运维管理体系架构主要反映运维管理面的基本内容,运维管理模式主要反映运维管理面的深入和细化程度,运维管理模式定义着重贯彻运维体系架构及其能力要素,运维管理模式演进模型宏观体现运维管理发展路线。依据以上原则,制播网运维管理定义为以下5种模式。图2模式模型图
以任务完成为导向的离散管理模式(M-L,The task fulfillment-oriented discrete management model):依托其他管理体系,取决于个人能力和经验,单纯以结果判断运维质量,一般无专职维护团队,直接运营成本低、风险高。适合结构简单的小型制作岛。以内部规范为导向的受控管理模式.(M-G,The internal rule-oriented controlled management model):基于运维目标和上级管理者的要求,依据个人经验和内部管理经验,定制运维制度和审批、验证制度,重视案例和技术知识的总结和积累,但未信息化。适合小型制播网络或者站点较多的制作岛。以最佳实践为导向的受控管理模式(M-S,The best practice-oriented controlled management model):借鉴标准的IT维护最佳实践规范,具备统一的运维资源调度和服务台,具备专门的运维技术团队,拥有主动发现问题的机制或手段,可以对风险和安全事件作出稳妥的响应和处理。适合中型全台网或大规模制播网。以体系优化为导向的主动管理模式(M-T,The system optimization-oriented active management model):完整面向能力建设的运维管理体系,基于能力核心要素进行策划、实施、检查、改进,运维人员容量、知识、经验得到重视,实现人员变动对运维工作影响的最小化,关注发现、解决以及技术研发的能力,及问题解决的思维方法、运维工具的开发、运维支撑资源的建设等,运维质量能够持续保障,成本优化,创新有动力,风险有效控制,总体倾向“定性”而非“定量”。适合大型全台网。以量化运营为导向的主动管理模式(M-Y,The quantitative operation-oriented active management model):基于有效运行的上一级模式建立,实现全面的精细化和数字化,及科学管理与高精度优化,消除运维工作中的各种波动,运维工作数据共享并集中管理,实时优化并进行预见性管理,资源利用最大化。适合规模巨大、具备运营条件的全台网。4.2 模式选择和演进各电视台可以根据自身技术架构、业务规模、管控体系等众多因素进行当前运维管理模式的选择,同时也可以根据运维管理现状和未来发展方向进行运维管理模式演进路线的选择。运维模式演进模型在实践应用场景中存在两种情况:一是在不同模式之间由低向高循序发展,最终达到良好的模式匹配状态,适用于运维对象不断变化、运维模式随之匹配,或者当前运维模式与运维需求之间存在较大差距、导致运维模式逐步进化匹配的过程之中。二是在一种模式之下逐步完善,最终达到本模式下的良好匹配状态,适用于运维对象相对比较稳定且与运维模式匹配于相近层级的情况。从技术架构、业务规模、管控体系出发,各电视台亦可根据自身实际情况对参考标准进行修订。运维模式的选择应考虑到运维对象诸多因素之间的均衡发展,寻找在该运维需求情况下的最优匹配方案。5.应用效果本成果于2013至2014年在北京电视台制播网络环境中进行了初步实践。通过不断尝试和改进,证明有助于达到在运维工作中提升质量、优化成本、强化效能、降低风险的目标。人员管理:通过人员结构、岗位的调整,将以往纵向贯通式的运维组织方式变革为横向整合方式,将运维岗位整合划分为基础运维、应用运维、服务台三类。设备维护:完成设备维护模式的变革,引入专业设备服务机制,提供设备资源池的整体维护维修服务。流程管理:完成运维过程梳理,技术实现并实际应用事件、问题、变更、配置、知识库管理等流程。运维工具:研制、开发并应用运维管理工具,实现自系统设备至业务流程的全方位关联监控等功能。6.结束语本项目提出了全台网络化制播环境下反映运维管理工作共性的运维管理体系架构,定义了反映运维管理工作深入和细化程度的运维管理模式及其演进模型。制播网络将在国内电视台技术系统中占据越来越重要的位置,而其管理维护工作尚处于初级阶段,亟待推动运行维护的服务化进程以促进IT和业务德融合,并通过IT服务管理理念和方法实现从业务角度对IT的管理以及信息化综合发展。 编辑:中国新闻技术工作者联合会
评论 点击评论