电视台信息技术系统运维服务管理体系研究与实践
毕 江 王学奎 陈广鑫
(北京电视台)
摘 要 依托于总局科技司《基于高标清全台网化制播体系管理维护模式的研究与实践》科研项目,项目组对国内十余家电视台进行了深入调研,调研内容涉及人员管理、运维流程、设备维护、系统监控、运维技术、网络安全等方面,并对调研结果进行分析和、归纳。根据国内广电行业运维管理现状,结合运维信息化的新型发展思路,设计了在电视台制播网络环境下具备广泛推广价值的通用运维管理模型、实现模式及模式选择方法。介绍了一种运维管理模式在北京电视台制播网络建设和运维中的具体实践与应用情况,包括IT运维中的人员、过程、技术、资源等服务要素的落地方法。关键词 制播网、运维现状、运维管理、体系框架 、持续改进、管控层、运维模式、系统监控、运维过程、运维对象、运维资源、管理层、操作层、工作库、技能库。1 运维管理现状及存在问题
1.1 人员管理
目前,制播网运维人员由台方运维人员、集成商运维人员、专业设备维护厂商运维人员三部分组成。由于电视台体制的限制,大部分电视台台方参与制播网运维人数和技能远远不能达到运维实际要求,主要表现在技术水平、管理机制、知识水平参差不齐,人员储备、培训机制、岗位结构、绩效考核机制等不完善或不具备。目前的运维管理模式,总体上缺乏对参与到制播网运维的各方人员统一有效的管理。1.2 运维流程
运维流程不规范是目前国内制播网运维的普遍现状,主要表现在运维工作分类不清晰,业务请求、故障恢复等大多依据在运维过程中自然形成的内部规范处理方式;运维过程记录不详细,运维经验没有进行知识化处理,不能被运维人员普遍借鉴;出现重大故障时,运维过程比较混乱,延长了故障处理时间并降低了处理效果;仅有少数具备运营意识的电视台已经开始运维流程的规范化整改,能够将运维事件进行分类处理。1.3 设备维护
在制播网建设过程中,更多关注了系统功能,而对设备维护的关注程度远远低于对制播网不间断运行的要求。对于过保设备,大部分电视台还未与设备维护厂商或与原厂签订设备维护合同。1.4 系统监控
基于实际的系统运维需求,少部分电视台在建设制播网时,开始将一些系统和业务监控功能简单实现,但这些功能不够完善、深入,没有做统一规划,远远不能达到运维要求。大部分制播网还不具备全面的业务数据统计功能,部分制播网具备一些诸如机时、存储使用率的统计。1.5 运维技术
运维技术指发现问题、分析问题、解决问题、验证问题过程中涉及到的相关技术。定期巡检是目前多数电视台制播网发现问题的主要手段,巡检的内容大多关注设备状态灯及通过简单命令发现一些表面故障现象,缺乏主动对隐蔽问题发现、系统持续优化的能力。1.6 网络安全管理
所有电视台都非常重视网络安全管理,但安全管理制度只关注了一些最容易出现安全事件的场景,与广电行业等保管理要求相比,差距很大。1.7 现状总结
国内制播网建设及运维管理现状表明,建设现状与运维管理水平非常不匹配,运维管理水平未达到标准化、规范化、流程化、工具化,大多处于被动运维状态。大多数电视台IT运维管理部门对运维规范和标准认识水平不高,对目前存在的问题认识没有形成解决思路,正处于积极探索阶段。2 研究价值导向及参考标准
本科研项目从人员管理、设备维护、运维工具、监控工具、网络安全管理等方面入手,以广电行业安全播出管理规定作为总体业务目标和保障性要求,研究符合行业特征的制播网络管理维护体系。电视台“采、编、播、存、管”等各业务环节已全面实现网络化运转,因此研究遵循IT普适原则和理念的管理维护体系架构和运维模式演进模型是本科研项目研究的核心内容。本课题采取“现状调研、实践汇总、参考标准、差距分析、结合实际、得出结论”的研究方法。2.1 制播网运维管理体系的研究遵循以下价值导向
提升运维质量:运维体系关联运维质量指标和能力资源要素,使服务提供方通过持续改进活动能够提升其整体运维服务的提供和支持能力。优化运维成本:运维服务内容和资源的量化,有利于对各种能力要素进行清晰的设定和配置,可以在人员培训、技术储备、设备维修等方面实现成本优化。强化运维效能:运维过程的标准化和规范化,有助于更合理地分配和使用运维资源,促使运维岗位合理设置、运维工作效率提升、运维服务使用充分。降低运维风险:运维质量和效能的改善,专业化、标准化、规划化程度的提高,可以使系统运行更加稳定、可靠,出现问题时也可以得到及时处理、有效降低业务风险。2.2 参考标准与最佳实践
本项目主要参考ITSS(Information Technology Service Standards,国家信息技术服务标准)通用要求和CMMI(Capability Maturity Model Integration,即软件能力成熟度模型集成)等通用标准和《广播电视安全播出管理规定》(总局62号令)、《广播电视播出相关信息系统安全等级保护基本要求》等行业标准,同时也参考了金融、电信、电力行业在IT运维流程、设备维护等方面和广电行业在人员、业务管理等方面的特色运维管理经验。ITSS规定了IT服务的核心要素和生命周期,并对其内容进行标准化,重点关注IT服务的能力体系建设,充分借鉴了质量管理原理和过程改进方法的精髓,其核心价值是确保提供可信赖的IT服务。ITSS运维服务能力要素包括人员、过程、技术、资源四个内容。ITSS通用要求部分详细说明了提供信息技术运行维护服务的各类组织(包括各类信息中心、独立的运行维护服务提供商)应具备的能力,同时规定了划分不同能力的运行维护服务组织的方法。图1 TSS能力体系模型
CMMI目的是帮助软件企业对软件工程过程进行管理和改进,增强开发与改进能力,从而能按时、不超预算地开发出高质量的软件,其成熟度采用分级方式进行认证。3 运维体系整体架构
基于制播网广电行业特性和IT特性,参考ITSS及其它相关标准,本文提出了制播网IT运维服务管理体系框架,见图1。本体系框架综合考虑了制播网运维管理基本要素,并对这些要素进行了归类、分层。主要包含五个组成部分:运维对象、运维资源、运维管理、安全管理和持续改进。图2 网运维管理体系框架图
3.1 运维对象
指制播网络日常运行维护的主要对象,运行维护的目标就是保障这些对象的稳定运行,运维对象不仅包括IT基础设施,也包括应用及业务流程。3.2 运维资源
运维资源主要包括支撑运维工作的工具和资源,是实现制播网络运维目标需要依托的工具和资产,包括工作库、技能库、知识库、监控工具、流程管理工具、安全管理工具、服务台等。工作库和技能库用于精细化管理,把运维工作项和与之匹配的人员能力进行梳理、整合并格式化描述、分类、分级;监控工具、流程管理工具、安全管理工具是日常运维的辅助工具,可以快速发现IT系统报警信息,并把日常运维流程进行标准化、规划化记录;服务台是接受IT用户服务请求的统一接口,跟踪服务请求的处理进展,确保实现SLA要求,是制播网用户和制播网维护部门的服务接口。3.3 运维管理
运维管理是本体系架构的核心,包括以下三个部分:3.3.1 管控层
管控层负责管控制播网运维质量和运维效率,是展示制播网运维价值的重要窗口。管控层涵盖的内容包括组织体系、绩效管理、需求管理、服务目录、服务商管理、服务水平管理。组织体系、绩效管理从人员管理的角度出发,包括岗位设置、组织架构、人员能力等,绩效管理清晰定义本体系各运维流程环节的关键指标项,如流程绩效、团队绩效、工作效率、质量绩效等;服务需求、服务目录、服务商管理、服务水平管理则从服务质量的角度出发,服务目录准确反映服务的具体细节、状态、接口及与其他服务的依赖关系,服务商管理可以确保运维服务提供商对制播网运维服务目标的实现,制播网运维管理部门与业务部门根据业务重要程度协商,达到服务水平管理的目标。3.3.2 管理层
管理层是实现管控目标的手段和方法,一方面需要响应管控层中传递过来的要求,另一方面需要给操作层中的具体任务执行提供规范。其中,事件、问题、变更、配置、发布管理是运维流程的主线,事件管理目的是尽快恢复被中断或受到影响的制播网业务,问题管理负责解决重大事件或具有相同特征的一组故障事件,其目的是找出这些事件的根本原因,变更管理控制和管理制播网系统重要参数的变更,使变更对生产环境可能的影响和风险降到最小,从而提高制播网IT环境的整体稳定性,配置管理负责描述、跟踪和汇报所有制播网IT基础架构中的每一个设备或系统的配置管理流程。配置管理数据库(CMDB)是配置管理流程中用于记录制播网所有IT相关配置项信息及其相互关系的数据库;知识管理的相关管理制度,重点是知识生命周期管理,包括个人知识管理、组织知识管理、项目资料管理等;日常作业计划管理是对制播网运维人员的日常维护作业进行制定、审核、执行、记录的管理;研发管理 管理运维相关的技术研发,包括配置适当的运维研发环境以及研发团队。3.3.3 操作层
操作层针对制播网的各类运维对象,通过运维人员与IT系统的交互,完成各类运维任务。包括指派、接受、执行、检查、反馈的非日常作业计划任务执行全过程;信息化监控与业务监控有机融合,建立业务、信息系统、底层设备的关联关系,通过预警、报警、恢复验证和优化管控等措施;通过“基线+增量变化”的方式实现系统运行状态可恢复的基线维护;与运维工作配套的规范化制度,一般包括意识规范、行为规范、质量规范、操作规范、应急规范等;其它还包括数据备份、设备维护、备件维护等。3.4 安全管理
安全管理主要指信息安全防护要求,目标是形成安全可信的运行环境。《广播电视相关信息系统等级保护基本要求》是制播网络运行维护需要遵循的安全规范,是信息安全管理的执行依据。3.5 持续改进
制播网的运维效果和服务质量需要持续不断优化,以满足业务对IT运维的需求。持续改进是一个标准的质量优化机制,在制播网的运维管理体系中可以用来持续优化运维服务的质量,以达到提高质量并优化成本的目的。同时基于运维能力四要素(人员、过程、技术、资源)引入风险控制矩阵及失衡预警机制来调控人员全息管理、全业务监控、故障预警、设备维护、过程环节监控中的风险和失衡,从而达到最优的组织绩效。通过PDCA一系列活动对总结检查的结果进行处理,对成功的经验加以肯定并适当推广、标准化,对失败的教训加以总结,未解决的问题放到下一个PDCA循环里。4 运维模式定义与应用
根据调研情况,国内各电视台的网络化制播发展现状存在很大的差异,表现在各电视台电视业务管理方式不同(如共享技术体系、频道独立技术体系等)、全台制播网建设模式和规模不同、全台制播网信息化成熟度不同等,这些不同造成了各个电视台制播网运维方式的巨大差异,运行维护能力水平参差不齐,缺乏评价和改进的方法、手段及规范。面对如此大的制播网运维方式的差异,需要提出不同的运维管理模式,在进行了多种模式分类研究及比较后,最终确定采取依托管理深度和细度进行分类。依托管理深度与细度分类指在管理内容(管理面)不变的情况下,确立运维各项管理工作深入程度或精细化程度以适应运维管理的实际需要,具有广泛的适应性,各电视台根据自身情况和制播网的管理需要,选择或定义其运维管理的深入程度和管理颗粒度,能够全面满足模式模型最核心的原则——“最适化”运维的需要。4.1 运维模式分类与定义
依托管理深度与细度分类的核心要素为人员、过程、技术、资源,分类的依据为制播网规模和复杂度,规模代表运维对象及其管理所涉及的设备或业务数量;复杂度代表运维对象及其管理所涉及的架构方式、技术含量,以及发现、解决问题和技术研发的难度。规模和复杂度可以细分为组织容量、管控目标、业务承载量、业务涵盖度、系统架构、设备规模六个关键因素。模式的编码由“模式(M)+关键特征”的汉语拼音首字母组成。运维管理模式主要反映运维管理面的深入和细化程度,其定义着重贯彻运维体系架构及其能力要素。以任务完成为导向的离散管理模式和以内部规范为导向的受控管理模式是制播网IT化初期的管理模式,还未形成完整的体系,在此不详细阐述。本文将重点介绍以体系优化为导向的主动管理模式,此模式是在大型全台网环境下主推的运维管理模式。4.1.1 以任务完成为导向的离散管理模式(M-L)
依托其他管理体系,取决于个人能力和经验,单纯以结果判断运维质量,一般无专职维护团队,直接运营成本低、风险高,适合结构简单的小型制作岛。4.1.2 以内部规范为导向的受控管理模式(M-G)
基于运维目标和上级管理者的要求,依据个人经验和内部管理经验,定制运维制度和审批、验证制度,重视案例和技术知识的总结和积累但未信息化,适合小型制播网络或者站点较多的制作岛。4.1.3 以最佳实践为导向的受控管理模式(M-S)
借鉴标准的IT维护最佳实践规范,具备统一的运维资源调度和服务台,以及专门的运维技术团队,拥有主动发现问题的机制或手段,可以对风险和安全事件作出稳妥的响应和处理。此模式借鉴成熟的信息化系统运行维护的最佳实践(如ITIL),将成熟的过程方法与基础管理制度相融合。参与运维活动的人员对运维管理体系有清晰的认识,能够对运维活动进行控制和审查,建立统一的运维资源调度和响应各种服务请求的服务台,使用信息化手段记录运维相关的各项工作,对运维工作中的各项任务设定对应的监控点(如明确故障优先级及对应的升级和通报机制)。这种模式下,组织往往会设立专门的运维技术团队,并优化利用团队中的人力资源,重视年度运维质量的管理以及持续改进,关注业务部门对运维质量的反馈并及时做出调整,对外部的协作资源也会基于整体的运维管理目标进行有效的管控和优化。该模式的主要特征如图3所示:图3 以最佳实践为导向的受控管理模式特征图
该模式适用于已经建设全台网或者制作站点规模很大的制作网。这种模式采用更加主动的方式进行运行维护工作,能够及时发现问题,并有节奏的进行相关的工作,可以在一定程度上规避风险事件的发生,并能对风险和安全事件作出稳妥的响应和处理。但是这种模式的运维效能不高,且对运维成本的压力较大,对潜在的风险预估和预防存在缺陷,以及无法支撑运维工作中的创新能力,可以满足持续改进但无法形成优化能力。4.1.4 以体系优化为导向的主动管理模式(M-T)
完整面向能力建设的运维管理体系,基于能力核心要素进行策划、实施、检查、改进,运维人员容量、知识、经验得到重视,实现人员变动对运维工作影响的最小化,关注发现、解决以及技术研发的能力,问题解决的思维方法、运维工具的开发、运维支撑资源的建设等,运维质量能够持续保障,成本优化,创新有动力,风险有效控制,总体倾向“定性”而非“定量”。该模式的主要特征如图4所示:图4 以体系优化为导向的主动管理模式特征图
本模式是以能力体系为基础支撑的主动式运维管理模式,关注服务创新,人员、过程、技术、资源能力要求管理精细化、指标化,组织的管理优化基于运维关联数据集的挖掘,并关联形成KPI指标体系。基于能力的优势通过主动的管理工作,使制播网运维管理工作在实施前就能够进行质量检验,保障运维管理过程顺利实施,即以建立运维管理关键指标体系为主线、以能力和主动为重点、以安全管理为依托的管理模式。(1) 人员管理为保证故障响应、解决问题和运维结果可控,制播网运维部门应在人员管理、岗位结构和人员的知识、技能、经验、安全意识等方面达到应有的水平。以集成商运维人员为主的运维模式,应该与集成商运维服务部门达成合作协议,让集成商运维人员纳入到台方的统一管理。(2) 过程管理根据制播网业务特点梳理过程管理,通过过程管理的各流程将制播网运维管理的各关键要素进行关联和管理,同时关联技能库、工作库、知识库等内容。以体系优化为导向的主动管理模式中的过程管理是基于IT服务管理体系的国际标准ISO/IEC 20000的流程体系,具体内容见图5“过程”部分。(3) 技术管理在运行维护服务实施过程中,可能面临各种问题(如硬件故障)、风险(如安全漏洞)以及新运维技术和前沿技术应用所提出的新要求,应根据业务要求或技术发展趋势,具备发现和解决问题、风险控制、技术储备以及研发、应用新运维技术和前沿技术的能力。为控制数据中心运行维护的成本和质量,可以借助第三方服务商的技术专业优势,合理利用资源,降低自身技术保障能力不足的风险。(4) 资源管理资源管理主要目的是提供确保制播网运行维护工作所需资源的能力,主要包含知识库、服务台、备件库及统一运维管理平台。建立对制播网运维对象进行数据采集和监控的手段,具备评估可能导致制播网系统产生故障因素的手段,同时对各种流程和制度进行工具平台化管理;设置专门的沟通渠道作为与业务部门的联络方式,并建立全面的联络管理制度;建立备件供应商的管理考核制度,并对备件额可用性进行评估和管理;建立知识库及其相关管理制度,确保制播网运维团队内的知识可用、可共享。(5) 持续改进对运行维护服务能力进行整体策划并提供必要的资源支持,以确保有能力提供运行维护服务,以及人员具备相应的能力。检查制播网运行维护服务能力管理活动符合计划要求和质量目标。改进制播网运行维护服务能力管理过程中的不足,实现运维服务能力的持续提升。以体系优化为导向的主动管理模式适用于规模较大的全台网,这种模式通过对能力体系改进以及对能力核心要素的建设,可以使运维质量得到持续保障,运维成本得到优化,运维创新能力得到提升,运维风险得到有效的控制等。但是这种模式对于运维管理以及运维人员有一定的管理技术要求,并且需要能够和组织的其他建设融为一体,往往需要高层管理人员的参与,其建设难度较大,同时该模式同前面几个模式一样,更多的采用“定性”的内容建设,很多的资源运筹调度,优化依据较多依托管理活动进行,对基于精细化和数字化的运维优化支撑不足。4.1.5 以量化运营为导向的主动管理模式(M-Y)
该模式并不能直接建立,往往基于有效运行的“以体系优化为导向的主动管理模式”建立,通过对能力体系全面的精细化和数字化,实现对运维工作的科学管理与高精度优化,使一般运维工作可以提升至运维(或服务)运营层面。该模式面向数字化管理,通过对运维工作全方位的颗粒度细化以及量化技术保障运维工作的持续稳定,以及应对创新和变革时的高可靠性,最大程度的消除运维工作中的各种波动。以系统运行历史数据为基础,通过数据挖掘确立各种管理计划、实施、检查、改进,寻找各种数据的关联关系,进行交叉验证,使用趋势分析、关联分析进行持续改进,实现实时优化和预见性管理,以及资源利用最大化。该模式中的精细化和量化是个持续性内容,可以从局部或具体的方向进行,例如:细化每项工作所使用的资源、执行的过程、需要的技能等,形成运维的工作库;细化所有需要的技术项以及数字化成熟度等级,形成精细化的技能库等。这种模式的建设难度巨大,并且是一个持续的过程,因此它主要适用于全台网已经建设完成并且规模很大的电视台,同时该模式也可以用于未来云计算模式的信息系统运维和运营。该模式的管理成本巨大,选择该模式需要进行科学的前期分析,以及评估使用该模式的基础是否稳固,中断任何一个模式内容的建设都会对成本构成压力。4.2 运维模式选择与应用
实践过程中,既可以根据电视台自身技术架构、业务规模、管控体系等众多因素,又可以根据运维管理现状和未来发展方向进行运维管理模式演进路线的选择。运维模式演进模型在实践应用场景中存在两种情况:一是在不同模式之间由低向高循序发展,最终达到良好的模式匹配状态,适用于运维对象不断变化、运维模式随之匹配,或者当前运维模式与运维对象之间存在较大差距、导致运维模式逐步进化匹配的过程之中。二是在一种模式之下逐步完善,最终达到本模式下的良好匹配状态,适用于运维对象相对比较稳定且与运维模式匹配于相近层级的情况。从技术架构、业务规模、管控体系出发,给出各种维度组合的运维模式选择参考标准,各电视台亦可根据自身实际情况对参考标准进行修订。运维模式的选择应考虑到运维对象诸多因素之间的均衡发展,寻找在该运维需求情况下的最优匹配方案。图 5 模式模型应用示意图。图5 模式模型应用示意图
5 运维体系建设实践
北京电视台制播网现有运维模式与日益提高的安全播出和稳定运行需求相比,还存在运维效率不高、运维效果不理想、运维成本过高、运维流程不清晰的问题,迫切需要一套基于IT系统和制播网业务特征的运维管理体系。北京电视台对以体系优化为导向的模式进行了实践,运维工作以年度能力策划为基础,制定了北京电视台制播网2014年能力实施计划和内审、管理评审制度,基于能力的核心四要素(人员、过程、技术、资源)进行全方位的策划、实施、检查、改进,建立和完善一套完整面向体系优化的运维管理体系。这种模式关注对能力体系的持续改进,从而有效实现对运维工作的管控并发挥运维创新能力。北京电视台制播网运维变革自2012年年底开始,经历了组织架构论证、调整,运维流程规划、实施,运维工具设计、研发等环节,2013年5月正式开始尝试性实践,2014年5月全面推广。5.1 人员管理(P)
运维组织架构调整是运维管理变革的关键点。全台一体化制播网业务模式已经实现了业务全面贯通,而运维人员还是各自关心自己所管辖的业务系统。· 人员岗位整合完成了制播网运维管理由纵向贯通向横向整合的变革模式,将运维岗位总体上分为IT基础运维、应用运维、服务台三个类型,并规划了三类岗位的业务切分模式。IT基础运维岗位主要负责以太网、FC网、数据库、中间件、存储、操作系统、文件系统、网络安全防护等基础软件以及设备相关事件的处理。应用运维岗位主要负责各业务系统应用服务方面的运维,保证各业务系统技术层正常运转。服务台岗位负责系统运维与制播业务的接口,主要负责接听用户电话、来人来访等业务请求,查询类请求直接回复,需要IT基础运维或应用运维处理的,以工单的方式告知相应值班员。· 立体化全息数据库工作管理体系通过建立基于工作项与技能项的全息数据库工作管理体系,将工作库与技能库进行立体融合,真正达到了制播网运维工作“人尽其才,才尽其用”的效果。5.2 流程构造(P)
北京电视台制播网运维管理初步形成了一些运维管理规范、运维管理制度、岗位职责、岗位定义等,但运维过程管理不够规范。根据ITSS关于运维流程定义,确定了事件管理、问题管理、变更管理、发布管理、配置管理、知识库管理流程等。这些流程有效约束了运维管理行为,为提高运维管理质量和效率提供了保证。图6为事件管理流程示意图:图6 事件管理流程图
评论 点击评论