人民日报社融媒体数据库运维体系建设探讨

2022/09/05-17:15 来源:

0  

推动传统媒体和新兴媒体融合发展,是落实中央全面深化改革部署的重要任务,是适应媒体格局深刻变化、提升主流媒体传播力公信力影响力的重要举措。媒体深度融合写入“十四五”规划,意味着推进媒体深融发展已经成为迫在眉睫的工作重心。人民日报社较早的开展了报业媒体融合转型之路的探索,如今已形成报网端微多平台融合发展的全媒体矩阵。然而,报社核心工作区机房建设年代早,设备老旧资源有限,目前仅对传统纸媒业务提供技术服务。按照报社在建项目规划,新数据中心机房即将建成,设备资源充足,将搭建专有云平台,且将新建、改造、整合传统媒体和新媒体业务应用系统,打造全报社业务互联、数据互通的新型融媒体平台。

数据库的可靠性和性能,直接关系到业务系统的运行状态,数据库运维工作至关重要。融媒体业务数据库相较于传统媒体业务数据库,运维需求根据业务特点有所不同;业务系统上云相较于传统物理机环境,给数据库运维带来一些便利,但运维操作难度也有所提升。本文在报社新型融媒体平台建成上线之前,总结过去数据库运维经验,分析新平台新架构环境对数据库运维带来的便利和挑战,对未来报社融媒体数据库运维体系构建进行探讨。

 

1  人民日报社传统业务数据库运维现状

人民日报社现机房建设于2000年,机房面积较小,硬件设备资源有限,所能承载的业务系统数量有限,目前仅采编系统、投稿系统、公共稿库等传统纸媒业务系统运行在该机房。这些系统建成较早,均采用物理机架构部署,且机房现有空间及配置无法搭建云平台,无法将其改造部署在云平台上。每日出报任务必须保障平稳安全完成,因此数据库故障须在短时间内修复,运维人员全天候监控值守。

根据以往的数据库运维工作总结,报社数据库运维内容主要包括监控及告警通知、风险和故障排查及修复、日常运维及巡检、高可用配置管理、备份与还原策略、漏洞修复与版本升级、文件存放与清理、账号权限与运维人员管理、新增数据库搭建等。现有数据库均为关系型数据库,仅存储结构化文本数据,数据量不大;非结构化数据主要为图片,直接拷贝到硬盘保存。

数据库运维目前存在的问题一部分是由于当前机房环境和系统架构所致:新增数据库搭建需要同时调配物理机资源、网络资源、软件资源和存储资源,准备工作复杂,搭建周期长;各业务系统数据库均以双机物理机架构部署,配置为双活或者主备模式,每日进行全量逻辑备份做冷备库,高可用和备份策略比较简单,若双机集群宕机则业务中断,恢复或者重新搭建数据库集群需要一定的时间,启用冷备库也会导致部分数据的丢失,可靠性低;没有足够资源搭建测试环境,无法测试评估数据库数据恢复、漏洞修复和版本升级、性能调优等一系列运维操作是否正确、是否影响业务正常运行,也就无法在生产环境中实现;因安全方面的要求,数据库服务器运行在内网环境中,数据库运维需要的软件工具、操作系统插件、补丁包等无法在线安装,运维人员各自在互联网下载后导入到内网服务器中进行手动安装,且每台服务器需要分别安装,大大影响运维效率。

除环境影响之外,数据库运维机制本身也存在一些问题,总结如下。

1)规范性文档资料少

因数据库搭建年份较早,当时还未有规范化的文档管理要求,数据库相关文档存放较分散,不方便查阅。目前已整理了各数据库所在服务器地址、账号密码、启停操作等数据形成运维手册,但日常运维还涉及到数据库安装目录、配置文件和各类日志存放位置、高可用配置机制和备份还原机制、日常故障处理流程、日常运维操作和巡检流程等。一切有章可循才能在风险和故障告警第一时间进行快速、正确的运维处理。

2)数据库运维管理分散

各业务子系统的数据库没有统一的运维管理平台,无法便捷掌握各数据库运行状态、配置信息和资源占用情况,只能手动分别查看;运维人员一般通过自己下载的各种第三方数据库图形化管理工具,或者直接远程到数据库所在服务器上进行指令操作、脚本运行来完成运维工作,每个人有各自的运维方式,运维经验和运维工具未得到共享,且运维日志分散在各管理工具及各台服务器中,不方便集中查看,影响数据库日常运维效率;第三方运维人员皆使用各数据库管理员账号登录进行运维操作,权限不受限制且日志无法区分,只能对其操作进行人工监视,存在运维安全隐患。

3)部分重复性工作由人工完成

数据库运维有不少重复性工作,比如日常启停操作、例行巡检、补丁更新、主备切换、日常备份、部分日志及备份文件清理、告警日志信息排查等,这些工作部分由运维人员各自编写的定时脚本完成,其余由人工指令操作完成。重复性工作造成人力资源的浪费。

4)无风险提示和故障预警

目前对于数据库的监控仅测试其连接是否成功,发现问题时数据库已宕机,业务中断,需要一定时间来修复。应及时获取数据库运行状态参数、日志中的各类告警信息,通过算法模型分析,预测数据库的潜在风险,及时调整修复这些问题,尽可能减少数据库宕机的发生。

5)无直观的数据库信息展示平台

目前只有简易的监控界面显示数据库是否宕机,对于数据库配置信息、运行状态、告警信息、分析报告以及一些敏感操作没有直观的展示界面,不能及时发现数据库的风险隐患,且在对每个数据库进行运维操作之前都要手工检查其运行状态和日志信息,影响运维效率。

 

2  人民日报社融媒体数据库运维难点

新建融媒体平台将部署在新机房专有云平台,结合云平台对资源池和虚拟机的灵活操作,当前数据库运维的很多问题将得到解决。云平台中将划分数据库资源池,可通过模板方便快捷的搭建新数据库;结合虚拟机本身的镜像和快照模式,故障恢复更加快捷和多样化,可靠性增强;基于云管理平台可以进行一些批量操作,如批量关启数据库所在虚拟机,批量打补丁等;可快捷搭建测试环境,模拟生产环境进行一些数据库运维测试操作;运维人员各种操作均有日志记录且可监控录像,风险行为可追溯,安全防控力度得到加强。

然而,云平台虽然给运维带来了一些便利,但并不能解决数据库运维机制本身存在的问题;融媒体相较于传统媒体有着不同的特点,其数据库架构及运维需求也不同以往,可预见的运维难点总结如下。

1)融媒体平台涉及业务系统多、数据类型多,数据库种类和数量随之增多

新建融媒体平台包括融媒体资源库、融媒体采编、融媒体线索汇聚、融媒体报道指挥、传播力和舆情分析、融媒体绩效考核等一系列业务系统,数据量将会迅速增加,数据类型多样化,按数据结构划分可分为结构化数据、半结构化数据和非结构化数据,按过程划分可分为爬虫获取原始数据、清洗后的中间数据以及算法分析后的结果数据,按业务划分可分为素材数据、半成品数据和成品数据等,相应的数据库的种类和数量会随之扩大,包括关系型数据库mySQL、非关系型数据库mongoDB、内存数据库Redis等。不同的数据库有不同的管理平台和运维工具,数据库类型和数量的增加会加重数据库管理分散的问题;若不减少人工重复性操作,人力成本将会极大增加,运维效率也难以达到要求;大量的数据库更需要规范化的文档管理,包括日常的一些配置和运维流程、海量数据按类别的留存和清理时效等,降低沟通成本,避免大量运维工作无章可循的混乱。

2)融媒体平台时效性要求高,数据库可靠性需进一步提升

传统纸媒业务需要每天按时完成出报任务,而融媒体平台的信息发布更注重时效性,业务系统运行中断、数据丢失等会造成严重的后果。报道指挥、线索汇聚、传播力和舆情分析等系统业务也需要不间断的运转,因此,融媒体数据库可靠性要求更高。因此,可根据各业务系统的特点和需求拟制不同的高可用配置机制、备份机制,根据不同的故障情形拟制不同的故障恢复机制,故障发生时可随时参考实施,而不是由运维人员临时根据现场状况进行方案制定;需引入数据库风险故障预警能力,尽可能提前发现风险并阻止数据库故障的发生;采用全面直观的数据库信息展示平台,一目了然掌握各数据库运行状态,及时发现数据库风险隐患,提升运维效率。

3)业务系统上云后,数据库运维便捷度提升,运维复杂度也相应提升

新业务系统数据库部署在专有云平台虚拟机中,因此数据库运维人员需同时掌握数据库运维技术和一定程度的云平台运维技术,运维复杂度提升。例如,虚拟机自身的镜像、快照提升了数据库可靠性,但这伴随着更加复杂的备份机制和故障恢复机制;利用虚拟机模拟生产环境搭建测试平台,进行数据库测试的一系列操作;生产环境数据库打补丁全过程对虚拟机进行的快照备份以及可能的回滚工作等,运维效率依赖于运维人员个人的技术能力和熟练程度。因此,针对各种常用的配置和运维操作,需要制定规范化的运维流程指导,并不断更新记录文档,方便追溯和借鉴历史运维经验和解决方案,保障运维效率和质量。

 

 人民日报社融媒体数据库运维体系建设探索

经过多年的信息化建设,人民日报社数据库运维已积累了大量的经验,结合对即将建成的融媒体平台数据库运维难点的分析,本文认为,可制定一系列规范化管理文档来约束和指导数据库运维操作,建设集中统一的运维管控平台来整体把控数据库运维工作运转,建设全面直观的数据库信息展示平台来清晰呈现数据库实时运行状态,搭载自动化运维引擎减少人工作业、提升运维效率,搭载智能化运维引擎提升风险预知、故障研判和运维方案制定的能力,来构建“事前预防、事中快速响应、事后可追溯”的规范化、统一化、智能化、自动化、可视化的融媒体数据库运维体系,如图1所示。



图片1.png

1 人民日报社融媒体数据库运维体系


 

1)规范化

规范化是一切运维工作的基础,即是将日常运维中的碎片化经验集中梳理,成为指导运维工作的指南和规则。根据运维工作总结,规范化管理内容可包括文件管理、配置管理、策略管理及安全管理,如图2所示。各业务子系统数据库的安装目录、配置文件目录,各类日志文件、备份文件、所在虚拟机镜像及快照文件、常用运维工具和补丁包的存放位置及清理机制,可进行规范化指定和记录,方便管理和查找,运维工具和补丁包也应时常更新维护;配置管理包括数据库的网络、实例名等基本配置,以及高可用配置和告警阈值的配置规则及信息记录;策略管理包括数据库启停、主备切换等日常运维策略,以及巡检策略、备份策略、漏洞修复策略,事件处理策略应包括告警甚至故障发生时的标准化处理流程,总结经验化的事件处理方案并不断更新积累,后续运维可直接参考;安全管理必不可少,要细化数据库运维账号的权限分配,限制各类运维人员的操作范围,对运维人员的值班、事件记录、操作规范等制订明确的管理规则。


图片2.png


2 人民日报社融媒体数据库运维规范化管理内容


 

2)统一化

统一化是将各业务子系统、各异构数据库进行集中管理,建立统一运维管控平台,提高运维效率和安全性。该平台可分为用户管理模块、信息获取模块以及操作下发模块,如图3所示。运维人员统一登陆该平台进行信息查看和运维操作,可根据其负责的业务子系统和数据库运维内容进行权限控制,并对其操作进行详细的日志记录。采集各异构数据库原始数据之后,可将其解析为该平台所需信息,并统一数据格式,为后续集中展示和分析预测提供支持。在该平台可进行大部分常规的数据库操作,方便快捷,平台将自动将根据数据库不同类型解析为其适用的指令并下发。

图片3.png 

3 人民日报社融媒体数据库统一运维管控平台

 

3)智能化

数据库故障风险预知需要智能化数据分析来实现,通过对历史数据训练建模,也可对故障原因进行智能化分析并寻求解决方案,对日志数据的智能化分析可形成各种运维报告。构建智能化运维引擎供运维平台调用,可提前预防一些潜在故障,有效协助运维人员进行判断实施。如图4所示,对历史数据进行清洗得到训练集,进行不同的算法训练之后可得到风险预测模型、巡检结果分析模型、事件分析研判模型及事件处理模型等。导入数据库实时数据信息,便可通过各类模型得到分析结论或者解决方案。结论和方案在实际实施中可得到验证,包括人工干预等过程生成的日志可回溯到历史数据中,更新训练集数据,使模型的智能化能力不断得到提升。验证成功的结论和方案可记录归档,日后运维遇到同样的问题可参考实施。

图片4.png



4 人民日报社融媒体数据库智能化运维引擎


4)自动化

过去的数据库运维工作积累了大量的碎片化运维经验和运维工具,运维经验经规范化整理可形成一系列运维策略,而实现各种功能的运维命令、脚本、数据库自带的运维组件及第三方运维插件等工具可形成共享的运维工具库,供各类运维操作随时调用。这些经验和工具便可构建自动化运维引擎供运维平台调用,尽可能减少重复性人工作业,提高运维效率。如图5所示,自动化运维可由计划触发或事件触发。计划包括人工设定的巡检、备份、漏洞修复等任务,这些任务启动将自动按照规范化的策略进行实施,调用共享的运维命令、脚本等工具完成任务。告警、故障等事件发生时,可参照规范化的事件处理策略,自动化查找记录中有无相同事件的解决方案可用,若有则按其执行,若无可参考智能化运维引擎给出的解决方案,必要时结合人工干预完成事件处理,全程可调用运维工具库快捷执行运维操作。



图片5.png

        图5 人民日报社融媒体数据库自动化运维引擎

 

5)可视化

数据库运维可视化包括数据库基本信息、运行状态以及分析报告等的可视化呈现,即本文所描述“统一运维管控平台”中的信息获取模块的可视化展示,是运维人员全面、直观、实时掌握数据库运行状态的窗口。数据库运行状态是否正常,一目了然的集中可视化展示是最基本的要求,若有告警信息、风险预警、敏感操作等运行隐患,需及时、准确地以醒目的方式呈现出来;数据库基本配置、资源占用、性能指标等的可视化呈现,可以帮助运维人员直观地发现数据库风险隐患以及影响数据库性能的因素;数据库每日将会产生各类分析报告,如每日运维报告、事件分析报告、备份报告、漏洞修复报告等,这些报告的可视化呈现帮助运维人员快速掌握报告重点内容,提炼需要解决的问题。

 

4  结束语

人民日报社新型融媒体平台的建成,将为报社新闻事业进一步发展提供坚实的技术支撑。融媒体业务系统数据库的平稳、持续运转是业务工作正常发挥效用的基本要求,因此对数据库的运维工作应格外重视。本文所提出的规范化、统一化、智能化、自动化、可视化运维体系构建理念,改变了传统的运维方式,对运维工作面临的难点提出了解决思路,为运维效率、运维质量及运维安全的提升提供参考。

在今后的融媒体数据库运维平台实际建设过程中,应广泛调研数据库运维最新技术和优秀案例,汲取适用于报社数据库运维模式的技术要点,不断填充本文提出的运维体系使其具体化,最终形成融媒体数据库运维平台的技术架构和建设方案。

 

 

参考文献:

[1] 莱恩·坎贝尔,夏丽蒂·梅杰斯.数据库可靠性工程—数据库系统设计与运维指南.第1版.北京:人民邮电出版社;2020.