省域专项数据建设及智能化应用

2023/03/06-17:18 来源:

毛振兴 卢岚 王硕

(北京北大方正电子有限公司)

摘要:在大数据和人工智能技术的驱动下,省域专项数据融合创新、场景化智能应用、数据治理思维革命、数据价值重构已成为传媒业的结构性力量,并由此形成省域数据治理新形态、媒介新生态和传媒新业态。开放多元的省域数据生态催生新内容和新服务,跨界融合和开放合作成为助力媒体融合新范式。本文通过省域专项数据中心与场景化智能应用的研究与实践,系统阐释如何在技术端发力,打造智能化省域专项数据中心建设,进一步提升媒体内容的供给质量与服务运行效率。

关键词:大数据 人工智能 省域 智媒 数据服务

一、 引言

随着全国新基建产业按下快进键,新技术支撑体系下的媒体形态将充分融合。其中,涉及信息与融合基础设施建设的三大核心技术为:以5G为代表的通信网络基础设施、以数据中心、智能计算中心为代表的算力基础设施、以人工智能、云计算、区块链等为代表的新技术基础设施。

在刚刚落幕的第二届中国广电媒体融合发展大会上,北京北大方正电子有限公司的“基于方正数据&AI双中台体系支撑的智能区域数据中心建设”项目成为“2021年度媒体融合创新技术与服务应用新入库项目”,并在安徽等地落地应用。

二、 省域专项数据管理

省域专项数据治理是聚合和治理跨域数据,为智能经济的底层基础,是产业数字化转型的必然要求。通过数据中台技术,对海量数据进行采集、计算、存储、加工,同时统一数据标准,再进行组织存储,形成大数据资产层,进而为客户提供高效的省域专项数据服务。利用在媒体行业深耕多年的经验积累,形成得天独厚的数据采集优势,具备前后端分离、组件化、微服务、弹性可扩展的应用架构体系,通过对多机构、多源数据接入管理,数据质量控制,数据组织存储和对外多维服务输出,从而实现从数据到数据服务的能力。

图片1.png


1 省域数据资源建设弹性架构体系

1. 省域专项数据标准管理体系

作为数据管理的核心要求,在建设之初的数据规划层面就要确定。首先与建设单位一起梳理和确认数据中台数据标准,是实现多源数据接入和多维输出的基础。数据标准包括业务术语标准、数据项标准、属性数据标准,同时针对数据质量评估也制定标准规范,包括数据的精确性、唯一性、完整性、一致性、关联性、及时性。具体在实施中依据管理数据对应已明确的应用,针对媒体主要的数据组织和应用场景,数据中台已经植入新闻领域相关的数据标准和规范,便于数据的调用、共享和流通。并为省域数据生态持续建设提供扩展性支撑。

依托数据中台,依据省域专项库的建设规范,完成了数据质量标准和规范的制定,包括数据的接入和输出标准。在数据质量管理方面提供开放域、智能、业务三类标签体系管理。涵盖省自治区标准地域信息标签体系;行业领域信息标签体系;针对文本、图片、音视频等的智能标签体系;涵盖属地党政领导干部的人物属性标签体系;通过海量数据训练,实现智能自动标引。

 

2. 省域多源异构专项数据的汇聚

在数据接入层面为了支撑省域专项数据分析应用,需要将散落在各机构单位的合作数据源、以及媒体各业务系统数据,之前都相对独立的“数据孤岛”的异构数据进行接入和统一管理,在此基础上围绕业务组织建设各业务数据中心并为上层应用提供数据服务。

各机构单位和各业务数据源具有如下特点。

1)分散性特点

省域各协作机构单位分布于省域各地,媒体单位的各业务数据也分散在各业务系统中,无法进行数据连通和共享,新增数据的加入和应用也比较困难。

2)异构性特点

省域各协作机构单位会根据自身需求开发了业务信息系统,系统采用的开发语言、操作系统、架构、数据管理系统、数据存储模式、数据结构、数据类型以及语义并不完全一致。因此,省域机构间数据源多类异构。

3)动态性特点

由于省域内各机构单位,在运行过程中,机构间复杂的协作关系、协作任务、数据源、相关配置都动态变更,因此,数据集成的内容和对象都具有动态性特征。

4)标准不统一,接口参差不齐

目前,各机构单位针对单个业务或专项业务单独开发接口,没有统一的标准和规范体系、种类繁多复杂、参差不齐、无法统一管理,导致互操作困难复杂。

针对省域多机构分布性、多端异构性、协作动态性和接口繁多,以及数据单条上传和批量接入汇聚的应用场景。本文提出省域环境下面向省直单位、地市、区县单位或者垂直子机构媒体应用领域提供开放的多源异构数据采集、大数据并发流处理、微服务计算、消息队列、消息协同处理等技术框架,实现多源异构数据单条和批量数据采集、上传,流式并发清洗转换、松散耦合式数据衔接等特征功能。解决面向省域环境下媒体自身、地市区县媒体单位、合作机构信息系统数据汇聚、管理、应用场景。

多源异构数据接入汇聚由数据源管理、数据字段映射、转换清洗规则定义、接入任务管理、以及数据流转状态监控组成。具体通过接入数据源和目标数据源的管理,提供多数据源的连接参数设置视图管理功能,提供数据源连接参数的增删改查,规范统一数据源批量接入。数据源支持关系型数据源、非关系型数据源、消息队列、文本数据集的参数配置:包括数据库标志、数据源类型、数据服务访问方法、主机名、端口号、用户名、密码等。数据源管理通过提供对数据库源连接信息的添加、删除和修改等管理操作,将多源异构数据源连接信息存入目标业务数据库,以支撑互联网下多数据库服务器源连接的统一管理和透明接入功能。

对于散落在省域范围内各机构单位个人PC或服务器中零散的异构复杂数据,提供包括文本、图片、音频、视频、书籍文件、影视作品等独立数据上传接入工具实现数据各种数据的汇聚集成。

 

3. 基于分布式的省域专项数据分析与组织存储

基于场景化驱动数据业务智能封装,对入库数据进行智能分析,包括地域、领域、情感、实体、自动摘要等,并实现智能打标。通过分步式的数据存储系统实现结构化、半结构化、非结构化等多源异构数据的存储管理,在此基础上构建业务数据库或专项数据库。在数据管理方面,对入库的数据量、各业务数据标签、数据的数据规模、数据内容进行维护管理,并且能支持业务应用的数据查询浏览与有效利用。具体应用以下核心技术:

(1) 采用分布式随机样本划分算法

按照使用场景可以分为批量数据转化算法和流式数据转化算法,按照数据的格式又可以分为针对结构化数据、时间序列数据、文档式数据、图数据,分类方式如下图所示。

图片2.png

2 RSP转化算法

(2) Hadoop平台多引擎技术

省域数据中心融合数据多引擎技术、Hadoop/HDFS分布式并行计算和多副本机制、Facebook/Cassandra对等节点机制等先进技术,避免单点故障并支持系统性能线性扩展。Hadoop 平台最核心的两个组件分别为:Map Reduce 分布式计算框架和 HDFS 分布式存储系统,其分别对应与 Hadoop 的两个层次:数据处理层和文件存储层。其中,HDFS主要面向超大型的文件承载量的应用,其设计目标在于: 

a) 硬件错误

硬件发生错误属于常态现象,硬件组件出现问题常常存在于现实生活当中,硬件损坏是不可避免的。因此,硬件等相关组件的错误检测和快速、自动恢复是分布式架构的核心设计目标。 

b) 流式数据访问

较之传统的应用系统侧重用户交互方面,基于 HDFS 的应用侧重点在于数据的批处理方面,需要能够流式访问其数据集。其不是特别注重和要求数据访问时的响应时间,而注重于数据传输的高速率、数据访问的高吞吐量以及数据的批处理。 面向数据分析的分布式数据管理系统

c) 大规模数据集

基于 HDFS 的应用面向的是大数据,因此其应用都是具有很大的数据集,这也就要去该框架能够给予较大的数据传输带宽。 

d) 简化一致性模型

基于 HDFS 的应用所需要建立的模型具有“一次写入多次读取”的特点,其文件一旦经过写入操作之后,数据一般不需要进行更改。正是由于这一特点,便可简化数据一致性问题,从而也使得数据传输的高速率、数据访问的高吞吐量以及数据的批处理等目标具有实现的可能。 

e) 可移植性

任何框架在设计初始阶段就会考虑平台的可移植性,框架的可移植性不仅有利于开发各类型的应用,而且也有利于自身开源框架的发展和推广。

(3) 分布式存储监控与管理

满足用户可持续发展需要的数据管理需求,支持对集群整体和每个节点运行情况的秒级监控,监控维度至少包括:每节点分区数、内存使用情况、存储空间使用情况、数据文件、记录数、IO、CPU、网络等。

(4) 节点管理灵活动态扩容扩展

支持动态集群扩容,至少包括节点列表、主节点管理、内存大小、集群IP、自动安装目录配置等;

(5) 数据库数据仓库初始化

通过数据库新建、可配置按指定字段分区与分库,支持副本数选择,支持指 定数据库类型,包括但不限于:节点数据库、虚拟数据库、镜像数据库、自分裂视图等类型;

(6) 节点任务管理

通过节点任务管理,按节点进行任务情况查看,包括开始时间、持续时间及客户端IP等,任务类型支持:检索、分类统计、统计检索、装库、删除记录、修改记录、副本同步等;

(7) 数据清洗映射

通过省域专项数据中心日常运维作业管理功能,作业类型包括数据排重、记录拷贝、对数据库配置信息管理等;

(8) 数据自动分区混合存储

通过多种存储混合使用:支持SSD、非SSD、HDFS等多种存储混合使用。支持冷热数据自动分区管理。

(9) 地域/领域分类标引

构建一套标准地域和领域主题信息知识库体系,并通过海量数据训练,获得可以自动标引文章所属地域的训练集;

(10) 自动摘要提取

通过智能的手段为省域专项数据自动形成摘要的技术。摘要提取技术采用抽取式摘要生成方法,融入篇章分析与指代消解中的最新研究成果,利用数据挖掘的相关算法与模型,通过智能的手段自动提取文档句子并形成摘要;

(11) 关键词提取、实体识别

通过将省域专项数据中的关键词和包括人名、地名、机构名等各维度实体属性进行提取,形成描述文本特征的结构化数据;

(12) 情感分析

情感分析技术结合情感词、情感程度词典,引入情感块的概念,利用支持向量机模型等分类算法对收集的省域专项数据进行各粒的情感判定。同时提出了利用情感模式进行分析的技术,真正实现了对文本的深入理解,使情感分析的性能进一步提高。方正智能分析系统的情感分析涵盖了词语、短语、句子、篇章等不同粒度,对其标注相应的情感倾向和情感属性,实现对指定文本或文本集进行全方位的分析。

4. 基于多级机构组织省域专项数据分级授权

    数据访问控制策略是数据安全防范和保护的主要策略,其任务是保证数据资源不被非法使用和非法访问。各种网络安全策略必须相互配合才能真正起到保护作用,而访问控制(Access—Contr01)是保证数据安全最重要的核心策略之一,是对省域专项数据资源进行保护的重要措施,是通过某种途径显式地准许或限制访问能力和访问范围的一种方法。

除了必须的系统及数据安全管理外,系统支持多级机构:可按省、市、县等多级创建机构。各机构数据隔离,可对数据接入、审核、查看等分级授权,如区县可查看和使用本区县以及被授权的数据资源

图片3.png

3 省市区县多级机构管理

5. 开放灵活的省域专项数据输出和服务

提供开放的数据输出和服务。省域数据中心核心目标是为各地市、区县,各类应用提供统一、开放的数据输出和服务。针对省域专项数据中心提供跨模态检索服务,可以方便的查询数据相关信息。实现对外的数据推送,数据展示和应用的多样性,提供开放的数据API,供三方机构二次开发和应用。针对数据的未来应用,在统一框架内以微服务方式来实现省域其他业务应用的联动例如数据提供全省市、区县机构单位使用,支撑二次开发应用。

图片4.png

4 开放灵活的省域专项数据输出和服务

 

三、 省域专项数据智能化应用

数据建设的目的是为了更好的数据服务和应用,基于省域数据资源建设和管理结合应用场景可提供省域专项数据的智能化应用。

1.提供媒体智能生产

省域数据中心集合更广泛的数据源和素材,专项数据还具有独特的数据特征,智能生产辅助能力沉浸在业务场景中,向新闻采编业务提供更丰富的供稿服务。满足信息全面和及时,新媒体稿件资源匮乏、辅助各个站点人员对稿件的编辑, 转载和使用

(1) 提供统一的数据资源查询和检索

针对省域数据中心所管理的来自各源的稿件数据、图片数据、音视频数据、分析结果数据可以进行统一的查看,可以按照开放域标签、关键词等检索,并实现文、图、等跨模态检索。

(2) 专项内容数据供给

省域专项数据可媒体生产提供针对媒体筛选后的专项内容参考,并在专项数据标签基础上进行专项数据内容的分级分类处理,以应用于信息检索,生产选用,大屏展示等不同应用需求。

(3) 媒体行业内容生产编辑器调用

省域专项数据中心在媒体行业实现与生产系统的打通,在各编辑查看专项数据内容信息,也可以在生产编辑器内直接检索及其结果的有效利用、利用语义分析技术根据稿件内容生成合理的关键字和摘要等功能。而每个编辑记者都可以订阅不同的专项信息内容浏览到有价值的内容,可以一键式选用到生产流程中编辑。

2、数据资源的可视化展示

   根绝省域资源管理的各种数据进行可视化展示,形成数据地图和数据看板,全面体现目前数据的整体规模,各类数据状况,新增情况,使用状况,为数据资产建设和应用提供直观的体现。省域专项数据中心借助数据输出服务,可为大屏可视化展示提供数据的支撑。

 

 图片5.png

5 数据资源的可视化展示

3.智能风控审核平台

在蓬勃发展的网络时代及多变的传媒格局中,监管工作面临着媒介传播方式趋向融合传播立体化、业务类型逐步走向更加多元化、多终端的局面。基于省域专项数据建设可构建智能风控审核平台,提供从内容监管、到渠道监管,再到传播监管,逐步实现多终端覆盖,对本省、市、合作单位或者下属子机构的提供数据、报刊、新媒体、图书、网络文学等内容进行内容风控审核;提供各机构内容提供智能审核手段和自检、监测服务。

针对省域各机构上传、各系统采集以及互联网采集接入的审核监管数据进行统一管理,形成监管数据库在此基础上提供智能审核和审读工作支持条和批量处理,最终形成审核报告。

系统提供多级多租户管理,分为上传机构、审读员、总部等角色,按角色定义权限和查看内容,基于省域专项数据资源建设,可实现对监管内容的批量自动汇聚,及手动上传图文、图集、音视频、PDF文档等多种类型数据。结合属地热点、重点事件、重点主题等监测内容的订阅,辅助审读员快速掌握市场热点和宣传状况,支持对审读稿件、重大主题的传播影响力分析,从而掌握监管内容的传播影响力状况。

(1) 文本智能分析和审核

可以对文本中的实体、关键词、情感、地域、领域进行智能分析和打标,提供单文本和多文本自动摘要,快速了解稿件的核心内容。利用的文本智能审校技术,是方正公司完成国家级项目的产品成果,审校内容全面,除错别字、敏感词、标点符号等较为通用的审校功能外,智能审校还可对稿件中的相似及重复内容、图表公式序号及参见落空、列表序号、历史纪年、公元纪年、干支纪年等错误进行检查。针对文本稿件涉及新华社禁用词、敏感词、领导人、语义歧义、领导人排序等内容进行智能审校,满足不同用户类型需求,提高稿件的审稿效率及质量。针对意识形态以及最新网络用语等,系统面向机构用户和个人用户提供自定义词库服务,通过词库语句,规则䃼充和维护,属于案例库或语料库的累积过程。语料达到一定程度,机器便可深度学习。

(2) 图片智能分析和审核

针对新媒体涉及的图片进行智能打标,识别政治敏感、公众人物、广告、恶心图像、涉黄、暴恐,对于内容中包含的图片,识别图片中的文字,并对文字进行审核,是否包含垃圾信息、敏感词,保证内容安全性。使用人工智能鉴黄、鉴暴恐等技术,智能识别图片和视频中的色情、性感、暴恐等内容,远离违规风险。

(3) 音视频智能分析和审核

针对音视频内容可智能识别、解析视频里面的文字、画面和语音,识别包含政治敏感、违禁品、广告内容、色情、暴恐的视频,保证内容的安全性。同时对视频中的语音、画面进行检测和过滤,识别视频中出现的动作、事件,以及其出现的时间片段,方便锁定问题出现的地方。

(4) 属地领导人物库建设和审核

基于所涉重点人物,如领导人物,构建基本信息、新闻报道、参与相关话题、事件、资讯等相关信息系统建设和管理,实现领导人信息及关联信息的快速查询,领导轨迹和相关报道追踪。提供属地领导人物图片、音频、视频打标,风控提示,包括属地领导人物变更、落马官员检查等维护服务。

四、 省域专项数据建设和应用开拓媒体的数据服务

面向媒体行业,即将迎来“信息随心至,万物皆可及”的智媒时代。瞄准新基建带来的红利享受大数据与人工智能的服务,是新时代智慧媒体建设的最优路径“大带宽、高速率、低时延”的5G,使媒体享受到最直接的技术红利伴随着业务发展,新增数据和应用成为常态,省域数据资源建设提供开放的数据平台,将数据与业务前后端分离、打通数据带脉,实现数据统一集中管理。在数据应用层面,针对不同业务场景和应用提供微服务形式数据输出,建设和孵化多种数据服务产品和数据应用。数据与业务松耦合,不仅保障数据管理的统一,又保障业务应用的灵活性。

基于数据中台架构支撑的省域专项数据中心治理平台,以安全可靠、稳健成熟的实用主义为指导,现有省域业务开展提供强有力技术支撑并为业务创新提供土壤在此基础上建设的专项信息服务平台、智能风控监管审读平台等基于省域数据建设的应用,有效把控新闻舆论及社会宣传导向,面向省域媒体政务、垂直领域、企业院校等用户实现低成本、高效率、高精准度的内容合规性保障,使媒体角色从“咨询内容提供者”向“城市信息服务者”转变

五、 结语

在省域数据中心和智能化应用支撑下,建设单位可以建设媒体机构内部资源的管理以及面向全省的专项数据管理服务开发。针对媒体业务系统、高频的数据服务更具特色,可以一键实现业务数据接入和输出联动。为满足数据应用不断发展和变化需要,采用组件化、微服务、弹性可扩展的数据产品架构和先进的数据管理基础以满足未来数据发展需要,以应对数据结构复杂、变化频繁等问题,根据服务需求选择资源的弹性扩展,更简单的管理和维护,以满足各领域数据服务和智能化能力的扩展,打造全省融媒体枢纽级信息集散平台,持续构建数据服务生态。

 

参考文献:

[1] 基于“数据+AI”双中台技术打造智慧媒体新基建“ 刘长明 卢岚 徐建

[2] 面向异构数据源的分布式集成工具研究与设计 刘海 张瞩熹 任雯 肖岩平