基于业务元数据标准化的 金融财经数据仓库及服务系统架构探讨

  • 优秀论文奖
  • 文章作者:中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

    蔡津津 郜新鑫 付建俐

    (新华通讯社技术局)

    [摘 要] 金融财经结构化数据仓库是金融信息服务重要的基础设施和服务形式之一,本文从金融财经数据服务的数据源、数据内容、服务需求的特点出发,分析其技术关键点与难点,并结合金融信息平台“新华08”金融财经结构化数据库中已成功上线运行的宏观行业经济数据库及服务系统的技术架构和建设经验,着重围绕业务元数据标准化建设思路,阐述了业务元数据标准的制定内容、实施手段,以及在此标准框架下数据采集、数据整合、数据管理、数据共享、数据应用等各数据仓库及服务建设环节的技术实施方案。

     

    [关键词] 金融数据 业务元数据 数据仓库 数据采集 数据共享服务 WebService

     

    1 引言 金融财经数据仓库及服务系统是金融信息服务最重要的基础设施和服务形式之一,金融财经领域的决策支持涉及到海量数据的量化分析和模型计算,需要覆盖面广、内容规范准确、关联整合程度高、便捷高效的结构化数据服务。因此金融信息服务提供者面临的巨大挑战就是要引入、采集来自各个领域的标准不一、质量参差不齐的数据,将其有机整合在一起,实现持续的数据维护与管理,保证数据质量,并提供可以满足各层次用户个性化需求的数据服务软件与数据共享及计算平台。 金融财经数据中的宏观行业经济数据与其他领域相比,其内容和格式较凌乱多变,缺少规范,我们以此领域为切入点,进行了业务元数据标准化工作,并将标准贯穿于该数据服务系统的各技术环节,实现了多领域数据的关联整合和有序管理,使该领域具备了较好的数据服务能力和扩展能力。

    2 金融财经数据服务的数据内容与需求特点 金融财经数据服务涉及的数据内容包括宏观经济数据、行业数据、微观行业经济数据和金融市场相关数据等,具有以下特点:

    (1)数据内容广泛,其粒度、统计口径和产生方法各不相同,并且数据应用方式会因用户的分析目标不同而千差万别。

    (2)数据源形态和接入方式多样,结构不一,质量参差不齐,数据精度、数据描述和数据属性没有统一的标准。

    (3)数据的内容结构和业务需求经常由于业务发展而变化,由此数据源发生的相关调整会给数据服务质量和数据持续性维护提出很大挑战。 从用户需求上看,数据覆盖范围越全面、粒度越完整、历史数据积累越久,其价值也越大,同时用户在分析和决策时需要尽可能全面的获取和发现真正与其分析目标相关的数据,因此不仅要将各领域的数据整合在一个体系内,提供统一的服务系统,方便用户进行个性化的数据组织、查询和计算分析,还要将数据的内在关联和逻辑关系进行梳理与保存,以便为用户推荐和提取与其需求最相关的数据,并在此基础上通过以下三类形态服务于各层次用户:

    (1)对于基础数据用户:提供数据浏览、查询、计算分析、图表编辑的软件工具。

    (2)对于专业数据分析用户:提供一个可满足用户个性化需求的通过脚本语言操作数据查询接口和模型分析接口的数据分析平台。 (3)对于高级机构级数据用户:提供可按用户需求订阅并进行数据推送的共享数据服务。

    3 金融财经数据仓库及服务系统技术关键点 从上述关于数据内容及用户需求特点分析来看,系统技术架构需要考虑如下几点:

    (1)形成合理的数据存储架构,保证数据服务的弹性和扩展性,尽可能降低数据内容与结构的变化对服务的影响,在效率、可维护性、可扩展性三方面达到平衡。

    (2)抽象出适应未来数据内容扩展和需求扩展的业务模型,形成业务元数据标准并提供管理平台,形成完善的编码体系与业务元数据映射机制,并建立各领域数据之间的关联关系,为数据逻辑模型和物理模型设计提供依据,实现业务元数据、数据组织方式与数据本身的松耦合,便于扩展和管理。

    (3)建设基于数据采集规则与表单结构标准化描述语言的数据采集平台,可灵活自定义采集表单和采集任务,无需开发即可快速应对各类周期性的或临时性的结构化数据采集需求。

    (4)提供包括数据查询接口标准、数据交换协议标准、数据目录、用户订阅管理及数据访问权限控制体系的安全高效的数据共享服务接口。

    (5)对于不规范且结构复杂的海量数据,选取从效率、弹性和可靠性上更适合此类数据服务的数据库架构,如列式数据库和基于share-nothing架构的支持并行处理和线性扩展的数据库架构。

     4 宏观行业经济数据业务元数据标准 业务元数据用于描述数据的内容、属性、覆盖范围等信息,当我们根据数据的业务特征和应用需求特征,形成统一、规范的业务元数据标准,来描述这些高维度、结构相异、难以直观查询比较的数据信息时,这些数据便通过业务元数据这一桥梁,被紧密的连接起来。 宏观行业经济数据的业务元数据标准体系包含了一套业务元数据标准、一套编码体系、一套数据维度建模标准和一套业务元数据制定流程。

    4.1 业务元数据标准 由于此类数据基本都为周期性统计数据,如年、月等,数据的产生和计算分析的对象是按周期以时间序列呈现的一串数据,因此规定一个指标的时间序列作为一个最小数据单元,描述一个数据单元的元素包括数据名称,统计周期、地区属性、数值单位,来源,这些元素确定后就能得到一条时间序列。标准还规定了报告期元素,其值代表一个统计周期,因此对于一个时间序列,确定了报告期,就确定了一个数据值。 标准中还规定了数据名称由指标名称与若干修饰词组成,修饰词之间的层次关系、包含关系等决定了不同数据单元之间的逻辑关联关系。对于共享度高的修饰语或其他元素的元数据内容则可提炼出来形成共享业务元数据,通过它们就可将不同领域的数据关联整合到一起。若有新数据内容加入时,涉及到这类共享元数据直接引用即可,从而也与已有数据建立起了关联关系。 4.2 编码体系 编码体系包括技术编码体系和业务编码体系。业务编码标准体系主要目的为各个业务元数据元素提供一个有业务含义简单易记的代码,代码编制规则既体现业务含义又体现元素之间的层次、包含、关联关系;技术编码没有特定含义,对于含义一样的元素只需给予一个技术编码,对于同一元素虽然文字名称或描述有变化,但技术编码保持不变,这样就可以在业务元数据描述或名称发生变更时,建立元数据映射,保证数据的可持续性维护。

    4.3 数据建模标准以及数据组织方式 根据业务元数据标准的思路,形成数据建模标准以指导数据存储表结构的设计:首先,六个业务元数据元素形成6个维度表,数据值作为事实表;修饰语表和指标表与数据名称维度表进行关联,实现多个修饰语与一个指标名称结合在一起形成一个数据名称;之后通过一个可以存放多棵分类树的分类表,将分类树的叶子节点与五个业务元数据元素决定的数据单元相关联,从而能够根据需求对数据进行不同的分类组织,形成面向各类用户的数据目录,用户可通过这些分类树对数据进行浏览。

    4.4 业务元数据制定及维护流程 该流程标准规定了新数据内容加入时业务元数据的提炼整理和添加规范,以及已有业务元数据发生更改时的操作流程规范,主要包括以下几个步骤:

    1.调研数据的业务含义,参考现行各类标准,按业务元数据标准确定各个元素内容。

    2.判断各元素内容是否已存在,若存在可直接引用。

    3.新增或调整修改编码。

    4.确定是否存在共享元数据并提取至共享元数据库。

    5.通过元数据管理平台进行业务元数据的添加、修改、审查和生效。

     

    5 基于业务元数据标准框架的宏观行业经济数据服务系统 宏观行业经济数据仓库及服务系统是包含于金融财经数据仓库及服务系统之内的,技术架构如图1所示:

    5.1 数据仓库的存储架构 分为数据采集区、数据交换区、数据生产区、数据共享区和数据分析区,来自于数据源或采集系统的数据,在数据采集区域初步审核和清洗,然后在数据交换区进行标准化转换和整合,最终进入数据生产区,数据生产区存放整合好的成品数据,包括基础数据和业务元数据,业务元数据分为领域专用业务元数据、领域共享业务元数据和共享业务元数据三个层次,实现领域内和跨领域数据 间的关联整合,各类应用从生产区抽取数据到数据分析区按应用需求进行再次加工和组织,数据共享区则向使用数据共享服务接口的用户提供数据,数据管理区存放数据管理平台管理维护过程中的数据。

    5.2 宏观行业经济数据采集平台 该采集系统主要业务模块由采集表单和任务设计生成、任务派发、采集、审核、加载等过程组成,采用FLEX技术开发拖拽式表单定义与任务定义交互界面,采用xforms标准描述表单样式和采集规则,可实现采集系统未来在多类采集终端上的扩展。主要步骤为: 首先、按业务元数据标准框架定义所采数据的业务元数据,并通过数据管理系统加入到元数据库中。 其次、在数据采集表单和采集任务定义中通过对业务元数据的读取、关联和相关表格设计操作,即可实现表单设计,并将采集数据直接加载入基础库,无需进行数据转换加载程序的开发。

    5.3 宏观行业经济数据管理系统 数据管理系统发挥着按业务元数据规范管理维护整个数据生产和服务过程的作用,主要模块包括:业务元数据管理模块,提供元数据的添加、修改、浏览等功能;数据共享接口管理模块,提供数据目录浏览、数据订阅、权限设定、接口测试和监控功能;数据源元数据变化监控与调整模块,提供数据源元数据变化浏览和元数据映射调整功能。

    5.4 宏观行业经济数据共享服务系统 数据共享服务系统依据业务元数据标准框架设计了五类数据接口标准和数据交换格式,并为用户提供WebService接口用来获取数据,用户可通过浏览数据目录设定所需数据集,当用户获取该数据集的共享权限后,即可通过数据接口获取数据分类树信息、业务元数据信息、数据单元所含数据总数信息、按发布时间和报告期时间获取数据值。

    5.5 宏观行业经济数据应用系统 宏观行业数据应用系统采用CS架构和智能客户端技术,功能模块包括了数据浏览、图形浏览、相关资讯浏览、数据查询、数据计算分析、我的分析模板等。其特点为:

    1.应用系统在业务元数据标准框架下形成了数据查询模式、数据图表分析模式和计算模式,对于新的宏观行业数据内容仅需按标准定义好元数据,采集入库,通过简单配置即可在应用系统中使用,不需要进行任何开发。

    2.由于业务元数据与事实数据进行了松耦合,因此应用系统能够采取服务器端、客户端、内存各层次的多级存储,将访问和搜索操作频繁但更新频率较少的业务元数据预存在客户端,按用户访问频率在客户端和内存缓存事实数据,以提高访问效率。

    3.数据的组织是通过基于数据单元构建数据分类树来完成的,因此可以完全按照用户的习惯构建和保存数据分类树,并能很容易的保存用户定义好的数据图表或分析计算过程。

    4.由于业务元数据将数据名称拆解为指标和若干修饰词,因此用户在浏览数据过程中,系统可将修饰语作为关键字为用户搜索和提供相关新闻资讯,并可根据多个数据领域共享的修饰语元数据为用户推荐关联数据;依靠编码体系所体现的数据之间的层次及包含关系,还可按应用需求提取数据重新组织维度模型,从而灵活应对应用需求变化。

     

    6 结束语 对于数据信息的采集和服务者,其优势就在于集百家数据之大成,只有将数据进行良好整合才能够在数据服务中具备竞争优势,宏观行业经济数据库及服务建设实践了数据标准化先行的理念,切实提高了数据管理能力、系统的扩展能力和服务质量,并可将其建设思路拓展到整个金融财经数据服务建设中。在此项目中我们更加感受到标准制定工作的挑战在于如何在建设初期调研和搜集足够多的业务需求和实践经验,形成尽可能完备的标准框架;在于如何对标准进行升级和维护,并且随着数据量和应用需求的日益增加,使标准体系支持数据服务系统向大数据(big data)技术的转型和迁移,这将是此类服务系统建设未来研究和发展的方向。

     

    参考文献: 1.戴浩. 基于业务元数据的多维建模系统设计与实现[J]. 计算机工程与设计,2010;31(24):5248-5256. 2.王斌. 基于规则的动态数据采集技术及其在出版统计中的应用[J].南京理工大学硕士学位论文,2004. 3.熊建斌,李振坤,陈平华,刘怡俊,林瑞峰. 元数据技术在数据共享平台中的应用[J]. 微型机与应用,2010;29(9):13-16. 4.鲍丽红,韩双旺,王威. 基于元数据模型的数据仓库集成[J].软件导刊,2010;09(2):153-154. 5.王珊,王会举,覃雄派,周烜. 架构大数据:挑战、现状与展望[J] . 计算机学报,2011;34(10):1741-1752.

    编辑:中国新闻技术工作者联合会

    评论 点击评论