基于结构化文档技术的数字出版系统研究
张东升
(潍坊北大青鸟华光照排有限公司 山东潍坊 261061)
1 引言
新闻出版业是中国一个较具影响力且快速发展的行业,出版业是一个依托内容创新和技术支撑的产业,技术进步是引起变革的基本动因。经历过两次大的技术革命,第一次是告别“铅”与“火”的排版印刷技术革命,第二次是甩掉“纸”和“笔”的新闻采编技术革命。在当前蓬勃发展的网络化时代,正面临第三次的技术革命:在从传统的印刷出版向全媒体数字出版的方向发展。以纸质媒体为主的传媒报业必须与网络传媒进行结合才能焕发新的生机。搭建全媒体的出版管理平台,自动实现信息资源在多种载体上的一次生成、多次发布,将极大提升新闻出版业的竞争力。 在刚刚公布的《新闻出版业“十二五”时期发展规划》中指出,“优做大做强新闻出版产业,提高新闻出版业整体实力和竞争力,顺应数字化、信息化、网络化趋势,推进新闻出版业转型和升级。鼓励和支持新闻出版企业开发拥有自主知识产权的关键技术,发展以内容生产数字化、管理过程数字化、产品形态数字化、传播渠道网络化为主要特征,以网络出版、手机出版为主要代表的数字出版等新兴业态” [1]。数字复合出版工程将研究一套完整的数字化、网络化、一次制作、多元发布的新闻出版生产运营技术平台,从而实现新闻出版业一场新的技术革命。
2 系统的研究内容
进行基于自主版式文档技术的研究,形成适用于数字出版业的版式文档标准;完成可以处理汉文和少数民族文字的印刷、网络出版一体化的数字出版系统的研发。
2.1版式文档标准研究
基于结构化版式文档的研发是发展我国数字出版业的基础。版式文档格式是版面呈现效果固定的电子文档格式,特点是版面固定、不跑版,即所见即所得(What you see is what you get),使电子文档在使用过程中,呈现效果不因软硬件环境、操作者的变化而变化,在版式、字体、字号等与纸质文件保持完全一致。版式文档格式的特点使它成为电子文档发布、数字化信息传播和存档的理想文档格式。 在国外,Adobe公司的PDF版式文档格式目前已成为数字化信息事实上的一个工业标准,并形成了Adobe Acrobat系列的版式软件。国内在数字出版业还没有形成统一的版式文档标准,我们参考国内的版式文档格式在办公软件领域的《GB/T 20916-2007中文办公软件文档格式规范》,电子公文领域的《GB/T19667-2005 基于XML的电子公文格式规范》等版式文档格式标准,形成适用于数字出版业的版式文档标准。这个文档标准是基于XML技术的一种自主版式文档格式,涵盖数字出版需要的文字、文章信息、文章转接、图像、图形、动画、音频、视频等多媒体信息,能够完全描述数字出版物的全部信息。 结构化文档格式是版式文档技术和XML技术的融合;首先它具有比较强的版面描述能力;其次它具有良好的结构表达能力,可以通过XML表现文件的逻辑信息。在结构上分成三个层次:
- 版式描述层:描述了公文的版式显示,包括文字的位置、大小、颜色;线的位置、长短、颜色等。
- 逻辑描述层:描述了新闻的逻辑结构,如标题、字号、来源等。
- 操作层:描述了新闻各元素的相互计算关系或单个元素的特殊处理等。
2.2数字出版系统研发
本系统对各类信息资源进行收集、加工、整理、整合,并以数字化形式多渠道发布应用。把信息资源从单一的纸媒体发展成网页、Flash、语音等多媒体的显现方式,实现跨系统的交换使用,并最大限度的实现信息资源的共享,使现有的信息资源有效的利用手机网络、互联网、广播有线电视网进行传播。实现信息资源进行整理、入库、管理、发布、检索工作,并完成各类信息资源的完整还原和再现工作。 本系统采用先进的数据库发布技术,实现了“入库即发布”的功能,简化了发布工作,体现了新闻内容的时效性,是见报资料的整理、管理与发布的一套完整的数据处理系统。本系统可以广泛的适用于报社、杂志社以及网上各种新闻媒体。系统内置全文检索,支持新闻图片发布,集成了网站上流行的功能如BBS、在线订阅、在线投稿等,可以灵活方便的与新闻综合处理系统相结合使用。 利用标引等手段对版面文件中的版面信息进行合并、归整等操作,把稿件建立标题、文字、图片、表格等对应关系,自动提取日期、标题、文字、作者等,自动或手工对标题、文字稿件、图像稿件、表格、EPS/S2等进行关联,设置稿件之间的顺序,设置版面信息、文章信息、图片信息、规范化文字的格式,特定部分转换为稿件图等功能。形成完全可再利用的数字资源,可以供给后期多种系统的再次使用,包括电子报纸、稿酬计费、新闻采编的见报稿件库等,深度挖掘报纸稿件的再利用价值。
2.2.1系统结构
本系统包含数据加工系统、数字资源加密及发布系统、数字资源管理系统三个主要功能模块。 数据加工系统子系统:即信息数据的取得和整理,形成完整的数据; 数字资源加密及发布系统:可以发布为网站和其他的多种媒体形式。 数字资源管理子系统:数据库管理和数据再加工,可以增加音、视频等更多的信息;
2.2.2系统特点
- 稿件来源灵活多样
与新闻综合处理相结合,编辑人员可以将稿件直接签发到电子报纸。系统提供数据入库功能,可将指定目录下的版面信息文件全部以纯文本形式入库。可以直接撰写稿件或加入图片在电子报纸上发布。
- 轻轻松松生成页面
系统提供主页生成向导以及正文页生成向导,根据提示可以根据模版生成完美的主页以及正文页界面。可以用FrontPage或InterDev修改现有模版,也可以另外自定义模版。
- 发布效果变化万千
发布效果可任意设置,稿件的标题,肩题,副题,内容等的效果、字体、字号、颜色可以任意变换。
- 版样图形自动转换
报纸的版样结构蕴含了大量的非文字信息,系统能将版面大样文件转换成图形供读者浏览。
- 设置可以处理多种文件格式
通过各类插件可以处理的文件格式包括,各类版式文件:pdf、epub、ps、eps、ceb、s92、s72、mps,中间结果:fbd、fit、yj、p65,图像文件:psd、tiff,网站文:html等。
- 新闻订阅方便快捷
系统提供了带有电子订阅卡的模版,读者只需在报社的网页上填写订阅卡,就可以定期收到报社发送的电子报纸标题信息,极大的方便了读者上网浏览。
- 以多种结果文件发布
可以按不同用途将数字出版物的发布为hgml、html格式、flash格式、exe格式等。
3 技术方案和重点解决问题
本系统所采用的技术大致分为:中文信息处理技术、新闻出版信息处理技术和计算机软件技术。具体采用的技术如下:
3.1自主版式文档技术
结构化文档格式是版式文件技术和XML技术的融合;它首先具有比较强的版面描述能力;其次它具有良好的结构表达能力,可以通过XML表现文件的逻辑信息。 结构化文档是基于XML技术的一种自主版式文档格式,涵盖数字出版需要的文字、文章信息、文章转接、图像、图形、动画、音频、视频等多媒体信息;能够完全描述数字出版物的全部信息;主要用于专业的数字出版系统。
3.2 面向新闻信息共享的信息系统基础架构技术
数字出版系统的实现需要构建新一代信息系统基础架构,主要技术平台都需要协作共享的技术架构支持平台组件之间、不同厂家产品、平台间,新旧系统配合等等都提出共享协同的要求。标准化的相互促进,协作共享的技术架构增加了大量的接口调用,接口的访问方式,传输的数据都需要标准化的支持。新一代信息系统的建设要面向新闻信息等内容构建者建立内容的发布接口,为大量系统的集成服务,为运行维护服务,为可持续发展服务。 为从局域网到互联网的应用扩展面向数据共享为各专业应用系统服务的基础设置架构。通过集中的持久性在线功能组件平台,消除重复需求,建立协同机制。同时辅之以数据生命周期管理、局域网互联网访问支持、脚本访问等能力,也是一个易于扩展的开发平台。建立可靠的文件协作访问智能管理体系;建立重复需求的“单一”实现机制,如人员,文件,全文检索等;建立协作产品数据的共享访问处理机制,如排版单元、版面等。让用户参与开发定制的健壮的大型开发平台,隐藏数据基本处理细节,具有脚本支持开发能力。[5]
3.3 跨媒体数字出版技术
用于解决电子出版物与纸质出版物的共存与统一问题,实现印刷出版与数字出版的一体化,出版内容一次生成、多次发布。[4]数字出版物的制作,主要有三种方式: (1)OCR输入方式。尽管早在十几年之前,中文就实现了计算机排版,但早期所排文献的很多电子文档都没有保存下来,而且在计算机排版之前已经有了许多铅排或更原始印刷方式的文献。对于这些文献只能采用OCR方式。但OCR方式的缺点是显而易见的,不能成为中文数字出版的主流方式。 (2)将计算机所排的印刷格式的电子文档直接转换为数字出版物。由于电子出版系统的推广,许多出版社、报社都已积累了大量的电子文档,而且不同时期电子文档的格式也不同,主要有S2格式和PS格式。可以直接将印刷格式的电子文档直接转换为数字出版物,这样可以避免OCR方式所带来的内容差错。但印刷格式的电子文档一般也不会含有标识信息。本系统提供这种方式但并不将其作为主要方式。 (3)最具发展战略性、前沿性、前瞻性的方式是,由计算机排版软件在生成印刷格式电子文档的同时,直接生成数字出版物,也就是印刷出版、数字出版一体化。这样不仅可以保证数字出版物正确,而且保留了全部表示信息,可以直接转为数据库,可以方便地检索。 本系统主要采用第三种方式。横跨多种媒体,内容一次生成,多个媒体同步协同出版,实现不同的系统软件之间的自动联合,实现内容素材多个入口,统一编辑,内容产品多个不同出口协同发布。
3.4 基于ISO10646的少数民族文字信息处理技术
随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求,国际标准化组织发布了“ISO10646通用多八位编码字符集”标准。ISO10646 将为世界各种主要的语言文字提供一套统一的字符编码标准,以方便各地的电脑用户进行电子通讯及资料交换。 系统将支持主要的少数民族文字的结构化加工。少数民族文字同汉文的区别在于:民族文字编码方式和阅读方式的不同,为此我们用基于GB13000、ISO/IEC10646的Unicode标准整合原来的数据文档,实现自定义编码向国际/国家标准编码的转换,使少数民族文字文在任何系统下都能显现、检索和重复利用。[2] 采用OpenType技术,实现蒙古、藏、维吾尔、哈萨克、柯尔克孜、傣、锡伯和满文的“动态选形”与“动态替换”。系统支持国家/国际编码标准,实现自定义编码向国家/国际标准编码的转换,可多语种的混合编辑、显示,并符合各自的文字处理规则。[3]
4 结语
媒体的生态环境和基本格局发生重大变化,计算机网络浏览、便携式电子书浏览等迅速崛起,数字出版成为一种趋势。系统的研发和产业化能够促进传统电子出版系统的升级和应用,提高出版印刷效率,促进新闻信息的网络化传播,更好的服务于经济发展。 数字出版系统的研发和推广应用,对于自主版式文档技术的研究和成熟应用,促进中文新闻出版和互联网行业的技术进步和扩大其应用范围,促进我国文化产业的发展和繁荣有着积极的意义。特别是少数民族文字版本的推出,对于消除或缩小东西部数字鸿沟、增进民族团结,对于落实科学发展观、共创社会主义和谐社会,也将产生积极的作用。
参考文献
[1] 新闻出版总署. 新闻出版业“十二五”时期发展规划 [OB/EL]. 2011年04月20日. http://www.gapp.gov.cn/cms/cms/upload/info/201104/715451/130329046279137495.pdf。 [2] 张东升 殷建民. 中文数字报刊系统研究与实现[J].信息技术与信息化,2010(2):p74-77+82 [3] 张东升 殷建民.维哈柯文数字化综合应用系统研究[J].信息技术与标准化,2011(6),p64-68 [4] 殷建民. 基于ISO/IEC 10646的中国少数民族文字排版技术研究[C]//第十一届全国民族语言文字信息学术研讨会论文集, 西双版纳.北京:西苑出版社,2007年. [5] 陈生明.数字出版理论与实践[M],北京,人民教育出版社,2009
评论 点击评论