版面差异化分析在报纸安全出版中的应用探索
苑胜明
(潍坊北大青鸟华光照排有限公司,山东省 潍坊市 261205)
摘要:三审三校是一个出版单位最基本的制度,从建版到三审三校再到见报,必然会经历一个反反复复修改的过程,每一次版面的导出都会生成一个版本的版面文件,通过分析这些版面文件中的数据结构和数据能够知道两个版本之间经过了哪些修改,再将这些差异分析数据直观的显示在页面上,使得编校审人员能够确认版面内容是可控可信的,助力报纸能够安全出版。
关键词:安全出版 版面比对 XML文件差异化分析
1引言
在报纸的出版流程中,稿件内容组织从建版开始,会经历三审三校到见报,这其中经历了一个反反复复修改的过程,那么,就会有一连串的问题值得我们思考:“上一个版本有哪些问题”、“这个版本改了什么”、“这个版本是不是把上一个版本的问题都解决了”、“这个版本改对了吗”,因此,对历史版面的差异化分析对于提高编审校人员的工作效率保障报纸安全出版至关重要。那么如何对两个版面文件做差异化分析,分析哪些对我们有用的内容,如何将这些内容直观的展现出来,就是本文要讨论的内容。[1]
2 版面差异化分析如何为安全出版服务
2.1报纸版面比对什么内容
版面每导出一次会生成一个版本号,与之对应的会生成一个版面xml文件,文件里标示着版心的大小(PageWidth和PageHeight)。正常来讲,每一个版面文件是由一种或多种类型的分区(Story)组成,包括标题分区、文字分区、表格分区、图形分区、图像分区、字转曲线和路径排文。每一个大分区可以由一个或多个小分区(StoryBlock)组成,每一个小分区都有一个唯一标识(ItemID)。
在标题分区、文字分区、表格分区、字转曲线和路径排文分区中,又是由段(Para)、行(Row)和字(Col)组成,每个字含有字体、字的大小、字序、背景色、前景色等属性。每一个小分区和字都有它在版面上的矩形块,通过矩形Rect属性(Top、Left、Right、Bottom)表示。
因此,版面比对的内容主要体现在以下几个方面:
分区比对:通过分区ID(ItemID)在两个版面文件中的存在情况,确定分区是增加还是删除。
位置比对:通过分区的矩形区域(Rect)变化,确定分区是否发生了位置移动,如果矩形区域没有发生变化,再看矩形区域内的折线点(Point)的个数是否发生变化,在点的个数也相同的情况下,再比较每一个点的坐标(x,y)是否相同,最终来确定位置是否发生了变化。
文字内容比对:通过比对同一分区内的文字内容(不包含属性)确定该分区内文字的增加删除情况。[2]
文字属性比对:当确定了文字的增加删除状态后,文字就能够做到一一对应了,取出一一对应的文字节点,再比对该节点中文字的属性,看文字的位置、字体、大小、颜色是否发生了改变。
图像比对:除位置比对外,通过图像的文件路径和大小判断图像是否被替换。
图形比对:除位置比对外,通过图形的线形、线宽、背景色、前景色来确定图形是否发生了改变。
字转曲线比对:除了比对位置和文字内容外,还对曲线的颜色、类型、长度进行了比对。
路径排文比对:除位置比对,还比对了文字的内容变化。
2.2 比对中遇到的问题
2.2.1 如何确定位置是否发生改变
要确定一个分区位置是否改变,首先要确定矩形区域是否发生改变。以复杂的图形分区举例,图形分区主要是由点(Point)来确定的,可以是线、矩形、贝塞尔曲线、不规则线条组成的图形等等。当矩形区域未发生改变的情况下,再通过点的个数来判断图形分区的形状是否发生了改变,当点的个数也相同的情况下,再遍历每个点的坐标,看每个点的位置是否发生了改变,最终确定该分区是否有位置改变或形状差异。
2.2.2 如何处理换行符导致的定位错误
在比对过程中,需要对版面中的文字进行增或删的比对,因为版面中的每个字或标点都是一个Col对应一个字符,唯独换行符是一个Col对应“\n”两个字符,这就造成在字符定位的时候发生错位,导致整个版面比对结果不正确,所以在比对的时候,我们需要找一个生僻的一个长度的字符来替换掉“\n”,等比对结束再替换回来。之所以使用生僻字,是因为一个长度的字符如果在版面中其它地方出现,就会导致页面显示结果出现问题,常用字符、符号都不能解决问题。
图 1四叠字生僻字长度
测试研究发现,中文字符中,有一些四叠字等生僻字的长度为1,如“䲜”的长度是1,我们可以先用这个字来表示换行符,等处理完再替换回原来的“\n”。
2.2.3 版面中拷贝的多个相同分区如何比对
例如,假设版面A中存在一个图像分区,而在版面B中是拷贝的 A中的图像分区而且拷贝了两次,形成类似对联的效果,B中的两个图像分区与A中的ItemID是完全一样的,这时候我们通过算法分析,计算B中两个图像与A中图像区域的相对距离,取最近的作为比较对象,而另外一个多出来就作为新增来对待。
2.2.4 单行只有一个字符的情况
这种情况是作为警告提醒来处理的,因为在实际应用中,可能会出现因为图片调整了1个单位而导致原本在一行能排完的情况下最后一个字符挤到下一行显示的情况。
2.3 比对结果的解析与呈现
比对结果有XML和JSON两种结构供选择,在展现到网页中时,需要根据原版心大小及分区和字的相对坐标重新计算当前坐标,利用画矩形框透明层的原理将比对结果画在以版面图为背景的网页中。
如图2所示,绿色半透明矩形框是一个新增的图像分区,通过图像分区的Rect节点属性控制图像分区的宽高和坐标,在“1.插入”和图像分区之间通过一条曲线连接,这样就能很直观的展现修改提示和修改内容之间的关联关系。
图 2 版面比对结果示意图
3.结束语
可控、可管、可信是报纸安全出版的核心理念,三审三校是出版机构的基本制度,因此对于审校前后两个或多个历史版面之间的差异就要做到心中有数,本文通过分析同一版面两个版本的不同之处及在探索中遇到的实际问题来介绍版面差异化分析技术在报纸安全出版中的具体应用。
参考文献
[1] 张晓贞. 新形势下对报纸安全出版的几点思考[G]. 传播力研究. 2019;06:111
[2] 胡渊喆. 软件同行评审系统SPIRIT的设计与实现[J]. 北京交通大学. 2013;S2:85
[3] 李娟. 深度探究报纸排版中容易忽视的问题及解决办法[F]. 数字通信世界. 2020;3:219
新闻技联动态
- 推动知识资源平台合规健康发展 共促数字版权规范化合理化 2023-03-06
- 成功举办中国新闻技术工作者联合会市县融媒体分会年会暨换届大会 2022-12-23
- 中国新闻技联新闻信息标准化分会 2022年年会成功召开 2022-12-01
- 《机器生产内容自动化分级》团体标准 正式发布实施 2022-12-01
- 延期通知:中国新闻技术工作者联合会 县市融媒体分会 2022 年学术年会暨技术交流会 2022-12-01
- 2022年中国新闻技术工作者联合会学术年会在贵阳成功举办 2022-11-17
- 喜报│53个案例入选首批“技术赋能‘新闻+’推荐案例” 2022-11-17
- 重磅│19位新闻技术工作者获此殊荣 2022年度“王选新闻科学技术奖”人才奖在贵阳颁奖 2022-11-17
- 新品│速看哪三项传媒技术创新产品发布 2022-11-17
- 2022年中国新闻技术工作者联合会学术年会胜利开幕! 2022-11-17