基于UCL的内容指纹和数字指纹技术初探

文章作者：中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

屈海涛

（新华社技术局）

[摘要] 李幼平院士提出了“统一内容定位”（Uniform Content Locator，UCL）的思想，即对广播数据进行UCL标引，可以对每一个信息资源的出处、发布时间、内容分类、本体关键词等进行多维定位。接收端根据UCL标签的定义，对源源到达的高速广播数据流进行过滤计算，从中筛选并保存用户所需的信息，从而在数据广播上实现信息资源的个性化接收。但是，UCL技术给新闻信息发布平台的使用带来便利的同时，数字产品被篡改、大规模廉价复制等盗版现象也极大地限制了UCL技术的发展。本文从UCL内容指纹和数字指纹两个角度探讨了此系统的安全机制，并给出了相关的原理、算法和实施方案；本文丰富了UCL理论，也为UCL走向应用做了探索。[关键词] UCL 内容指纹数字指纹安全机制

1 前言“统一资源定位”（Uniform Resource Locator，URL）是传统互联网中采用的信息组织方式，URL的方式容易造成信息结构的无序性，给信息的准确查找带来困难。因此，对于实时性和准确性要求极高的新闻信息发布平台而言，URL这种方式的弊端是显而易见。为解决这个问题，李幼平院士提出了“统一内容定位”（Uniform Content Locator，UCL）的思想，即对广播数据进行UCL标引，可以对每一个信息资源的出处、发布时间、内容分类、本体关键词等进行多维定位。接收端根据UCL标签的定义，对源源到达的高速广播数据流进行过滤计算，从中筛选并保存用户所需的信息，从而在数据广播上实现信息资源的个性化接收。这种利用UCL方法对信息内容进行标引，用户根据语义直接指定并获取所需内容，从而改变了在浩瀚的信息资源中艰难“搜索”的局面，实现网络信息资源的“个性化按内容主动服务”。但是，UCL技术给新闻信息发布平台的使用带来便利的同时，数字产品被篡改、大规模廉价复制等盗版现象也极大地限制了UCL技术的发展。因此，基于UCL的新闻信息发布平台安全机制的研究是一个重要的课题，本文从UCL内容指纹和数字指纹两个角度探讨了此系统的安全机制，并给出了相关的原理、算法和实施方案。 2 UCL内容指纹的原理及实施方案在新闻信息的传输和发布过程中，“UCL内容标签”是对新闻信息的唯一标识，包括内容代码、内容标题、内容摘要、内容指纹、内容界面五个字段，总字节量约几百字节。新闻信息具有迅速及时、简明扼要等特点，是一种公共文化信息，“UCL内容指纹”的设计主要从保证信息的完整性方面考虑。 2.1 内容指纹基本原理UCL主要面对的广播网络传输的公共文化信息，为保证传输、接收效率和订阅查看的方便，并不是所有信息都需要进行完整性的验证。因此，UCL内容指纹项应该是可选项，即根据信息的重要性来判断是否需要加入内容指纹。例如：一般新闻类信息，任何用户都可接收，不需要加入内容指纹；而对于政府工作报告等重要新闻信息，为了保证全文完整性，必须设置内容指纹。是否需要加入内容指纹可以通过设置“标志位”来解决，于是，嵌入内容指纹的UCL新闻信息由标志位、UCL内容指纹和UCL新闻信息正文三部分组成，如图1所示。

内容指纹项默认缺省，即标志位为0，不需要计算内容指纹项，直接传输其他UCL标签信息。当需要计算内容指纹项时，标志位设置为1，此内容指纹项和其他UCL标签信息一同传送；接收端通过解析运算，验证信息是否完整，如果完整就接收，否则就丢弃。2.2 内容指纹基本方案为了保证信息的完整性，UCL内容指纹项可采用Hash函数实现，Hash函数将一个任意长度的信息创建一个固定长度的信息摘要。Hash函数在密码学中应用十分广泛，与各种加密算法有着密切的联系，Hash函数具有固定长度的输出，单向不可逆，碰撞约束等特点。Hash函数的模型为：h=H(M)，其中：M是待处理的消息，H是Hash函数，h是生成的消息摘要，它的长度是固定的，并且和的长度无关，运用迭代可以完成这种函数的创建。Merkle-Damgard迭代结构是实现Hash函数的方法之一，基本方案如图2所示。

如果Merkle-Damgard方案中压缩函数是抗冲突的，这个hash函数也是抗冲突的；目前常用的压缩函数分别是：MD系列，SHA系列算法等。UCL服务器完成UCL内容标签（包含内容指纹项）的提取工作，UCL内容标签和正文单独传输，只有接收端需要时，才会接收正文信息，否则只接收UCL内容标签，内容指纹项基本方案如图3所示。其工作过程是：当标志位为0时，不计算内容指纹项，内容指纹项为空；此时，接收端可直接接收正文信息。当标志位为1时，计算内容指纹项，将Hash得到的摘要信息填入内容指纹项；接收端对接收到的正文信息进行Hash运算得到新的摘要，新的摘要信息与内容指纹项的原摘要进行比较；如果一致，说明信息没有被篡改，可以接收，否则就丢弃原信息。 3 数字指纹安全机制在UCL新闻信息发布系统中，不可避免地会遇到盗版、滥用和盗窃等违法活动的影响，因此，能否采用有效的版权保护措施是UCL新闻信息发布平台走向应用的关键。据联合国教科文组织发表的一份统计报告表明：全球盗版量每增加10%，全球相关的经济损失则增加1.2%，数字多媒体版权保护已经成为一个重要而富挑战性的问题。在众多的版权保护案例中，数字指纹技术是近几年发展起来的新型数字版权保护技术，可以应用与UCL新闻信息发布系统中。数字指纹的原理是销售商在其出售的数字作品拷贝中嵌入与购买者身份相关的唯一性信息，当发现非法拷贝后，销售商凭借嵌入信息可以识别出非法拷贝的原始购买者，进而通过法律诉讼和惩罚来达到保护版权所有者权益、对非法行为进行威慑的目的。数字指纹体制主要由两部分构成，一部分是用于向拷贝中嵌入指纹并对带指纹拷贝进行分发的拷贝分发体制；另一部分是实现对非法分发者进行跟踪并审判的跟踪体制。往往上述两部分通过发行商、用户（还可能有登记中心、审判者等实体）之间的一系列协议实现，因此数字指纹体制也可以分为算法和协议两部分。其中，算法包括指纹的编码和解码、指纹的嵌入和提取以及拷贝的分发策略等内容，而协议部分则规定了各实体之间如何进行交互以实现具有各种特点的拷贝分发和跟踪体制，整个数字指纹的模型如图4所示。

下面，介绍一种常用的CKLS数字指纹编码方案，用户码字中的每一个码元取自一个连续的集合。用独立随机的正态采样序列作为要嵌入的指纹信息，为每个用户选取不同的采样序列，序列间是独立的。这里指纹的取值不限于离散的整数值，而是服从正态分布N(0,1)的随机实数序列X。跟踪时发行商从非法拷贝中提取出嵌入信息X'，将其与X做相关检测，如果相关值大于某一个门限值，则认为非法拷贝中含有该指纹X，称这种体制是CKLS体制。以图片稿件为例，具体的指纹嵌入方法如下：首先，对图像进行离散余弦DCT变换，然后将嵌入内容叠加在DCT域中幅值最大的前k个系数（不包括直流分量，即为低频分量）。则数字指纹序列记为，记所选择的k个系数为。则嵌入算法可以取为，其中：α为尺度因子，可以控制信息嵌入的强度，其大小正比于相应频率分量的信号强度。然后以新的系数做反变换得到嵌入了指纹的图像。提取指纹时，分别计算原始图像和嵌入了指纹图像的DCT变换，经过分析，便可得到嵌入的数字指纹。CKLS算法不仅具有较好的保真性，而且有较强的鲁棒性；当合谋者采用平均攻击生成盗版拷贝时，CKLS方案也具有较好的合谋容忍性。 4 思考与展望近年来，随着新媒体的思想不断深入人心，使各类文字、图片、音视频等产品的传播范围空前扩大，为创作者和发行商带来了新机遇。但是，对数字产品进行非法拷贝、分发和破坏的现象也大量存在。本文结合技术局“UCL技术与CNML标准结合的创新应用研究”软课题项目，从内容指纹和数字指纹两个方面，对基于UCL的新闻信息发布平台的安全机制进行了初步的探讨。但是，UCL安全机制的研究仍然处于起步阶段，特提出几个值得研究的方向：1）对内容指纹在试验系统中的实现细节进行研究，以保证发布平台的效率；同时，对内容指纹的若干理论问题的研究；2）结合数字水印嵌入技术的发展，进一步提出更合理的数字指纹的“嵌入假设”，并通过对用户攻击手段的研究，提出更好的数字指纹编码方案；3）研究在音视频等媒体中能够嵌入较大数据量，又具有较强鲁棒性的数据嵌入技术；4）将数字指纹与数字水印技术、加密技术、数字签名技术和访问控制技术相结合，将其应用于实际的内容保护。编辑：中国新闻技术工作者联合会

评论 点击评论

评论点击评论