基于内容的视频指纹提取及匹配技术研究

文章作者：中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

郭晓强夏治平李敬娜

（国家新闻出版广电总局广播科学研究院北京邮电大学信息与通信工程学院）

摘要：视频指纹是从给定视频中提取其特征的过程，它能唯一地表征一段视频。本文使用梯度方向质心（Centroid of Gradient Orientation, CGO）作为视频指纹，对比了绝对欧氏距离（Absolute Euclidean Distance, AED）和平方欧氏距离（Squared Euclidean Distance, SED）两种视频指纹匹配方法。实验表明，SED能够更好地抵抗多种视频处理及攻击，例如模糊化、旋转等，可用于广播电视监控系统。关键字：视频指纹 CGO AED SED

1 引言

随着多媒体技术和互联网技术的飞速发展，互联网的开放性以及各种数字视频处理软件的出现，数字视频内容的认证和管理以及版权保护成为亟待解决的问题。视频指纹技术作为一种能够有效区分、标识视频内容的技术，在文件共享业务、广播监控、大型视频数据库自动索引等领域中的应用日益增加。视频指纹技术是从视频内容中提取特征来确定一个给定视频的技术[1]。现存的方法中，主要使用了以下内容作为视频特征：颜色（亮度）直方图[2]、平均亮度和亮度方差[3][4][5]、主导色[6]等。本文设计的视频指纹提取及匹配技术使用CGO作为视频指纹，采用SED进行视频指纹匹配，该匹配算法计算复杂度低，适用于数据库中存在大量视频指纹的情况，对视频序列几何变换具有较好的抵抗能力，虚警和漏报概率较低，将其应用于广播电视监控领域中，能够较好地应对插播、篡改等现象。

图1 视频指纹系统在广电监控系统中的应用

2 视频指纹的技术要求

视频指纹直接影响整个视频指纹识别系统的性能，它应该具备以下特征[3]。1.鲁棒性。鲁棒性对指纹最为重要，一个指纹必须能够抵抗可能受到的处理、操作以及攻击，使得提取出来的指纹信息足以跟踪出非法分发者。2.成对独立性。两个感知上不同的视频序列，必须有不同的视频指纹。3.数据库检索效率。对于一个大规模的应用数据库，指纹应该有利于进行高效的数据库搜索。

3 视频指纹提取算法

本文采用基于CGO的视频指纹方法。图2为该方法的流程。第一步，以一个固定的帧速率（每秒?帧）对输入的视频进行重新采样，以应对帧速率的变化。第二步，将每个重采样帧转换为灰度帧，以抵抗色彩和分辨率的改变，这种方法不仅适用于彩色视频的剪辑，也适用于经典的黑白电影。第三步，调整每个灰度帧的大小，以使它的宽度和高度分别规范化为两个固定的值：Wx和Wy。这一步骤使得该方法能抵抗任何引起视频尺寸变化的攻击。第四步，将调整后的每帧划分成M=Nx×Ny个块。第五步，计算出每块的梯度方向质心。最终，将每帧所有块的梯度方向质心组成的 M维向量作为该帧的视频指纹向量。

图2 视频指纹提取方法

—记s(x,y)为一帧中s块上的亮度值，梯度的幅值m(x,y)和方向θ(x,y)由（1）、（2）式获得。

（1）

（2）

其中，Gx=s(x+1,y)-s(x-1,y),Gy=s(x,y+1)-s(x,y-1)。此处应注意Gy/Gx=0将会引起错误。块s的梯度方向质心值可由（3）式计算得到。

（3）

其中，X=Wx/Nx,Y=Wy/Ny。无论位于一帧的什么位置，CGO的取值都在(-π/2,π/2)之间。用含有M个CGO的向量作为一帧的视频指纹，从F个连续的视频帧中获得的N=M×F个CGO作为视频序列的视频指纹。从梯度中获得的视频指纹与边缘分布紧密相关[7]，这些边缘分布提供了关于视频帧、物体界线等的视觉信息。梯度不是基于像素而是基于像素的差异获得，所以它能够抵抗像素的剧烈变化，比如亮度，色彩和对比度。尽管一些非线性的操作，例如伽马校正会引起一些大小相近的梯度值的较大变化，CGO技术仍然对非线性操作具有鲁棒性，因为它们对梯度的方向影响较小。

4 视频指纹匹配算法

本文采用SED作为视频指纹的匹配方法，能够实现视频成对独立并且对于常见的视频处理具有较好的鲁棒性，步骤如下。首先将视频指纹向量c(n)使用其均值mc和方差δc进行规范化。

（4）

然后，利用SED公式计算视频指纹距离d：

（5）

其中p[n]和q[n]是不同视频序列的视频指纹向量规范化后所得的向量。由中心极限定理知，当N足够大时，d服从正态分布。由论文[3]知，d服从 N（2,0.2596）。设μd和δd分别为通过大量视频指纹序列计算所得指纹距离d的均值和标准差，如果d服从N(μd,δd)正态分布，那么漏报概率P FA按（6）式计算：

（6）

P FA=1-PFR

需要说明的是PFA是将不同视频序列判断为相同时的概率，PFR是将相同序列判断为不同时的概率。当给定PFA或者PFR时，可以确定阈值T的值。

图3 使用SED所得视频指纹距离的分布情况

图3是通过数据库中80个视频指纹的所有可能组合拟合的d的分布情况，其中N=800。用SED进行视频指纹匹配时，本文选取阈值T=0.5。下面介绍另外一种匹配方法AED。AED按（7）式计算。

（7）

采用AED进行视频指纹匹配时，选取T=0.5，图4为视频指纹距离的分布情况。需要说明的是，本文中，AED和SED的阈值选择兼顾PFA和PFR，阈值均选取0.5。

图4使用AED所得视频指纹距离的分布情况

5 仿真结果

本文采用MATLAB 7.8.0对算法进行仿真实验。采用80个视频序列，提取这些序列的视频指纹存入数据库，视频的格式主要有640*280、352*288，帧率为24fps，使用的参数分别为f=20, Wx=352，Wy=288，Mx=4，My=2，F=100。实验中先对视频指纹的成对独立性进行验证，图5为使用数据库中10个视频序列以所有可能的组合方式计算获得的视频指纹距离（除去重复的视频序列对后共有55种组合方式），可以看出，不同的视频序列具有不同的视频指纹，本文的视频指纹算法满足成对独立性，需要说明的是，横轴上的星号所对应的纵坐标的值代表视频序列自身视频指纹的距离。

图5视频指纹成对独立性验证

本文还对视频指纹技术的鲁棒性进行了验证，实验先通过测试获得了原始的80个视频序列的视频指纹与经过各种视频处理的视频序列的视频指纹之间的距离，然后使用AED、SED分别进行视频指纹匹配，所得结果如表1、2所示。

表1 使用AED进行视频指纹匹配

视频处理	平均值	方差
裁剪[90%剩余]	0.3147	0.1995
旋转[2度]	0.3043	0.1557
高斯模糊[2个像素]	0.1475	0.0573
亮度改变[+20%]	0.2033	0.1431

表2 使用SED进行视频指纹匹配

视频处理	平均值	方差
裁剪[90%剩余]	0.2603	0.2893
旋转[2度]	0.1087	0.1068
高斯模糊[2个像素]	0.0396	0.0368	0
亮度改变[+20%]	0.1141	0.1611

从表1、表2对比可知，不论是在几何变换例如旋转，还是在常规的视频处理上， SED总体上比AED鲁棒性更佳。图6为计算80个视频序列的视频指纹距离所获得的，每帧分别划分为8、12和16块。

图6 使用SED和AED匹配所得值随划分块数变化情况

如图6所示，随着每帧划分块数的增大而减小，相反，随着每帧划分块数的增大而增大。为了兼顾和，应该选择折中的方法，经分析可知，将每帧划分为8块并且采用SED进行视频指纹匹配时，和都是可以接受的。

6 结束语

本文提出的视频指纹提取和匹配技术在视频指纹提取阶段，采用CGO作为视频的特征；在视频指纹匹配阶段，采用SED来计算两个视频指纹之间的距离。同时，对SED与AED两种视频指纹匹配方法进行了比较。仿真结果表明，SED匹配算法在基于CGO的视频指纹技术中获得了较高的匹配精确度，能够较好的应对常见的视频处理。值得一提的是，SED的计算复杂度低，该优势使得本方法适用于数据库中含有大量视频指纹的情况，可以用于广播电视的监控系统。 参考文献

[1].Jin S.Seo, Minho Jin, Sunil Lee, Dalwon Jang,Seungjae Lee,Chang D.Yoo, Audio Fringerprinting Based on Normalized Spectral Subband Centroids. In Proc.ICASSP 2005, Philadelphia,USA,vol.3,pp.213-216,Mar.2005.

[2].Sunil Lee and Chang D Yoo.Video fingerprinting based on centriods of gradients orientations.In ICASSP’06:Proceedings of the 2006 IEEE International Conference on Acounstics,Speech and Signal Processing,pages 401_404,Washington,DC,USA,2006.IEEE Computer Society.

[3].J.T. Robinson, The k-d-b-tree: A search structure for large multidimensional dynamic indexing, in Proc. ACMSIGMOD Int.Conf.Management Data,1981,pp.10-18.

[4].C.G.Rafael and E.W.Richard,Digital Image Processing,ed.Englewood Cliffs,NJ:Prentice Hall,2002.

[5].D.A.Forsyth and J.Ponce,Computer Vision-A Modern Approach.Englewood Cliffs,NJ:Prentice Hall,2003.

[6].D.G.Lowe, Object recognition from local scale-invariant features, in Proc.ICCV, ,1999, pp.

1150-1157.

[7].H.Arun and M.B.Rudolf, VideoGREP:Video Copy Detection using Inverted File Indices IBM Research,Yorktown Heights,NY,2001,Tech.Rep.

编辑：中国新闻技术工作者联合会