一种基于视频指纹的视频检索方法研究
尹亚光
(国家广播电影电视总局广播科学研究院yinyaguang@abs.ac.cn 18001301695
北京市西城区复兴门外大街2号监管大楼 507,100866)
备注:本文系总局科研项目成果,已投稿《电视技术》审理中
【摘要】通过分块的色彩直方图对视频进行分割,提取每个视频子片段的关键帧,并提出了一种以SIFT特征为基础的语义词袋方法实现视频指纹的提取,该方法既提高了视频指纹提取的速度,又能得到具有较高独立性和鲁棒性的视频指纹。利用串匹配的方法实现视频指纹的匹配检测,并进一步对相似度进行加权处理,提高了匹配效率与匹配精度。【关键词】视频检索关键帧视频指纹特征匹配图3图像放缩
对缩放后的图像进行密集采样,每个图像获得大概1000左右采样点,并对每个采样点进行SIFT特征的提取,如图4所示。图4图像密集采样
本文所采用的视觉特征字典是提前训练得到的,视觉特征字典的维数为1024维。对每个采样点的特征进行统计,统计过程中应用语义词袋方法进行描述。为得到独立性较强的视频指纹,本文采用对图像进行多次分块统计的方法,具体是将图像分别分成1*1、2*2、4*4块,每种分块方式为一层,如图5,6所示,从而获得具有分层空间结构的图像特征。然后将每一层获得的特征拼接在一起,每一幅图像可以获得 维的特征图5图像分层特征提取方法
图6特征统计
对于每一副图像所获得的21504维的视觉特征。进一步应用独立成分分析方法进行特征降维,最终将视觉特征降到200维,记为 ?ea_i,_t{t = 1:n1},其中n1=200。用于某一关键帧的描述,对于每个关键帧,都按照以上方法提取视觉特征,最后将得到由关键帧的视觉特征串组成的视频指纹。3.4 视频指纹匹配对于待检索视频,同样先获取关键帧,为了更好的保存其数据内容,并不通过视频分割方法,而是直接采用视频采样获得nq个代表帧组成的关键帧序列 ,我们令视频采样率为K2 ,即每经过 帧选取一帧作为关键帧。然后用3.3节提到的方法提取关键帧的视觉特征,最终也会得到视频指纹。应用串匹配方法进行视频指纹串的匹配。计算待检索视频Q 中第s个关键帧Kf_q,_s 与基准视频片段 Clip_s中第t个关键帧 Kf_i,_t之间的欧式距离:d(Kf_q,_s , Kf_i,_t) =norm(?ea_q,_s ,?ea_i,_t) (11)
式中s =1,... ,n_q ,t=1,... ,n_q, ?ea_q,_s ?ea_q,_s 和?ea_i,_t 分别是关键帧 与 的视觉特征向量,norm( ) 表示求向量 K?_q,_s 和K?_i,_t 之差的2-范数,欧式距离d(Kf_q,_s , Kf_i,_t) 越小,则表明待检索视频 Q中第s个关键帧K?_q,_s与基准视频片段 Clip_i中第t个关键帧 K?_i,_t间的相似性越大。根据不同的应用需求,阈值T1 可以调整,当 d(Kf_q,_s , Kf_i,_t) <T1时,认为该两帧完全匹配。只要待检索视频存在一帧与基准视频片段 Clip_i中关键帧Kf_i,_t 匹配,则认为关键帧Kf_i,_t 匹配成功,通过将基准视频中匹配成功的关键帧数比上基准视频的关键帧总数获得基准视频的匹配率。进一步将匹配的关键帧视频指纹串的相似度进行加权,从而获得两个视频序列的综合匹配结果。将匹配的关键帧视频指纹串的相似度进行加权,权值由关键帧所在视频片段的时长获得,加权的目的是为了突出每个关键帧相似度对整个视频序列相似性的贡献不同,关键帧所在视频片段时长越长,其对视频序列的相似性贡献越大,反之贡献越小。由此得到视频序列的相似性,从而获得两个视频序列的匹配结果。权值由公式12得到:其中 Kf_i,_t为基准视频中的第t个关键帧, length(Clip_t)为该关键帧代表的视频分段的时长, length(Video_i)代表基准视频的总时长。若待检索视频的某个关键帧与 Kf_i,_t匹配,则匹配标志flag_t =1 ,否则为flag_t =0 ,该关键帧所代表视频片段与待检索视频某片段的相似度为flag_t x w_k_f(Kf_i,_t) ,那么基准视频与待检索视频总相似度为: ,由此可以得到总的匹配时长为: ,匹配时长与匹配率共同决定待检索视频与基准视频是否匹配。4 实验结果及分析(1) 实验环境设置:视频库是由634个视频组成,视频总时长为36780秒。其中有4个视频作为目标视频,其比特率为570kbps,分辨率为640*480,待检索视频是对目标视频进行的一系列编辑,具体包括:a) 比特率变化:378kbps、768kbps;b) 分辨率变化:320*240、1024*768;c) 拼接:二拼接、三拼接;d) 插图:分别插入不同的干扰图,如图7所示。针对以上几种干扰,帧匹配阈值设为0.08,视频匹配阈值设置为0.5,视频匹配时长阈值设置为20s。(2) 实验结果对于视频总时长为36780(613分钟)秒的视频库,视频指纹的构建时间为45分钟左右,由此可知提取单位时间(每秒)视频的视频指纹所需时间为0.073秒。视频检索的统计结果如表1所示:(3) 实验结果分析本文提出的基于视频指纹的视频检索算法对于比特率变化、分辨率变化、插图、拼接等干扰具有很好的鲁棒性,算法具有很高的检索效率,基本满足实时性的要求。对于所构建的视频库,检准率达到了86.98%,漏检率仅为0.68%。5 小结本文基于视频指纹实现了对大规模视频库的高效准确的检索,对于比特率变化干扰、帧率变化干扰、分辨率变化干扰、插图干扰、视频拼接干扰等外部干扰具有很强的鲁棒新。测试表明,该方法可使检准率达到86.98%,而漏检率只有0.68%,同时本算法具有很快的运算速度,满足实时性的要求。由此可见,本文为大规模视频检索系统的构建提供了理论参考。参考文献[1] Yan R, Hauptmann A G. A review of text and image retrieval approaches for broadcast news video[J]. Information Retrieval, 2007, 10(4-5): 445-484.[2] Petkovic M, Jonker W. Content-based video retrieval by integrating spatio-temporal and stochastic recognition of events [C]. Detection and Recognition of Events in Video, IEEE Workshop on Proceedings, 2001: 75-82.[3] Joly, Alexis, Carl Frélicot, and Olivier Buisson.Robust content-based video copy identification in a large reference database[J], Image and Video Retrieval, Springer Berlin Heidelberg, 2003, 414-424.[4] 张利刚. 基于内容的视频拷贝检测算法的研究[D]. 西安:西安电子科技大学. 2010[5] 段德友,欧阳建权. 一种鲁棒的视频指纹提取和匹配方法[J]. 计算机工程与应用,2011,47(24):186~190[6] 王大永. 感知视频指纹算法研究[D]. 上海:上海交通大学,2012[7] 闫朝喜. 基于粗细粒度的视频指纹快速检测系统设计与实现[D]. 成都:电子科技大学,2009 编辑:中国新闻技术工作者联合会
评论 点击评论