面向互联网视频主题管理的搜索引擎关键技术研究及实现
周利民 童珉 陈燕双
(国家新闻出版广电总局二八二台 国家新闻出版广电总局厦门监测台)
【摘要】 使用通用搜索引擎从互联网站点中检索违规视频网站或节目,其检索的结果与搜索需求不甚相关,无法获取满意的查全率和查准率。本文采用了元搜索分布式架构,对互联网视频节目的相关信息进行采集和索引检索,实现了面向互联网在线视频主题管理的搜索引擎系统。实验数据显示与通用搜索引擎相比,该搜索引擎能更好地实现视频资源的主题聚集,极大地提升了对相关资源的搜索效率。
【关键词】 搜索引擎 互联网视频主题管理 元搜索
1 引言近年来,由于网络信息和视频技术的发展,以在线视频为依托的商业模式也借此得到了极大的发展,在线视频用户急速增加,在线视频网站数量激增,而随之带来的网络安全管理难题也不容忽视。各类违法网络(如低俗趣味,色情淫秽)也屡禁不止,特别是许多这类违法网站通过网络代理或者租用专线接入,管理难度很大,传播速度快,给社会造成了严重的危害。我国有关部门针对这类网站组织专人手动查找低俗违规内容,多次开展专项活动,效率和准确率极低,也消耗了大量的行政人力资源。在互联网信息管理[1,2]中,搜索引擎扮演了重要的角色,政府工作者通过它从浩瀚的网络世界中获得需要管理的信息来源。然而通用的综合搜索引擎大都以关键词建立索引,这些索引的建立考虑到了客观世界的方方面面,提高了大众的使用效率,对于特殊用户或者某一特殊领域的使用者来说,这些搜索引擎索引缺乏针对性,查全率和查准率较低,大量的专业主题资源检索不到。因而,面向特殊主题的信息服务在近年得到了快速发展,尤其是垂直搜索引擎[3]的出现,为主题信息服务开辟了一条更为光明的道路。垂直搜索引擎针对专业特定的领域或行业的内容做了专业和深入的分析挖掘、精细分类和过滤筛选,使专业信息定位更精准。而在互联网在线视频节目管理的工作中,如何有效发现、处理、组织、存储相关资源,建立起相应的面向互联网视频主题管理的搜索引擎来提高检索效率和利用率是本文研究的核心和动力。
2 搜索引擎实现视频主题分类和管理2.1 搜索引擎检索视频节目原理概述
搜索引擎是视频主题管理系统的核心组成部分,为系统提供第一手的数据资料。一般地,在线视频主题管理系统中的搜索引擎对互联网上视听节目信息进行发现、解析、存储、索引、查询,甚至直接下载,最后用户根据搜索引擎的搜索结果,在系统中方便的对互联网上的视频节目进行分类管理,并对违法乱纪、危害青少年的视听节目进行管理规划和进行必要的封堵,以达到网络安全管理的目的。
搜索引擎一般分为三部分,一是网络爬虫,通过网络爬虫进行数据采集存放到网页库;二是索引器,将采集到得网页库进行分类索引;三是检索器,检索器提供用户接口给使用者,使用者从检索接口中将所需要的数据提取出来。2.2 元搜索引擎并行搜索获得查全率
通用搜索引擎实质是个专用的WWW服务器,它有庞大的数据库和数据索引库,使用通用搜索引擎来进行专业领域或某一主题检索(在本文中是进行视频网站或视频节目的检索),其检索的结果与搜索需求不甚相关,获知的大量信息与主题无关,缺乏针对性,使得用户无法获取满意的查全率和查准率。
元搜索引擎是建立在独立搜索引擎之上的搜索引擎。元搜索引擎通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制[4]。通过元搜索引擎分布式的结构对互联网视频资源进行搜索,可以更全面地实现主题聚集,对元搜索结果进行筛选和去重处理,从而获得更大的覆盖面来提高其搜索效率[5]。图1显示了元搜索引擎经过并行搜索处理,将数据返回给用户或者存入到本地数据库。图1 元搜索引擎并行搜索框架
2.3 基于用户经验的视频搜索策略提高查准率采用元搜索分布式并行搜索的思想充分利用了已有的搜索引擎来有力地保证了全局性搜索效果。但是,分布式并行搜索缺少通过用户反馈实现元搜索引擎增值的机制。目前,元搜索引擎中的一些研究主要侧重于个性化搜索服务[6],元搜索引擎只返回与用户提问相关性较大的结果记录集,而没有研究如何通过用户对搜索结果内容本身进行标注,实现元搜索引擎向知识引擎的转变。元搜索引擎的搜索效果过分依赖于各成员搜索引擎,给各成员搜索引擎造成了很大的负载,从而降低了元搜索引擎本身的搜索速度和稳定性。Web2.0的成功经验证明,内容服务提供商的核心竞争力来自于重视创建和维护自己的核心竞争力数据资源库,尤其是带有用户评注的数据库[7]。因此,元搜索引擎应通过不断在本地积累搜索数据,并对其进行用户标注等增值操作,实现向知识引擎的转变。在视频主题管理方面,我们积累了大量的人工标记过的数据,这些工作成果可以对检索起指导作用,利用已有的违规视频节目信息建立一个语义词典或知识库,通过不断对搜索结果进行用户标注及其本地化存储机制,在元搜索引擎中积累知识,实现元搜索引擎的增值服务,提高系统的效率。因此,本文结合视频网站的特点,借鉴用户经验,设计基于用户经验的视频搜索策略,从而达到进一步提高检索命中率的目的。 3 互联网视频主题管理搜索引擎设计实现3.1 元搜索引擎的视频数据采集元搜索引擎是对多个独立搜索引擎的优化控制和检索融合[8],将各搜索返回结果进行排序采集到数据库是我们面对的首要问题。与通用搜索引擎网络爬虫不同,我们要采集的元搜索数据库由于仅专注于包含相关互联网视频的Web子集,因而能够对该领域进行更深入的挖掘和更及时的数据更新。在互联网视频主题管理系统中,要对网络信息进行采集,首先要建立一个关键词知识库,在关键词知识库中包含若干相关词句集。我们的工作基础假设已经有了一个关键词初始知识库,将该库中的词依次送到元搜搜引擎中进行轮询,获得网页返回的HTML代码之后,再判断返回的网页是不是包含视频内容,如果包含,则将该网页下载下来并对关键词进行抽取,对抽取之后的相关词进行解析之后增长到词表中,通过这样可以不断更新这个关键词知识库,系统才有不断学习的能力。其次,在抓取时更有针对性,有选择地进行页面抓取,尽量多地抓取与主题相关度高的网页。对采集到的网页进行消重、去噪、排序处理来保证数据的有效性和专业性。通常的检索排序技术可分为收集结果重新排序(直接合并、根据相应速度排序、摘要排序、成员排序)、利用搜索引擎排序信息排序(轮询法、星星排序、Borda排序、位置排序、概念可信度排序、贝叶斯概率模型排序)和相关分值融合(Comb排序、SDM法、MEM法、CORINET法)三大类[9]。图2显示了通过元搜索引擎采集视频网站相关信息的流程。图2 元搜索引擎分布式搜索视频
3.2 基于用户经验的视频搜索策略视频数据采集是通过元搜索引擎对下载的网页代码进行信息预处理,形成了原始的本地数据库,针对视频网站大部分站点具有很多的共性的特点,例如许多视频站点在各自网站会有相关的友情链接网站也是属于视频网站,网页信息的布局结构模板基本类似。许多违规的视频节目信息也有很大的重复性。利用经过人工确认的违规节目信息可以加快对其他类似链接的定位。因此,我们针对性地建立起自定义的基于用户经验的搜索学习策略,按照高置信度值优先采集、低置信被抛弃的原则对发现的URL进行剪枝处理,可以大幅度减少采集页面的数量,有效地提高了主题信息搜索的速度和效率。在采集到的网页数据库中,将置信度高的网页和人工确认过的网页进行分词处理,比如提取链接中的视频节目名,然后按照广度优先搜索策略或者深度优先遍历策略搜索类似网页,可以获得其他链接的视频节目或者站外视频网站。元搜索引擎通过人工标记过的经验数据指导搜索行为,得到的搜索结果再通过人工标记更新知识库,实现机器采集向智能搜索的转变。图3显示了基于用户反馈经验,对视频资源进行搜索的算法流程。图3 基于用户经验的视频搜索策略
3.3 搜索系统的索引策略和检索策略在已经采集到得网页库的基础上,最后的工作就是建立合适的索引策略和检索策略。该模块主要采用数据挖掘中的文本自动分类技术,对主题采集模块搜集的信息经过预处理、中文分词、页面分析、文本分类等环节的处理,将符合要求的主题资源划分到相应的类别中。为了提高搜索引擎的速度快速响应需求,需要尽可能地将大运算量的工作在索引建立时完成,减少检索时的运算量。在本文设计的搜索引擎中,视频文件在物理上是一个网页快照或者下载下来的视频文件。数据库的每一个记录对应一个标签文件,一个标签文件对应一个视频文件,采用中文分词技术我们把视频相关网页或者视频信息解析成对应的标签文件,示例中我们定义标签文件的A1、A2等表示分割的关键字,标签文件1的A1与标签文件2的A1相同或者语义相近。假设经过数据预处理,已经形成了四个标签文件,分别编号为标签文件1、标签文件2、标签文件3、标签文件4.从标签文件中分析得到关键字相关内容如下:
标签文件1:A1A2,A3A4,A3A5,A6A7。
标签文件2:A1A2,A3A5,A3A8,A9B1,B2A3,A6A7,B3A7。
标签文件3:A1A2,A3A5,A3B4。
标签文件4:A1A2,A3A4,A3B5。
这样得到的倒排索引文件如表1所示:
表1 视频标签文件的倒排索引文件
关键字/视频标记 | 标签文件 | 视频文件 |
A1 | 1、2、3、4 | 1、2、3、4 |
A2 | 1、2、3、4 | 1、2、3、4 |
A3 | 1、2、3、4 | 1、2、3、4 |
A4 | 1、2、3、4 | 1、2、3、4 |
A5 | 1、4 | 1、4 |
A6 | 1、2、3 | 1、2、3 |
A7 | 1、2 | 1、2 |
A8 | 1、2 | 1、2 |
A9 | 2 | 2 |
B1 | 2 | 2 |
B2 | 2 | 2 |
B3 | 2 | 2 |
B4 | 4 | 4 |
B5 | 4 | 4 |
通过倒排索引文件可以快速地以关键字检索到所有相关的视频信息。最后在检索策略中,还需要综合考虑网页中特征词的数量、特征词的权值[10]、特征词在文档中出现的位置、网页主题和特征词的相关语义[11]等因素,来计算文摘句的权值,根据权值对句子进行排序,通过检索接口将数据规整化呈现给用户。
4 方法评估与实验结果Coreseek[12]是基于Sphinx研发并独立发布的开源搜索引擎,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、信息检索、数据挖掘等应用场景。本文利用Coreseek和mysql数据库架设了一个支持千万级数据检索的搜索引擎MySerach,MySearch整体架构模型如图4所示。为了防止用户对数据库读写锁定数据库的问题,采用了队列的思想来解决存储数据高并发的问题,加快了搜索系统的存储、索引和检索速度。
图4 互联网视频搜索引擎的整体架构模型
我们在DELL PowerEdge服务器(四颗64 位Inter Xeon MP 7110N处理器 / 8GB内存)、RedHat AS4 Linux操作系统、MySQL 5.1.26、MyISAM存储引擎、key_buffer=1024M环境下实测。同时使用用户标记过的经验数据自动整理成一份中文分词库进行元搜索视频主题信息采集,使用自整理词库和mmseg高频字库综合整理成一份中文分词词库进行关联检索。为了便于比较,同时使用了百度、谷歌、搜狗、有道搜索引擎进行对比。假设输入“3D***”作为查询关键字,搜索结果对比如表2所示。
表2 搜索效果对比
搜狗引擎 | 返回数 | 前100项属于视频网站或节目(%) | 前100项人工核查该视频为低俗(%) |
MySearch | 5100 | 99% | 49% |
Baidu | 708,000 | 45% | 21% |
4,690,000 | 33% | 13% | |
Sogou | 37565 | 38% | 15% |
有道 | 12800 | 26% | 9% |
由此可见本文设计的视频搜索引擎MySearch的搜索效果明显好于各独立搜索引擎,搜索结果更有针对性。以百度的搜索返回内容来看,其中包含了视频、书评、书籍等各类信息,而MySearch的主题采集策略决定了它的主题专一性,此外,在排序最前100项结果中,有49%的网页视频包含低俗色情的内容,这充分显示了基于用户经验的视频搜索策略的有效性。
5 结束语网络上的视音频节目随着富媒体技术的不断发展呈现出爆炸式的增长,如何通过搜索引擎技术从大量信息中快速定位到违规节目实现对互联网视频节目的管理成了亟待解决的难题。本文采用了元搜索技术并行搜索分布式架构,并结合视频网站的特点,设计了基于用户经验的视频搜索策略,从互联网采集视频节目的相关信息建立了数据源,并基于相关数据进行索引和检索,建立了整个面向互联网视频主题管理的搜索引擎系统。
本文设计实现的互联网视频节目搜索引擎,通过统计人工确认过的经验信息,自动更新知识库和语义词典,有一定自适应性,改变了常见的搜索归并策略只考虑词频,响应时间等客观因素的情况,综合考虑了主客观因素,能够得到较好的搜索结果。如何使用更准确的语义聚类算法,自适应调整主客观可调节系数等方面,在今后的工作中将继续研究。此外,结合视频编码格式进行索引检索也是下一步的研究方向。
参考文献
[1] 叶昭晖,曾琼,李强.基于搜索引擎的网络舆情监控系统设计与实现[J].广西大学学报(自然科学版), 2011(A01):302-307[2] 沙勇忠,徐瑞霞.基于元搜索引擎的危机信息监测系统[J].情报科学,2009(10):1441-1447[3]王文钧,李巍.垂直搜索引擎的现状与发展探究[J].情报科学,2010(3):477-480[4]孟晓明.元搜索引擎及其发展[J].中国信息导报,2007(3):56-59
[5]朝乐门,张勇,邢春晓.面向跨领域海量信息资源的元搜索引擎研究[J].中国图书馆报,2011(2):19-29
[6]朱前东.搜索引擎个性化检索研究综述[J].图书馆学刊,2008(6):14-17
[7]O'Reilly T. What is Web2.0. Design patterns and business models for the next generation of software[R/OL]. [2009-08-27].
[8]任洪平.中文元搜索引擎成员搜索引擎的选择策略研究[J].图书馆学研究,2009(1):40-43
[9]曹林,韩立新,吴胜利.元搜索引擎排序技术综述[J].计算机应用研究,2009(2):411-414
[10]王宇新,刘海峰,郭禾等.一种有效的专题信息集中和检索策略[J].计算机应用研究,2010(6): 2106-2108
[11]孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述[J].现代图书情报技术,2010(1):51-56
[12]Coreseek开源中文检索引擎. http://www.coreseek.cn/. 2011
编辑:中国新闻技术工作者联合会
评论 点击评论