互联网热点视频分析方法研究
王仝杰
(国家新闻出版广电总局监管中心)
摘要 经过数年的发展,互联网视频已经成为互联网上的主要应用之一。当前,互联网视频具有数量大、发布快、受众多、影响大的特点。在互联网海量的数据中,如何发现视频节目,如何分析和跟踪热点节目成为非常重要的问题。本文对热点视频的概念进行了分析,对热点视频的发现、采集和跟踪技术和策略等进行了研究,对互联网热点视频分析与跟踪系统的模块进行了设计。关键词 互联网视频 热点视频 热点分析
图1 视频数据描述示意图
2.2视频元数据抽取在视频元数据抽取之前,首先要进行视频页面的识别,识别方法主要是针对网页结构进行分析。早期的视频网站和一些小型视频网站采用<a href=…>…</a>直接链接视频文件或者使用<object>标签嵌入播放器的方式,实现视频文件的发布。随着网站视频规模的扩大,或视频链接保护的需要,视频元数据从数据库中读取,通过javascript创建object标签,动态生成视频页面。在对网页结构分析之后,通过识别这些标签以及链接的视频文件后缀后,就可确定该网页是否为视频页面。在已经定稿的HTML5标准中,Video和Audio两个元素首次被加入到标签规范,直接将视频编解码器增加到浏览器中,实现视频的流畅播放。Video和Audio元素包括sorce、preload、autoplay、controls、loop等几个属性,其中,Video元素还包括width、height两个属性。根据这些标签和属性,可以有效识别视频网页。视频元数据抽取就是按照一定的规则将视频数据结构化的过程,这些规则通常称为模板。目前,大部分网页采用HTML格式,标签使用不是特别规范,可以使用HTML Tidy免费工具自动将HTML页面转换成符合标准的XHTML页面。在规范标签后,对XHTML文档进行解析,将每个标签对应为树的一个节点,把嵌套在其他标签内的节点看作是其子节点。这样,通过对XHTML页面的结构分析,生成一个只有一个树根的树形结构,即DOM树。然后对无关的节点进行过滤,删除无用节点,一般是script脚本或广告位等冗余内容。针对清洗后的DOM树,定位视频播放节点,并在视频播放节点周边匹配视频信息并进行抽取。视频元数据抽取流程如图2所示。图2 视频元数据抽取流程
2.3视频主题聚类由于互联网的开放性和开办主体的社会化,国有和民营资本甚至个人都可以参与互联网音视频的传播,音视频的分布范围比较广而且分散,同一视频可以分布在不同的网站和不同的栏目,视频标题由发布者填写,各不相同。或者将同样的视频编辑成不同的版本或不同的视频格式。另外,很多不同的视频描述的却是同一主题等等。因此需要对这些视频进行聚类,以发现热点视频。在视频聚类之前,需要进行视频排重。本文主要解决的问题是热点视频的发现与跟踪,因此,只需要进行视频URL的排重。URL相同的,说明来自于不同爬虫服务器对同一网页的采集,必须将其过滤,对于来自不同URL的网页对相关主题进行聚类。热点视频都具有时间属性,表示的是当前时间或者近段时间内用户关注的内容。因此,视频主题聚类首先根据视频发布时间进行过滤,在特定时间内发布的视频才作为聚类的对象,超出时间的视频已经不是当前的热点,应该过滤剔除。互联网上的视频根据主题可以分为不同的类型,例如新闻、影视剧、综艺节目等,分类后可以减少视频聚类的工作量,并提高准确率,有效的为用户提供感兴趣领域的热点视频。对视频分类可根据视频所在的栏目和视频的标签、分类进行,将不同网站不同的分类方法通过统一的映射关系映射到已经划定的类型中。同时,建立互联网视频领域字典,针对视频的元数据进行分词,采用词匹配法进行视频分类聚类。不同的元数据赋予不同的系数,如视频的标题采用较高的权重系数。多个元数据就构成了多维向量空间,利用向量的相似度来估计视频之间的相似度,实现视频的分类聚类。2.4视频信息采集深度互联网视频网站大多包括首页、目录页和内容页三部分的内容,首页大多为网站的栏目推介和最新推荐视频,目录页是对视频的分类和条目化描述,内容页为视频的具体信息描述和视频播放位。其中首页或栏目的首页和目录页是热点视频采集的重点对象,视频的增减大多在这些页面都会有相应的体现。搜索引擎在增量采集时,只需对首页和目录页进行重复采集,发现新的视频。3 热点视频跟踪热点视频的追踪包括两个部分:一是对已经确认为热点的视频进行用户观看热度的追踪,称为已知热点视频跟踪;二是发现新的热点视频。对于已知热点视频的跟踪,根据需要定期采集用户观看次数、评论次数等元数据,在时间维度上对观看热度进行趋势分析,对于低于一定热度的视频或时间上超出观测范围的视频进行剔除。对于新发布的热点视频,为了达到快速发现的目的,重点对网站首页和视频目录页进行搜索,及时发现最新发布的视频信息,然后针对新发现的视频,采集视频的各种元数据,加入到热点视频跟踪队列。采集周期是热点视频发现与跟踪的一个重要参数,视频网站发布视频时间无规律可言,用户上传视频随时随地进行,视频采集周期过长,热点视频的时效性不高,不能及时发现热点视频;采集周期过短,搜索引擎轮询快,服务器压力过大,经济性不高,且也容易给视频网站造成压力,可能被视频网站误认为恶意行为而被屏蔽。为了及时有效的采集热点视频,可以设置一个最初采集周期T0,根据采集结果中是否发现新的视频为布尔变量a,如果发现新视频,a=1,那么新的采集周期T=T0/2,否则取a=0,T=2*T0。依次循环,因此采集周期T是个动态变量,多次采集周期后,可以将T进行常量化,经过一段时间后可再行修正。4 系统设计互联网热点视频分析与跟踪系统总体框架如图3所示,主要包括互联网音视频搜索采集、节目下载、热度追踪、热点视频分析和数据显示等几个部分。图 3 系统总体框架
(1)音视频搜索采集:采用并行处理系统,多个搜索机在系统的同一任务调度下,对种子网站上的网页进行主动搜索,自动过滤音视频节目,对音视频的元数据进行提取,并进行归一化处理,存储到数据库,为后续的热点计算提供基础数据。(2)热点视频分析:对网络爬虫搜索到的音视频进行排重,去除同一页面上的同一视频,对表现为相似主题的视频进行归类聚类,对视频进行热度计算和排行,发现热点视频。(3)视频下载:对统计分析出的热点视频,根据相关规则解析出视频的真实地址,进入下载队列,实现热点视频的统一下载调度。(4)热度跟踪:对于热点视频,定期采集、更新视频的用户观看/下载次数,保留仍然热播的热点视频,去除失去时效或热度变冷的视频。(5)数据显示:对热点视频按照热度和时间维度进行排行显示,推荐给用户。对热点视频的热度变化进行趋势显示,便于用户发现热度激增的视频或渐趋冷却的视频。5 结束语互联网热点视频的分析和跟踪是互联网视频舆情分析的重要内容。在实际应用中,文本信息少、节目类型多、主题内容分散是互联网视频的典型特点,这些问题给热点视频的聚类分类带来了难题。基于语义的视频多模态识别是未来的发展方向,国内外正在进行大量的研究和分析,这些研究成果的应用将对热点视频归类的准确性和完整性起到较大的推动作用。参考文献
[1] 郭眈.中文互联网视频搜索引擎系统策略研究[D],2012.[2] 陈实.面向web视频的网络爬虫的研究与实现[M],2012.[3] 毕成功.互联网视频资源的快速发现与热点追踪技术[M],2009.[4] 顾春莲.HTML5中的音频及视频元素对互联网的影响,河北省科学院学报,2011;28(3):106-108.[5] 中文互联网数据研究资讯中心-199IT, http://www.199it.com/home.联系电话:13911859736 邮箱:gentlewtj@sohu.com 编辑:中国新闻技术工作者联合会
评论 点击评论