互联网热点视频分析方法研究

  • 优秀论文奖
  • 文章作者:中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

    王仝杰

    (国家新闻出版广电总局监管中心)

    摘要 经过数年的发展,互联网视频已经成为互联网上的主要应用之一。当前,互联网视频具有数量大、发布快、受众多、影响大的特点。在互联网海量的数据中,如何发现视频节目,如何分析和跟踪热点节目成为非常重要的问题。本文对热点视频的概念进行了分析,对热点视频的发现、采集和跟踪技术和策略等进行了研究,对互联网热点视频分析与跟踪系统的模块进行了设计。

    关键词 互联网视频 热点视频 热点分析

    引言随着三网融合的推进和信息技术的发展,音视频节目借助互联网等各种新的技术手段传播,新业态不断推陈出新,蓬勃发展。目前,互联网视频具有以下几个特点:(1)用户规模大。据CNNIC、Pingdom、iResearch等调研机构报道,截止2012年底,全球互联网用户数为24亿,我国互联网用户数达到5.64亿,居世界首位,其中网络视频用户达到3.72亿,占网民总数的65.9%。全球手机用户为50亿,我国手机用户已超过11亿,占全国人口的85%,位居世界第一,其中手机上网用户4.2亿,利用手机上网观看视频的用户超过1.3亿。(2)传播影响力力大。根据有关调研报告,2013年1月我国在线视频播放覆盖人数超过4.5亿,电视剧《楚汉传奇》单月播放量超过2.5亿次。在线视频《江南style》在短短5个月内实现观看次数突破11亿次。网络视频已经成为年轻一代观看影视节目的主要渠道。(3)形态多样。网络视听节目与传统广播电视不同,形态更加多样,内容更加丰富。业务形态包括直播、点播、回看、时移、搜索、下载等,层出不穷,日新月异。接收终端从网络电视机到智能机顶盒,从手机到智能手持终端,形态多样、发展迅速,不断推陈出新。(4)数据量大。由于网络的开放性、广泛性、匿名性,在web2.0的发展契机下,播出机构和个人成为网络音视频主要发布源头,节目内容极大丰富,互联网上的音视频数据量成快速膨胀趋势。由于以上这些特点,如何在互联网上快速发现热点视频资源,跟踪视频热度变化,成为一个重要的问题。1 互联网热点视频分析1.1热点视频的概念热点视频首先有一个时间概念,是指在一段时间内观看量或下载量比较大的视频,例如一天之中的热点视频,还是一周、一个月内的热点视频。热点视频包括静态特征和动态特征,静态特征是指在某一时刻视频累计观看或者下载用户的数量达到一定的阈值就是热点视频;动态特征就是视频观看或者下载次数的变化率或者平均值,当变化率或平均值达到一定阈值的视频认定为热点视频。热点视频有相对和绝对之分,观看次数或下载次数就是热点视频的绝对值表示,观看次数或下载次数相比排在前N名的视频,称为相对热点视频。1.2热点视频的表示在互联网视频描述中,通常包含视频标题、视频标签、视频内容描述、上传人、上传时间、观看/下载次数、评论次数等,这些称为该视频的元信息(Metadata),其中上传时间、观看/下载次数、评论次数等信息可以用来描述视频的热度。根据上面的分析,热点视频的热度表示可以分为以下几种:(1) 绝对热度Ha=xV+yCHa表示绝对热度值,V表示观看/下载次数,C表示评论次数,x、y表示系数,为简便,x、y取0~1之间。(2) 趋势热度Hd=|△Ha|/△tHd表示热度趋势变化率,数值越大,表示该视频在某一时间段内观看用户数剧增;|△Ha|表示两个时刻的热度变化差,△t表示间隔时间(3) 复合热度在实际应用中,热度还与节目的分布网站的重要程度、分布页面的重要程度、链入链出等有关,因此将这些因素考虑进去,就称为视频的复合热度值。Hc=Ha *α*β*γi另外,如果同一个节目在不同的网站上都有传播,则需要将这些节目复合热度值相加。Hc=(4) 相对热度在实际应用中,复合热度是一个数值,用户并没有直观的感受,用户关心的是相对热度,即一段时间内最热最新的是哪些节目。Hr=Sort(Hc/Hc-max)Hr表示相对热度值,Hc表示某一个视频的热度值,Hc-max表示热度最大的视频的热度值。Sort是排序函数,最大者为1,依次为2、3…。(5) 话题热度对于描述同一核心事件或活动的热点视频进行聚类,归纳出热点话题,对表现为同一话题的所有视频的热度进行累加,称为该话题的热度。2 热点视频采集2.1视频数据“三角形”视频节目除了视频文件本身外,一般还有其他描述信息,如所在网站、节目名称、节目URL、节目简介、标签、发布时间、所在网站位置、发布人、播放/下载次数、评论数、收藏数、顶/踩数,以及视频网页所在网站的信息,如网站名称、网站域名、网站类型、IP地址、ICP号、联系人信息等,另外,还包括发布人的一些信息,如发布人名称、发布人简介、发布人发布视频数量、发布人粉丝数量等、发布人活跃网站等。这些信息构成了一个视频的完整描述,由视频、网站和发布者组成了一个信息三角形,如图1所示。

    图1 视频数据描述示意图

    2.2视频元数据抽取在视频元数据抽取之前,首先要进行视频页面的识别,识别方法主要是针对网页结构进行分析。早期的视频网站和一些小型视频网站采用<a href=…>…</a>直接链接视频文件或者使用<object>标签嵌入播放器的方式,实现视频文件的发布。随着网站视频规模的扩大,或视频链接保护的需要,视频元数据从数据库中读取,通过javascript创建object标签,动态生成视频页面。在对网页结构分析之后,通过识别这些标签以及链接的视频文件后缀后,就可确定该网页是否为视频页面。在已经定稿的HTML5标准中,Video和Audio两个元素首次被加入到标签规范,直接将视频编解码器增加到浏览器中,实现视频的流畅播放。Video和Audio元素包括sorce、preload、autoplay、controls、loop等几个属性,其中,Video元素还包括width、height两个属性。根据这些标签和属性,可以有效识别视频网页。视频元数据抽取就是按照一定的规则将视频数据结构化的过程,这些规则通常称为模板。目前,大部分网页采用HTML格式,标签使用不是特别规范,可以使用HTML Tidy免费工具自动将HTML页面转换成符合标准的XHTML页面。在规范标签后,对XHTML文档进行解析,将每个标签对应为树的一个节点,把嵌套在其他标签内的节点看作是其子节点。这样,通过对XHTML页面的结构分析,生成一个只有一个树根的树形结构,即DOM树。然后对无关的节点进行过滤,删除无用节点,一般是script脚本或广告位等冗余内容。针对清洗后的DOM树,定位视频播放节点,并在视频播放节点周边匹配视频信息并进行抽取。视频元数据抽取流程如图2所示。

    图2 视频元数据抽取流程

    2.3视频主题聚类由于互联网的开放性和开办主体的社会化,国有和民营资本甚至个人都可以参与互联网音视频的传播,音视频的分布范围比较广而且分散,同一视频可以分布在不同的网站和不同的栏目,视频标题由发布者填写,各不相同。或者将同样的视频编辑成不同的版本或不同的视频格式。另外,很多不同的视频描述的却是同一主题等等。因此需要对这些视频进行聚类,以发现热点视频。在视频聚类之前,需要进行视频排重。本文主要解决的问题是热点视频的发现与跟踪,因此,只需要进行视频URL的排重。URL相同的,说明来自于不同爬虫服务器对同一网页的采集,必须将其过滤,对于来自不同URL的网页对相关主题进行聚类。热点视频都具有时间属性,表示的是当前时间或者近段时间内用户关注的内容。因此,视频主题聚类首先根据视频发布时间进行过滤,在特定时间内发布的视频才作为聚类的对象,超出时间的视频已经不是当前的热点,应该过滤剔除。互联网上的视频根据主题可以分为不同的类型,例如新闻、影视剧、综艺节目等,分类后可以减少视频聚类的工作量,并提高准确率,有效的为用户提供感兴趣领域的热点视频。对视频分类可根据视频所在的栏目和视频的标签、分类进行,将不同网站不同的分类方法通过统一的映射关系映射到已经划定的类型中。同时,建立互联网视频领域字典,针对视频的元数据进行分词,采用词匹配法进行视频分类聚类。不同的元数据赋予不同的系数,如视频的标题采用较高的权重系数。多个元数据就构成了多维向量空间,利用向量的相似度来估计视频之间的相似度,实现视频的分类聚类。2.4视频信息采集深度互联网视频网站大多包括首页、目录页和内容页三部分的内容,首页大多为网站的栏目推介和最新推荐视频,目录页是对视频的分类和条目化描述,内容页为视频的具体信息描述和视频播放位。其中首页或栏目的首页和目录页是热点视频采集的重点对象,视频的增减大多在这些页面都会有相应的体现。搜索引擎在增量采集时,只需对首页和目录页进行重复采集,发现新的视频。3 热点视频跟踪热点视频的追踪包括两个部分:一是对已经确认为热点的视频进行用户观看热度的追踪,称为已知热点视频跟踪;二是发现新的热点视频。对于已知热点视频的跟踪,根据需要定期采集用户观看次数、评论次数等元数据,在时间维度上对观看热度进行趋势分析,对于低于一定热度的视频或时间上超出观测范围的视频进行剔除。对于新发布的热点视频,为了达到快速发现的目的,重点对网站首页和视频目录页进行搜索,及时发现最新发布的视频信息,然后针对新发现的视频,采集视频的各种元数据,加入到热点视频跟踪队列。采集周期是热点视频发现与跟踪的一个重要参数,视频网站发布视频时间无规律可言,用户上传视频随时随地进行,视频采集周期过长,热点视频的时效性不高,不能及时发现热点视频;采集周期过短,搜索引擎轮询快,服务器压力过大,经济性不高,且也容易给视频网站造成压力,可能被视频网站误认为恶意行为而被屏蔽。为了及时有效的采集热点视频,可以设置一个最初采集周期T0,根据采集结果中是否发现新的视频为布尔变量a,如果发现新视频,a=1,那么新的采集周期T=T0/2,否则取a=0,T=2*T0。依次循环,因此采集周期T是个动态变量,多次采集周期后,可以将T进行常量化,经过一段时间后可再行修正。4 系统设计互联网热点视频分析与跟踪系统总体框架如图3所示,主要包括互联网音视频搜索采集、节目下载、热度追踪、热点视频分析和数据显示等几个部分。

    图 3 系统总体框架

    (1)音视频搜索采集:采用并行处理系统,多个搜索机在系统的同一任务调度下,对种子网站上的网页进行主动搜索,自动过滤音视频节目,对音视频的元数据进行提取,并进行归一化处理,存储到数据库,为后续的热点计算提供基础数据。(2)热点视频分析:对网络爬虫搜索到的音视频进行排重,去除同一页面上的同一视频,对表现为相似主题的视频进行归类聚类,对视频进行热度计算和排行,发现热点视频。(3)视频下载:对统计分析出的热点视频,根据相关规则解析出视频的真实地址,进入下载队列,实现热点视频的统一下载调度。(4)热度跟踪:对于热点视频,定期采集、更新视频的用户观看/下载次数,保留仍然热播的热点视频,去除失去时效或热度变冷的视频。(5)数据显示:对热点视频按照热度和时间维度进行排行显示,推荐给用户。对热点视频的热度变化进行趋势显示,便于用户发现热度激增的视频或渐趋冷却的视频。5 结束语互联网热点视频的分析和跟踪是互联网视频舆情分析的重要内容。在实际应用中,文本信息少、节目类型多、主题内容分散是互联网视频的典型特点,这些问题给热点视频的聚类分类带来了难题。基于语义的视频多模态识别是未来的发展方向,国内外正在进行大量的研究和分析,这些研究成果的应用将对热点视频归类的准确性和完整性起到较大的推动作用。

    参考文献

    [1] 郭眈.中文互联网视频搜索引擎系统策略研究[D],2012.[2] 陈实.面向web视频的网络爬虫的研究与实现[M],2012.[3] 毕成功.互联网视频资源的快速发现与热点追踪技术[M],2009.[4] 顾春莲.HTML5中的音频及视频元素对互联网的影响,河北省科学院学报,2011;28(3):106-108.[5] 中文互联网数据研究资讯中心-199IT, http://www.199it.com/home.联系电话:13911859736 邮箱:gentlewtj@sohu.com 编辑:中国新闻技术工作者联合会

    评论 点击评论