广播电视节目监管领域的大数据分析
王 婧
(国家新闻出版广电总局监管中心)
摘 要:大数据分析技术可以揭示数据内在的相互关联,获得有巨大价值的隐藏信息,对未来趋势进行准确判断。广电监管系统具有十分珍贵的广播电视节目资源,通过大数据分析,可挖掘其蕴含的丰富社会价值和商业价值。本文介绍了广电监管领域的音视频资源,以及对该资源进行大数据分析的方法与技术系统,并通过节目分析、舆情分析、广告分析三个案例,说明其潜在的巨大价值和前景。关键词:大数据广电监管音视频自动处理1. 引言
人类社会已经进入了一个信息爆炸的新时代。利用近年来出现的大数据分析技术,可以高效分析海量数据,并据此对未来的趋势进行预测。例如谷歌曾经通过分析各地用户在互联网上搜索的关键词,准确判断出了2009年甲型H1N1流感爆发的地点和蔓延走向,使公共卫生机构获得了非常及时而有价值的数据。这个结果仅来源于对用户搜索内容的分析,没有通过任何病毒分析或者医生的诊断上报,却获得了比疾控中心更加及时的信息[1]。
广电监管领域具有珍贵的广播电视节目资源,在大数据时代,对这些数据的深度挖掘将展示出显著的社会价值与商业价值。本文第二部分介绍了广播电视音视频数据的规模和特点。第三部分介绍了数据分析的方法:利用基于音视频自动处理、模式识别等技术的广播电视自动编目系统,对连续的广播电视音视频流进行自动结构化分析;对广告节目进行自动拆分并编目,得到广告节目播出单;对新闻节目的内容进行自动识别。基于该系统,本文得出的分析结果在第四部分进行介绍,通过节目分析、舆情分析、广告分析三个案例,展示了广播电视大数据分析的价值。
2. 广电监管的大数据
大数据时代最重要的四个特征,可以用四个“V”来概括,即规模性(Volume)、高速性(Velocity)、多样性(Variety)和真实性(Veracity)[2],广电监管领域的海量音视频数据也具有这四个特征。
2.1 规模性(Volume)
规模性指的是巨大的数据量及其规模的完整性。我国有数千个广播电视频率频道在每天不间断地播出,广电监管部门对覆盖面大,影响范围广的重点频率频道进行采集回传、存储分析,包括中央人民广播电台、中国国际广播电台、中央电视台、中央教育电视台、以及省级上星综合频道、地面频道、上星广播、各地市综合频道、国内付费电视、购物电视等节目共843套,信源分布如表1所示。按照重要程度,不同节目保存时间不同,系统现存储节目总量为1.3PB。
表1 广播电视监管音视频每日采集存储数据量统计表
高速性指的是数据的移动性以及实时性。由于广播电视覆盖面大,一旦出现播出事故造成社会影响大,因此对于播出监管的实时性要求也很高。在重要播出期、重点监管时段以及有重大突发事件发生时,需要做到准实时反馈,即1~2个小时对上百套节目的播出情况做出评价。任何人工监看的模式,以及传统的监管系统都无法做到如此快速的反馈,只有利用模式识别和大数据分析技术[3],将海量的广播电视进行自动拆分、智能识别、自动分析,才能做到高效的应答与处理。2.2 高速性(Velocity)
2.3 多样性(Variety)
多样性指的是有多种途径来源的关系型和非关系型数据。传统的数据管理主要针对结构化数据进行分析利用,而大数据分析技术则更加强调对半结构化和非结构化数据的分析和应用。在广电监管领域,数据类型是非常多样的,包括视频、文字、图片、检索记录等,这些数据可以分成三类。以音视频文件为典型代表的非结构化数据,从音视频文件中提取的特征文件、模版文件等半结构化数据,以及对音视频文件通过模式识别等技术进行自动拆分、智能识别、自动编目形成的播出单和人工研判的监管信息等结构化数据。运用大数据分析技术,可以对这各种不同类别,不同维度的数据进行综合分析。
2.4 真实性(Veracity)
数据的“真实性”包括三方面的指标:数据的可靠性,数据质量以及数据的稀疏性。对于多元化数据的分析过程来说,数据的可靠性及质量尤为重要,数据的严重偏差将导致不准确的,甚至是错误的分析结果。相比于互联网上复杂而多变的数据来源,广播电视节目具有播出后内容无法更改的特点,因此广播电视数据的可靠性及数据质量较高。此外,数据的稀疏性也会影响数据的真实性,海量的数据并非都有价值,只有通过高效的分析手段才能排除掉无用数据,得到更有价值的结论。
3. 数据分析方法
针对每日采集的海量广播电视音视频文件,高效而准确的分析方法是保证准确性和效率的关键。现有的互联网大数据分析大多基于对文字检索结果的处理,无法实现对海量非结构化音视频进行快速索引与统计分析。本文的数据分析基于广电监管自动编目与检索系统[4],利用模式识别、语音识别、图像识别、重复性比对以及电视节目自动分类与聚类等技术,对不同类型节目的图像、视频、音频内容进行分析并抽取语义特征,对播出的节目和广告进行自动分割、标识、分类,并由人工修改审核。系统具有文本、音频、视频、图像的融合检索功能,并提供各种强大的统计分析工具。该系统框架如图1所示。
图1 广电监管自动编目与检索系统框架图[3]
数据源为每日从卫星广播电视、有线广播电视、无线广播电视监测系统24小时实时采集广播电视节目,并回传至北京数据中心进行统一存储。数据处理层利用音视频自动处理、模式识别、音频特征提取、视频特征提取、样例匹配等技术,对全天广播电视节目进行自动拆分,智能标识、自动编目,生成每天的节目单。应用层基于数据处理层的计算结果,提供各类分析功能,如广告分析、舆情分析、节目分析等。本文第四部分的分析结果,均基于本系统生成的各频道广告节目播出单,以及系统对新闻内容的自动识别。
4. 数据分析结果
基于上述系统得到的各频道广告节目播出单以及自动识别的新闻内容,我们可以分析各电视台的节目编排、新闻舆情、广告播出等内容,为监管部门分析提供参考。
4.1 节目分析-相关关系而非因果关系
广播电视覆盖面大,受众广,播出的各类节目在社会上影响力大。满足广大观众多样化多层次高品位的收视需求是广电行政部门的社会责任。因此需要及时监控各大主流媒体的节目播出类型和方向,对电视台的跟风现象进行调控,避免类型相近的重复节目过度充斥荧屏,防止节目类型过度同质化。例如2011年“限娱令”[5]要求,对节目形态雷同、过多过滥的婚恋交友类、才艺竞秀类、情感故事类、游戏竞技类、综艺娱乐类、访谈脱口秀、真人秀等类型节目实行播出总量控制。2013年以来全国歌唱类选拔节目总量明显增多,根据广大观众的意见,为避免电视节目形态单一雷同,“限歌令”[6]要求,对这类节目实施总量控制、分散播出的调控措施,避免同类节目扎堆播出。
电视台既要制作收视率高的优秀节目,同时也要与其他兄弟电视台进行博弈。进行节目规划时,需要对节目流行趋势进行预测,避免出现扎堆情况,制作后受到调控不能播出而蒙受经济损失。本文分析了2015年2月1日至7日31家省级上星综合频道黄金时段主要综艺节目的分类情况,如图2所示。
图2 2015年2月1日至7日各卫视黄金时段综艺节目播出分布图
从统计中可以看出,在限娱令的调控下,各类综艺节目的数量比较平均,没有再出现类似一年内连续17档歌曲选秀类节目的情况。对节目类型进行跟踪分析,不仅给广电行政部门提供节目播出调控的依据,也是各电视台了解行业流行趋势的参考。在小数据分析中,常常利用因果关系进行分析,通过个别节目资金投入大,广告投入大等“因”,推断出今年流行的节目趋势这个“果”。然而在大数据时代,可以将节目流行的趋势与当年发生的重大社会事件、观众投诉意见等进行相关联分析,预测今后一段时间节目制作走向。
4.2 舆情分析-混杂性而非精确性
对于广电监管部门,为政府决策服务是其重要的职责。从广播电视中获得舆论热点,是一直以来吸引众多研究者的一个重要课题。本文利用新闻内容自动识别、自然语义分析和大数据处理技术,从大量新闻词条当中分析出近期热词。
热词并非简单意义的高频词汇。例如,2015年3月中旬至4月中旬,新闻词频最高的语义词汇为:中国、改革、国际、亚洲、日本。但该类词汇长期高频,不能代表近期热点。4月12日,“萨德”成为当日高频词,由于美国欲向韩国出售萨德导弹防御系统,当周内出现115次。但是由于仅出现在两个频道,因此不能代表广泛关注。
在大数据处理技术成熟之前,热点分析是依赖于精确性的,只能利用不足5%的精确的结构化数据进行分析,而大数据处理技术则是接受混杂性和不精确性。综合分析热词出现的频率、范围以及趋势,才能得到该舆情准确的传播情况与影响范围。系统分析的热点词汇为“也门”,由于其动荡的局势在国内外引发广泛关注。
由于广播电视代表我国主流媒体的形象,其言论往往在覆盖区内有很大的影响,快速准确地从各卫视新闻内容中,获取当日、当周电视媒体广泛的关注热点及舆论焦点,对广电监管部门尤为重要。
4.3 广告分析-全体数据而非随机样本
广告已经成为我们生活环境中的一部分,广泛地影响着人们的日常生活。对广播电视广告播出进行管理,是广电监管部门的社会责任,也是维护广播电视媒体权威性的重要一环。小数据时代,人们只能从随机数据中进行抽样分析,而在大数据时代,则可利用全体数据,得到更为有说服力的结果。本文利用音视频自动处理系统,对广播电视流中的节目、广告进行自动切分,标注,形成可检索的节目单,建立跨频道的广告模板库。在上千个广播电视频道中精确定位广告的播出频道、时长、时段、次数等信息。
4.3.1 禁播广告统计
相比于互联网,电视媒体在观众心中具有更高的权威性,这也给电视广告的监管提出了更高的要求。近年来,部分夸张宣传的购物类、医药类广告以及直接间接为药品、保健品、医院做广告的养生节目,严重误导了电视观众,损害了人民群众的利益,影响了电视媒体的形象。广电行政部门在2015年1月27日,发文[7]禁播了一系列具有误导性的广告。
本文分析了上述广告在2015年1、2、3月在各大卫视的播出时长,如图3所示。
图3 禁播广告播出情况统计图
从上图中可以看出,1月底出台相关禁播文件以后,2月份此类节目播出时长大幅度减少,到3月份绝大部分已经完全消失。但是同时也可以看出,仍有少部分节目存在,其中包括某些节目换汤不换药,更换节目名称不改变节目内容以规避监管。
禁播文件出台后,监管部门需要高效准确的监督,才能让这些条令得以落实,保证人民群众的利益得到维护。任何传统的监看模式,已经不能适应对海量广播电视频道各种形态广告播出的监管,需要借助针对音视频的大数据分析,实现更智能化的广播电视监管。
4.3.2 跨电视台广告统计
掌握各电视台的广告播放比例、内容、时段等,可以给广电行政部门了解各电视台定位以参考。例如有些电视台收视率很高,市场认可度高,对广告的选择也会较为谨慎。有些电视台广告播出比例很大,尤其充斥着夸张宣传的轰炸式购物广告以及误导消费者的医药类广告等,会成为监管部门重点关注的对象。
本文以2015年2月1日至6日全国31个省级上星综合频道(此处不含港澳台数据)的广告播出情况为例。图4为各卫视6天广告总时长(含购物类广告和节目)。播出广告最多为旅游卫视,平均每小时播出17.4分钟,播出最少为北京卫视,平均每小时播出为3.1分钟。广告播放时长一方面反映了电视台对自己的定位,同时也给监管部门和投放广告的企业以参考。
图4 2015年2月1日至6日各省级上星综合频道广告播出时长分布图(单位秒)
4.3.3 竞争关系广告统计
对于有直接竞争关系的可替代产品,例如王老吉和加多宝,掌握竞争对手的广告投放策略,投放范围以及新广告更新频率,广告轰炸时段等等,都有助于企业掌握竞争对手的动态。利用大数据分析技术,不但可以了解独立的每个品牌、每个企业的广告投放情况,还可以进行相关统计,分析出有竞争关系的产品广告投放的异同以及对于市场占领的预测。例如某些企业主要投放某些省级地面频道,则代表其希望开拓相关区域的市场,如果某些企业增加了对少儿频道的广告投放,则可能是其转向儿童产品的标志。
例如,本文统计2015年1至3月,主要凉茶品牌在31家省级上星综合频道(不含港澳台数据)投放广告的情况,如图3所示。加多宝广告投放侧重于南方的电视台,且广告投入量巨大。和其正作为早期在南方较为流行的凉茶品牌,现在可以看出其进军全国市场的趋势。和其正、加多宝、王老吉在3个月内平均每天在各频道投放总时长分别为6.6分钟、57分钟、2.7分钟。
(1) (2) (3)
图3 2015年1至3月各省级上星综合频道三种凉茶投放广告分布图
(1)和其正、(2)加多宝、(3)王老吉
5. 结论
大数据时代能够使人们透过冰山的一角,预测到海面下冰山的全貌,使数据的真实价值得以展现。广电监管系统具有十分珍贵的广播电视节目资源,运用大数据分析技术,可以使海量不间断的视频流变成可以自己“说话”的数据,使我们关心的内容得到答案。本文通过节目分析、舆情分析、广告分析三个案例,说明了大数据在广电监管领域的巨大社会价值,以实现其在广电监管领域的应用。
参考文献
[1] Viktor Mayer-Sch?nberger, Kenneth Cukier. Big Data: A Revolution That Will Transform How We Live, Work, and Think. Hodder Export. 2013
[2]大数据的基本概念及相关问题. 中国电子商务企业发展报告. 2013
[3] 戴礼灿. 大数据检索及其在图像标注与重构中的应用. 中国科学技术大学博士学位论文. 2013
[4]王婧.基于电视自动编目技术的广告监管自动化系统. 广播与电视技术. 2014. S1期
[5]《关于进一步加强电视上星综合频道节目管理的意见》.国家广播电影电视总局.2011
[6]《对歌唱类选拔节目实行调控为观众提供丰富多彩电视节目》.国家新闻出版广电总局.2013
[7]《国家新闻出版广电总局办公厅关于立即停止播出“名酒汇”、“胖大夫”等22条违规广告的通知》.新广电办发〔2015〕24号
编辑:中国新闻技术工作者联合会
评论 点击评论