手机电视用户端监管关键技术

  • 优秀论文奖
  • 文章作者:中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

    李晓东 刘知一 段维萌

    (国家广播电影电视总局监管中心)

    [摘 要] 从用户端对手机电视进行技术监管是整个手机电视监管系统中的重要环节,本文在重点分析WAP网站终端限制技术基础上,提出了手机电视用户端监管的总体框架,并就其中的无线网络接入、WAP网站数据获取设计、节目过滤、节目归类与判别、节目下载等主要技术进行了阐述。[关键词] 手机电视 用户端 监管 技术 1 引言手机电视是指以移动互联网或者移动通信网为传输载体,以流媒体内容为表现形态,使用手机终端观看的交互式视听节目业务。我国手机电视从传播模式上可分为公网模式和专网模式,从应用方式上可分为WAP方式和客户端方式,其中WAP方式是目前手机电视的主流方式。随着3G网络全面铺开和国家三网融合工作的推进,我国手机电视已基本实现从试验到商用的转型,从基于2.5G移动通信网到基于3G移动通信网的稳步发展,手机网民规模的快速增长也进一步推动了手机电视的发展。截至2011年12月底,我国手机网民总数为3.56亿,手机网民在总体网民中的比例达69.3%,手机网络视频使用率达到22.5%,手机电视用户超过8000万。针对WAP网站特点,从用户端角度加强对WAP视听节目网站的监管,增强用户端监管技术手段,及时阻断各类涉黄涉性等违规节目的传播,是手机电视监管的重要环节,也是监管工作面临的新挑战。 2 WAP网站终端限制技术2.1 WAP网站访问模式WAP网站采用XML标记语言(WAP1.x采用WML,WAP2.0采用XHTML)而不是HTML标记语言,并且不同于一般WEB网站的“终端+服务器”的工作模式,考虑到手机终端设备硬件限制和无线移动网络带宽限制,WAP网站通常采用“终端+WAP网关+WAP服务器”的模式,通过WAP网关完成WAP-WEB的协议转换,实现节省网络流量和兼容现有WEB应用。

    WAP业务一般由WAP终端、无线传输网络(GPRS/WCDMA/CDMA200/TD-SCDMA等)、WAP网关设备、WAP应用服务器等组成,如图1所示:

    图1 WAP业务端到端结构

    其中,WAP网关设备是WAP业务中的关键设备,WAP网关通过无线网络中的网关设备(如网关GPRS支持节点GGSN等)与无线网络连接,将来自WAP终端的无线协议栈请求(如WSP、WTP、WTLS、WDP等),翻译成WWW协议栈(如HTTP、SSL和TCP/IP),然后通过Internet访问WAP网站,将WAP网站返回的WEB内容进行压缩编码(减少通过无线数据网络传输的数据分组大小和数量),回传给WAP终端。同时,在WAP网关设置高速缓存代理,缓存经常访问的资源,以进一步提高性能和网络效率。目前,国内三大移动通信运营商中国移动、中国电信、中国联通都设置了专门的WAP接入点及WAP网关设备,用于手机终端访问各类WAP网站。2.2 WAP业务认证方式移动通信运营商从商业运行角度,为了保证WAP业务安全,并方便进行计费等,一般对WAP业务采用3层认证方式。1)终端鉴权:即WAP手机终端在无线承载网络上的鉴权;2)接入认证:通过接入服务器、GGSN、PDSN等,采用RADIUS协议实现接入认证;3)WAP网关认证:在WAP网关上进行设置,通过IP地址限制阻止公网地址的访问请求,并对用户进行身份认证。身份认证方式包括主叫号码认证、用户名加密码认证等,根据认证结果判断是否授权用户使用WAP业务,同时启动计费功能。

    以中国移动CMWAP接入点为例,手机通过GPRS访问移动梦网内WAP网站的流程如图2:

    图2 手机访问移动梦网业务流程

    4)手机发起WAP网站访问请求连接后,通过无线网络登陆GGSN,GGSN连接WAP网关,接入认证成功后,启动本次会话计费,并给手机分配一个10.*.*.*网段的内部IP地址;5)手机与WAP网关建立TCP连接,身份认证和业务鉴权成功后,由WAP网关向目标WAP网站服务器发起请求;6)目标WAP网站服务器将请求页面内容传给WAP网关,WAP网关将处理后的信息通过无线网络回传到手机;7)连接断开后,根据数据业务管理平台(DSMP)计费批价结果,生成本次话单。2.3 WAP网站终端限制技术小结任何支持WAP协议的浏览器,从理论上都可以通过标准TCP/IP协议,正常访问WAP网站。但移动运营商和WAP网站内容提供商,通过身份认证、业务鉴权、地址限制等多种方式,限制了公网上普通用户对WAP网站的访问。为增强用户端监管技术手段,实现手机电视用户端的技术监管,首先应解决无线移动网络接入问题,即接入到不同的无线移动网络中,完成身份认证和业务鉴权后,以普通“手机网民”的身份,对提供手机电视服务的WAP网站实现节目搜索、发现、自动归类、违规判别等。 3 手机电视用户端监管系统设计3.1 系统总体框架手机电视用户端监管系统总体框架如图3所示,主要包括移动网络接入层、数据采集层、数据存储层、数据分析层和展示层。

    图3 手机电视用户端监管系统总体框架

    1)移动网络接入层:通过接入到不同的无线移动网络中,完成身份认证和业务鉴权,为WAP视听节目网站数据采集提供基础网络;2)数据采集层:实现手机WAP视听节目网站主动搜索、WAP网站视听节目自动过滤、WAP网站视听节目元信息抽取、WAP网站视听节目下载取证、网站种子管理、任务管理等功能;3)数据存储层:对采集的节目元信息、爬虫任务信息、种子状态信息、节目真实地址及下载状态信息、已下载节目实体文件等进行统一存储管理;4)数据分析层:对采集到的WAP视听节目网站节目数据,按照手机电视监管需求,进行统计分析、节目排重、节目归类、违规鉴别等;5)展示层:通过web方式提供人机交互界面,统一展示数据分析层的计算结果,并提供节目交互审核、统计报表输出、系统状态监控、运行参数配置等功能。3.2 无线移动网络接入方法模拟普通手机网民接入到不同的无线移动网络,一种方式是自行定制开发专用设备,完成拨号、认证、鉴权等过程,但这种方法需针对不同制式移动网络单独定制,较为复杂。另一种方式是借助于已有的终端设备,具体包括2种方法:1)利用手机终端接入无线移动网络,完成拨号、身份认证和业务鉴权。然后通过编写手机上的应用软件,搜索目标WAP网站;2)通过带GPRS、CDMA、3G拨号功能的无线路由器,接入无线移动网络,完成拨号、身份认证和业务鉴权。然后WAP视听节目网站搜索服务器通过以太网与路由器连接,实现对目标WAP网站的搜索。由于手机上的内存资源及存储空间等均非常有限,并且不同的手机操作系统和开发环境均不同,需针对不同手机型号单独开发WAP视听节目网站搜索引擎。因此,采用第2种方法,通过具备不同制式拨号功能的路由器接入相应的无线移动网络,为WAP视听节目网站数据采集提供基础网络,定制开发专用的WAP视听节目网站搜索引擎,实现对目标WAP网站的搜索,如图4所示:

    图4 手机电视用户端监管系统移动网络接入方法示意图

    3.3 WAP视听节目网站数据获取设计由于手机访问WAP网站实际是通过WAP网关进行数据转发。因此,WAP视听节目网站数据获取设计上主要考虑3个问题:1)考虑到搜索服务器不是直接访问目标WAP网站,搜索服务器与目标WAP网站之间的会话都需要经过WAP网关来转发,在构建爬虫HTTP请求头时,应模拟手机终端内置浏览器请求过程,根据不同的移动无线网络参数,在HTTP请求头中指定WAP网关IP地址、端口以及浏览器的User-Agent信息;2)WAP视听节目网站中,大部分视听节目链接都集中在本网站中,站内链接为有效节目的概率要大于站外链接,因此在搜索策略上应采用广度优先搜索方式;3)在无线移动网络环境下进行网页搜索,还要考虑资费问题,为便于统一管理和调度,应单独设置流量与时长统计模块。WAP视听节目网站数据获取模块设计如图5所示:

    图5 WAP视听节目网站数据获取模块示意图

    1)任务管理模块:负责启动采集程序,初始化任务队列,按照广度优先的方式调度采集任务,并监控程序状态,控制程序的退出;2)数据采集模块:采用多线程以增量方式获取目标WAP网站的数据,构建HTTP请求头,下载并解析XML页面,提取符合格式的URL,进行URL排重,将URL构建成等待采集的任务,提交到任务队列中;3)数据库:存储采集数据结果信息、状态信息等;4)索引:对获取的数据结果进行全文索引;5)Task队列:管理等待获取的URL列表;6)Visited表:管理已经获取的URL列表;7)流量与时长统计:负责每个目标网站爬行的时长与流量信息。3.4 WAP网站视听节目自动过滤及元信息抽取方法WAP网站视听节目自动过滤及元信息抽取的目标,是主动发现目标WAP网站上的各类视听节目链接,并对节目标题/发布时间/点击数/回复数等节目元信息进行结构化抽取,其流程如下:1)搜索程序启动后,将目标网站入口地址压入到等待URL队列,设置为第0层,程序根据URL队列中顺序访问目标网站;2)下载URL对应的XML网页,压入页面内容抽取任务队列;3)页面抽取子模块通过页面HTTP头中“content-type”类型,判断该页面是WML还是XHTML,并对页面进行解析,生成DOM树,提取该页面上所有URL,通过Bloom Filter算法进行URL排重;4)通过节目后缀名、特殊协议(MMS、RTSP等)、网页中“object”、“embed”标签等进行节目特征匹配;5)对含有符合特征匹配规则节目的URL,存入节目队列中;6)通过正则表达式模板,抽取节目标题/发布时间/点击数/回复数等节目元信息,并存储到数据库中;7)对不符合特征匹配规则节目的URL,存入等待URL队列中,URL层数加1;8)程序状态监控模块发现所有队列为空,或URL层数达到搜索深度设定,停止数据获取工作。3.5 节目归类与判别技术

    WAP视听节目网站数据采集程序每天增量采集的节目数量往往较大,为提高系统效率,在完成节目元信息抽取和统一存储后,通过文本分析技术,实现节目自动归类与违规节目判别,如图6所示:

    图6 WAP视听节目文本分析模块示意图

    1)文本分词模块:基于现有的互联网视听节目领域词典,对节目标题、节目简介等关键元信息进行文本分词;2)节目标题去重模块:对视频标题等描述信息进行特征提取,归纳无用信息(如第1话、Season2、part1等)、常见描述性词语(如美剧、热播、经典)等,形成去重规则,过滤掉节目文本中无用信息,自动提取真实名称,并进行正则表达式扩展,与现有库中节目名进行去重处理,减少同一节目在不同网站上重复转载的影响,提高后续处理的效率和精度;3)违规节目判别模块:根据分词后的结果,依据违规节目关键字规则库,进行基于逻辑规则的匹配,自动标记疑似违规节目;4)文本分类模块:根据监管业务需求,自定义电影、电视剧、动漫、纪录片、新闻、自拍等分类标准,利用SVM构建分类器,进行文本分类,并利用节目所属频道、分类标签等元信息进行修订。3.6 WAP网站视听节目下载方法对WAP网站上采集的节目完成元信息抽取、节目归类与判别等处理后,基本上获得了该节目较为完整的监管所需信息,对于违规节目或者其他热点节目,需要提供节目自动下载功能,以便对这些节目进行取证或进一步处理。目前绝大多数WAP网站和传统WEB网站一样,都采用了链接保护技术防止本站资源被盗链,这也增加了对节目进行下载取证的难度。WAP网站视听节目下载主要流程为:1)下载调度管理模块:根据用户设定的优先级,将待下载节目URL压入待下载队列的不同位置,并在数据库中设置该节目下载状态;2)下载线程从下载队列头部中提出待下载的URL地址;3)根据URL中域名判断该节目URL地址中是否采用了链接保护技术;4)对采用链接保护技术的待下载节目URL根据不同情况,分别处理,包括利用已知URL重写规则替换、HTTP表头refer字段、预定义规则网络包等,获得该节目的真实URL地址;5)通过获得的真实URL地址,下载节目。根据下载的结果,修改该节目下载状态为“成功”或“失败”;6)在日志中记录本次下载过程中的流量、时长等信息。 4 总结手机电视是三网融合大背景下的极为重要的新业务,也是文化传播的重要手段,加强对手机电视的技术监管,提高监管效率,维护手机电视传播秩序,是确保三网融合工作顺利推进的重要保障。 参考文献:1.第29次中国互联网络发展状况统计报告.中国互联网络信息中心,2012.2.中国视听新媒体发展报告(2011).社会科学文献出版社,2011.3.WAP网关设备技术要求.YD/T 1392-2005.4.WAP网关内容过滤技术要求.YD/T 2054-2009.5.齐威,刘知一,王仝杰.面向互联网视频的话题分析技术研究.广播与电视技术,2011(7).6.尹亚光,张伟,袁敏.视频共享网站链接保护技术浅析及视频下载方法研究.广播与电视技术,2010(11). 编辑:中国新闻技术工作者联合会

    评论 点击评论