基于移动互联网的分类定制阅读系统研究
赵羽佳 张晓伟
(重庆日报报业集团)
摘要随着移动互联网技术的发展和日益普及,信息量成爆发性增长。信息的纷繁复杂也让人们的阅读压力逐步加剧。人们亟需进行一场现代化的新闻阅读革命。本系统利用移动终端收集用户行为,并利用大数据技术,为用户提供有效的、准确的个性化新闻阅读推荐,并旨在建立一个让读者、媒体和广告主互利共生的生态圈。关键词 个性化推荐 移动互联网 大数据分析 新闻阅读 分类定制1 引言1.1 移动互联网发展现状
移动互联网是一种使用包括手机、平板、电子书等智能终端,通过移动无线通信方式,包括GSM、3G、4G或WIFI接入互联网,获取互联网服务的一种新兴服务模式。它将移动通信和互联网两者结合为一体。随着宽带无线接入技术和移动终端技术的飞速发展,将给人们的生活带来越来越多的方便,甚至于改变人们的日常生活习惯,这也预示着移动互联网的发展势头将不可阻挡。根据《2013-2017年中国移动互联网行业市场前瞻与投资战略规划分析报告》数据统计[1],截至2012年6月底,中国网民数量达到5.38亿,其中手机网民达到3.88亿,较2011年底增加了约3270万人,网民中用手机接入互联网的用户占比由2011年底的69.3%提升至72.2%。而台式电脑为3.80亿,手机网民的数量首次超越台式电脑网民的数量,也意味着移动互联网迎来了它高速发展的时期。1.2 移动互联网读者遇到问题
随着移动互联的快速发展,手机越来越深入人们的生活,并且逐渐改变着人们的生活习惯。互联网用户数量的迅速飙升伴随而来的则是信息量呈几何级数式的增长。人们在享受更便捷生活方式的同时,也不得不忍受着信息爆炸所带来的痛苦。另一方面随着社会的发展,人们对阅读的要求越来越高,对阅读需求越来越精确,读者的个性化诉求也越来越多。但是人们阅读的时间被增快的生活节奏冲击变得更加碎片化,导致人们没有大量的时间和精力去自己寻找想看的信息。在繁杂的信息中能找到自己真正关注的新闻报道是一件很痛苦但又值得庆幸的事情。因为有更多的值得我们关注的新闻报道在成百上千的无关信息中被淹没。这既是读者的损失,也是新闻机构的遗憾。怎样才能让读者读到自己真正想要的东西,让相关的新闻被真正需要的人看到,如何来满足读者的个性化的纵深阅读诉求,这些都是在未来新闻发展中亟待解决的问题。2 分类定制阅读系统
为了解决以上几个问题,也是对新媒体的发展方向的探索,我们设计出了基于移动互联网的定制阅读系统。该系统会根据用户的个人喜好和行为习惯进行分析,为每一位读者个性化定制新闻阅读。该系统还设计了一套新闻报道的自动化提交,审核和发布流程,让新闻机构和自媒体能更方便的发布文章,并且会根据用户的点击阅读数量来对文章的作者进行付费。使受人喜欢的文章获得更多的收益,以此来激励媒体人对文章质量的追求。该系统主要是基于移动互联网这一个新兴业态。所以使用的技术一定要符合移动互联网的灵活多变,发展迅速的特点。为了使系统能够灵活应对未来有可能的用户增长,整个系统的设计都应该具有良好的收缩性,每一个模块包括服务器和数据库都可以进行独立的横向扩展。这样在系统遇到服务压力很大的时候可以快速的采取扩容的方式来增加负载量。并且在设计时还要注意每一个模块的独立性。在高速发展的今天,一些现今的技术可能很快就会被未来的新技术所替代,所以在设计时就要把各模块之间进行解耦,模块之间的相互关联越少,以后某一个模块的更新才越容易,并且要尽可能地做到可以不间断服务的更新。这样才能很好应对移动互联网复杂多变的现实环境。该系统分为阅读及反馈系统,新闻聚合发布系统,大数据分析系统和智能广告投放系统四个部分。总体架构图如下:图1 系统架构图
3 阅读及反馈系统阅读及反馈系统是基于移动客户端的阅读类APP。该应用分为IOS端和Android端,它能方便地为用户推荐感兴趣的新闻报道及相关阅读内容。随着用户的持续使用,应用会越来越了解用户的喜好和行为习惯,从而带来更好的阅读体检,就像每个用户都聘请了一位私人编辑,为自己定制每日的阅读内容一样。让读者专心于阅读本身,而不是浪费时间在新闻的寻找和挑选上。3.1 引入社交信息,创建兴趣图谱
用户一般会关注两类信息:第一类就是焦点事件。包括:国内外的重大新闻,公众关注的热点问题。另一类信息就是个性化事件。包括:与自己工作领域相关的新闻报道,与个人年龄段相关的报道,与个人的兴趣爱好,比如娱乐、体育、科技相关的新闻报道,所在区域发生的地区性新闻,以及与朋友及关系链相关的事件报道。焦点事件对所有人都是一样的,基本上是大同小异,只是根据用户的使用习惯有微小的差别。而个性化事件,那就是千人千面各有不同了,这也正是个性化阅读的着眼点。为了更好的建立用户兴趣图谱,用户注册时应尽量详细的填写工作和兴趣爱好,并通过社交网络授权获取其相关的社交属性。这样就能更好的创建用户最初的兴趣图谱,并且通过社交网络获得该用户的社会关系,社会关系在大数据的推荐计算中也会起到一定的辅助作用。3.2 阅后即焚,通过点赞来留住喜欢的内容
为了更好的进行用户行为收集,又不能影响用户的阅读体验。需要设计一套合理的交互规则,既不能给用户带来过多的附加负担,又能让用户心甘情愿和系统进行交互,从而好让系统进行文章的筛选以及用户兴趣图谱的完善。这套规则的核心思想就是:留下的都是喜欢的,不喜欢的就不需要看第二遍。看过的文章如果不喜欢就不会再出现。用户每次刷新,系统会根据用户喜好推荐一页新闻文章。该页新闻由焦点事件和个性化事件组成。用户可根据喜好点击进入阅读。如果用户喜欢该文章可以点击赞(代表喜欢的意思),此时就相当于用户收藏了此文章,并且会向其他人推荐此文章。用户还可以点击挖(代表挖掘的意思),来告诉系统想看到与之相关的后续报道,而该信息也会以纵包的形式出现在用户需求模块,帮助记者和媒体知道哪些新闻需要更多的相关报道,从而帮助他们写出更多人喜欢的文章。当用户点击刷新时,系统会重新生成一页新的新闻文章,而之前的文章则不会再重复出现。只有从收藏夹中可以看到你曾经点过赞的文章。这样用户通过简单的点赞和点挖过程完成了与系统的交互工作,为系统搜集用户信息、完成用户兴趣图谱带来了基础保障。3.3 取消人为分享,拒绝信息泛滥
为了简化操作,系统取消了人为分享,通过点赞用户会把文章推荐给系统,而系统会自动计算每个人的推荐。如果你们是好友,并且有着相同的爱好,那么你朋友将会有很大可能看到这篇文章,但是跟你没有相同爱好的朋友就不会收到。为了进一步减少用户负担,系统也没有设置踩(代表不喜欢或不赞同)这个功能。因为在信息量爆炸的今天,没人喜欢的文章会自动的慢慢的沉入海底。下图显示了应用的用户操作分类。图2 用户允许的操作
4 新闻聚合发布系统个性化分类推荐系统的基础还是建立在强大的新闻信息之上的。没有内容的新闻系统就像是无米之炊、无血之躯,就算应用的用户体验再流畅,推荐系统再强大仍然无法吸引用户。所以我们设计了一套基于互联网的新闻聚合发布系统。该系统可以方便文章的提交、审核及发布,并且会通过文章的阅读数量和点赞数量来结算每篇文章获得的酬金。4.1 开放API,聚合更多新闻资源
除了我们集团签约记者和新闻机构,随着互联网的发展越来越多的微博,博客,SNS等自媒体正在迅速兴起。他们的出现不仅大大丰富了读者的阅读内容,也给传统新闻媒体敲响了警钟。甚至有些自媒体已经成为影响颇大的信息来源,我们再也不能忽略这股清新的社会力量。让用户看到他们想看到的内容才是我们建立系统的初衷,所以我们以开放API的形式把这部分内容导入我们系统,并且按照相同的待遇进行酬金结算。4.2 用户授权
不论是签约记者和新闻机构,还是使用API的第三方媒体,都需要进行审核后才可获得授权用户资格。授权用户可以获得其每篇文章的读者阅读及评价情况,包括推荐到多少用户,有多少用户阅读,有多少用户点赞,有多少用户希望深度阅读等。也能看到该授权用户的总体情况,比如该授权用户在所有授权用户的排名情况等。授权用户需要按年交纳一定的服务费。4.3 自动审核及分类
文章提交后,系统会自动进行关键字审核,无敏感词的文章可以自动通过审核。有敏感词的文章会进入人工审核流程。整个审核过程控制在2-5小时以内。系统会根据文章的标签及文章内容对文章进行标注和分类,为了对文章更精细化的管理,每个文章的分类可以达到上百种之多。4.4 按点击量计费
新闻作者是系统平台的造血者,我们必须更关注他们的利益才能使平台有着更好的新鲜血液。文章的阅读和被点赞数不仅会对系统的推荐进行影响,而且会被用来为每一篇文章计算酬金,所得酬金会在每月统一清算。这样的结算方式对双方都最公平的,受欢迎的文章为系统带来了更多的关注,为系统用户带来了更好的体验,所以这些文章的作者本来就应该获得更多的收益。以这种互联网的结算方式能激励媒体和作者写出人们感兴趣的文章,为系统源源不断的造血创造条件。图3 新闻发布流程图
5 大数据分析系统大数据分析系统是该新闻发布系统区别于其他新闻发布系统的核心技术。以Hadoop,云计算相关技术的发展,大数据无疑带来了一场空前的信息革命。5.1 文章细分聚类,根据用户反馈对文章评分
首先文章通过审核后,系统会对每篇文章进行内容分析,分析成功后及会把文章打上相应的标注,并根据相关性在每个标注上附上相应的权重。系统会被按照一定的规则来为一篇文章评分。评分规则大概如下:Score=(P-1)/(T+2)^G其中:P=文章获得的推荐分数(-1是去掉文章提交人的票)T=文章发布至今所用时间(小时)G=每一个标注所附的权重这个算法非常的简单,但却在突出热门文章和遴选新文章上表现得异常优秀。下面将介绍公式的含义。首先文章获得的推荐分数并不是单一的阅读数,而是推荐数、阅读数和点赞数三个变量经过计算得出的一个综合分数。其次T代表时间,可以看到随着时间的流逝得分将变得越来越低。G代表权重,当权重越大时,老文章得分会减得更快。5.2 用户细分聚类,完善兴趣图谱
在用户注册时会填写详细的兴趣爱好,并且也会被要求授权社交网络账号以获取社交关系属性,用来更好的创建用户的兴趣图谱。所谓兴趣图谱,就是以人和人的共同兴趣为线索的图谱,是一种表明“我喜欢”的网络图谱,它是以共同的兴趣为基础,但不一定是认识的人。在用户使用时,用户可以根据移动端阅读行为的反馈进行兴趣图谱的完善和修正。5.3 基于兴趣图谱的推荐
推荐的基本原理是:由用户的兴趣图谱获取到用户相关的相同兴趣的用户聚类[2,3],找到这类用户对哪一些文章进行过推荐,并找到这些文章相关类型中得分最高的文章,再把这些文章和用户兴趣及阅读历史进行一个动态匹配,最终生成需要推荐的文章。6 智能广告投放系统广告是该系统盈利的基础。精准的广告推送是关系到用户体验和广告推广效果的决定性因素。因此建立智能广告系统也是该系统能否健康运营的一个必要环节。6.1 广告精准推送
有了前面大数据系统对用户行为习惯的分析,广告的精准推送有了很好的技术基础。其实广告推送也可以看成分类推荐的一个特殊需求。只是把按阅读点击量向作者付费变成了按广告点击量向广告主收费。如何处理广告与内容的比例关系也是一个重要的研究课题。6.2 广告投放管理模块
智能广告系统的另一个重要功能模块就是针对广告主的广告投放管理模块。该功能模块可以让广告主方便的创建广告,并设置广告的关键词,推送时间,推送地点等。可以让广告主更灵活的管理广告投放策略。7 结束语由于篇幅有限,本文只是对该系统的总体思路和主要模块做了概要介绍,而没有就具体技术细节进行详细阐述。该系统主是针对现今的移动互联网进行的一次新闻阅读创新性实验研究,旨在建立一个让读者、新闻媒体和广告主互利共生的生态圈。该系统正处在一个实验性阶段,而解耦的松散式系统架构也为以后系统的逐步改进创造了良好的空间。 参考文献[1] 华泰行业报告研究院 2013-2017年中国移动互联网行业市场前瞻与投资战略规划分析报告原创版2013-8-19[2] 曾春,邢春晓,周立柱 基于内容过滤的个性化搜索算法[J].软件学报,2003,14(5)[3] 李涛,王建东,叶飞跃 推荐系统中一种新的相似性计算方法[J].计算机科学,2007,(8) 编辑:中国新闻技术工作者联合会
评论 点击评论