面向个性化的移动搜索技术研究

  • 优秀论文奖
  • 文章作者:中国新闻技术工作者联合会 2021/12/30-04:43 阅读: loading...

    薛广普

    (新华社通信技术局)

     

    [摘要] 随着近年来手机等移动终端的功能越来越丰富,在移动终端上使用移动搜索服务也成为一种不受地理位置约束的、更便捷的获取信息的方式。相对于传统的PC桌面搜索,移动搜索有设备屏幕较小、硬件处理能力较弱的特点,所以移动搜索服务需要搜索结果内容和信息的集聚度更高,且需要在有限的屏幕空间中尽量展示更精准的信息。但是,目前实际中应用的移动搜索技术仅仅是简单的将互联网搜索移植到移动终端,并没有理想的个性化解决方案。因此,移动搜索领域的个性化技术研究和应用显得更加迫切和重要。 本文对目前面向个性化的移动搜索技术进行了总结,并对其中具有代表性的技术方案进行了详细介绍。这些内容对个性化移动搜索系统的设计和实现具有一定的参考价值,所提到的技术方案对后续更进一步的个性化技术研究也具有较好的指导作用。

    [关键词] 移动搜索 个性化 移动终端 1引言 伴随着计算机技术、无线通信技术的蓬勃发展,尤其随着第三代移动通信技术的逐渐成熟,越来越多的用户已经开始利用手机等移动终端设备进行无线上网。移动应用的普及使得移动搜索成为了一种新的信息获取的有效途径。但与传统的桌面搜索相比,移动搜索存在几个突出特点:

    (1)输入习惯。相对于桌面搜索,移动搜索用户输入的查询关键字更趋于短小,这使得搜索更加具有歧义性,仅仅通过关键词来判断用户的检索需求变得十分困难;

    (2)硬件与收费模式的限制。移动终端具有屏幕小、电池领航时间受限的特点,同时,与传统桌面Web 收费模式不同,移动用户往往是按照上网的流量计费。大量与用户需求不相关的搜索结果不仅增加了用户浏览和移动设施的负担,而且加重了用户的成本[1]。考虑到这些问题,如何为日益庞大的用户群提供具有个性化的移动搜索服务,并在海量的网页资源中,快速高效的找到最贴近用户需求的信息,也就成为一个重要而迫切的研究课题。 本文研究的主要内容为移动环境下面向个性化的搜索技术,通过对当前移动搜索个性化研究工作的学习和总结,对一些具有代表性的方案进行了介绍和分析。 2 移动搜索技术简述 2.1 移动搜索的基本定义 移动搜索是指用户在移动通信网络中,通过移动终端,利用SMS、WAP、IVR等多种特定的搜索方式获取所需信息的搜索行为。而移动搜索的核心是将搜索引擎与移动设备有机结合,生成符合产品和用户特点的搜索结果。 2.2移动搜索的特点 在某种程度上,移动搜索可以看作传统互联网搜索在无线终端上的延伸,所有的传统搜索引擎技术均可以移植到移动搜索中来。但是,移动搜索又有它自身独有的特点,表1列举出了移动搜索表现出来的一系列特点[2]。

    表1 移动搜索与传统互联网搜索的对比

     

     

    2.3移动搜索的分类 根据搜索引擎的类别,可以分类为: 基于浏览器的移动搜索:现代手机里面都内置了类似网页浏览器的微浏览器(如UC浏览器等),手机用户可以通过这些浏览器来连接互联网; 基于短信的移动搜索:移动搜索引擎通过短信接收用户的查询请求,然后将查询结果通过短信的形式返回给用户。这种方式可以被所有手机用户所接受,但是,短信的信息表现能力很差,提供的信息也非常有限; 短信与微浏览器相结合的移动搜索:用户可以使用移动搜索服务商的客户端提交查询请求,客户端会根据用户的检索行为去选择以微浏览器或者短信方式返回查询结果。 2.4 移动搜索引擎的实现 从最基本的结构来说,移动搜索引擎一般由网络爬虫(crawler)、分析器(parser),索引器(indexer)和查询引擎组成,如图1所示。爬行器——也被叫做蜘蛛程序(spider)——负责取回用各种不同的标记语言写的网页,并将网页交给分析器,对应的分析器分析标记,分离出需要的页面URL,并将文本传给索引器。 索引器把网页的文字和元数据保存在索引数据库中,查询引擎收到用户发来的搜索查询,搜索索引项,把搜索结果发回用户。匹配查询的搜索结果以适合移动设备的格式返回,只有适合设备的网页会被返回。 随着爬行器周期性的抓取网页,索引将被更新,并进行添加新页、删除或更换旧页。各个搜索引擎采用不同的查询引擎排序算法。 由于移动设备的交互界面存在很多限制,比如小的显示屏幕、小的键盘和手写识别的错误等。为了使搜索信息变得简单,研究人员在交互方面也设计了一些功能,可以通过自动完成。关键词提示、语音输入查询和文本概要使文本输入变得较为容易。

    移动系统中使用的基本检索技术与桌面系统很相似,例如,一些搜索引擎使用的是为桌面检索设计的网页的索引数据库和抓取网页的Spider程序。也有一些只提供移动检索的服务采用专门的数据库和crawler,而本地检索则使用一个基于位置信息组织的商业数据库。一些搜索引擎只能检索那些专门为移动设备设计的网页,而另一些则可以检索整个网络。

     

     

    3 个性化技术相关研究 随着使用手机终端进行移动搜索的用户数量越来越多,针对移动网络搜索引擎的特点,设计实用、有效的个性化搜索引擎,已成为移动搜索领域的一个急需解决的课题。经过近几年来相关研究人员的努力,己经提出了一些具有实际意义的移动搜索个性化技术,其中最为常见的三种技术方案分别为基于聚焦爬虫的个性化搜索、基于改进型Web排序的个性化搜索、基于用户兴趣模型的个性化搜索。 下面就分别来介绍这三类个性化技术方案。 3.1基于聚焦爬虫(Focused Crawler)的个性化搜索 网络爬虫最主要的应用就是建立一个包含宽泛主题(通用Web搜索)或者特定主题的索引[3]。如果爬虫设计为只对特定主题的网页或者其他对象建立索引,那就可以把它称为聚焦爬虫。聚焦爬虫只爬取符合给定主题的网页,而不是爬取整个Web。这对实际应用来说,是一个很有效的策略,因为它避免爬取不必要的网页,在保证个性化搜索的前提下,提高了搜索的效率。 聚焦爬虫以对某个主题的描述作为输入,通常会用驱动查询(driving query)或者一系列已知属于该主题的样例文档来描述这个主题。聚焦爬虫的输出是与给定主题很有可能相关的更大规模网页的列表。 聚焦爬虫的设计是以普通爬虫为基础,进行了主题爬取功能的扩充。在结构上,聚焦爬虫增加了以下几个功能模块:主题确立模块、初始种子模块、主题相关度分析模块。主题确立模块用于确立爬虫面向的主题;初始种子模块用于生成面向特定主题的较好的种子站点,使爬行模块能够顺利展开爬行工作;主题相关度分析模块用来进行网页主题相关度的计算,这个模块是聚焦爬虫的核心模块,它决定了Web页面的取舍[4]。 聚焦爬取利用Web上的主题局部性(topical locality),这意味着相互链接的网页比随机选择的网页更有可能属于同样的主题[5]。特别地,相关的网页有极大可能在同一个网页中被共同引用。这样,随着更多的网页被爬取,聚焦爬虫的主题专注度会提高。 3.2基于改进型Web排序的个性化搜索 在实际的Web搜索系统中,任何一个给定的查询都能得到几万个甚至几百万个可用的页面,对这些页面通过排序来产生一个短列表可能是Web信息检索中最关键的问题。解决这个问题,需要一些相关性的评价手段。 在通常情况下,指向网页页面的超链接的个数可以作为网页受欢迎程度和质量的度量。另外,网页之间可能包括很多共同的链接,而不同的网页也可以被相同的网页所引用,这些都能够指示网页之间的联系,并对排序有潜在的价值。比较经典的网页排序算法PageRank算法[6]及Kleinberg提出的超文本推导主题搜索算法(Hypertext Induced Topic Search, HITS)[7]都是利用链接的排序技术。 面向个性化的Web排序的一种常见策略就是对PageRank算法的改进。PageRank算法利用网页结构的链接关系来计算每个网页的权重,并据此对网页进行排序,因此如果利用用户的偏好等个性化信息来修改PageRank权重值计算,就可以产生表达特定个性化信息需求的排序。 较好的方法是利用挖掘Web日志信息并结合传统PageRank给出一种新的网页权重计算公式,即结合使用挖掘的PageRank,如特征敏感的PageRank(Usage-aware PageRank, UPR)[8]。它结合了静态链接结构分析和用户使用分析这两项技术,在保证传统网页间的超链关系重要性的前提下,通过分析用户日志,判断这些实际存在的链接究竟哪些是被经常访问的,以此改进传统的网页权值。 根据Boies等人的理论[9],用户间的关系对信息索引具有标引性。另外一种常见的面向个性化排序改进策略是基于这个理论展开得。将该用户相关性应用于网页排序算法中,由此提高算法的召回率及精度值。 文章[10]中,作者从移动手机用户的电话簿及通话模块中提取用户的常见联系人,假设同用户联系密切的人群在兴趣分布上存在共同点,将筛选出来的信息进行用户关联度处理,并通过得到的用户关联度权值来影响相关网页的最终排序,提高优化的排序结果。 3.3 基于用户兴趣模型的个性化搜索 在研究中,大多数个性化搜索系统主要是通过对搜索引擎的网页爬取、网页排名两个方面进行改进,但是无论从哪个方面入手,都要与用户个性化信息建立关系,即需要建立了一个存储用户个性化信息的数据库,相关研究人员称其为用户兴趣模型。随着个性化搜索研究的进行,用户兴趣模型的研究已经成为移动搜索个性化领域的一个方向。 用户兴趣模型不是对用户个体的一般性描述,而是具有一种面向算法的、具有特定数据结构的、形式化的用户描述。它由表示用户兴趣的对象组成,每个对象都有一个权值信息,权值越高,表明用户对这个方面的信息兴趣越浓厚[11]。 常见的用户兴趣模型的表示方主要法有:主题表示法,以用户感兴趣的主题表示用户模型,如My Yahoo;关键词表示法,以用户感兴趣的关键词表示用户模型,关键词可以由用户指定,也可以通过相关的学习算法得到;基于向量空间模型的表示法,用特征词向量空间中的特征向量来表示用户模型的方法;另外,还有一些研究将用户兴趣模型建立在树状分类目录的表示结构之下,以层次结构来刻画较为复杂的用户兴趣,此类结构有雅虎目录[12]或者开放目录计划(Open Directory Project, ODP, 也被称为DMOZ)[13]。 在文章[1]中,研究人员采用ODP分类体系的前三层部分概念构造的兴趣树,对用户兴趣模型进行了表示。在ODP 分类体系中,除了顶层概念之外,其它概念都有相应的站点列表以及对这些站点的描述,这些概念集组成了研究所需要的用户兴趣文件。在模型生产中,通过隐式地捕捉移动用户的浏览历史,为用户兴趣文件中的概念赋予相应的权值从而得到用户的兴趣模板。另外,根据用户不断更新的访问行为,采用扩散激活算法来维护调整相应概念权值,从而保证了用户兴趣模型的个性化特征。

     4 结束语 移动搜索是无线通信技术和搜索技术发展的必然结果,通过手持设备或移动终端平台,将搜索无线化、移动化,为用户提供兼具WAP、Web等多样性的搜索产品,满足用户随时随地获取信息的需求。然而,传统的搜索引擎无法满足移动平台用户对信息检索服务准确化、智能化和个性化的要求,这就需要研究人员致力于研究适用于移动环境的个性化搜索技术。本文对目前的一些研究人员提出的研究成果进行了整理,这些研究主要集中在网络爬取、网页排序和用户兴趣模型三个方面。相信随着技术的持续发展,会有更多更优秀的解决方案,使移动搜索的个性化更加符合用户的需求,信息质量更高。 参考文献: 1.谭磊,刘钰峰,李仁发. 一种个性化移动搜索技术的研究[J]. 计算机应用研究, 2010,27(9): 3403-3414 2. 程琦. 混合的个性化推荐方法在移动搜索中的研究和应用[D]. 上海:复旦大学, 2010 3. Ricardo BY, Berthier RN. 现代信息检索[M]. 北京:机械工业出版社,2012 4. 江涛樊,孝忠. 主题爬虫的设计与实现[J]. 计算机应用, 2004,24: 270-272 5. F.Menczer. Lexical and semantic clustering by Web links[J]. Journal of the American Society for Information Science and Technology, 55(14):1261-1269, Aug 2004 6. M. Breeding. Making a business case for open source ILS[J]. Computers in Libraries, 28(28):36-39, 2008 7. J. Kleinberg.Authoritative Sources in a Hyperlinked Environment[J]. ACM-SIAM Symposium on Discrete Algorithms(SODA), 46(5):604-632, 1998 8. Oztekin B U, Ertoz L, Kumar V. Usage Aware PageRank[J]. In Proc of the World Wide Web Conference, 2005: 219-230 9. Boies, Stephen J, User behavior on an interactive computer system[J], IBM Systems Journal, 13:2-18, 1974 10. 李元乾. 基于移动搜索用户关联的信息检索研究[D]. 北京:北京交通大学, 2010 11. 吴晓,吕爽,李丹宁等. 个性化搜索引擎中用户兴趣模型的研究[J]. 第三届全国信息检索与内容安全学术会议. 苏州, 2007:32-35 12. Yahoo! Directory: http://search.yahoo.com/dir, 2009 13. Open directory project: http://www.domz.org/, 2009

    编辑:中国新闻技术工作者联合会

    评论 点击评论