基于个性化信息服务技术的研究

基于个性化信息服务技术的研究

黄 堃,林旭云
(福建金融职业技术学院,福建 福州 350007)

【摘 要】传统信息检索技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询请求,个性化搜索引擎技术就显得越来越重要。文章主要介绍了个性化搜索引擎技术的研究现状,并讨论了个性化搜索引擎技术将来的研究方向。
【关键词】信息检索;个性化;搜索引擎
【中图分类号】 TP39 【文献标识码】 A 【文章编号】 1008-1151(2006)02-0038-02

    一、引言
  Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息,搜索引擎是最普遍的辅助人们检索信息的工具。传统的信息检索技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询请求,因而需要寻找一种新的检索技术来解决这个问题。
  对用户行为进行分析后,人们发现存在以下几个特征,如:用户的查询词非常集中,20%的查询词约占查询次数的80%;用户的查询词雷同率较高即用户的查询具有一定的稳定性;用户很少在查询结果中翻很多页,一般就看看前几页而已;用户点击URL具有很强的局部性。个性化信息服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。

  二、搜索引擎技术
  (一)通用搜索引擎
  目前通用搜索引擎的组织方式主要有网络综合搜索引擎和网络主题资源搜索引擎两种。其中网络综合搜索引擎能够广泛地采集各Internet站点资源,并对其进行页面搜索,将索引结果存入索引数据库,供网络用户检索,提供Internet网络资源地导航功能的工具,如google、baidu等。而网络主题资源搜索引擎的工作方式与网络综合搜索引擎也相同,都是对In?鄄ternet网络中的资源进行挖掘操作。但在处理方式上与网络综合搜索引擎存在着本质上的不同,网络主题搜索引擎只对符合预先设定的主题相关的网络资源敏感,并对他们进行相应的标引和进一步的处理工作。一般该类的搜索引擎是面向资源内容的,即它不仅提供用户资源的原始出处,还可以直接根据用户的需求,进行相应的资源操作,如:标引、清理等。该类搜索引擎的典型例子如万方数据库股份有限公司的I-Know智能知识服务系统包含的Robot搜索模块系统等。
  (二)个性化搜索引擎
  当前的个性化搜索引擎思路主要有基于规则的系统和信息过滤系统两种。基于规则的系统利用预定义的规则来过滤信息,其优点是简单、直接,缺点是规则的质量难以保证,而且不能动态更新。此外,随着规则的数量增多,系统将变得越来越难以管理。而信息过滤系统又包含有基于内容过滤的系统和协作过滤系统两种,其中基于内容过滤的系统利用资源和用户兴趣的相似性来过滤信息,它的关键问题是相似性计算,优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,智能发现和用户已有兴趣相似的资源。而协作过滤系统利用用户之间的相似性来推荐信息,它能够为用户发现新的感兴趣的内容,其关键问题是用户聚类,且需要用户的参与。
  (三)实时搜索系统
实时搜索又被称为针对专题的搜索,它的主要目标就是发现Internet上符合用户个性化需求的网页。研究表明,大量使用互联网的专业用户所关心的内容仅仅局限于他们所在领域或者仅仅关心几个专业主题,所以些用户需要的是一个精确的小型的面向主题的搜索引擎,一个大的商业通用搜索引擎不能很好的满足他们的需要。
实时搜索系统与通用搜索引擎存在一定的区别,通用搜索引擎是搜集和索引所有可以访问到的网页,而实时搜索引擎是将其搜索限定在与用户查询需要最为相关的链接上,避免访问互联网上那些不相关的部分。为此,实时搜索引擎相对于通用搜索引擎具有以下优点:
  1.节省了大量的硬件和网络资源,同时可以更好的保证被索引网页的有效性。
  2.可以很方便的和浏览器整合在一起,构成单机版的搜索系统,使用户的搜索设置更加灵活,方便用户的使用。

  三、个性化服务技术
  个性化服务技术是为不同用户提供不同的服务,以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能够充分提高站点的服务质量和访问效率,以吸引更多的访问者。在个性化服务技术中最主要的有协同过滤技术和数据挖掘技术两种。
  协同过滤技术主要有KNN技术、基于聚类的协同过滤和基于项目的协同过滤三种技术,但是协同过滤技术主要存在着需要用户提供主观的评价信息、不能处理大规模的数据量、用户的评价信息可能会过时以及使用不方便等方面的缺陷,从而还没有在实际中得到广泛的应用。
  数据挖掘技术主要包含有关联规则发现、序列模式发现、聚类技术和Web挖掘等技术,由于数据挖掘技术具有不需要用户提供主观的评价信息、可以处理大规模的数据量、用户访问模式动态获取以及使用方面等优势,为此数据挖掘相对应于协同过滤技术具有更为广泛的应用前景。
四、值得进一步研究的相关问题
  (一)用户兴趣模型
  在个性化信息服务系统中,主要面临着用户兴趣模型的建模、用户兴趣模型的更新和用户兴趣模型的相似性计算三个问题,而其中最为关键的问题又是如何进行用户兴趣模型的建模。由于个性化服务是通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的,而用户兴趣模型正是用户的兴趣和行为的信息模型,用户兴趣模型的好坏直接影响到个性化信息服务技术的性能。为此,如何构造一个好的用户信息模型是一个值得研究的方向。
  (二)Fish算法的研究
  Fish算法是于1993年由荷兰TUE大学的Debra教授提出,并整合到当时流行的Mosaic浏览器上,是实时搜索中比较有名的算法。Fish算法模拟了一个鱼群的觅食过程,算法本身并不建立索引数据库,而是即时搜索用户要求的特定信息。在Fish算法中每条鱼代表一个URL,每读取一个文档,鱼就繁殖一定数量的后代,文档相关也就是指鱼找到食物,可以繁殖出更多后代,则在增加此文链接深度;文档若不相关,鱼就越来越弱,后代也较少。在某一方向经过几条链接仍未找到相关文档,就表明这些鱼已死,就不再沿这个方向继续查找,将此URL加入到URL列表的尾部,只有在表中其它URL列表访问完之后,才可能访问到它们。若一条鱼读取文档时间太长,说明鱼进入污染区,则尽量少沿这条URL搜索,以免出现死循环。
  Fish算法的动态特性和它相对的简单易行使它在实时搜索中得到了大量的使用,但是它的potential-score的二值(0,1)设置却显得粗糙。为此,如何对Fish算法进行改进也是一个具有挑战意义的研究课题。
  (三)基于Web的个性化
  基于Web使用挖掘的个性化服务的基本思路是分析Web日志数据,利用数据挖掘方法发现用户的使用模式,从而向用户提供个性化服务。由于Web数据挖掘需要处理的是大规模的数据量,为此一个好的基于Web的数据挖掘算法就显得更为重要。
  (四)用户聚类算法
  用户信息聚类是构建个性化信息服务系统的一个关键问题,而在用户信息聚类中最为关键的又是用户的个性化聚类。由于每个用户对信息所属类型的理解不同,那么他们需要的信息分类方式也不尽相同,因此,信息服务系统提供给用户的应该是一种可以由用户自己决定的分类。从而,如何构造一个基于个性化的用户聚类算法也是今一项很有意义的工作。

  五、结语
  Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间曲搜索浏览自己需要的信息,搜索引擎是最普遍的辅助人们检索信息的工具。传统的信息检索技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询请求,而个性化服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求。本文在简单介绍了个性化服务技术的研究状况,最后指出并阐释了值得进一步研究的相关问题。
  个性化服务技术的研究处于初期,待研究的问题还很多,如用户兴趣模型的建模、Fish算法的改进、聚类算法的改进、基于Web的个性化技术以及与其他相关的智能算法的结合等等,这些都是目前的研究热点。

【参考文献】
  [1]徐学文,唐明湘.下一代因特网的信息服务:网络信息综合集成服务[J].中国信息导报,2001,(1).
  [2] 潘金贵, 胡学联,李俊,张灵玲.一个个性化的信息搜索Agent的设计与实现[J].软家学报,2001,(7).  

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值