信息检索服务系统的智能化与个性化(学习笔记)

由于诸如以下原因致使目前一些搜索引擎并不有效:

(1)Internet自身的动态性

(2)Internet上信息的动态性

(3)Internet上的信息与信息服务的多样性

 

 


 

1.搜索引擎的智能化

智能化的搜索引擎与一般的搜索引擎的区别:

(1)对用户提交的关键字的要求不同

用户不仅可以提供搜索关键字,还可以加一些描述。

(2)搜索引起的网络负荷不同

搜索范围加以区分,引起的网络负荷较小。

(3)搜索范围的局限性不同

(4)使用限制的不同

(5)搜索内容相关性不同

(6)搜索学习能力不同

习不同的人搜索的内容的大概范围。

(7)发现网上信息更改的能力不同


 2.信息检索服务系统的种类

 

搜索-索引系统

信息过滤系统

浏览助理系统

社会的或合作的系统

搜索-索引系统

目前常用的搜索引擎基本上属于这一类

通常既不采用基于知识的方法也不采用基于交互行为的学习方法

采用一种常规的问题-答案界面的模式,通过这种模式,用户将任务提交给系统,然后等待结果。

信息过滤系统

通常被用来提供所需的E-mail以及新闻组信息

通常使用相关性反馈来建立用户的profile

具有一种与生俱来的危险性。如不小心删除了一个重要的邮件信息。

利用了搜索-索引系统中的许多技术,但在信息过滤系统中使用的用户profile往往表达了用户的一个相对长期的兴趣,而在搜索-索引系统则通常表达一个短期目标。

过滤是从信息流中去除不相关的信息的动作,而搜索则是在信息库中寻找相关的信息。

浏览助理系统

通过帮助浏览的形式提供服务。

WebWatcher系统:能够交互地提供关于跟踪哪一个链接的建议。系统通过跟踪其建议是否被采用以及在浏览完成时向用户发出成功与失败的信息询问进行学习。

Letizia系统:跟踪用户的浏览行为并试图通过并发地、自治地探索用户当前位置可达的链接以预测用户的兴趣主题页。Letizia通过用户的浏览行为启发式地推断用户的兴趣,从而扩展了以BEST-FIRST搜索的浏览策略。

社会的或合作的系统

利用了共享的用户兴趣。

其关键思想在于如何匹配相似的用户,如何利用别的用户的评价或是解释。

例子有使用合作过滤技术处理WEB页的Webhound系统,及Let'sBrowse等。


 

 

3.有关信息过滤与推荐的基本技术

信息过滤与推荐是信息处理的一种方式,为了使计算机能很好地处理Internet上这些半结构化的信息,往往要:(1)为信息源建立结构化的表示方法(2)为用户建立能反映其关注点的用户个性化模型。

目前信息过滤与推荐的主要方法有:

基于内容的方法、基于社会的方法、基于事件的方法。

基于内容的方法(content-based):通过分析说检索的Internet资源内容(如关键字出现的频度)建立相应文档的机构化模型,同时用户模型也采用同样的表示模型(称为Profile),帮助用户搜索信息,推荐链接,并接受用户的评价。用户对文档的感兴趣程度变成了同结构模型间相似程度的比较。

文档的表示:向量空间模型(VSM)

将文档看作为是由相互独立的词条组(T1,T2...Tn)构成,对于每一个词条Ti都根据其在文档中的重要程度赋以一定的权值Wi,并将T1,T2...Tn看成一个N维坐标系中的坐标轴,W1,W2...Wn为相应的坐标值。文本向量空间用词条矢量(T1,W1;T2,W2;...;Tn,Wn)来表示,从而将文档的匹配问题转化为向量空间中的矢量匹配问题处理。

关键词权重的计算

TFIDF:词频(Term Frequency,记为tf)和逆文档频率(Inverse Document Frequency,记为IDF)的乘积来确定

Wik=tf(ik)*IDF(k)

IDF(k)=log(N/Nk)

相似性计算

余弦、内积系数表示:SIM(v1,v2)=(∑i  v1i*v2i)、((∑i  v1i*v1i)*(∑  v2i*v2i))

基于社会的方法(social-based),又称基于协作的方法(collaborative -based):利用共享的用户模型表示各用户对各种对象(信息源类)的关注程度(对对象的评分)。通过分析该共享模型中用户间的相似性,将某一用户关注的文档推荐给其他具有共同想法的用户。并不计算内容的相似性,而是计算用户间的相似性。这个方法是建立在用户对所看到的内容有一定的反馈的基础上的。

基于事件的方法:通过跟踪(一个或多个)用户浏览网页的习惯(表现为一系列动作或操作事件),捕获相应信息作为信息推荐的依据。典型的单用户基于事件的信息过滤系统是Letizia。


 WEB MINING

 

1.WEB内容挖掘

2.WEB结构挖掘:总结WEB站点和WEB网页的超链接结构特征,是否合理。

3.WEB使用挖掘:分析访问用户类型。

XML:一种元标记语言,提供描述结构化资料的格式,与HTML相比,增加了结构与语义方面的信息。

参考网站:

1 CMU:http://www-cs.cmu.edu/~TextLearning/

2 http://www.haifa.il.ibm.com/webir/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值