开题报告ppt

 

各位老师,同学大家下午好

我的题目是基于nutch的主题搜索引擎的研究和实现
搜索引擎 可以分为通用搜索引擎和主题搜索引擎
通用探索引擎就是我们平时用得最多的,比如,google,baidu,soso等搜索引擎
在网络发展的初期,网络上的信息量还比较小,通用搜索引擎有能力为我们提供有效的服务
但是随着网站信息资源的增长,搜索引擎对网络信息的覆盖率在整体上呈下降的趋势。
用户在使用综合性互联网搜索引擎时,搜索引擎显示不准确、
信息重复率高、信息时效性不强,而且搜索不能做到智能化。
作为综合性搜索引擎的补充,主题搜索引擎能做到自动符合用户个性化需求进行自助搜索。
主题搜索也称行业搜索,是针对性的为某一特定领域、
某一特定人群或某一特定需求提供的有一定价值的信息检索服务。
主题搜索引擎的搜索器只搜索特定的主题信息,
按预先已定义好的专题有选择地收集相关的网页。
近些年来,主题搜索引擎在我国发展很快,并且出现了一些非常成功的实例:
学者网www.scholat.com

途牛旅游搜索引擎(Tuniu.com)通过采集筛选整合旅游资源(旅行社、肮空、酒店、门票、签证等),
为旅游者提供一站式预订,一对一管家式服务。
可以帮助您了解目的地信息,制定出游计划,并方便的预订旅游过程中的服务。
用户可以根据自己的要求,搜索相关信息进行比较,找到适合自己的旅行方式。

国外主题搜索引擎相比国内的发展要快很多并且数量也很大,有很多比较成功的主题搜索引擎如下:
Focuse Project 系统
美国国家科学数字图书馆的(Collection Building Program)(CBP)项目
Scirus 系统
在很大程度上减少抓取时间提高了抓取效率,
尽管系统有了大的改进,在抓取主题网页和尽可能减少无效网页,这两个方面技术还没有完全突破,
需要进一步研究来解决这个技术难题。

另外由于信息需求的多样性,各种各要的主题被提出,相应的主题搜索引擎的开发也是必然的趋势。

对于早期的搜索引擎,主要的排名算法来自于了IR(Information Retrieve)的许多经典算法,
诸如计算词频,去除噪声词,计算多篇文档中每个词组的MI(Mutual Information)等,其中最著名的是TFIDF算法。
斯坦福大学的Larry Page和Sergey Brin提出了PageRank算法,
是基于整个Web的链接结构来计算各网页的重要性,它认为用户能够通过网页之间的超链接访问到整个网络。
在Google中的应用证明它确实可以大大的改善了搜索结果的精确度。

国内搜索引擎排名算法发展速度相对慢一些。百度的排名主要用到了超链分析,另外,还有竞价排名等。


1. 实现主题过滤的相关性评价算法,对特定主题进行抓取。
2. 实现排序相关性评价算法,取代原来的PageRank。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值