开题报告ppt

 

各位老师,同学大家下午好

我的题目是基于nutch的主题搜索引擎的研究和实现
搜索引擎 可以分为通用搜索引擎和主题搜索引擎
通用探索引擎就是我们平时用得最多的,比如,google,baidu,soso等搜索引擎
在网络发展的初期,网络上的信息量还比较小,通用搜索引擎有能力为我们提供有效的服务
但是随着网站信息资源的增长,搜索引擎对网络信息的覆盖率在整体上呈下降的趋势。
用户在使用综合性互联网搜索引擎时,搜索引擎显示不准确、
信息重复率高、信息时效性不强,而且搜索不能做到智能化。
作为综合性搜索引擎的补充,主题搜索引擎能做到自动符合用户个性化需求进行自助搜索。
主题搜索也称行业搜索,是针对性的为某一特定领域、
某一特定人群或某一特定需求提供的有一定价值的信息检索服务。
主题搜索引擎的搜索器只搜索特定的主题信息,
按预先已定义好的专题有选择地收集相关的网页。
近些年来,主题搜索引擎在我国发展很快,并且出现了一些非常成功的实例:
学者网www.scholat.com

途牛旅游搜索引擎(Tuniu.com)通过采集筛选整合旅游资源(旅行社、肮空、酒店、门票、签证等),
为旅游者提供一站式预订,一对一管家式服务。
可以帮助您了解目的地信息,制定出游计划,并方便的预订旅游过程中的服务。
用户可以根据自己的要求,搜索相关信息进行比较,找到适合自己的旅行方式。

国外主题搜索引擎相比国内的发展要快很多并且数量也很大,有很多比较成功的主题搜索引擎如下:
Focuse Project 系统
美国国家科学数字图书馆的(Collection Building Program)(CBP)项目
Scirus 系统
在很大程度上减少抓取时间提高了抓取效率,
尽管系统有了大的改进,在抓取主题网页和尽可能减少无效网页,这两个方面技术还没有完全突破,
需要进一步研究来解决这个技术难题。

另外由于信息需求的多样性,各种各要的主题被提出,相应的主题搜索引擎的开发也是必然的趋势。

对于早期的搜索引擎,主要的排名算法来自于了IR(Information Retrieve)的许多经典算法,
诸如计算词频,去除噪声词,计算多篇文档中每个词组的MI(Mutual Information)等,其中最著名的是TFIDF算法。
斯坦福大学的Larry Page和Sergey Brin提出了PageRank算法,
是基于整个Web的链接结构来计算各网页的重要性,它认为用户能够通过网页之间的超链接访问到整个网络。
在Google中的应用证明它确实可以大大的改善了搜索结果的精确度。

国内搜索引擎排名算法发展速度相对慢一些。百度的排名主要用到了超链分析,另外,还有竞价排名等。


1. 实现主题过滤的相关性评价算法,对特定主题进行抓取。
2. 实现排序相关性评价算法,取代原来的PageRank。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值