各位老师,同学大家下午好
我的题目是基于nutch的主题搜索引擎的研究和实现
搜索引擎 可以分为通用搜索引擎和主题搜索引擎
通用探索引擎就是我们平时用得最多的,比如,google,baidu,soso等搜索引擎
在网络发展的初期,网络上的信息量还比较小,通用搜索引擎有能力为我们提供有效的服务
但是随着网站信息资源的增长,搜索引擎对网络信息的覆盖率在整体上呈下降的趋势。
用户在使用综合性互联网搜索引擎时,搜索引擎显示不准确、
信息重复率高、信息时效性不强,而且搜索不能做到智能化。
作为综合性搜索引擎的补充,主题搜索引擎能做到自动符合用户个性化需求进行自助搜索。
主题搜索也称行业搜索,是针对性的为某一特定领域、
某一特定人群或某一特定需求提供的有一定价值的信息检索服务。
主题搜索引擎的搜索器只搜索特定的主题信息,
按预先已定义好的专题有选择地收集相关的网页。
近些年来,主题搜索引擎在我国发展很快,并且出现了一些非常成功的实例:
学者网www.scholat.com
途牛旅游搜索引擎(Tuniu.com)通过采集筛选整合旅游资源(旅行社、肮空、酒店、门票、签证等),
为旅游者提供一站式预订,一对一管家式服务。
可以帮助您了解目的地信息,制定出游计划,并方便的预订旅游过程中的服务。
用户可以根据自己的要求,搜索相关信息进行比较,找到适合自己的旅行方式。
国外主题搜索引擎相比国内的发展要快很多并且数量也很大,有很多比较成功的主题搜索引擎如下:
Focuse Project 系统
美国国家科学数字图书馆的(Collection Building Program)(CBP)项目
Scirus 系统
在很大程度上减少抓取时间提高了抓取效率,
尽管系统有了大的改进,在抓取主题网页和尽可能减少无效网页,这两个方面技术还没有完全突破,
需要进一步研究来解决这个技术难题。
另外由于信息需求的多样性,各种各要的主题被提出,相应的主题搜索引擎的开发也是必然的趋势。
对于早期的搜索引擎,主要的排名算法来自于了IR(Information Retrieve)的许多经典算法,
诸如计算词频,去除噪声词,计算多篇文档中每个词组的MI(Mutual Information)等,其中最著名的是TFIDF算法。
斯坦福大学的Larry Page和Sergey Brin提出了PageRank算法,
是基于整个Web的链接结构来计算各网页的重要性,它认为用户能够通过网页之间的超链接访问到整个网络。
在Google中的应用证明它确实可以大大的改善了搜索结果的精确度。
国内搜索引擎排名算法发展速度相对慢一些。百度的排名主要用到了超链分析,另外,还有竞价排名等。
1. 实现主题过滤的相关性评价算法,对特定主题进行抓取。
2. 实现排序相关性评价算法,取代原来的PageRank。