IR实验系统

1.Smart系统(http://ftp.cs.cornell.edu/pub/smart/)

Smart系统是最著名的、使用者最多的实验系统之一。其原因一方面是它的历史比较 长,另一方面是它的使用是免费的,且可下载源代码,使研究者使用起来非常方便。Smart系统由美国康奈尔大学研发,最初的研发工作由Gerard Salton教授领导,并在20世纪80年代初开发出第一个版本。目前其维护工作由Chris Buckley负责,最新的版本是Smart11。

开发Smart系统的目的是为了给文本信息检索技术的研究者提供一个完善的实验平台。 在这一思想指导下,Smart实现了一个完整的基于向量空间模型的文本信息检索系统,不过目前只能处理英文文档。利用Smart,用户可以对一组文档建立 索引,然后即可对给出的问询(query)返回检索结果,并对结果进行评价。同时,它包括去除stopwords(stopwords列表可由用户指 定)、去除词形变化(stemming)、weighting计算等子功能模块。用户可以根据自己的需要分别调用。不过,由于其设计年代较早,Smart 系统存在一个很大的缺点,即只能处理大约500MB以下的文档集合,这使它在数据量达到10GB以上的TREC Web Track这样的问题时显得力不从心。Smart系统的另一个不足之处是缺乏良好的文档,使用者常常需要自己摸索使用方法。

2.Okapi系统(http://www.soi.city.ac.uk/~andym/OKAPI-PACK/index.html)

Okapi是另一个著名的文本检索实验系统。其第一版于20世纪80年代末问世,运行 在Unix系统上。时至今日,经过10多年的发展,Okapi系统越来越健壮,检索精确度也越来越高。近几年,在TREC比赛中,有不少参加者采用 Okapi系统取得了很好的成绩。不过,Okapi系统不是免费的,并且不提供源代码。目前,该系统可运行在Sun工作站、Linux系统以及 Windows系统平台上。

Okapi系统是由伦敦城市大学开发的。它基于概率检索模型设计,使用著名的bm25 公式及其变形(bm2500、bm250)等作为求term 权值的公式。这种权重计算公式在概率模型中已经成为公认的成熟的标准计算方法。Okapi同样提供建立索引和查询的工具,分别有命令行方式和图形界面方 式。

3.Lemur Toolkit系统(http://www-2.cs.cmu.edu/~lemur/)

Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学(CMU)开发,在2001年公布了第一个公开的版本。其特点是在检索中引入了语言模型,更重 要的是,它不仅是一个完整的检索系统,而且是以工具包的形式提供的。各功能模块都有良好的封装,并提供清晰的源代码和丰富的文档说明,研究者使用它搭建自 己的实验系统易如反掌。

Lemur Toolkit的设计目标是促进和帮助在文本信息检索和语言模型方面的研究,包括特定目标检索、分布式检索、跨语言检索、文摘系统、信息过滤和文本分类等 各方面技术的研究。工具包支持对大规模文本数据建立索引,对文档和查询构建简单的语言模型,同时实现了基于语言模型的检索系统。整个系统用C和C++语言 实现,可在Unix和Windows系统下运行。

 

4 LingPipe也是一个自然语言处理包

LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)、数据库文本挖掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、语言辨别(Language Identification)等API。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值