Lucene学习笔记之（一）简介和向文档写索引并读取文档

最新推荐文章于 2024-05-03 21:05:18 发布

孤师

最新推荐文章于 2024-05-03 21:05:18 发布

阅读量7.5k

点赞数 3

分类专栏： java 文章标签： lucene 索引文档全文检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang307511977/article/details/52070786

版权

什么是lucene?

lucene的官方文档http://lucene.apache.org/core/

lucene就是一个全文检索的工具包。

Lucene的能干什么?

1. 获取内容（Acquire Content）
Lucene不提供爬虫功能，如果需要获取内容需要自己建立爬虫应用。
Lucene只做索引和搜索工作。

2.建立文档（Build Document）
文档通常由一个个域（fields）组成，例如：标题，正文，摘要等。
需要保证文档的格式一致（如都为txt格式）
在此过程中可以通过语义分析来使要保存的文档更加精炼，也可以通过加权值来决定域和文档是否重要。
可以再建立索引的时候加权值，也可以在搜索的时候加权值。

3.分析文档（Analyze Document）
解决如果控制符合单词，解决拼写错误，是否关联同义词，是否折叠单数复数形式。
是否保留结果的偏差，当非拉丁语表示的语言，如何辨别词。

4.建立文档索引（Index Document）

5.搜索
支持单个或者符合查询，短语查询，通配符，模糊查询，结果排序
支持对错误拼写矫正等

6建立查询（Build Query）

7.检索查询（Search Query）

8返回结果（Rednder Results）

Lucene的分词器?

常用分词器介绍

WhitespaceAnalyzer

仅仅是去掉了空格，没有其他任何操作，不支持中文。

SimpleAnalyzer

讲除了字母以外的符号全部去除，并且讲所有字符变为小写，需要注意的是这个分词器同样把数据也去除了，同样不支持中文。

StopAnalyzer

这个和SimpleAnalyzer类似，不过比他增加了一个的是，在其基础上还去除了所谓的stop words，比如the, a, this这些。这个也是不支持中文的。

StandardAnalyzer

英文方面的处理和StopAnalyzer一样的，对中文支持，使用的是单字切割。

CJKAnalyzer

这个支持中日韩，前三个字母也就是这三个国家的缩写。这个对于中文基本上不怎么用吧，对中文的支持很烂，它是用每两个字作为分割，分割方式个人感觉比较奇葩，我会在下面比较举例。

SmartChineseAnalyzer

中文的分词。比较标准的中文分词，对一些搜索处理的并不是很好

步骤一：打开eclipse，创建maven现目

最低0.47元/天解锁文章

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
Lucene学习笔记之（一）简介和向文档写索引并读取文档

什么是lucene?lucene的官方文档http://lucene.apache.org/core/lucene就是一个全文检索的工具包。Lucene的能干什么?1. 获取内容（Acquire Content）Lucene不提供爬虫功能，如果需要获取内容需要自己建立爬虫应用。Lucene只做索引和搜索工作。2.建立文档（Build Document）
复制链接

扫一扫

专栏目录

孤师 CSDN认证博客专家 CSDN认证企业博客

码龄8年

9: 原创

208万+: 周排名

155万+: 总排名

2万+: 访问

: 等级

392: 积分

11: 粉丝

12: 获赞

8: 评论

3: 收藏

私信

关注

热门文章

分类专栏

webService 2篇
java 2篇
Lucene 5篇

最新评论

webService之天气接口
孤师回复明昌昆: 什么地方报空指针呢？
Lucene学习笔记之（六）lucene的中文查询
Van.Lin: 很好的入门级文章
Lucene学习笔记之（六）lucene的中文查询
chenzeyi_java: 文档中的中文搜不出来，换了smartchiness的分词器也不能用，请问博主有何解？
webService之天气接口
明昌昆: 博主，你这个确实能成功，java项目没啥问题，但是放在web上面就会报空指针。这是什么原因？
Lucene学习笔记之（一）简介和向文档写索引并读取文档
皮豆wang: StandardAnalyzer会报错，把core包换成6.6.0(现在最新)就好了，但IndexWriterConfig con = new IndexWriterConfig(analyzer)；报错，解决办法：把所有的lucene相关的jar都换成6.6.0 IndexWriterConfig con = new IndexWriterConfig(analyzer).setOpenMode(IndexWriterConfig.OpenMode.CREATE);

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。