org.apache.lucene.analysis（二）

最新推荐文章于 2021-06-03 11:51:59 发布

Sir yes sir

最新推荐文章于 2021-06-03 11:51:59 发布

阅读量219

点赞数

分类专栏： java 文章标签： java lucene es

原文链接：https://lucene.apache.org/core/8_8_2/core/org/apache/lucene/analysis/package-summary.html

版权

java 专栏收录该内容

10 篇文章

订阅专栏

本文探讨了Lucene中的Analyzer在索引和搜索过程中的应用，强调了选择合适分析器对查询质量和性能的重要性。分析器通常由Lucene在添加文档和查询时自动调用，但也可用于应用中的文本分析。相同分析器应用于索引和搜索以确保匹配，但在某些场景下可能需要不同分析器，如更严格的停用词过滤或同义词处理。创建自定义分析器涉及组合CharFilter、Tokenizer和TokenFilter。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Invoking the Analyzer

应用程序通常不会调用分析，而是由 Lucene 来执行。应用构建 Analyzers 然后传递到 Lucene，如下：

在索引时，作为 addDocument(doc) 的结果，将为添加的文档的每个索引字段调用实际上用于索引的 Analyzer。
在搜索时，QueryParser 可能在分析阶段执行 Analyzer。注意在一些查询中，不会进行分析，比如，通配符查询。

然而，应用可能会执行一些文本的 Analysis 用于其他目的，比如：

Version matchVersion = Version.LUCENE_XY; // Substitute desired Lucene version for XY
Analyzer analyzer = new StandardAnalyzer(matchVersion); // or any other analyzer
TokenStream ts = analyzer.tokenStream("myfield", new StringReader("some text goes here"));
// The Analyzer class will construct the Tokenizer, TokenFilter(s), and CharFilter(s),
//   and pass the resulting Reader to the Tokenizer.
OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class);

try {
  ts.reset(); // Resets this stream to the beginning. (Required)
  while (ts.incrementToken()) {
    // Use AttributeSource.reflectAsString(boolean)
    // for token stream debugging.
    System.out.println("token: " + ts.reflectAsString(true));

    System.out.println("token start offset: " + offsetAtt.startOffset());
    System.out.println("  token end offset: " + offsetAtt.endOffset());
  }
  ts.end();   // Perform end-of-stream operations, e.g. set the final offset.
} finally {
  ts.close(); // Release resources associated with this stream.
}

Index Analysis vs. Search Analysis

选择“正确的”分析器对于查询质量来说很重要，并且也会影响到索引和查询的性能。应用程序的“正确”分析器将取决于输入文本的外观以及您要解决的问题。Lucene java 的 wiki 页面上提供了一些关于 “analyzing your analyzer”的数据。
以下是一些经验法则：

Test test test…
要小心分析太多 —— 那可能会损害索引性能
使用相同的分析器进行索引和搜索，否则搜索将找不到他们应该找到的东西……
有些情况下索引和搜索需要不同的分析器，例如：
- 某些搜索需要过滤更多的 stop word。（也就是说，比那些在索引时被过滤的要多）
- 通过同义词、首字母缩写、自动拼写纠正等进行查询等等。
  这有时可能需要一个修改过的分析器—请参阅下一节如何做到这一点。

Implementing your own Analyzer and Analysis Components

创建自己的 Analyzer 非常简单。你的 Analyzer 应该是 Analyzer 的子类。它可以使用现有的分析组件 —— CharFilter(s)（可选的），Tokenizer，和 TokenFilter(s)（可选） —— 或创建组件，或用现有组件和新创建组件的组合。在采用这种方法之前，你会发现探索 analyzers-common 库或者发邮件询问 java-user@lucene.apache.org mailing list 看看你需要的是否早已存在是非常值得的。如果你仍然坚定的去创建你自己的 Analyzer，请查看此包中众多示例中的任何一个的源代码。
下面的部分将讨论实现您自己的分析器的一些方面。