Lucene.net 搜索引擎技术(Analysis包/token详解)

最新推荐文章于 2023-11-18 10:33:50 发布

zixian2005

最新推荐文章于 2023-11-18 10:33:50 发布

阅读量3k

点赞数

分类专栏： Lucene.net搜索引擎文章标签：搜索引擎 lucene token asp.net object system

本文链接：https://blog.csdn.net/zixian2005/article/details/560099

版权

Lucene.net搜索引擎专栏收录该内容

7 篇文章 0 订阅

订阅专栏

在一个朋友的介绍下开始接触lucene，在网上看了大量的资料，觉得搜索引擎的门槛太高，几乎放弃了对他的了解和学习。对于中文的搜索关键是如何创建中文分词！
由于Lucene.Net.Analysis.Cn支持中文分词，我们做一个简单的token事例。
using System;
using System.Collections;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Web;
using System.Web.SessionState;
using System.Web.UI;
using System.Web.UI.WebControls;
using System.Web.UI.HtmlControls;
using Lucene;
using Lucene.Net;
using Lucene.Net.Analysis;
using Lucene.Net.Analysis.Cn;

namespace websearch
{
/// <summary>
/// Cn_token 的摘要说明。
/// </summary>
public class Cn_token : System.Web.UI.Page
{
  private void Page_Load(object sender, System.EventArgs e)
  {
   // 在此处放置用户代码以初始化页面
   String text ="我爱天大,但我更爱中国";
   ChineseAnalyzer analyzer = new ChineseAnalyzer();
   TokenStream ts = analyzer.TokenStream("dummy",new System.IO.StringReader(text));
   Lucene.Net.Analysis.Token token;
   try
   {
    int n=0;
    while ( (token = ts.Next()) != null)
    {
     Response.Write((n++)+"->"+token.TermText()+ " " + token.StartOffset() + " "
      + token.EndOffset() + " "+token.Type()+"<br>");
    }
   }
   catch
   {
    Response.Write("wrong");
   }
  }

  #region Web 窗体设计器生成的代码
  override protected void OnInit(EventArgs e)
  {
   //
   // CODEGEN: 该调用是 ASP.NET Web 窗体设计器所必需的。
   //
   InitializeComponent();
   base.OnInit(e);
  }

  /// <summary>
  /// 设计器支持所需的方法 - 不要使用代码编辑器修改
  /// 此方法的内容。
  /// </summary>
  private void InitializeComponent()
  {
   this.Load += new System.EventHandler(this.Page_Load);
  }
  #endregion
}
}

运行一下结果显示
0->我 0 1 word
1->爱 1 2 word
2->天 2 3 word
3->大 3 4 word
4->但 5 6 word
5->我 6 7 word
6->更 7 8 word
7->爱 8 9 word
8->中 9 10 word
9->国 10 11 word

其中逗号被自动过滤掉了

到此为止这个简单的但是功能强大的分词器就写完了,下面咱们可以尝试写一个功能更强大的分词器.

如何DIY一个功能更加强大Analyzer

譬如你有词典,然后你根据正向最大匹配法或者逆向最大匹配法写了一个分词方法,却想在Lucene中应用,很简单

你只要把他们包装成Lucene的TokenStream就好了.