lucene分析器分析

 

分词分析器:

一.IKAnalyzer

IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现:

正反向全切分算法:

该算法适合与互联网用户的搜索习惯和企业知识库检索,用户可以用句子中涵盖的中文词汇搜索,如用人民搜索含人民币的文章,这是大部分用户的搜索思维;

不适合用于知识挖掘和网络爬虫技术,全切分法容易造成知识歧义,因为在语义学上人民人民币是完全搭不上关系的。

分词效果:

1.实现中文单词细粒度全切分

 如:中华人民共和国
 0 - 2 =
中华
 0 - 4 =
中华人民
 0 - 7 =
中华人民共和国
 1 - 3 =
华人
 2 - 4 =
人民
 2 - 7 =
人民共和国
 4 - 6 =
共和
 4 - 7 =
共和国

2.实现对专有名词的识别和切分(人名,公司名)

 如:陈文平是开睿动力通讯科技有限公司董事长
 0 - 3 =
陈文平  <------ 人名,非汉语词汇
 4 - 6 =
开睿    <------ 公司名,非汉语词汇
 6 - 8 =
动力
 8 - 10 =
通讯
 10 - 12 =
科技
 12 - 14 =
有限
 12 - 16 =
有限公司
 14 - 16 =
公司
 16 - 18 =
董事
 16 - 19 =
董事长
 18 - 19 =

3.对数词和量词的合理切分
  
如:据路透社报道,印度尼西亚社会事务部一官员星期二(29)表示,日惹市附近当地时间27日晨553分发生的里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归。
 0 - 1 =

 1 - 4 =
路透社
 4 - 6 =
报道
 
。。。。。。 
 18 - 20 =
官员

 20 - 22 =
星期
 20 - 23 =
星期二
 22 - 23 =

 24 - 26 = 29
 24 - 27 = 29

 26 - 27 =

 28 - 30 =
表示
 31 - 33 =
日惹
 33 - 34 =

 
。。。。。。
 40 - 42 = 27
 40 - 43 = 27

 43 - 44 =

 44 - 45 = 5
 44 - 46 = 5

 45 - 46 =

 46 - 48 = 53
 46 - 49 = 53

 48 - 50 =
分发
 
。。。。。。
 52 - 54 =
里氏
 54 - 57 = 6.2
 54 - 58 = 6.2

 57 - 58 =

 58 - 60 =
地震
 
。。。。。。
 66 - 70 = 5427
 66 - 71 = 5427

 71 - 73 =
死亡
 72 - 73 =

 74 - 79 = 20000
 79 - 81 =
余人
 81 - 83 =
受伤
 84 - 85 =

 85 - 87 = 20
 85 - 89 = 20
万人
 87 - 89 =
万人
 89 - 93 =
无家可归

最大匹配分词算法

分词效果:

例子:中华人民共和国香港特别行政区
 0 - 7 =
中华人民共和国

 7 - 14 =
香港特别行政区

 例子:据路透社报道,印度尼西亚社会事务部一官员星期二(29)表示,日惹市附近当地时间27日晨553分发生的里氏6.2级地震已经造成至少5427人死亡?20000余人受伤,近20万人无家可归。
 
 1 - 4 =
路透社
 4 - 6 =
报道
 7 - 12 =
印度尼西亚
 12 - 14 =
社会
 14 - 16 =
事务
 18 - 20 =
官员
 20 - 23 =
星期二
 24 - 27 = 29

 28 - 30 =
表示
 31 - 33 =
日惹
 34 - 36 =
附近
 36 - 40 =
当地时间
 40 - 43 = 27

 44 - 46 = 5

 46 - 49 = 53

 48 - 50 =
分发
 49 - 51 =
发生
 50 - 52 =
生的
 52 - 54 =
里氏
 54 - 58 = 6.2

 58 - 60 =
地震
 60 - 62 =
已经
 62 - 64 =
造成
 64 - 66 =
至少
 66 - 71 = 5427

 71 - 73 =
死亡
 75 - 80 = 20000

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值