关于Lucene.net中文分词后的结果着色问题

 

近日工作中有一个项目使用到了Lucene.net,在工作中发现了一个问题,就是如果采用Lucene自带的分词器是对关键字按字来进行拆分的,这样搜索到的结果肯定不符合我们的要求。后来在网上找了一个中文分词工具,就是车东老师写的CJK分词器,可当采用CJK二元分词法以后,却发现一个问题,搜索到的结果是对的,但着色是错误的,比如我们对如下文本进行搜索

我是一个中国人,我是一个伟大的中国人

当采用关键字伟大进行搜索的时候

会着色成这样

我是一个中国人,<span class=/"keyword/">我是一个伟大的中国人</span>

而我们需要的当然是

我是一个中国人,我是一个<span class=/"keyword/">伟大</span>的中国人

刚开始还以为是Lucene.net不支持中文着色的问题,后来在Lucene.net的开源网站上下载了一个3.0的版本,跟踪进去后,发现仍然没有解决这个问题,这个问题的原因出在Highlighter.Net_Source这个类库中的TokenGroup类有一个IsDistinct方法,这个方法只有一句代码 return (token.StartOffset() >= this.endOffset); 由于英文是通过空格来区分每个词的,所以token.StartOffset()是会出现大于等于his.endOffset的情况的,但中文是不通过空格来分隔的,这样就只有再Lucene遇到,。;等分隔符的时候,它才会判断为一段词结束,原因找到了以后,就开始想一下解决办法了,没有想的什么太好的办法,最后采用的是中文虽然没有分隔符,但不妨碍我们自己增加分隔符号,可以找到每个关键字的索引,然后再对应关键字头尾增加分隔符,这样就解决了这个问题,当然最好的办法还是直接重写Highlighter类库,加入对中文日文韩文这种文字型语言的支持,这点希望有加入这个开源项目的朋友反馈一下

附带源代码如下

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 智慧社区背景与挑战 随着城市化的快速发展,社区面临健康、安全、邻里关系和服务质量等多方面的挑战。华为技术有限公司提出智慧社区解决方案,旨在通过先进的数字化技术应对这些问题,提升城市社区的生活质量。 2. 技术推动智慧社区发展 技术进步,特别是数字化、无线化、移动化和物联化,为城市社区的智慧化提供了可能。这些技术的应用不仅提高了社区的运行效率,也增强了居民的便利性和安全性。 3. 智慧社区的核心价值 智慧社区承载了智慧城市的核心价值,通过全面信息化处理,实现对城市各个方面的数字网络化管理、服务与决策功能,从而提升社会服务效率,整合社会服务资源。 4. 多层次、全方位的智慧社区服务 智慧社区通过构建和谐、温情、平安和健康四大社区模块,满足社区居民的多层次需求。这些服务模块包括社区医疗、安全监控、情感沟通和健康监测等。 5. 智慧社区技术框架 智慧社区技术框架强调统一平台的建设,设立数据中心,构建基础网络,并通过分层建设,实现平台能力及应用的可持续成长和扩展。 6. 感知统一平台与服务方案 感知统一平台是智慧社区的关键组成部分,通过统一的RFID身份识别和信息管理,实现社区服务的智能化和便捷化。同时,提供社区内外监控、紧急救助服务和便民服务等。 7. 健康社区的构建 健康社区模块专注于为居民提供健康管理服务,通过整合医疗资源和居民接入,实现远程医疗、慢性病管理和紧急救助等功能,推动医疗模式从治疗向预防转变。 8. 平安社区的安全保障 平安社区通过闭路电视监控、防盗报警和紧急求助等技术,保障社区居民的人身和财产安全,实现社区环境的实时监控和智能分析。 9. 温情社区的情感沟通 温情社区着重于建立社区居民间的情感联系,通过组织社区活动、一键呼叫服务和互帮互助平台,增强邻里间的交流和互助。 10. 和谐社区的资源整合 和谐社区作为社会资源的整合协调者,通过统一接入和身份识别,实现社区信息和服务的便捷获取,提升居民生活质量,促进社区和谐。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值