中文分词开源程序下载

本中文分词是基于匹配模式开发的中文分词程序,为本人练手作品。也可以直接使用。但不建议。因为整体架构有一些基础性问题。不过做为开发中文分词的参考,相信还是有一定价值的。
        最近吕震宇老师发布了ICTCLAS的C#版SharpICTCLAS。很优秀的中文分词程序。我的这个和它根本不是一个级别的。不过在自己的应用中,估计还是不能直接拿SharpICTCLAS就用。因为现在中文分词不仅仅关注准确性了,而更多考虑应用的问题了,比如(以下提的例子仅仅为交流而已,希望你在交流的范围进行思考。不存在褒贬什么的含义):
1,全角识别和处理问题
例子:SUN开放了Java源代码
分析:如果能识别SUN有全角字符,而且也正确识别SUN为一个字符,但是从搜索的角度来看。似乎需要把所有形式处理为一种形式sun,当然这也可以看成是属于Lucene的Analyzer的问题
2,英文识别和处理的问题
例子:U.S.A是美国的的英文简称
分析:在SharpICTCLAS中会把U.S.A分成6个字符。估计SharpICTCLAS的英文处理还是比较弱,毕竟是免费版的。

3,专业术语和特殊字符识别和处理问题
比如asp.net是分成asp/./net还是分成asp.net好?test@test.com是做为一个词还是分开等等。

中文的例子就不举了。SharpICTCLAS对纯中文的分词是非常优秀的。
其实我提出上面的问题,是想表达一个观点,没有最好的中文分词。只有最符合应用的中文分词,所以最好的中文分词应该是你自己根据需求定制开发的。希望我的这个中文分词程序(虽然还是比较烂的)能够为你提供一些参考。那怕是一点点。
架构(类关系图)

 


点击下载

转载于cnblogs/随风.NET点滴http://www.cnblogs.com/kwklover/archive/2007/03/19/679327.html

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/jyz3051/archive/2008/01/08/2029543.aspx

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/jyz3051/archive/2008/01/08/2029543.aspx

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/jyz3051/archive/2008/01/08/2029543.aspx

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值