自己动手写分词引擎——逆向最大、正向最大、双向最大分词算法的实现
分词已经是NLP最成熟的部分了,经历了:字典分词,统计分词等等。除了应付学术中的各种变态歧义句之外,目前绝大多数工业界的分词算法对于常见的问题已经足以应对,顶多是不断优化新词字典就可以了。
但不管怎么样,对于一个NLPer还是要能够手写最简单的分词算法的,这也是基本功。
一,基于字典的逆向最大分词算法
从后向前读入待分词字符串,读入字符串的长度由分词字典中最长单词决定。
之后测试读
原创
2014-01-10 15:53:00 ·
5000 阅读 ·
3 评论