原文地址:https://blog.csdn.net/dreamzuora/article/details/85392231
这两天搜集英文单词做词干化处理,虽说standford-NLP可以处理,但是效率不高,自己动手找单词做映射表,找单词真的痛苦!!!放出以下地址最为保存和分享
github:
https://github.com/dwyl/english-words/blob/master/words.txt 里面有4M的英文单词,数据格式有txt和json
https://github.com/Zhangtd/MorTransformation 里面有18万个英语单词,其中包括不规则名词、动词表