中英文文本预处理软件、工具和算法

1.中文分词、词性标注

中科院:ictclas
具体使用方面看他里面的例子及文档很详细。突出功能是分词功能,还有命名实体识别功能。
 
哈工大信息检索实验室:LTP 语言技术平台
在分词词性标注命名实体语义消歧方面效果都不错
stanford parser

2.英文词性标注  

Stanford Log-linear Part-Of-Speech Tagger 
http://nlp.stanford.edu/software/tagger.shtml

POS tagger(词性标注工具)
Jesus Gimenez, Lluis Marquez开发的使用SVM进行英文词性标注的工具,有C++、Perl语言的软件包。

CLAWS POS tagger (只能在线试用)
http://ucrel.lancs.ac.uk/claws/trial.html
 
PosTagger 
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/ 

工具:BrillWin
该工具可以用来对英文语料进行词性标注,不过标注后的语料好像标点符号和NNP及NN有点问题,可以手工修改,问题不大。
使用方法说明:
语料格式:一篇文章。
可以正常的对英语进行词性标注,执行的时候主要点击批处理文件即可。该批处理文件所在的路径里不能有中文的。
命令:
tagger lexicon.brown <要处理的文件名,可以是相对路径,比如 ../data/file.txt> bigrams lexicalrulefile.brown contextualrulefile.brown > <结果文件>
注意以上的各个参数的顺序不能调换。
 
工具:geniatagger
该工具除了词性标注和获取因为词的原型外,好像还可以进行命名实体识别,具体没试过,不过既然可以词性标注,那么提取命名实体,其实也不难了。而且这个针对于 生物语料效果不错。同时其原型提取效果也不错。
 使用方法:
在geniatagger所在的文件夹下,直接命令行执行:  .\geniatagger.exe <输入文件路径> 输出文件路径
注意:一定要有< >尖括号。
语料格式:Prepare a text file containing one sentence per line
Porter Stemming Algorithm
提供多种语言版本的源码

【tokenizationStemming、 lemmatization】


  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值