openNLP的POSTagger使用(一)训练模型

本文介绍了openNLP的POSTagger训练模型的使用,重点讲解了train()函数的参数,包括languageCode、samples、trainParams和posFactory。通过示例代码展示了如何创建ObjectStream、WordTagSampleStream,并利用训练数据生成POSModel,最后演示了如何将模型序列化保存到硬盘。
摘要由CSDN通过智能技术生成

<span style="font-size:18px;">
</span>

</pre><span style="font-size:18px;">以前都是在新浪上写的博客,当然了,自娱自乐的性质比较多一些。当时没有选择CSDN的原因是因为这上面大牛太多了,像我这种菜鸟级别的就不好意思在这里浪费笔墨了。不过后来发现在查资料大部分还是要在这里查,在两个博客之间切过来切过去着实麻烦,因此最后决定有什么想法或记录还是记在这里吧比较好一些。</span><p></p><p><span style="font-size:18px"><span style="font-family:SimSun">好了,废话不说,今天主要写一下我使用openNLP的词性标注器的一些步骤。</span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun"></span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun">最近,要比较不同算法进行词性标记的准确率,比较成熟POSTagger实现有基于HMM,ME,CRFs,Perceptron等等。</span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun">其中关于ME的介绍和实现以及与之相关的实现看链接<a target=_blank target="_blank" href="https://homepages.inf.ed.ac.uk/lzhang10/maxent.html">Maxent</a>,</span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun">好了,言归正传,下面稍微介绍一下openNLP的POSTagger。</span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun">主要参考为:<a target=_blank target="_blank" href="http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.postagger">opennlp</a></span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun">OpenNLP POS Tagger使用概率模型来预测正确的词性标记,同时为了限制一个标志(单词)的可能词性候选,可以使用一个tag字典来增加标注和运行的性能。</span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun">在对文本进行词性标记之前首先需要训练模型。</span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun">训练集的格式为:</span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun">每一句话为一行。</span></span></p><p><span style="font-size:18px"><span style="font-family:SimSun">单词和词性之间用“_”连接,比如“春装_n”,“新款_b”等。</span></span></p><p><span style="font-size:18px"><
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值