中文分词的一些最新研究进展

近年来的研究重点在于解决分词的跨领域问题,采用半监督学习方式结合部分标记的互联网语料,如维基百科,以改善分词效果。主要模型包括感知器和条件随机场。通过限制解码过程中的非法分词候选,结合字典辅助,减少领域差异和噪声影响,提高分词准确率。Jiang等人和Liu等人的工作在CRFs基础上利用部分标注数据进行训练,通过选取高错误率语料优化模型。
摘要由CSDN通过智能技术生成

最近,读了几篇这两年发表的关于分词的会议论文,发现现在主要的研究方向是解决分词的领域适用问题,采用的主要模型是已有的分词算法+训练集+部分标记语料的半监督学习方式,分词算法包括感知器、条件随机场,部分标记的语料主要为维基百科的汉语语料http://dumps.wikimedia.org/backup-index.html。现在主要介绍一下各文章的关注重点和异同。

因为水平问题或对论文本身的理解问题,可能在阐述过程中有各种各样的错误,还望不吝指出,毕竟才开始研究工作,写博客也是为了记录自己的成长过程。

传统的分词方法在训练集和测试集为同一领域时可以获得很好的分词效果,但是当夸领域分词时,分词效果就迅速下降了(由于专业词汇等原因);并且训练集的制定是一个浩大的工程,不可能制造非常大的训练集(需要人工标注),因此只专注于监督学习,分词性能已经很难提高了。但是互联网的发展给我们带来了新的启示,如何从浩瀚的互联网中挖掘出有意义的分词辅助信息是新的研究方向。而互联网中的文本的易获取性、实时性、领域广泛性、分词辅助信息(超链接、字体、颜色、布局)等也使这种想法变为了可能。

当然了,相比于被人工精确分割的训练集而言,这些互联网文本所带有的分词辅助信息是很少的,因此直接使用互联网文本来训练模型是不可行的。

在Jiang, Sun等(2013)提出的方法中,为了充分利用在互联网文本中带有分词标注信息的语言学知识,使用了判别学习算法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值