最近,读了几篇这两年发表的关于分词的会议论文,发现现在主要的研究方向是解决分词的领域适用问题,采用的主要模型是已有的分词算法+训练集+部分标记语料的半监督学习方式,分词算法包括感知器、条件随机场,部分标记的语料主要为维基百科的汉语语料http://dumps.wikimedia.org/backup-index.html。现在主要介绍一下各文章的关注重点和异同。
因为水平问题或对论文本身的理解问题,可能在阐述过程中有各种各样的错误,还望不吝指出,毕竟才开始研究工作,写博客也是为了记录自己的成长过程。
传统的分词方法在训练集和测试集为同一领域时可以获得很好的分词效果,但是当夸领域分词时,分词效果就迅速下降了(由于专业词汇等原因);并且训练集的制定是一个浩大的工程,不可能制造非常大的训练集(需要人工标注),因此只专注于监督学习,分词性能已经很难提高了。但是互联网的发展给我们带来了新的启示,如何从浩瀚的互联网中挖掘出有意义的分词辅助信息是新的研究方向。而互联网中的文本的易获取性、实时性、领域广泛性、分词辅助信息(超链接、字体、颜色、布局)等也使这种想法变为了可能。
当然了,相比于被人工精确分割的训练集而言,这些互联网文本所带有的分词辅助信息是很少的,因此直接使用互联网文本来训练模型是不可行的。
在Jiang, Sun等(2013)提出的方法中,为了充分利用在互联网文本中带有分词标注信息的语言学知识,使用了判别学习算法。