2004-Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information
作者:Tetsuji Nakagawa
出处:Proceedings of COLING 2004,pages 466-472
2007-A Hybrid Approach to Word Segmentation and POS Tagging
作者:Tetsuji Nakagawa, Kiyotaka Uchimoto
单位:Oki Electric Industry Co.,Ltd.-出处:Proceedings of the ACL 2007 Demo and Poster Sessions,pages 21,Prague ,June 2007
这两篇文章放在一起写,作者相同,工作上也有延续。引用两张图来说明两篇文章的主要内容
2004年paper的结构就是这张图,每一句话都做成一个lattice
1 查词典,得到IV,将词典切分结果加入lattice;
2 将加入lattice的词的各种词性标注POS标注上
3 将所有字加入lattice
4 将每个字的所有可能的Tag加入lattice.
5 最后,通过Extended HMM的方法来计算。
此paper的主要目的是解决中文、日文的分词问题,POS起到一个辅助作用(HMM就算参数时有用)
Tag与POS的标注是独立的。虽然使用的是字标注的方式,但实际上HMM用的转移概率发射概率由四部分加和的线性函数。
Sighan bakeoff2 PKU最好成绩0.947
2007年这篇论文的不同之处“POS”,上篇论文中POS只是起到辅助作用,而这篇论文中,要求出OOV的POS。
一共尝试了三种方法,如图2所示:
1 字词混合模型,混合解码,并且,分词Tag与词性Tag联合使用,B-verb;
2 先分词,分完词后,对每个OOV“词”,标注其各种可能的词性,利用最大熵再进一步标记
3 先分词,分完词后,对每个OOV中的“字”,标注可能词性,然后用字的解码结果。
使用的数据不同了,相比而言,Hybrid方法比word-based 和Character-based 方法好,但是其实差距很小的。