笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging

2004-Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information
作者:Tetsuji Nakagawa
出处:Proceedings of COLING 2004,pages 466-472

2007-A Hybrid Approach to Word Segmentation and POS Tagging
作者:Tetsuji Nakagawa, Kiyotaka Uchimoto
单位:Oki Electric Industry Co.,Ltd.-出处:Proceedings of the ACL 2007 Demo and Poster Sessions,pages 21,Prague ,June 2007

这两篇文章放在一起写,作者相同,工作上也有延续。引用两张图来说明两篇文章的主要内容


2004年paper的结构就是这张图,每一句话都做成一个lattice
1 查词典,得到IV,将词典切分结果加入lattice;
2 将加入lattice的词的各种词性标注POS标注上
3 将所有字加入lattice
4 将每个字的所有可能的Tag加入lattice.
5 最后,通过Extended HMM的方法来计算。

此paper的主要目的是解决中文、日文的分词问题,POS起到一个辅助作用(HMM就算参数时有用)
Tag与POS的标注是独立的。虽然使用的是字标注的方式,但实际上HMM用的转移概率发射概率由四部分加和的线性函数。
Sighan bakeoff2 PKU最好成绩0.947

2007年这篇论文的不同之处“POS”,上篇论文中POS只是起到辅助作用,而这篇论文中,要求出OOV的POS。
一共尝试了三种方法,如图2所示:

1 字词混合模型,混合解码,并且,分词Tag与词性Tag联合使用,B-verb;
2 先分词,分完词后,对每个OOV“词”,标注其各种可能的词性,利用最大熵再进一步标记
3 先分词,分完词后,对每个OOV中的“字”,标注可能词性,然后用字的解码结果。

使用的数据不同了,相比而言,Hybrid方法比word-based 和Character-based 方法好,但是其实差距很小的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值