笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging

最新推荐文章于 2021-01-11 20:36:34 发布

alicexc++

最新推荐文章于 2021-01-11 20:36:34 发布

阅读量799

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/xiuchixc/article/details/8157165

版权

NLP 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

2004-Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information
作者：Tetsuji Nakagawa
出处：Proceedings of COLING 2004，pages 466-472

2007-A Hybrid Approach to Word Segmentation and POS Tagging
作者：Tetsuji Nakagawa, Kiyotaka Uchimoto
单位：Oki Electric Industry Co.,Ltd.-出处：Proceedings of the ACL 2007 Demo and Poster Sessions,pages 21,Prague ,June 2007

这两篇文章放在一起写，作者相同，工作上也有延续。引用两张图来说明两篇文章的主要内容

2004年paper的结构就是这张图，每一句话都做成一个lattice
1 查词典，得到IV，将词典切分结果加入lattice；
2 将加入lattice的词的各种词性标注POS标注上
3 将所有字加入lattice
4 将每个字的所有可能的Tag加入lattice.
5 最后，通过Extended HMM的方法来计算。

此paper的主要目的是解决中文、日文的分词问题，POS起到一个辅助作用（HMM就算参数时有用）
Tag与POS的标注是独立的。虽然使用的是字标注的方式，但实际上HMM用的转移概率发射概率由四部分加和的线性函数。
Sighan bakeoff2 PKU最好成绩0.947

2007年这篇论文的不同之处“POS”，上篇论文中POS只是起到辅助作用，而这篇论文中，要求出OOV的POS。
一共尝试了三种方法，如图2所示：

1 字词混合模型，混合解码，并且，分词Tag与词性Tag联合使用，B-verb；
2 先分词，分完词后，对每个OOV“词”，标注其各种可能的词性，利用最大熵再进一步标记
3 先分词，分完词后，对每个OOV中的“字”，标注可能词性，然后用字的解码结果。

使用的数据不同了，相比而言，Hybrid方法比word-based 和Character-based 方法好，但是其实差距很小的。

alicexc++

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
笔记-2004-2007-A Hybrid Approach to Word Segmentation and POS Tagging

2004-Chinese and Japanese Word Segmentation Using Word-Level and Character-Level Information作者：Tetsuji Nakagawa出处：Proceedings of COLING 2004，pages 466-4722007-A Hybrid Approach to Word Segmentat
复制链接

扫一扫