笔记-2004-Adaptive Chinese Word Segmentation

最新推荐文章于 2021-11-07 14:37:21 发布

alicexc++

最新推荐文章于 2021-11-07 14:37:21 发布

阅读量592

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiuchixc/article/details/8154086

版权

NLP 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

Adaptive Chinese Word Segmentation
作者：Jianfeng Gao,Andi Wu,Mu Li,Chang-Ning Huang,Hongqiao Li,Xinsong Xia,Haowei Qin
单位：Microsoft Research

出处：ACL '04 Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics.Article No. 462

主要内容：自适应，特定领域分词，标准（颗粒度）；这篇文章很适合做参考文献

论文分三部分：

1使用线性模型可以并且可以适应不同领域的分词

2模型用到的特征和如何选取训练语料

3transformation-based学习方法去自适应不同的分词标准（颗粒度）问题

线性模型：把所有的特征值带权重加和，特征包括：Context Model（log），Lexical Word（LW）01，Morphological Word（MW）01，Named Entity（log），Factoid（FT）01，New Word（NW）（SVM值）有些特征值为0、1，其它都是算出来的。
权重拉姆达使用类似于CRF的迭代方式算出来的。
NW的SVM分类器用了三个特征，单字词，ab中有一个为单字词，ab中有一个为前缀or后缀
Context Model（上下文）用的是类似于IDF的数据，公式很复杂，而不是字形

自适应,颗粒度：使用树库，树库中的词有结构，例如前中后缀，时间年月日，人名姓名

问题在于：真的做到领域自适应了吗？仍然使用Sighan（2005）的测试训练语料，颗粒度可以自适应，但是如果我们换大领域，恐怕就有问题了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
笔记-2004-Adaptive Chinese Word Segmentation

Adaptive Chinese Word Segmentation作者：Jianfeng Gao,Andi Wu,Mu Li,Chang-Ning Huang,Hongqiao Li,Xinsong Xia,Haowei Qin单位：Microsoft Research出处：ACL '04 Proceedings of the 42nd Annual Meeting on Ass
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。