笔记-2004-Adaptive Chinese Word Segmentation

Adaptive Chinese Word Segmentation
作者:Jianfeng Gao,Andi Wu,Mu Li,Chang-Ning Huang,Hongqiao Li,Xinsong Xia,Haowei Qin
单位:Microsoft Research

出处:ACL '04 Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics.Article No. 462

主要内容:自适应,特定领域分词,标准(颗粒度);这篇文章很适合做参考文献

论文分三部分:

1使用线性模型可以并且可以适应不同领域的分词

2模型用到的特征和如何选取训练语料

3transformation-based学习方法去自适应不同的分词标准(颗粒度)问题

线性模型:把所有的特征值带权重加和,特征包括:Context Model(log),Lexical Word(LW)01,Morphological Word(MW)01,Named Entity(log),Factoid(FT)01,New Word(NW)(SVM值)有些特征值为0、1,其它都是算出来的。
权重拉姆达使用类似于CRF的迭代方式算出来的。
NW的SVM分类器用了三个特征,单字词,ab中有一个为单字词,ab中有一个为前缀or后缀
Context Model(上下文)用的是类似于IDF的数据,公式很复杂,而不是字形

自适应,颗粒度:使用树库,树库中的词有结构,例如前中后缀,时间年月日,人名姓名

问题在于:真的做到领域自适应了吗?仍然使用Sighan(2005)的测试训练语料,颗粒度可以自适应,但是如果我们换大领域,恐怕就有问题了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值