笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~

An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified Framework

Hai Zhao Chunyu Kit 

City University of Hong Kong

2008年

这篇文章是最之前无监督分词方法的一个比较

主要比较4个指标

Frequency of substring with Reduction (2004年提出)两个重叠的字符串,ABCD,ABC,如果频率相同,则ABC(短的)被认为是redundant word candidate,字串频次必须>1;

Description Length Gain(DLG)没看原文,公式是DLG(x i-j)=L(X) - L(X[ r -> xi-j]+“xi-j”),字面上的理解是:L(x)是x的熵*x的长度;r -> xi-j是把所有的 xi-j用r这个符号替换;+xi-j在全文结尾再加上xi-j这个字符串

Accessor Variety (AV)边界多样性,取一个字符串,左右边界多样性的最小值。单边边界多样性的计算:例如字符串xi-j,其左侧xi-1的type个数,则是左边界多样性,如果type包含句首(换行),每个句首是一个type;同理,右边界。

Boundary Entropy(Branching Entropy,BE)边界熵,h(xi-j)=-取和(p(x|xi-j)logp(x|xi-j))。即传说中的左熵右熵。

测试语料是Sighan2005,四个语料都做了测试,效果最好的是DLG+AV


2007年的时候,也发表了一篇文章,工作基本相同,没有2008年这篇全面。
名字是:Incorporating Global Information into Supervised Learning for Chinese Word Segmentation
本文列举AV、branch entropy两种非监督分词方法,将其加入到CRF中,看结果。
两种方法的核心都是1970年提出的:if the uncertainty of successive tokens increases,then the location is at a border.即当连续字符的不确定性增加,这个位置有可能是个边界。
本文使用非监督学习方法:1 COS,不同句子中出现的最长相同子串,子串长度在2-7之间,2 AVS,AV(s)=min{Lav(S),Rav(S)})
监督学习方法是:CRF,特征为6特征,3窗口,与我不一样的地方在于T:数字、日期、英文、标点、其它。并且是T-1T0T1
从实验结果看,AVS会起到一定的作用,COS作用不大。但是相对于baseline的提高,也仅限于与0.001-5例如从0.945-0.949或0.961-0.963

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值