A New Unsupervised Approach to Word Segmenation
Hanshi Wang, Jian Zhu, Shiping Tang, XiaoZhong Fan
北京理工大学,2011 发在CL上
长度、频次、左右熵:无监督
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
这篇文章很长,大致结构如下:
头:引言中提到很多人的工作
中间: 选择此系统结构与特征的理论依据
ESA模型的三方面: 理论+评价函数,筛选原则,调整原则
实验最初设计,实验数据,算法伪代码,实验细节设计,实验结果与分析
全文涉及的重要定义,算法时空分析
尾:结尾详细重现的前人的工作,而且全部与自己对比
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
ESA:Evaluation,Adjustment,Selection
A子串(可能多个字符)B子串(可能多个字符),评价指标有两个,IV,CV
IV是AB成为一个词的可能性;CV有IV(A)、IV(B),IRV(AB)组成,A、B分别成词。
IV(AB)=(当前AB串频/跟当前AB串长相同的所有串平均频次)^当前串AB的长度;
LRV(左串A,右串B)=(当前左串A的右熵*当前右串B的左熵)/(跟当前左串A长度相同的所有串的平均右熵*跟当前右串B长度相同的所有串的平均左熵)
CV=IV(A)IV(B)LRV(A,B);
如果,CV(A,B) > IV(AB)则AB分开。
子串的候选有要求:先用标点、数字、限制长度,LRV(阈值自己确定的)做了初选
一句话,子串的划分有n(n+1)/2种,在做的时候,说是用了动态规划的方法选择谁切分。
迭代过程看的不是十分明白,目前的理解是:
进行N轮迭代,当分词结果不再改变则终止。每轮迭代中都有N小轮迭代,这个N是人为给定的。
每小轮迭代中,对于每句话,每次只选择最确定的“分割点”(即每次只切1刀),N小轮迭代后一句话上有<N刀。
这样,这句话被切碎了,形成了许多新的子串,子串数量、频次、左右熵,重新计算。
从第二大轮起,单字、子串的计算方式与初始计算方式(用阈值卡的那些,只要连续字符串就算)就不一样了。
S*=argmax E(Si) ; E(Si)=IV(S0)i=0时;E(Si)=CV(Si),i>0;
最好的召回率在MSR上获得,结果是0.831