笔记-2010-2011 孙薇薇

语料宾州树库CTB

1:2010

Word Based and Character-Based Word Segmentation Models:

 Comparison and Combination

就是简单的说明了一下字、词单位的区别。然后实验对比了一下。

分词方法就是投票,找M个分词结果,多的胜出。投票boosting

最高提高0.4个点


2:2011

A Stacked Sub-Word Model for Joint Chinese Word Segmentation and Part of Speech Tagging.

step1 :基于词、字的分词方法即2010年的方法,先做出一个初分模型。

step2:

subword选取方法:三个方法分出来的结果。只要由一个说这个位置是“词边界”,则切分出来(这样就相对切得比较碎,即子串)。

整理Step2的过程是:

将训练语料分成N等分,用1测试,N-1训练。循环N次,每次得到1/N的subword的分词结果。

这些subword的其实来自于训练语料,即有标准答案,所以可以利用subword再做一次训练。此次训练,训练单位为subword,特征也加入了NN,B—CD这些初分的分词标记;训练方法为M3N和SVM-HMM,最终切分标记用BI。

测试语料来了,先用训练语料做第一次的初分,然后转成subword形式,做第二次的再分。

97.87提高到98.17


3:2011

Enhancing Chinese Word Segmentation Using Unlabeled Date

整体还是基于CRF的方法,但是特征有所不同。

1 基本信息:5字窗口,C,CiCi+1,Ci-1Ci+1 ,但是后两个是判断是否是重叠字

2 补充信息:C向前、向后(最长5个字)是否是训练语料中的词;CC向前向后,是否是训练语料连续出现的两个词

3 Unlabeled信息:LDC一份语料,统计每个字的互信息(MI)、AV信息、与标点符号的邻接信息、篇章信息(即,Abc与Abcd在同一篇章内出现的次数是否相同,同理bcd与Abcd)

这部分信息由于求出来都是一个个数字,对于CRF无法当成特征,所以将此数据离散化,做成区间。

95.46 提高到96.22

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值