搭配
什么是搭配
- 简单的说就是两个或多个词的习惯语言表示。按定义说就是 两个或多个词序列,具有句法和语义单位的特性,并且它的准确无歧义的意思或含义往往不能直接由它的组成部分的意思和含义得出。
- 说白了就是必须一起才能理解真正含义,单独拎出来都不能理解。
- 比如名词短语,动词短语,成语等。
搭配的特征和标准
- 通常非复合构词
自然语言中,如果不能从各组成部分的意思推测出整体表述的意思,则称这个语言表述是非复合构词。如kick the bucket 。
- 不可替换性,不可更改性
yellow wine和white wine。
发现搭配的方案
频率
- 计数,统计语料库中二元组出现的次数。但并不理想,因为很多都是of the之类的功能词。
- 按词性进行过滤,或者使用功能词的停用词表。
- 模式“strong+w”和“powerful+w”中最常出现的名词w(为例)
- 判断词语组合的正确性,基于搜索引擎的判断。
均值和方差
根据平均偏移量(均值),方差来体现二元组有没有搭配关系。
方差显示的是二元组的距离波动,一个低的方差说明两个词常以差不多的距离出现。而平均偏移量(均值)体现的是这两个词通常之间的距离大小。
如果均值接近于1.0,并且方差也比较低,那么这种类型的短语也可以用基于频率的方法来发现。
如果均值远大于1.0,那么可以通过方差来判断这类比较松散的搭配
- 应用:术语抽取,自然语言生成,句法分析,信息检索。
假设检验
- 高频率和低方差是偶然出现的,比如new companies,这俩虽然经常一起出现,但是不是搭配。
- 假设检验就是为了评价是不是偶然事件。
- 如何把假设检验的方法利用到寻找搭配上?
t检验
将t检验应用与搭配判断
把一个文本语料库看成N个二元组的长序列,如果我们感兴趣的二元组出现,则其计数值加1,不出现则为0(二项式分布)。
- t 检验和其它统计检验方法对于搭配可能性排序是非常有用的方法,而置信水平本身的用处不大。
皮尔逊卡方检验
t检验假设数据的先验分布是正态分布
似然比
互信息
在已知 y的情况下,获得的有关x的信息量
- 点互信息:
问题1:信息增益不等于直接依赖
问题2:数据稀疏
搭配的应用
词典编著,信息检索,自然语言生成,跨语言信息检索。