TJU自然语言处理(4):搭配

搭配

什么是搭配

  • 简单的说就是两个或多个词的习惯语言表示。按定义说就是 两个或多个词序列,具有句法和语义单位的特性,并且它的准确无歧义的意思或含义往往不能直接由它的组成部分的意思和含义得出。
  • 说白了就是必须一起才能理解真正含义,单独拎出来都不能理解。
  • 比如名词短语,动词短语,成语等。

搭配的特征和标准

  • 通常非复合构词

自然语言中,如果不能从各组成部分的意思推测出整体表述的意思,则称这个语言表述是非复合构词。如kick the bucket 。

  • 不可替换性,不可更改性
    yellow wine和white wine。

发现搭配的方案

频率

  • 计数,统计语料库中二元组出现的次数。但并不理想,因为很多都是of the之类的功能词。
  • 按词性进行过滤,或者使用功能词的停用词表。
  • 模式“strong+w”和“powerful+w”中最常出现的名词w(为例)
  • 判断词语组合的正确性,基于搜索引擎的判断。

均值和方差

在这里插入图片描述
根据平均偏移量(均值),方差来体现二元组有没有搭配关系。

方差显示的是二元组的距离波动,一个低的方差说明两个词常以差不多的距离出现。而平均偏移量(均值)体现的是这两个词通常之间的距离大小。

如果均值接近于1.0,并且方差也比较低,那么这种类型的短语也可以用基于频率的方法来发现。
如果均值远大于1.0,那么可以通过方差来判断这类比较松散的搭配

  • 应用:术语抽取,自然语言生成,句法分析,信息检索。

假设检验

  • 高频率和低方差是偶然出现的,比如new companies,这俩虽然经常一起出现,但是不是搭配。
  • 假设检验就是为了评价是不是偶然事件。在这里插入图片描述
  • 如何把假设检验的方法利用到寻找搭配上?
t检验

在这里插入图片描述
在这里插入图片描述

将t检验应用与搭配判断

把一个文本语料库看成N个二元组的长序列,如果我们感兴趣的二元组出现,则其计数值加1,不出现则为0(二项式分布)。
在这里插入图片描述

  • t 检验和其它统计检验方法对于搭配可能性排序是非常有用的方法,而置信水平本身的用处不大。
皮尔逊卡方检验

t检验假设数据的先验分布是正态分布
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

似然比

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

互信息

在已知 y的情况下,获得的有关x的信息量

  • 点互信息:在这里插入图片描述
  • 在这里插入图片描述
    问题1:信息增益不等于直接依赖
    问题2:数据稀疏
    在这里插入图片描述

搭配的应用

词典编著,信息检索,自然语言生成,跨语言信息检索。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值