The Microsoft Research Sentence Completion Challenge

The Microsoft Research Sentence Completion Challenge
lab2 阅读材料
微软的一个挑战项目

介绍

MSR Sentence Completion Challenge Data,它由 1,040 个句子组成。完型填空就是。
对于每个句子,任务是确定该单词的五个选项中哪个是正确的。
该数据集是根据古腾堡计划数据构建的。种子句子是从柯南道尔爵士的五部福尔摩斯小说中挑选出来的,然后借助经过 500 多部 19 世纪小说训练的语言模型提出冒名顶替词。
该语言模型用于为句子中给定的低频词计算 30 个替代词,然后人类评委根据一组提供的指导选择 4 个最佳冒名顶替词。

数据

分两步生成Question:
首先,选择一个包含不常用词的候选句子,并通过使用 n-gram 语言模型进行采样自动确定该词的替换词。 n-gram 模型使用历史作为上下文,从而产生在局部看起来没问题的词。
在第二步中,我们消除了明显不正确的选项,因为它们构成了语法错误。

用的数据:
柯南道尔的五部福尔摩斯小说:四人的标志(1890)、巴斯克维尔的猎犬(1892)、福尔摩斯历险记(1892)、福尔摩斯回忆录(1894)和恐惧之谷(1915)
一旦选择了句子中的焦点词,就会使用 n-gram 语言模型生成该词的替换词。

自动生成替换词:
为每个包含不常见单词的句子生成替代词。使用最先进的基于类的最大熵maximum entropy n-gram 模型来生成替代项

举例 :

  1. 选择一个总频率小于 10−4 的词。比如,我们可能会在“这真是最不平凡最莫名其妙的生意”中选择“不凡”
  2. 使用紧接在所选焦点词之前的两个词历史来预测替代词。我们在此阶段抽样了 150 个唯一的替代词,要求它们的频率都小于 10−4。例如,“the most” predicts “handsome” and “luminous.”
  3. 如果原始句子的得分高于任何这些替代句子,则不留这个句子。
  4. 否则,根据每个选项及其直接前任预测下一个单词的程度对每个选项进行评分。例如,“最帅”之后出现“和”的概率可能是 0.012。
  5. 根据分数对预测词进行排序,保留前30个。

在第 3 步中,省略那些正确句子是最好的问题?会使这组选项导致仅靠语言模型更难解决。
omitting questions for which the correct sentence is the best makes the set of options more difficult to solve with a langauge model alone.
啥啊这。。

人类评委(他们从自动生成的 30 个句子中选出了最好的四个冒名顶替者句子)被给予以下指示:

  1. 所有选择的句子都应在语法上正确. For example: He dances while he ate his pipe would be illegal.
    2.每个正确答案都应该是明确的。 In other words, the correct answer should always be a significantly better fit for that sentence than each of the four impostors;应该可以写下为什么正确答案是正确答案的解释
  2. 应避免可能引起冒犯或争议的句子。
    4.理想情况下,替代方案需要一些思考才能确定正确的答案。 For example: •Was she his [ client |musings |discomfiture |choice |opportunity ] , his friend , or his mistress? would constitute a good test sentence. In order to arrive at the correct answer, the student must notice that, while ”musings” and ”discomfiture” are both clearly wrong, the terms friend and mistress both describe people, which therefore makes client a more likely choice than choice or opportunity.
    5.需要理解句子中提到的实体属性的替代方案是可取的。For example:•All red-headed men who are above the age of [ 800 |seven |twenty one |1,200 |60,000 ] years , are eligible. requires that the student realize that a man cannot be seven years old, or 800 or more. However, such example are rare: most often, arriving at the answer will still require thought, but will not require detailed entity knowledge, such as: •That is his [ generous |mother’s |successful |favorite |main ] fault , but on the whole he’s a good worker.
  3. 如有必要,可以使用字典。
  4. 一个给定的句子应该只出现一次。如果为一个句子识别了多个目标词(即在不同位置识别了不同的目标),请选择最佳。

结果

简单的4-gram 模型

构建了一个非常简单的 N-gram 模型,如下所示:给定一个测试句子(目标词的位置已知),该句子的分数被初始化为零,然后对于每个二元组匹配增加 1 ,每个三元组匹配两个,每个 4-gram 模型匹配三个,意味着包含目标词的测试句子中的 N-gram 在背景数据中至少出现一次。这种简单的方法在测试集上实现了 34% 的正确率(相比之下,随机选择为 20%)。

平滑的 N-gram 模型

使用 CMU 语言建模工具包 1 使用 Good-Turing 平滑构建 4-gram 语言模型。我们保留了数据中出现的所有二元组和三元组,以及至少出现两次的四元组。我们使用了 126k 个出现五次或更多次的单词的词汇表,这导致总共有 2600 万个 N-gram。这在简单4-gram上提高了 5% 的绝对值,达到 39% 的正确率。

潜在语义分析相似度

在这种方法中,我们将训练数据中的每个句子视为一个“文档”,并执行潜在语义分析以获得词汇表中每个单词的 300 维向量表示。用向量 x,y 表示两个词,它们的相似性定义为它们之间夹角的余弦:
请添加图片描述

总结

没有总结,通篇读下来感觉就是阐述了一种微软的挑战项目细节

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值