社区问答服务的问题难度估计模型——周期竞争模型RCM

心得:本文主要描述在问答系统中如何估计一个问题的难度,并给相应的专业用户进行匹配的问题。后文中解决了冷启动问题(没人回答的问题)的难度估计问题,建成RCM模型。在最后由于进行难度分类,所以能够根据文本描述抽取,来判断文本描述中的关键词难度等级。我认为问答社区可以作为自动问答系统的语料库,所以如何对问答社区(如百度知道、知乎、Stack Overflow)进行信息抽取和分类显得很重要,如果能够有效地抽取问题的文本信息并对难度进行识别,可以增加对输入语句处理的速度。基于本文可以实现一个分类工具,提供接口给其他人进行数据库抽取。思路为在问答系统中进行分词,把问题与其他问题进行比较,根据文中的公式计算频率与难度,得到标签、内容和文本描述,然后可以进行难度分类,放入N个桶中。在进行搜索的时候,可以进行分词,关键词匹配,预估难度即可完成本模块内的任务,同样也可以把此系统应用在搜索引擎中,与问答系统类似。课堂是对问答系统框架的了解,而论文中是对某一模块的深入了解,两相结合,益处很大,下一步将会是理论联系实际,开发一个模块出来,有了理论指导,相信一定可以做出来。

摘要

如何正确地估计问题的难度等级在社区问答系统(CQA)服务中是一项重要且艰难的问题。之前解决此问题的研究方向是基于从问题答案引出的线索来进行问题-用户的关联度比较。然而,这种方法仍然存在数据稀疏的问题,例如每个问题仅仅获得一个非常有限的比较系数。除此之外,这种方法也不能掌握最新提交的问题,所以也就不能够进行新问题比较来改进系统。在本文中,我们提出了一种新颖的问题复杂度估计方法,命名为周期竞赛模型(RCM),能够非常自然地组合问题和用户的比较关系,并且根据问题的文本描述,把它分类加入统一的框架。通过合并文本信息,RCM可以有效地处理数据稀疏问题。我们下一步将会采用一种K-最临近方法,再一次根据文字描述之间的相似之处去估计最新提交的问题的复杂度等级。最后通过实验结果表明在两个公开且有效的数据集中,RCM算法在任务估计明显比现有的方法好,展现了合并文本信息的优势。更有趣的是,我们观察到RCM可能提供一种自动方式来测量知识水平。

1.介绍

近几年社区问答系统服务(CQA)呈现快速发展趋势。他们已经广泛地被应用到多种场景,其中包含在web上寻找常用的信息,在专业领域相关的社区进行知识交换,并且在大量开放的在线课程(MOOCs)中也存在问答系统,还有很多。

       在CQA中,一个重要的研究问题是如何自动化地估计问题的复杂度级别,问题的复杂度估计简称QDE。QDE能够促进许多应用的发展。下面包含几个例子。

1)问题路由。把问题提交给合适的回答者能够帮助提问者获得快速和高质量的答案。Ackerman 和McDonald (1996) 已经陈述过如何根据问题难度匹配回答者的专业度来进行问题路由,可以更好地利用回答者的专业性和时间。对于回答专业性比较强的问题和MOOCs上面的问答,这点是显得很重要的,因为人力资源都是很昂贵的和稀有的。

2)鼓励机制设计。Nam et al(2009)一经发现这个机制,由组织系统者提供的奖励积分,来驱动使用者来参与到CQA服务中。分配更高的分数给更重要的问题将会显著地提升使用者的参与度和满意度。

3)语言学分析。在计算机领域的语言学家研究人员总是对语言和知识的重叠关系很感兴趣,去见识语言如何影响一个人的知识储备。我们会在5.4节向大家展示QDE提供的一种自动化的测量方法去了解一个单词的知识等级。

Liu(2013)在QDE方面已经做了开创性的工作,通过回答问题的用户之间的影响力比较引出它的思想。不过他们假设在特殊情况下,问题的困难度比提问者的专业度更高(也就是说,提出的问题的用户),但是比正确答案(提供最好的答案的用户)专业度更低。

一个TrueSkill的算法是更加合适的方法去估计问题的困难度并且用户的专业程度和问题相匹配。对于我们的知识来说,已经有效地运行在QDE上了。杨(2008)曾经有过一个相似的想法,但是他的工作聚焦于一个不同的任务,估算众包竞赛服务任务的难度等级。

之前的方法有两个主要的缺陷:1数据稀疏问题和2)冷启动问题。在此之前,我们想要借鉴之前工作的框架,每个问题和用户被比较两次(一次和提问者,另一次是和给出最好答案的人),但这种方法可能无法提供足够多的信息并且会对评估准确性造成干扰。在此之了启示,假定如果两个问题的文本描述特别相近,他们在难度等级上也会相近。我们采用了流形正则化来符号化假定。流形正则化是一个著名的技术,用于保存本地副本学习算法常量,即临近点好像有相似的想法。我们提出一个新奇的周期竞赛模型(RCM),它是一个最小化问题用户比较的损失通过周期复习问题的文本描述,且能公式化QDE的方法。平滑假定提供了额外的信息用来推断问题的难度等级,包含本算法将会高效地解决数据稀疏问题。最终,我们采用了一种K-最临近算法来表现冷启动估计算法,又一次受到了平滑假定的影响。

在两个公开可用收集自StackOverflow的数据集上做的实验表明:

1)在优化分词方面和冷启动问题上,RCM明显比目前的QDE任务表现得好。

2)RCM的表现对于专业领域权重模式(决定一个问题的文本描述代表了什么)和相似度测量(决定两个问题间的文本相似度是如何测量的)的特殊选择是不敏感的,结果表明给QDE添加并入文本信息是有优势的。质量分析同样表明RCM能够提供一种自动化测量知识等级的方法。

本论文的主要分布包含(1):我们有文本描述方面巨大的优势来解决数据稀疏和冷启动的问题。对于我们现有的知识来说,这是第一次文本信息在QDE方面提出。(2)我们提出了一种创新QDE方法。把用户-问题比较和问题文本描述组合进一个统一的框架。这个方法在QDE上比现有的方法有显著的提升(3)我们陈述了一种基于文本描述的冷启动估计问题困难度的可行性,在实际中有多种应用。而且我们了解到,这是在冷启动方面第一次奏效。(4)我们将会探索RCM如何自动化地测量知识等级。

本文的剩余部分的结构如下:

第二部分描述了问题的公式化和RCM的目的。第三节叙述了RCM的细节。第四节讨论了冷启动估计问题,第五节叙述了实验过程和结果。第六节阐述了相关的工作。第七节总结了本论文并且讨论了下一步可以进行的工作。

 

2前述

2.1 问题公式化

       CQA服务提供一个可以提问和搜索其他人的回答的平台。给定一个CQA入口,考虑一个特殊的在相同主题下的问题和回答的情况,例如Stack Overflow下的“C++编程”类别。当一个提问者ua在该类别下提交了一个问题q后,会有几个回答者来回答问题。在所有烧到的回答中,最好的回答将会由提问者选中或者由社区投票选择。最好的答案的回答者被记为最佳回答者ub。其他的回答者将被表示为O={uo1,uo2,uo3…,uom}。一个问题回答的线程(QA线程)被表示为一个四元组(q,ua,ub,O)。收集本类别下的所有QA线程,我们得到了M个用户和N个问题,分别表示为和。每个用户UM有一个专业度评分,表示他的专业等级,越大,该用户越专业。每个问题QN都有一个困难度评分,表示他的困难度。困难度评分在指定领域内互相评分。除此之外,每个问题QN都有一个文本描述,表示为一个V维向量dn,V为词汇表的大小。

       问题复杂度估计(QDE)任务的目的是通过利用QA线程T ={(q, ua, ub,O) : q ∈ Q}自动化地学习问题复杂度评分规则,就像是在指定类别下的问题描述D = {d1, d2, · · · , dN}。在第二节和第三节,我们考虑被解决的问题困难度评分估计,也就是说已经选择出最好的答案的问题。在第四节将会进行估计未被解决的问题的复杂度评分。

2.2基于竞争的方法

       Liu曾经在QDE方面提出一种基于竞争的方法,关键思想是1)从QA线程中提取匹配竞争,2)估计问题困难度基于提取出的比较关系。

       为了提取竞赛,假定问题复杂度评分和用户专业度评分在相同的尺度上度量。给定一个QA线程(q, ua, ub,O),也可以假定为:

       假定1(匹配比較假定):

       问题q的困难度比提问者ua的专业度评分更高,但是比最佳回答者ub的专业度评分更低。除此之外,最佳回答者ub比提问者ua的专业度更高,也比任何一个在O中的回答者更高。给定这个假定后,从QA线程中提取出的(|O| + 3)个配对竞争,包含1)在问题q和提问者ua之间的竞争,2)问题q和最佳回答者ub之间的竞争,3)在最佳回答者ub和提问者ua之间的竞争,还有一个4)在最佳回答者ub和O中的每个回答者之间的|O|个竞争。问题q是第一个竞争中的优胜者,最佳回答者ub是剩余的(|O| + 2)个竞争的优胜者。这些配对表示为Cq ={ua≺q, q≺ub, ua≺ub, uo1 ≺ub, · · · , uoM ≺ub},i<j的意思为竞争者j在竞赛中打败了竞争者i。使

      

表示为包含从T中提取出来的竞争者的所有配对集合。

   给定竞赛集合C,Liu后来采用了一种TrueSkill算法来学习竞争者的技能级别(即问题困难度评分和用户专业度评分)。TrueSkill假定每个竞争者实际的技能等级服从正态分布,其中μ是平均技能等级,是预估不确定性。它更新预估值在线模式:对于一个新观察的输赢结果竞争关系,1)给优胜者增加技能等级,2)为失败者减少平均技能等级,和3)当有更多数据被观察时,缩减每个竞争者的不确定性。Yang曾经提出一种基于竞争的方法来估计任务困难度等级,它是通过页排序算法实现的。

2.3 目的讨论

这个方法在估计竞争者的技能等级时只是基于它们之间匹配竞争。一个竞争者参与越多的的竞争,这个技能等级估计越精确。然而,根据匹配比较假定(假定1),每个问题仅仅参与两个竞争关系,一个是和提问者,另外一个是和最佳回答者。因此,这可能没有足够的信息来认定他的难度等级分数。我们把这个叫做数据稀疏问题。

附加元数据的优势在前文已经叙述过了,它是一个有效的方法来处理数据稀疏问题,已经在诸如合作过滤和私人化调查方面有所应用了。这个方法行之有效的根本原因是基于元数据来平衡在用户之间的关系。对于QDE来说,初步观察法已经证明了文本描述可以描述一个问题的困难度。举个例子,考虑StackOverflow中“数学”类别下的QA线程。把问题划分为三个组别,1)低难度,2)中等难度,和3)高难度,根据TrueSkill算法估计问题困难度。图1表示在每个组中的标签分布频率,每个组内的标签大小和频率成比例。结果显示,问题的标签确实有影响问题困难度的能力等级,例如,低难度的问题通常有“作业”,“计算”标签,而高复杂度通常有类似于“通用分类方法”和“数论”标签。我们会用皮尔森相关系数计算1)每两个组之间的差别和2)每两个组别之间的欧几里德距离。结果是r=0.6424,表明困难度差别和文本距离是相当有关联的。换句话说,两个问题的文本描述越相似,它们的困难度越接近。我们用文本信息来消除问题之间的困难度问题,假定

假定2(平滑假定):

如果两个问题qi和qj它们的文本描述很di和dj接近,它们在困难度分数bi和bj上面也会很相似。平滑假定通过参考文本相似度来为我们提供了额外的有关问题复杂度分数的信息。它服务于匹配竞争,而且可能会帮助我们解决之前的方法无法解决的数据稀疏问题。

3 QDE的模型文本相似度

3.1 周期竞赛模型

我们从几个记号开始介绍。就像问题复杂度评分可以直接与用户专业度评分相比较一样,我们把问题视为伪用户。令表示为所有(伪)用户的技能等级(即专业度评分和困难度分数):

,

其中,¯θi 为第i个实体。前m个实体时用户专业度评分,记为¯_u ∈ RM。后N个实体时问题困难度评分,记为,令和分别记为和的第i个实体。

配对竞争扩展。我们把每对竞争i<j的偏差记为:

其中p为1或2.这个偏差被定义为两个竞争者之间的技能差距,即,用来测量预期输出和实际输出的不相关度。如果差距比预定义的下限δ还要大,那么竞争者j可能会在竞争中击败竞争者i,可能在实际输出中同时发生。那么偏差就为0。另外,如果与实际输出相反,那么竞争者j有更高的几率输掉竞争。那么偏差值将会大于0。差距越小,矛盾的几率越大,偏差也会越大。值得注意的是,下限δ可以为任何正值,所以我们不必添加一个常数限制。由于没有一般性的偏差,所以在本论文中我们把δ设为1。我们将会在3.2节,定义在公式(2)中的偏差和svm偏差有很大的相似性。链式偏差时p=1,二次偏差p=2。

给定竞争集合c,伪(用户)的技能等级估计用来解决下列优化问题:

其中,第一个变量是一个经验偏差值用来测量不符之处。第二个变量用来规范化防止过度拟合问题;是一个折中系数。它也是一个基于竞争的QDE方法,成为竞赛模型(CM)。

扩展问题描述。多样规范化是一个著名的技术用来学习算法保存本地变。在QDE中,平滑假定传递相似的“常量”,即临近问题(就文本相似度而言)和相似的困难度分数。因此,我们把假定符号化下列多样性规范化:

其中wij是问题i和问题j之间的文本相似度。是相似度矩阵,wij是第(i,j)个实体;是对角矩阵,对角线上的第i个实体是;是图形化Laplacian。最小化R导致平滑假定:对于任意两个问题i和j,如果他们的文本相似度wij很高,复杂度差值将会变小。

融合方法。把等式(3)和等式(4)结合,我们获得了RCM,量化下列优化问题:

这里的也是一个折中系数。RCM的优势包含1)他自然地公式化QDE为最小化一个多样规范化偏差函数,无缝整合匹配竞争和文本描述。2)通过合并文本描述,它可以解决之前方法没有解决的数据稀疏问题,并且在QDE任务方面有显著提供。

3.2学习算法

重新定义第k个配对竞争(假定在竞争者i和j)作为(xk,yk)。表示竞争者:

其中是第l个xk个实体。是输出:如果竞争者i击败了竞争者j,yk=1;否则,yk=-1。在等式(5)可以被重写为

其中z=是一个块矩阵;IM ∈RM×M 和 IN ∈ RN×N are是标识矩阵;p=1和链式偏差,p=2为二次偏差。在等式(2)中已经明确了偏差定义,和SVM偏差相同的样式。

变量和二次偏差是不同的,和链式偏差是相同的。我们采用了一种倾斜方法来解决优化问题。算法开始在点需要很多次迭代从移动到方向用下列负增长公式:

其中是学习率。增长计算公式为

其中它总是作为一个下降函数,我们可以找到最佳点:

其中。全部过程在算法1中总结。

       收敛。恒定学习率()。算法1保证在最佳值范围内收敛,

其中表示为的最小值,是一个和学习率有关的常量。更多细节请参考(Boyd)。在我们的实验中,我们设置迭代次数为T=1000,学习率,收敛可以被观察到。

       复杂度。对于链式偏差和二次偏差而言,RCM的时间复杂度(每次迭代)和空间复杂度都是。其中|C|是竞争总数,M和N分别为用户数和问题数目,是在图Laplacian L中非0实体个数。在分析中,我们已经假定并且

4 冷启动估计

在之前的部分已经讨论了如何估计已解决问题的困难度评分问题,通过提取配对竞争方法。然而,对于每个新提交的,还没有任何答案的问题,没有竞争能够提取,上面的方法都不奏效了。我们把这个称为冷启动问题。

       我们应用了一个启发式K最临近算法(KNN)来进行冷启动估计,还是通过影响平滑假定法。关键的想法是从解决的很好的问题中根据文本描述来扩散困难度分数来进行冷启动。特别地,假定存在一个解决的很好的问题的集合,它们的困难度分数已经被QDE方法评估了。给定一个冷启动问题q*,我们刚开始选择K个和q*文本描述相近且解决完毕的问题作为相邻问题。q*的困难度分数可以预测它的临近问题的平均困难度分数。KNN算法解决了在冷启动和解决很好的问题之间的问题,依靠文本相似度,可以有效地解决处理冷启动问题。

5 实验

我们已经从实验中测试了除了RCM估计解决问题和冷启动问题的预估困难度评分准确度。除此之外,我们已经明白了一个单词的困难度如何被RCM有效地测量。

5.1 实验设置

数据集。我们获得了一个来自Stack Overflow在2008六月31号到2012年8月1号之间的公开可用的数据集,包含多个种类的QA线程。我们考虑了“C++编程”和“数学”分类,从每个种类中随机地取样自10000QA线程在,分别表示为SO.CPP和SO/Math。对于每个问题,我们把标题和内容域作为文本描述。对于在标准列表和单词中的数据集和停止符,总的频率不小于10。表1给出了数据集的统计结果。

为了更好地平谷记过,我们从数据集中随机地去养了600个问题匹配来比较每个问题困难度。我们有两个毕业生主要参与到计算机科学相关的SO/CPP问题中,两个主要参与到SO/Math问题。对于每个问题,仅有标题,内容和标签提供给实验人员。给定一个问题对(q1,q2),实验人员被要求给定三个标记,分别表示为问题q1比问题q2有一个更高、更低或者相同的问题困难度评分。我们用Cohen的κ系数来测量实验者之间的满意度。结果是SO/CPP为κ=0.7533,SO/Math的κ=0.8017,结果表明饰演者之间的满意度在两个数据集之间是有相当充实的。在移出和问题不相关的匹配之后,有521个描述SO/CPP的问题对,539个SO/Math问题对。

后来我们把问题对随机划分为发展/测试/冷启动集合,比例为2:2:1。开始两个集合被用来评估已解决困难的困难度。特别低,发展集合被用来参数调整,测试集合被用来改进方法。最后一个测试机和被用来平谷冷启动方法,在这个机和的问题中包含自RCM的学习进程和基线方法。

基线方法。我们考虑了三个极限方法:页排序(PR),TrueSkill(TS)和CM方法,都是仅仅基于RCM匹配竞争。

PR首先由一个竞争图组成,如果竞争者j击败了竞争者i,那么创建一个从竞争者i和竞争者j的边缘。页排序算法是利用了节点关联关系的重要性,也就是说问题困难度评分和用户专业度评分,这个阻塞因子从0.1调整到0.9,每次调整0.1。

TS已经被Liu应用到QDE上了。我们按照他们建议的方式来设置模型参数。

CM通过等式3来解决QDE。我们设置λ1为0,0.01,0.02,0.05,0.1,0.2,0.5,1。

我们把RCM与基线方法比较一下。在RCM中,参数λ1和λ2都设置为0,0.01,0.02,0.05,0.1,0.2,0.5,1。

       规范规范。我们把准确率作为测量规范:

如果一对问题根据相关困难度排名是一致的,那么这个问题对将被视为是正确的。精确度越高,这个方法的表现越好。

5.2 已解决问题的估计

第一个实验测试已解决问题的困难度评分预估。

       估计的准确度。我们首先比较了PR,TS,CM和RCM在SO/CPP和SO/Math数据集的准确度,发展集合决定最佳参数设置。表2是结果,其中“H”表示线性偏差,“O”表示二次偏差。在RCM中,计算图Laplacian L,我们采用了布尔变量权重模式和Jaccard系数作为相似度测量方法。从结果中我们可以得到1)RCM在所有数据集上的表现明显比其他基线方法更好(t-test,p-value<0.05),阐述了扩展QDE问题描述。2)RCM想比其他基线方法在SO/Math比SO/CPP提升更大,所以SO/Math的文本描述更能影响问题的困难度等级。结论是SO/Math问题是分布更不均匀,属于多个领域的数学问题。难度差异在不同子领域之间有时也是很明显的(例如通用分类方面的问题难度一定比线性代数更难),使得文本描述在区分问题的难度等级上更加有效。

       图形化调和算子变量。我们后来把不同变量的权重模式和相似度测量方法整合入一张图形调和算子中。每项的权重模式决定了一个问题的文本描述如何展现。我们扩展了一个布尔模式,三TF模式和3TFIDF模式。这些相似的测量方法确定了两个问题间的文本相似度如何计算。我们扩展了Cosine相似度和Jaccard系数。细节描述在表3中。

图2和图3分别展现了在测试集SO/CPP 和SO/Math 傻狗RCM变量的估计准确度,又一次通过在发展集合获得了最佳参数设置。CM的表现在图中也给出了(图中的直线部分)。从结果中我们可以看到1)所有的RCM变量在两个数据集中都比CM表现得好,大部分提升是很明显的(t-test,p-value<0.05)。在后面将会阐述并入文本描述的影响不被变量权重模式或相似性测量的特殊选择而影响。2)布尔变量权重模式表现的最好,考虑不同的相似度测量方法,偏差类型和数据集的完整性。3)Jaccard系数在SO/Math表现的和Cosine相似度一样好,但是在SO/CPP上面更高。通过实验,我们采用布尔变量权重模式和Jaccard系数来计算图形调和算子。

5.3 冷启动问题估计

第二个实验测试了这个方法在估计冷启动问题的困难度评分表现。我们采用了布尔变量权重模式来表示一个冷启动问题,并且利用Jacard系数来选择最近的相邻点。

       图4和图5分别列出了不同的方法在SO/CPP和SO/Math上的冷启动估计准确度,用不同的K个用户(最近点的数目)。在K小于11时,SO/CPP准确度十分不稳定,小于6时,SO/Math十分不稳定,我们测量了K在SO/CPP范围[11,20]和SO/Math范围[6,15]时的结果。平均(不同的K值)冷启动估计准确度在后面表4给出。所有的结果都记录在冷启动集合中,最佳参数设置方法在5.2部分采用。从结果中我们可以看出1)冷启动估计是可能的,通过选择一个合适的方法(例如RCM)可以实现一个相当高的准确度,实际应用在问题路由和更好的鼓励机制设计中。2)K变量的值(红/蓝点状线)在相同偏差类型中对CM影响更大,和PR、TS(灰色点状线)相同,在冷启动估计上展现了RCM的优势。3)冷启动估计精确度在SO/Math比SO/CPP更高,有一次表示出在SO/Math在文本描述中对困难度影响的重要性。这个和5.2节的环境观察结果相一致。

5.4 词汇的难度等级

第三个实验探索了一个词语的难度等级如何通过RCM算法自动测量。

       在SO/CPP和SO/Math中,我们已经把问题难度评分范围(由RCM评估)限定在10个桶内,然后把问题根据难度评分分配在这些桶中。一个更大的桶ID表示为一个更高难度等级。然后,给定一个单词w,用下述方法判断它在每个桶中出现的频率:

为了使得频率更有意义,少于50个问题的桶将被舍弃。我们从每个数据集中选择了四个单词作为例子。他们的在不同桶中的参数频率如图6和图7所示。

在SO/CPP中,我们观察到“array”和”string”在问题中有更高的频率却是低难度,”virtual”更高,然后”multithread”最高。直觉告诉我们,”array”和”string”通常是和一些编程语言基础方面有关联,然而”virtual”和”multithread”通常和更多高级的主题相关。相似的现象在SO/Math中也可以被观察到。结果表示为RCM能够提供一种自动化的方法来测量单词的困难度等级。

6 相关工作

QDE在估计任务复杂度等级和专业度级别上有重大作用。在这个问题上的研究主要分为两类:1)基于二元响应和2)基于部分顺序响应。在第一类中,二元响应(即由用户提供的答案是否正确)可以被观察到,基于变量响应理论技术在后面将会得到应用。第二种,部分顺序响应,基于配对比较方法在后面也得到了采用。QDE属于未来。

 

       对于我们来说最重要的工作是Liu提出的有关在QA服务中基于配对比较的方法来估计问题困难度等级。他们已经叙述了一个相似的方法用来估计用户的专业度级别。Yang和Chen也提出了基于配对比较的方法用来进行任务困难度比较和在众包设置中进行聚合排名。我们的工作和之间基于配对比较的方法不同之处在于我们更好地利用了文本描述信息,公式化为一个多方面的规范。

       多样规范化对于机器学习来说是一个几何学有关且有效的框架,可以使机器学习模型变得平滑,表示为数据的几何学结构。在这个框架中,纬度进行减少和半监督学习算法已经建立成功。由于维度减少了,多样规范化被用来保证相邻点有相似的低维度表现,在半监督学习中他被用来确保相邻点有相似的标签。在我们的工作中,我们假定相邻的问题(在文本相似度方面)将会有相似的困难度等级。

       预测文本的阅读复杂度等级也是一个重要的问题。它自动化寻找资源来提升学生的阅读能力,同时也能够帮助人们进行私人化的网页寻找。在预测阅读难度等级任务中,文本目标人群的不同需求强度已成定局,而且它可以很容易地从网络中获得。然而,仍然不能自然地给我们网络上的QDE任务做批注。其他相关的问题包括给搜索引擎做查询差异估计和在自动化问答系统中做问题差异估计。在这些任务中,查询/问题差异是面向系统的,且和与人类知识不相关的任务,和我们的设置是有点不同的。

7 总结和下一步工作

       在本论文中,我们提出了一个新颖的方法用来在CQA服务中估计问题困难度等级,我们称为周期竞赛模型算法(RCM)。它在包含问题-用户比较的文本描述方面有巨大的优势,因此能够有效地处理数据稀疏和更精确的估计。我们同样采用了一个K-最临近点方法用来估计冷启动问题的难度等级。在两个公开有效数据集上做的实验表明RCM方法相比现存的方法在估计任务上有巨大的优势,无论是已解决问题还是冷启动问题都有明显提升,阐释了并入文本信息的优势。我们也观察到了RCM能够自动化地测量单词的知识等级。

       在未来的工作中,我们打算1)强化RCM的效率和扩展性。3.2节分析了算法的复杂度,表明RCM算法的瓶颈是存储和生成调和算子图像。我们将会研究如何处理这个瓶颈,例如通过并行分布式运算。2)把RCM应用到非技术领域,例如雅虎的“新闻”类别!我们可能无法明确地区分回答者是否为该领域的专家,它可能比区分出问题是“简单问题”还是“困难问题”还要难。但研究RCM是否能在这些领域仍然奏效是值得的。

 

其他

李佳政 计算机1402班20143616

 

8原文

Regularized Competition Model for Question Difficulty Estimation in

Community Question Answering Services

Quan Wang† Jing Liu‡ BinWang† Li Guo†

†Institute ofInformation Engineering, Chinese Academy of Sciences, Beijing, P. R. China

{wangquan,wangbin,guoli}@iie.ac.cn

‡Harbin Instituteof Technology, Harbin, P. R. China

jliu@ir.hit.edu.cn

已放入附件中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值