知识主题间先序关系挖掘

最新推荐文章于 2022-05-25 17:16:42 发布

唐名威

最新推荐文章于 2022-05-25 17:16:42 发布

阅读量807

点赞数 1

文章标签：大数据自然语言处理算法编程语言 python

本文链接：https://blog.csdn.net/weixin_45585364/article/details/111503243

版权

本文提出了一种端到端的先序关系挖掘模型，通过分析先序关系的不对称性特征，解决了现有方法的错误累积和超链接依赖问题。模型包括术语与上下位关系抽取模块和先序关系判别模块，通过文本内容而非超链接判断先序关系，提高了先序关系挖掘的准确性。

摘要由CSDN通过智能技术生成

点击上方蓝字关注我们

知识主题间先序关系挖掘

麻珂欣^1,2, 魏笔凡^1,2, 马杰^1,2, 刘均^1,2, 黄毅³, 胡珉³, 冯俊兰³

1 西安交通大学计算机科学与技术学院，陕西西安 710049

2 陕西省天地网技术重点实验室，陕西西安 710049

3 中国移动研究院，北京 100032

摘要：先序关系指知识主题之间学习的先后依赖关系。已有的先序关系挖掘方法大多是流线型的方式，易导致错误累计，且严重依赖可能导致错误先序关系的超链接。为了解决以上问题，先对知识主题间的先序关系进行统计分析，发现了先序关系的不对称性特征；接着提出从文本中挖掘知识主题间的先序关系的端到端先序关系挖掘模型。该模型基于文本中抽取出的术语间上下位关系，计算知识主题的相关术语集间先序关系的不对称性，进而预测知识主题间的先序关系。实验结果表明，该方法具有较优的先序关系抽取性能。

关键词：先序关系, 不对称性, 端到端模型

金属质感分割线

论文引用格式：

麻珂欣,魏笔凡,马杰, 等. 知识主题间先序关系挖掘[J]. 大数据, 2020, 6(6): 26-39.

MA K X, WEI B F, MA J, et al. Mining prerequisite relations among learning objects[J]. Big Data Research, 2020, 6(6): 26-39.

金属质感分割线

1 引言

先序关系指知识主题之间学习的先后依赖顺序，即在学习一个知识主题之前必须先学习其先序知识主题。如在“概率论”课程中，学习“联合条件概率”之前要先学习“条件概率”知识主题，“条件概率”是“联合条件概率”的先序。先序关系是导航学习、学习计划制定等教育类应用的基础。

已有先序关系挖掘工作均基于学习者行为数据或文本数据挖掘先序关系。学习者行为数据指学习者的点击日志流等行为数据，其只能在成熟的课程中获得。因此，此类方法不适用于挖掘新课程领域中的先序关系。相比于学习者行为数据，文本数据更容易获得。虽然近年来有很多从文本中挖掘知识主题间先序关系的方法，但是此类方法仍然有一些问题需要被解决。

问题一：错误累积。在已有方法中，以简单规则匹配方式确定的相关术语在先序关系挖掘方法中具有重要的作用。此类方法直接确定相关术语，这会导致错误的相关术语无法在后续阶段被修正，进而产生错误的先序结果，即错误累积问题。此类方法以流线型的方式挖掘先序关系。首先根据标题匹配等规则确定相关术语，然后基于超链接挖掘先序关系。相关术语的正确性极大地影响了先序关系的预测结果。在流线型的方法中，相关术语在确定之后，无法再根据结果进行优化。

问题二：严重依赖超链接。大多数已有方法将超链接作为挖掘先序关系的重要特征。超链接仅能体现两个页面间存在某种关联，不能体现页面间有向的先序关系。以维基百科为例，“条件概率”和“联合条件概率”页面中分别存在指向彼此的超链接，但是不能根据超链接指向来判断知识主题间的先序关系。除此之外，若根据超链接判断先序关系，则在“联合条件概率”的维基百科页面上存在的指向“条件概率”的超链接，将会导致错误的先序关系，即认为“联合条件概率”是“条件概率”的先序，而事实上“条件概率”是“联合条件概率”的先序。因此，在此类方法中，超链接的使用可能会增加挖掘先序关系的难度或导致错误的先序关系结果。

为了解决以上问题，本文提出端到端先序关系挖掘模型。通过对先序关系数据集的分析，发现了先序关系的不对称性特征，即知识主题的相关术语集间的先序关系是不对称的。本文提出的端到端先序关系挖掘模型基于先序关系的不对称性特征来挖掘先序关系，使用文本中抽取出的上下位关系而不是超链接作为判断先序关系不对称性的依据。

端到端先序关系挖掘模型包含两个模块：文本中专业术语与上下位关系抽取模块和先序关系判别模块。文本中专业术语与上下位关系抽取模块可识别文本中有效文本跨距，其将作为候选专业术语，并挖掘句子中专业术语间的上下位关系。上下位关系表明了专业术语间从属的学习依赖关系，可体现专业术语间的先序关系。该模块为先序关系的不对称性计算提供了先序关系依据，也避免了依赖超链接导致的错误。先序关系判别模块基于专业术语间的上下位关系计算知识主题的相关术语集间先序关系的不对称性，从而预测知识主题之间的先序关系。本文还提出两种不同的权重策略，以探究不同相关术语对先序关系不对称性的重要性。

2 相关工作

近年来，国内外研究者提出了较多的先序关系抽取方法。根据挖掘先序关系时所依赖学习资源的不同，这些方法可分为4类：基于学习者行为数据、基于已有先序关系、基于长文本内容、基于网页信息。

（1）基于学习者行为数据

学习者行为数据通常指学习者在学习过程中的行为日志（如观看课程视频的点击日志流）或问答等互动行为。这些行为数据体现了学习者的学习方法与学习者知识储备之间的重要联系。此类方法使用不同模型从学习者的行为数据中挖掘先序关系特征。Chen W等人通过构建知识状态转移模型来捕获学习者的参与度信息，进而分析学习者的知识状态的转变过程。该方法首先分析学习者的行为数据，如播放、暂停、快进和快退等行为，然后构建学习者行为模型，从这些数据中预测学习者转变到特定知识状态的概率，进而挖掘先序关系。Chaplot D S等人综合考虑文本中概念的共现特征和学习者的行为特征（如课程的参与度以及测评分数），提出一种无监督的学习依赖图构建方法。该方法可以识别任意粒度级别（课程、单元、模块等）之间的学习依赖关系，同时证明了学生的互动行为比文本阅读更易反映学生的学习效果。此类方法不适用于新课程领域。

（2）基于已有先序关系

隐式的先序关系可从显式的关系结构中发现。已有的先序关系可构成先序关系图谱，通过分析该图谱的图特征，可预测知识主题间的先序关系。Liang C等人提出从课程先序关系中恢复概念间先序关系的方法，并指出课程之间的依赖性是由课程内主要概念间的学习依赖关系引起的。该方法从课程的描述文本中抽取出代表该课程的概念集，通过对课程间先序关系以及已有概念间先序关系的分析，根据先序关系的因果性以及稀疏性两个特征构建目标函数，达到预测未知概念间先序关系的目标。Roy S等人假设课程间先序关系已知，且不同的课程间具有部分共同的概念。他们使用主题模型衡量概念对之间的相关性，并根据主题词向量的聚类、稀疏性及简单性等特征训练神经网络，以识别概念之间的先序关系。