AUTOMATIC CLASSIFICATION OF QUESTIONS INTO BLOOM‘S COGNITIVE LEVELS USING SUPPORT VECTOR MACHINES

题目

使用支持向量机将问题自动分类到布鲁姆认知水平

在这里插入图片描述

论文地址:https://www.researchgate.net/publication/259463287_Automatic_Classification_of_Questions_into_Bloom’s_Cognitive_Levels_using_Support_Vector_Machines

摘要

    近年来,电子学习日益成为教育机构中一项有前途的技术。在电子学习系统的众多组件中,问题库是最重要的组件。问题库是一个问题库,可帮助学生和教师完成教育过程。在问题库中,问题根据预定义的标准(如布卢姆认知水平)进行注释、存储和检索。毫无疑问,对于问题库管理,根据布卢姆认知水平自动对问题进行分类尤其有益。本文探讨了支持向量机 (SVM) 在解决将问题分类到布卢姆认知水平的问题方面的有效性。为此,我们收集了一个预分类问题的数据集。 每个问题都经过删除标点符号和停用词、标记、词干提取、术语加权和长度规范化等处理。使用 SVM-Light 软件包,我们分别在约 70% 和 30% 的数据集上构建和评估了 SVM 分类器(即线性核)。初步结果表明,SVM 在分类准确率和精确度方面具有令人满意的效果。然而,由于当前数据集规模较小,分类器的召回率和 F 度量结果表明需要对更大的数据集进行进一步实验才能获得确切结果。关键词:电子学习、问题库、文本分类、布鲁姆分类法、机器学习。

    不可否认的事实是,计算机和互联网技术的出现在许多方面极大地影响了教育系统,教育机构中电子学习系统的不断发展就是明确的证据。电子学习系统的一个基本组成部分是题库,题目存储在数据库中,以便用户检索进行测试或练习。通常,每年的每次考试或考试时都会定期收集题目,并根据预定义的标准(例如难度级别、课程领域或要测试的技能类型(布鲁姆的认知水平)等)进行存储。题库可用于设计更有效的评估,通过允许为每个测试或学生选择一组独特的题目,以考察特定或个性化的技能和能力水平。

    因此,题库需要最好的管理,例如组织、分类和检索,以供用户充分利用。通常,题目的分类是手动完成的,这不仅耗时,而且繁琐且容易出错。为了避免这些困难,需要系统化和自动化的方法来管理问题库。在用于对问题库中的问题进行分类的标准中,布鲁姆的认知水平(BCL)是最重要的标准之一。一般来说,在教育领域,布鲁姆分类法是一个重要的概念,它指导教育工作者制定学习目标、准备课程和创建评估。在对思维行为进行分类的过程中,本杰明·布鲁姆[1]确定了三个领域:认知(心理技能)、情感(感觉或情绪领域的发展)和心理运动(体力或身体技能)。为了便于本文介绍,仅介绍认知领域。

    认知领域涉及知识和智力技能的发展。有六个主要类别,按以下顺序列出,从最简单的行为到最复杂的行为。

  • 知识:回忆数据或信息或特定项目,记住一些术语的定义。
  • 理解:回忆但多做一点(例如 在一定程度上解释、定义和讨论),理解指令和问题的含义、翻译、插入和解释。
  • 应用:执行上述所有操作,但可以获取抽象性质的信息并将其用于新情况或无提示地使用抽象。将课堂上学到的知识应用到工作场所的新情况中。
  • 分析:将交流分解为其组成部分,揭示它们之间的关系。将材料或概念分成组成部分,以便理解其组织结构。
  • 综合:将许多杂乱无章的元素或部分组合在一起形成一个整体。从不同的元素构建结构或模式。将各部分组合在一起形成一个整体,重点是创建新的含义或结构。
  • 评估:对材料或方法的价值做出判断。对想法或材料的价值做出判断。

    显然,将问题自动分类为 BCL 的任务可以归结为文本分类问题。在信息系统领域,文本分类是根据自然语言文本的内容自动将其分配到预定义的类别中。它也被视为文本挖掘的实例,文本挖掘是数据挖掘的一个子领域,它试图通过分析大量文本和检测使用模式来提取可能有用的信息。自 20 世纪 60 年代初首次出现以来,它已在许多应用程序中使用,要么明确地作为主要技术,要么隐含地作为其他应用程序的支持技术。在电子学习领域,文本分类已用于许多应用程序中,本文介绍了文本分类技术在电子学习领域的一种新应用。更具体地说,本文提出使用 SVM 来解决将问题自动分类到不同 BCL 的问题。尽管已经开发了各种各样的文本分类技术,但 SVM 因其优于其他技术而被选中。

相关工作

    如上所述,本文的目的是利用 SVM 在文本分类中的卓越性能来解决将问题分类到不同 BCL 中的问题。因此,本节阐明了一般的文本分类技术及其在问题分类中的具体应用。文本分类拥有相当丰富的文献。文本分类工作可以分为两个阶段。在 80 年代,创建自动文本分类器最流行的方法是知识工程技术。通常是一组手动定义的逻辑规则,每个类一个,类型为 if DNF 公式 i then hcategory i,其中 DNF(析取范式)公式是连词子句的析取。当且仅当文本满足公式,即当且仅当文本满足至少一个子句时,文本才被归类为 i 类。这种方法的缺点是专家系统文献中众所周知的知识获取瓶颈。

    文本分类工作的第二阶段始于 90 年代初,机器学习方法逐渐流行,并最终成为主导方法,至少在研究界是如此。在这种方法中,一般归纳过程(也称为学习者)通过观察领域专家手动归类为 ci 或 i c 的一组文本的特征,自动为给定的 ci 类构建分类器;从这些特征中,归纳过程收集新的未见文本应具有哪些特征才能归入 ci 分类。

    如上所述,自 20 世纪 60 年代初首次出现以来,它已用于大量应用,其中最值得一提的是受控词汇索引、新闻和其他文本流的路由和打包、内容过滤、词义消歧、网页的分层分类。除此之外,它还作为一种支持技术隐式应用于其他应用,例如通过语音识别和文本分类相结合的语音分类、通过分析文本标题进行的多媒体文档分类、作者身份不明或有争议的文学文本的作者识别、语言未知文本的语言识别、文本类型的自动识别和自动论文评分。

    在问题的自动分类方面,已有多项研究报告了文本分类技术的使用。在其中的一项工作中,人工神经网络被提出用于问题分类,其中反向传播神经网络被用作文本分类器,将问题分为三个难度等级:易、中、难。在这项工作中,一个五维特征向量被用作反向传播神经网络的输入。这个五维特征向量包括查询文本相关性、平均词频、问题和答案的长度、词频分布以及文本中问题和答案的分布。

    另一项使用文本分类技术进行问题分类的工作在中报道,它侧重于一种特定类型的问题,称为开放式问题。这种类型的问题可以分解为识别预期响应的格式和内容的类别。在这项工作中,SVM 被成功地用于开放式问题的分类。一项有趣的问题分类工作在中提出。在这项工作中,提出了一种用于管理问题库的适应性学习辅助工具。

    该工具不仅能够自动帮助教育用户根据内容将问题项目分类到预定义的类别中,而且还可以通过指定类别和/或难度级别正确地检索项目。系统采用分类学习模型来使用传入的问题来提高系统的分类性能。该系统在系统准确性和用户满意度方面进行了测试和评估。评估结果表明,系统准确性是可以接受的,满足了用户的需求。

BCL 的 SVM 问题分类

    SVM 是一种新兴的机器学习方法,作为一种更可行的方法,引起了广泛关注一种替代其他更成熟的方法,如神经网络和最近邻算法。七十年代末,该方法作为统计学习技术被引入,是 Vladimir Vapnik 研究的成果,二十世纪九十年代,Vapnik 和 AT&T 贝尔实验室的其他人对其进行了进一步发展。SVM 是一种监督式机器学习算法,使用两组数据的训练样本来训练它区分两组数据。在其最简单的形式中,当用作二元分类器时,SVM 的训练将构建一个超平面,该超平面充当两组数据之间的决策面。这是通过最大化超平面与其最近点之间的分离边界来实现的,如图 1 所示。训练完成后,可以通过确定新数据相对于超平面的位置对其进行分类。

在这里插入图片描述

    将 SVM 方法引入文本分类,随后被许多研究人员使用。在这些研究中,一些作者表明,SVM 提供了一种从示例中学习文本分类器的快速有效方法。Joachims认为,由于文本的固有特性(例如高维输入空间、少量不相关特征、文档向量稀疏性以及大多数文本分类问题都是线性可分的),SVM 非常适合文本分类。由于 SVM 能够在高维特征空间中很好地推广,因此无需进行特征选择,从而使文本分类的应用变得相当容易。SVM 相对于传统方法的另一个优势是其鲁棒性。

    此外,SVM 不需要任何参数调整,因为它们可以自动找到良好的参数设置。所有这些都使 SVM 成为一种非常有前途且易于使用的从示例中学习文本分类器的方法。使用 SVM 设计文本分类系统需要三个主要步骤:文本表示、分类器构建和分类器评估。在文本表示步骤中,使用文本表示方法将文本映射到适合后续步骤的紧凑内容表示中。在分类器构建步骤中,通过观察领域专家手动归类为 ci 或 i c 的一组文本的特征,为每个类 ci 自动构建 SVM 分类器。在分类器评估步骤中,通过收集新的未见过的文本应具有的特征来评估 SVM 分类器,以便将其归类为 ci。在下一小节中,将详细描述如何使用 SVM 解决将问题分类为 BCL 的问题。

    问题表示如上所述,SVM 不能直接解释文本,因此,需要统一应用转换过程将问题 qj 的文本映射到其内容的紧凑表示中。在本研究中,采用的表示问题 qj 的方法是使用术语权重向量 <w1j , …, wTj>,其中 T 是在至少一个问题中至少出现一次的术语集(有时称为特征),0 ≤ wkj ≤ 1 表示术语 tk 对问题 qj 的语义的贡献程度。术语权重可以是二进制权重(1 表示问题中存在该术语,0 表示不存在该术语);也可以是非二进制权重,具体取决于所使用的分类器构建算法。对于 SVM,使用非二进制权重。更准确地说,使用标准 tfidf 函数,其定义为 ) ( # log )。 , ( # ) , ( k j k j k t Tr Tr q t q t tfidf = (1)
其中 #(tk, qj) 表示 tk 在 qj 中出现的次数,而 #Tr(tk) 表示术语 tk 的问题频率,即 tk 出现的问题数量。

    为了应用上述表示,应该对问题进行预处理,包括:

  • 将问题文本缩减为小写字符。
  • 删除标点符号:从问题中删除所有类型的标点符号。
  • 删除停用词:删除 SMART 系统的停用词列表中出现的任何单词(可在 ftp://ftp.cs.cornell.edu/pub/smart/english.stop 找到)。
  • 标记化:标记是非空白字符的最大序列。在此过程中,纯数字组成的标记将被丢弃。
  • 词干提取:使用 Porter 词干提取器 [16] 对标记进行词干提取。

    在对问题文本进行预处理后,按照公式 1 计算词权重,并应用长度归一化,如下所示在这里插入图片描述
    具有新项权重的向量将用作后续步骤的输入。SVM 分类器构建如上所述,构建 SVM 算法会找到一个线性决策面(超平面),该面与某个类别的正训练示例和负训练示例之间的边距最大。在此步骤中,使用数据集的一部分(称为训练集)为每个类别训练一个 SVM 分类器。此步骤可以使用当前可用的 SVM 工具之一来完成。在本研究中,使用了 SVM-Light包,版本 6.02。它可从 http://svmlight.joachims.org/ 免费获取。

    应该提到的是,可以使用使用非线性核函数的 SVM,但在过去的文本分类研究中并未表现出显着的优势,因此这里没有对其进行研究。SVM 分类器评估 可以使用几种方法来评估 SVM 对单个 BCL 类的有效性。这些指标的计算主要取决于从每个类的测试集的分类中获得的列联表。列联表主要包含以下值:

  • A :系统正确分配给该类别的文档数(真阳性),
  • B :系统错误分配给该类别的文档数(假阳性),
  • C :属于该类别但系统未分配给该类别的文档数(假阴性),
  • D :系统正确未分配给该类别的文档数(真阴性),以下是用于评估 SVM 分类器有效性的常用指标。
  • 精度:如果随机文档 dx 被归类为 ci,则该决定正确的概率。

    它可以被视为分类器相对于该类的“健全度”。即B A A P + = (3) •

回想一下:如果一个随机问题应该被归类为 ci ,则做出该决定的概率。它可以被视为分类器相对于该类的完整性程度。即在这里插入图片描述
Fβ 度量:它是召回率和准确率的调和平均值,当 β=1.0 时,定义如下在这里插入图片描述
准确度:分类器的准确度定义如下
除了上述针对单个类别的分类器的测量方法外,还可以通过宏观平均值(所有类别的有效性的未加权平均值)和微观平均值(根据每个类别的列联表总和计算出的有效性)来衡量一组类别的有效性。

结果与讨论

    当前使用的数据集是从布鲁姆分类学文献的许多网站上收集的。收集到的数据集已按照第 3.1 节所述进行处理,并分为训练集(约占数据集的 70%)和测试集(约占数据集的 30%)。表 1 显示了数据集的统计数据。如表所示,数据集的大小为 272,训练集和测试集的大小分别为 190 和 82。
在这里插入图片描述

    表 2 显示了问题样本及其对应的 BCLs 类。在使用 SVM-light 构建 SVM 的步骤中,所有参数均保留为默认值。这特别意味着,使用了线性核(通过保留 -t 未指定)、所有示例(无论是正例还是负例)的权重相等(通过保留 -j 未指定),并将训练误差和边际之间的权衡 C 设置为训练示例的平均欧几里得范数的倒数(通过保留 -c 未指定)。由于使用了余弦归一化训练示例,保留 -c 未指定意味着 C 设置为大约 1.0。
在这里插入图片描述

    得到的结果总结在表 3、表 4 和表 5 中。表 3 包含每个 BCLs 类别的列联表结果。它还列出了每个 BCLs 类别的 SVM 分类的所有类别的列联表结果以及所有 BCLs 的总数。这些结果是从测试集的 SVM 分类中获得的。

在这里插入图片描述

表 4 包含每个 BCL 类别的分类有效性度量(准确率、精确度、召回率和 F 度量)的报告结果。
这些结果是使用第 3.3 节中所述的列联表结果计算得出的。
在这里插入图片描述

此外,表 5 还列出了测量计算的宏观平均值和微观平均值的结果。
在这里插入图片描述

    从以上结果并将其与文献中关于 SVM 在其他领域进行文本分类的有效性的结果进行比较,可以得出结论,准确度和精确度指标令人满意,而召回率指标的结果不令人满意,从而影响了 F 值。虽然可以注意到,对于某些 BCL,召回率值在某种程度上是可以接受的,但总体效果不佳。上述结果可以根据所用数据集的大小以及问题的长度来解释。

结论

    本文将文本分类技术引入到电子学习领域的新应用。它探讨了 SVM 在将问题分类到布鲁姆认知水平方面的有效性,这在问题库管理系统中尤为重要。对预分类问题的数据集进行了处理并将其分为训练集和测试集,通过使用 SVM-light 工具,构建了一个线性核 SVM,并使用几种有效性度量对其进行了评估。所进行的实验的初步结果表明,SVM 在准确度和精确度测量方面表现令人满意,但报告的召回率和 F 度量值较差。召回率较差的原因可能是数据集较小,以及由于问题相对较短导致每个类别的线索项较少。这项工作的下一阶段将重点放在对大型数据集进行实验,以便在召回率和 F 度量方面获得更具决定性的结果。将来,将利用问题的句法结构和语义知识来提高召回率和 F 度量的有效性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值