AUTOMATIC CLASSIFICATION OF QUESTIONS INTO BLOOM‘S COGNITIVE LEVELS USING SUPPORT VECTOR MACHINES

最新推荐文章于 2024-09-15 11:28:58 发布

三月七꧁ ꧂

最新推荐文章于 2024-09-15 11:28:58 发布

阅读量598

点赞数 11

分类专栏：论文合集文章标签：语言模型 chatgpt prompt 人工智能自然语言处理 gpt llama

本文链接：https://blog.csdn.net/weixin_43961909/article/details/141175389

版权

论文合集专栏收录该内容

52 篇文章 0 订阅

订阅专栏

文章目录

题目

使用支持向量机将问题自动分类到布鲁姆认知水平

在这里插入图片描述

论文地址:https://www.researchgate.net/publication/259463287_Automatic_Classification_of_Questions_into_Bloom’s_Cognitive_Levels_using_Support_Vector_Machines

摘要

近年来，电子学习日益成为教育机构中一项有前途的技术。在电子学习系统的众多组件中，问题库是最重要的组件。问题库是一个问题库，可帮助学生和教师完成教育过程。在问题库中，问题根据预定义的标准（如布卢姆认知水平）进行注释、存储和检索。毫无疑问，对于问题库管理，根据布卢姆认知水平自动对问题进行分类尤其有益。本文探讨了支持向量机 (SVM) 在解决将问题分类到布卢姆认知水平的问题方面的有效性。为此，我们收集了一个预分类问题的数据集。每个问题都经过删除标点符号和停用词、标记、词干提取、术语加权和长度规范化等处理。使用 SVM-Light 软件包，我们分别在约 70% 和 30% 的数据集上构建和评估了 SVM 分类器（即线性核）。初步结果表明，SVM 在分类准确率和精确度方面具有令人满意的效果。然而，由于当前数据集规模较小，分类器的召回率和 F 度量结果表明需要对更大的数据集进行进一步实验才能获得确切结果。关键词：电子学习、问题库、文本分类、布鲁姆分类法、机器学习。

不可否认的事实是，计算机和互联网技术的出现在许多方面极大地影响了教育系统，教育机构中电子学习系统的不断发展就是明确的证据。电子学习系统的一个基本组成部分是题库，题目存储在数据库中，以便用户检索进行测试或练习。通常，每年的每次考试或考试时都会定期收集题目，并根据预定义的标准（例如难度级别、课程领域或要测试的技能类型（布鲁姆的认知水平）等）进行存储。题库可用于设计更有效的评估，通过允许为每个测试或学生选择一组独特的题目，以考察特定或个性化的技能和能力水平。

因此，题库需要最好的管理，例如组织、分类和检索，以供用户充分利用。通常，题目的分类是手动完成的，这不仅耗时，而且繁琐且容易出错。为了避免这些困难，需要系统化和自动化的方法来管理问题库。在用于对问题库中的问题进行分类的标准中，布鲁姆的认知水平（BCL）是最重要的标准之一。一般来说，在教育领域，布鲁姆分类法是一个重要的概念，它指导教育工作者制定学习目标、准备课程和创建评估。在对思维行为进行分类的过程中，本杰明·布鲁姆[1]确定了三个领域：认知（心理技能）、情感（感觉或情绪领域的发展）和心理运动（体力或身体技能）。为了便于本文介绍，仅介绍认知领域。

认知领域涉及知识和智力技能的发展。有六个主要类别，按以下顺序列出，从最简单的行为到最复杂的行为。

知识：回忆数据或信息或特定项目，记住一些术语的定义。
理解：回忆但多做一点（例如在一定程度上解释、定义和讨论），理解指令和问题的含义、翻译、插入和解释。
应用：执行上述所有操作，但可以获取抽象性质的信息并将其用于新情况或无提示地使用抽象。将课堂上学到的知识应用到工作场所的新情况中。
分析：将交流分解为其组成部分，揭示它们之间的关系。将材料或概念分成组成部分，以便理解其组织结构。
综合：将许多杂乱无章的元素或部分组合在一起形成一个整体。从不同的元素构建结构或模式。将各部分组合在一起形成一个整体，重点是创建新的含义或结构。
评估：对材料或方法的价值做出判断。对想法或材料的价值做出判断。

显然，将问题自动分类为 BCL 的任务可以归结为文本分类问题。在信息系统领域，文本分类是根据自然语言文本的内容自动将其分配到预定义的类别中。它也被视为文本挖掘的实例，文本挖掘是数据挖掘的一个子领域，它试图通过分析大量文本和检测使用模式来提取可能有用的信息。自 20 世纪 60 年代初首次出现以来，它已在许多应用程序中使用，要么明确地作为主要技术，要么隐含地作为其他应用程序的支持技术。在电子学习领域，文本分类已用于许多应用程序中，本文介绍了文本分类技术在电子学习领域的一种新应用。更具体地说，本文提出使用 SVM 来解决将问题自动分类到不同 BCL 的问题。尽管已经开发了各种各样的文本分类技术，但 SVM 因其优于其他技术而被选中。

BCL 的 SVM 问题分类

SVM 是一种新兴的机器学习方法，作为一种更可行的方法，引起了广泛关注一种替代其他更成熟的方法，如神经网络和最近邻算法。七十年代末，该方法作为统计学习技术被引入，是 Vladimir Vapnik 研究的成果，二十世纪九十年代，Vapnik 和 AT&T 贝尔实验室的其他人对其进行了进一步发展。SVM 是一种监督式机器学习算法，使用两组数据的训练样本来训练它区分两组数据。在其最简单的形式中，当用作二元分类器时，SVM 的训练将构建一个超平面，该超平面充当两组数据之间的决策面。这是通过最大化超平面与其最近点之间的分离边界来实现的，如图 1 所示。训练完成后，可以通过确定新数据相对于超平面的位置对其进行分类。

在这里插入图片描述

将 SVM 方法引入文本分类，随后被许多研究人员使用。在这些研究中，一些作者表明，SVM 提供了一种从示例中学习文本分类器的快速有效方法。Joachims认为，由于文本的固有特性（例如高维输入空间、少量不相关特征、文档向量稀疏性以及大多数文本分类问题都是线性可分的），SVM 非常适合文本分类。由于 SVM 能够在高维特征空间中很好地推广，因此无需进行特征选择，从而使文本分类的应用变得相当容易。SVM 相对于传统方法的另一个优势是其鲁棒性。

此外，SVM 不需要任何参数调整，因为它们可以自动找到良好的参数设置。所有这些都使 SVM 成为一种非常有前途且易于使用的从示例中学习文本分类器的方法。使用 SVM 设计文本分类系统需要三个主要步骤：文本表示、分类器构建和分类器评估。在文本表示步骤中，使用文本表示方法将文本映射到适合后续步骤的紧凑内容表示中。在分类器构建步骤中，通过观察领域专家手动归类为 ci 或 i c 的一组文本的特征，为每个类 ci 自动构建 SVM 分类器。在分类器评估步骤中，通过收集新的未见过的文本应具有的特征来评估 SVM 分类器，以便将其归类为 ci。在下一小节中，将详细描述如何使用 SVM 解决将问题分类为 BCL 的问题。

问题表示如上所述，SVM 不能直接解释文本，因此，需要统一应用转换过程将问题 qj 的文本映射到其内容的紧凑表示中。在本研究中，采用的表示问题 qj 的方法是使用术语权重向量 <w1j , …, wTj>，其中 T 是在至少一个问题中至少出现一次的术语集（有时称为特征），0 ≤ wkj ≤ 1 表示术语 tk 对问题 qj 的语义的贡献程度。术语权重可以是二进制权重（1 表示问题中存在该术语，0 表示不存在该术语）；也可以是非二进制权重，具体取决于所使用的分类器构建算法。对于 SVM，使用非二进制权重。更准确地说，使用标准 tfidf 函数，其定义为 ) ( # log )。 , ( # ) , ( k j k j k t Tr Tr q t q t tfidf = (1)
其中 #(tk, qj) 表示 tk 在 qj 中出现的次数，而 #Tr(tk) 表示术语 tk 的问题频率，即 tk 出现的问题数量。

为了应用上述表示，应该对问题进行预处理，包括：

将问题文本缩减为小写字符。
删除标点符号：从问题中删除所有类型的标点符号。
删除停用词：删除 SMART 系统的停用词列表中出现的任何单词（可在 ftp://ftp.cs.cornell.edu/pub/smart/english.stop 找到）。
标记化：标记是非空白字符的最大序列。在此过程中，纯数字组成的标记将被丢弃。
词干提取：使用 Porter 词干提取器 [16] 对标记进行词干提取。

在对问题文本进行预处理后，按照公式 1 计算词权重，并应用长度归一化，如下所示在这里插入图片描述
具有新项权重的向量将用作后续步骤的输入。SVM 分类器构建如上所述，构建 SVM 算法会找到一个线性决策面（超平面），该面与某个类别的正训练示例和负训练示例之间的边距最大。在此步骤中，使用数据集的一部分（称为训练集）为每个类别训练一个 SVM 分类器。此步骤可以使用当前可用的 SVM 工具之一来完成。在本研究中，使用了 SVM-Light包，版本 6.02。它可从 http://svmlight.joachims.org/ 免费获取。

应该提到的是，可以使用使用非线性核函数的 SVM，但在过去的文本分类研究中并未表现出显着的优势，因此这里没有对其进行研究。SVM 分类器评估可以使用几种方法来评估 SVM 对单个 BCL 类的有效性。这些指标的计算主要取决于从每个类的测试集的分类中获得的列联表。列联表主要包含以下值：

A ：系统正确分配给该类别的文档数（真阳性），
B ：系统错误分配给该类别的文档数（假阳性），
C ：属于该类别但系统未分配给该类别的文档数（假阴性），
D ：系统正确未分配给该类别的文档数（真阴性），以下是用于评估 SVM 分类器有效性的常用指标。
精度：如果随机文档 dx 被归类为 ci，则该决定正确的概率。

它可以被视为分类器相对于该类的“健全度”。即 B A A P + = (3) •

回想一下：如果一个随机问题应该被归类为 ci ，则做出该决定的概率。它可以被视为分类器相对于该类的完整性程度。即在这里插入图片描述
Fβ 度量：它是召回率和准确率的调和平均值，当 β=1.0 时，定义如下
准确度：分类器的准确度定义如下
除了上述针对单个类别的分类器的测量方法外，还可以通过宏观平均值（所有类别的有效性的未加权平均值）和微观平均值（根据每个类别的列联表总和计算出的有效性）来衡量一组类别的有效性。

结果与讨论

当前使用的数据集是从布鲁姆分类学文献的许多网站上收集的。收集到的数据集已按照第 3.1 节所述进行处理，并分为训练集（约占数据集的 70%）和测试集（约占数据集的 30%）。表 1 显示了数据集的统计数据。如表所示，数据集的大小为 272，训练集和测试集的大小分别为 190 和 82。
在这里插入图片描述

表 2 显示了问题样本及其对应的 BCLs 类。在使用 SVM-light 构建 SVM 的步骤中，所有参数均保留为默认值。这特别意味着，使用了线性核（通过保留 -t 未指定）、所有示例（无论是正例还是负例）的权重相等（通过保留 -j 未指定），并将训练误差和边际之间的权衡 C 设置为训练示例的平均欧几里得范数的倒数（通过保留 -c 未指定）。由于使用了余弦归一化训练示例，保留 -c 未指定意味着 C 设置为大约 1.0。
在这里插入图片描述

得到的结果总结在表 3、表 4 和表 5 中。表 3 包含每个 BCLs 类别的列联表结果。它还列出了每个 BCLs 类别的 SVM 分类的所有类别的列联表结果以及所有 BCLs 的总数。这些结果是从测试集的 SVM 分类中获得的。

在这里插入图片描述

表 4 包含每个 BCL 类别的分类有效性度量（准确率、精确度、召回率和 F 度量）的报告结果。
这些结果是使用第 3.3 节中所述的列联表结果计算得出的。
在这里插入图片描述

此外，表 5 还列出了测量计算的宏观平均值和微观平均值的结果。
在这里插入图片描述

从以上结果并将其与文献中关于 SVM 在其他领域进行文本分类的有效性的结果进行比较，可以得出结论，准确度和精确度指标令人满意，而召回率指标的结果不令人满意，从而影响了 F 值。虽然可以注意到，对于某些 BCL，召回率值在某种程度上是可以接受的，但总体效果不佳。上述结果可以根据所用数据集的大小以及问题的长度来解释。

结论

本文将文本分类技术引入到电子学习领域的新应用。它探讨了 SVM 在将问题分类到布鲁姆认知水平方面的有效性，这在问题库管理系统中尤为重要。对预分类问题的数据集进行了处理并将其分为训练集和测试集，通过使用 SVM-light 工具，构建了一个线性核 SVM，并使用几种有效性度量对其进行了评估。所进行的实验的初步结果表明，SVM 在准确度和精确度测量方面表现令人满意，但报告的召回率和 F 度量值较差。召回率较差的原因可能是数据集较小，以及由于问题相对较短导致每个类别的线索项较少。这项工作的下一阶段将重点放在对大型数据集进行实验，以便在召回率和 F 度量方面获得更具决定性的结果。将来，将利用问题的句法结构和语义知识来提高召回率和 F 度量的有效性。