Generative Students: Using LLM-Simulated Student Profiles to Support Question Item Evaluation

题目

生成性学生:使用LLM模拟的学生档案支持问题项目评估

在这里插入图片描述

论文地址:https://arxiv.org/abs/2405.11591

摘要

    评估自动生成的问题项目的质量是一个长期的挑战。在本文中,我们利用LLM来模拟学生档案并生成对多项选择题(mcq)的回答。生成性学生对MCQs的回答可以进一步支持问题项目评估。我们提出生成性学生,一个基于KLI框架设计的提示架构。生成性学生简档是学生已经掌握、混淆或没有知识证据的知识成分列表的函数。我们在启发式评价的主题领域中实例化了生成性学生的概念。我们用GPT-4创造了45个生殖学生他们回答20个mcq。我们发现,生成型学生产生了符合他们个人资料的逻辑和可信的反应。然后,我们将生成性学生的回答与真实学生在同一组mcq上的回答进行了比较,发现了高度的相关性。此外,生成性学生和真实学生识别的困难问题有相当大的重叠。随后的案例研究表明,教师可以根据生成性学生提供的信号提高问题质量。

CCS概念应用计算→计算机辅助教学。

生成智能体;试题评估;生成人工智能

在这里插入图片描述

图1:生成性学生提示架构的设计基于KLI框架,该框架使用知识组件(KC)来定义学生期望学习的元素。在为给定任务(a)识别出知识的情况下,生成性学生的简档是学生已经掌握、对知识(b)有困惑或没有知识证据的知识列表的函数。用户可以为给定的任务定义主提示、混淆提示和未知提示©。因此,这种体系结构支持自动创建多样化的学生档案(d)。

引言

    几十年的教育研究表明,主动学习[9,12,15,26],一对一辅导[6,24]和有意识的练习[16,17]在提高学生的学习成绩方面大有裨益。这些理论强调了为学生提供动手解决问题和回答问题的机会以促进学习的好处。长期以来,教育界一直对大规模学习和人工智能感兴趣,研究有效的问题生成技术[5,28],以支持大规模创建高质量的问题项目,从而增强主动学习、辅导和有意练习。多项选择题的产生特别令人感兴趣,因为它们在评分的简易性和反馈的自动提供方面具有实用价值[5,28,42,46,47,50]。

    先前的工作已经探索了多种方法来支持出于教育目的的多项选择问题创建,包括来自学生的众包问题[42,57],细读先前学生的解决方案和错误以生成新问题[46,47],使用教师-人工智能协作方法,其中教师接收人工智能建议[29],以及利用人工智能的全自动技术[5,13,21,28,30,31,43,48,50]。随着生成式人工智能的发展,人们对使用ChatGPT [2]等生成式人工智能工具来创建测验问题越来越感兴趣。一些大学为教师提供了示例提示,以使用ChatGPT [1,3]创建低风险评估问题。这一运动增加了我们获得大型问题池的可能性,但我们如何知道生成的问题是否是高质量的呢?除了专家和学生同伴的面部评估[29,42,50],心理测量学方法仍然是评估问题项目质量的主流方法。常见的心理测量方法通过测试中问题项目的内部一致性来评估测试的可靠性,例如,使用Rasch模型[54],项目反应理论(IRT)模型[20],或Cronbach’s alpha [11,47]。一个独特的挑战是,这种模型需要大量的响应数据来有效地剔除低质量(不一致)的问题项目,这使得心理测量方法在大多数大学课堂上使用起来既昂贵又不切实际。虽然教师可能能够在学期之间应用心理测量方法,但大多数教师在第一次布置问题时无法获得学生的回答数据。

    我们提出了一个模块化的提示架构生成学生,其中我们利用大型语言模型(LLM)来模拟学生档案。在本文中,我们证明了我们可以让生成性学生回答多项选择问题,并使用这些回答来识别不可靠的问题项。prompt架构的设计基于知识学习指导框架[25],该框架使用知识组件(KC)来定义学生应该学习的元素。在生成性学生中,我们通过学生掌握的知识来模拟他们的个人资料。特别是,对于每一个给定的知识,学生可能已经掌握了它,对它感到困惑,或者没有表现出对它的理解。学生档案本质上是他们已经掌握的、困惑的或没有表现出理解的知识列表的函数。我们建议生成学生作为一种方法,不需要学生的历史表现数据。相反,我们依靠讲师来提供技能掌握所需的知识组件和他们预期的常见误解。这使得生成性学生潜在地更适用于没有大量历史数据的领域。生成式学生可以在几秒钟内创建,并针对一组给定的问题生成大量的回答数据。

    我们的目标是解决以下研究问题:1)是否有可能使用LLMs成功地模拟学生档案并生成可信的问题答案?2)生成性学生的回答与真实性学生的回答相比如何?我们在教学和学习启发式评估(一种可用性检查方法)的背景下研究这些问题。我们选择启发式评估作为主题领域的原因有两个:1)我们已经收集了一个真实的学生响应数据集,其中包含关于该主题的20个多项选择问题(mcq ),这使得能够在生成性学生和真实学生之间进行比较。2)启发式评估的主题具有明确定义的知识组件(KC)。特别是,学习者需要掌握10个尼尔森的启发式规则,并对照一个设计进行检查。我们可以方便地将10种启发式算法中的每一种表示为KC。

    使用prompt架构,我们在10 KCs上创建了45个具有不同掌握水平的生成性学生,并让他们回答了20个mcq。对MCQ的每个响应都是对GPT-4的API调用。LLM的响应包含答案和选择答案的理由。我们首先对LLMs的回答进行了定性分析,表明生成性学生产生了符合他们概况的逻辑和可信的回答。然后,我们比较了45名生成性学生和100名真正的大学生对同样一套20个mcq的反应。为了研究残酷的力量模拟方法的表现,我们增加了第三个条件,我们用随机数生成法模拟了45名学生。每个随机抽取的学生有70%的机会答对每道题。真实学生、生成性学生和随机学生之间的比较表明,真实学生和生成性学生的回答具有很高的一致性(r=0.72)。

    然而,真实学生和随机学生的答案并不相关(r=-0.16)。此外,我们看到生成性学生和真实学生识别的简单和困难问题有合理的重叠,这表明了使用生成性学生来标记需要修改的问题的潜力。当LLM本身具有完善的内容知识时,这项研究产生了关于创建具有特定知识缺陷的LLM代理的见解。具体来说,我们要求LLM代理扮演老师的角色,并预测学生对某个问题的答案。这是我们所知的第一项研究,它显示了利用LLM模拟的学生档案来帮助评估多项选择问题项的有希望的结果,而不需要学生的历史表现数据。这为使用生成性学生来支持问题的快速原型和迭代开辟了途径。我们讨论了这种方法的潜在风险和引导过程的指导者(专家)输入的必要性。

相关工作

    用于教育目的的自动问题生成长期以来,Learning@Scale和AI一直对教育社区中的问题生成技术进行研究。其中一项工作使用众包技术[42]。例如,UpGrade基于以前的学生解决方案创建问题[47],QMAps鼓励学生相互生成问题[57]。另一项工作是为问题创建开发端到端的NLP模型,这些模型擅长创建事实问题[13,28],而不能生成针对更高Bloom目标的问题[7]。关于多项选择问题(MCQ)生成,现有方法使用命名实体识别和主题建模来识别显著句子并提取问题选项的关键词[30,31]。最近的工作也探索了MCQ创作的人类协作方法,其中教师为选项选择文本输入[29]。现有的人工智能辅助问题生成系统面临一个共同的挑战,即如何评价生成的问题项的质量。在这项工作中,我们探索了利用LLM来模拟学生反应并使用它们来评估自动生成的问题项的可行性。

    评估问题的度量和方法之前的工作已经探索了基于学生数据评估问题质量的各种策略。学习者主观评级[53]和学生表现数据[18,23]都被用来选择高质量的内容。项目难度和区分指数评估问题是否可区分[23],而心理测量方法用于评估问题的内部一致性[11,20,23,54]。然而,尽管这些事后分析可能有利于未来的学生,但首先质量低的问题可能会浪费学生的学习机会。另一种方法专注于仅根据描述来评估问题,使用像布鲁姆的分类法[49]和项目写作缺陷[35]这样的规则和指南。如果这些问题只涉及低水平的认知过程[10],如果它们违反了项目写作缺陷中的多个规则[34],则被视为质量较低。基于这些规则,先前的工作探索了使用监督学习[49]、神经网络[39]和LLMs [34]的自动质量控制方法,以减少对人力的需求。然而,这些基于规则的评估没有考虑到学生在学习中的障碍,可能会因专家盲点而产生偏差[46]。

    生成代理LLM在推理[14]和解决问题能力[37]方面的成功吸引了对LLM驱动的生成代理的越来越多的兴趣[38,45]。先前的工作表明,LLM可以被促使产生可信的行为[38],甚至表现得像某些亚群的人类[4,32]。通过创建模拟人类记忆、规划和思考的模块,生成代理可以模仿人类行为中的逻辑,并产生可信的决策过程[38]。先前的工作已经显示了生成代理在现实模拟各种领域的人类行为的潜力,包括战略游戏[44,56],社交网络[38]和角色扮演[51]。然而,现有的工作侧重于模拟具有不同视角的特征,如职业、性格、价值观和关系[58],其中角色将根据他们的知识或记忆做出决定。然而,在这项工作中,我们的目标是模拟代理有知识不足,在解决教育问题时会犯错误。

    最近的工作探索了在教育中使用生成代理[19,22,32,40]。Xu和Zhang展示了使用LLM根据过去的评估分数对学生的学习进行建模的潜力[55]。研究人员还开发了可教代理,为学习者提供实践机会,以确定知识差距[22],并为教师提供从学生那里获得反馈的机会[32]。然而,以前的模拟通常依赖于历史学生成绩数据。我们的工作提出了一种使用数据稀疏方法创建生成性学生的即时架构,其中我们依靠专家来提供技能掌握所需的知识组件列表和常见学生误解列表。

    Prompt工程提示已经成为利用和指导LLM的主要方式[8]。之前的工作研究了创建有效提示的不同指南,包括提示结构[8]、语言[52]和词汇[36]。提示的一个方向是使用少量学习,用几个示例输入输出对来演示任务[8]。魏(Wei)等人提出将思维链作为一种方法,通过在提示中包含思维过程来提高少投学习绩效[52]。然而,即时工程仍然是一种非直觉技能[36],对于非专业人士来说具有挑战性。在我们的工作中,我们研究了促使LLM表现得像有知识缺陷的学生的方法。我们总结了使用LLMs模拟学生的即时工程策略。

生成性学生提示架构

    我们基于学习科学中广泛采用的框架——知识-学习-教学(KLI)框架[27]提出了一个提示架构。特别是,KLI框架将学习者期望学习的信息的最佳单元定义为知识成分(KC)。KCs应该是相互排斥的,并为设计教学活动提供基础。学生在学习过程中获得知识。我们提出的prompt架构将学生档案定义为学生已经掌握的、困惑的或没有表现出知识证据的KC列表的函数。

    启发式评价上生成性学生的实现在本文中,我们以启发式评价为题,实现了生成性学生的概念。启发式评估是一种广泛使用的可用性检查方法,其中设计师使用经验法则来检查用户界面的可用性并识别设计问题。我们选择启发式评估作为我们的主题领域有两个原因。首先,我们收集了一个学生回答数据集,其中包含100名学生对20个启发式评估mcq的回答。这使得将生成性学生的回答与真实学生的回答进行比较成为可能。第二,启发式评估的主题有明确定义的KCs,即10个尼尔森的启发式规则,如表1所示。它消除了执行认知任务分析以推断完成该任务所需的KCs的需求。我们承认这一点启发式评估的任务是独特的,因为这10个关键知识是明确的和并发的,并且在这些关键知识之间存在较少的依赖性。我们将在后面的章节中讨论将生成性学生推广到其他领域的可能性。

表1:启发式评估的主题包含10个知识组件(KC),即10个尼尔森启发式规则。生成性学生简档是学生已经掌握、混淆或没有显示出知识证据的KCs的函数。
在这里插入图片描述

    最终提示结构和示例我们用来创建创成式学生的提示模板如图2所示。提示有三个主要部分:1)任务的介绍;2)生成性学生档案的图解;3)一个MCQ,生成性学生将对其给出答案。首先,简介指定模型扮演教师预测学生答案的角色。我们将在3.4.2中解释让模型模拟教师而不是直接模拟学生回答问题的基本原理。第二,生成性学生简档是学生已经掌握的、对其有困惑的或者没有显示出知识证据的启发式规则列表的函数。例如,生成性学生1 (GS1)已经掌握了五个规则,在两个规则之间混淆,并且没有显示出对三个规则的知识的证据。对于每个被掌握的规则,它调用被掌握的规则提示函数,该函数给出一个示例问题,表明学生已经给出了这个问题的正确答案。混淆提示需要两个规则作为输入,并使用两个示例问题来表明学生对这两个规则有混淆。对于未知规则没有提示。第三,要求模型预测新MCQ的答案。通过在已掌握、混淆和未知规则列表上的不同输入,模板生成不同的生成性学生简档(例如,图2中的GS2)。

    提示模板的输入提示中使用的示例问题和答案由一位教授该主题已有5年的教师提供。教师为10个启发式规则中的每一个提供了一个示例问题,表明学生已经掌握了该规则。此外,讲师提出了两对常见的混淆:在“H3-用户控制和自由”和“H7-使用的灵活性和效率”之间,以及在“H5-错误预防”和“H9-帮助用户识别、诊断和从错误中恢复”之间。我们还创造了2对随机混淆。这给了我们4对混淆规则。对于每一对,教师为我们提供了2个示例问题,其中两个启发式规则都在选项中,正确答案是其中之一,如图2(b1)所示。请注意,教师提供给我们的示例问题在风格上与我们正在制作答案的20个新问题相似。但是这20个问题完全是生成性学生以前没有回答过的新问题。总而言之,生成式学生提示架构需要来自专家的以下输入:执行任务所需的知识组件(KC)。

    每个KC都有一个带有正确答案的示例问题,以证明学生已经掌握了该KC。常见的学生误解(可选)。在启发式评估的情况下,一个误解涉及两个KC。每个困惑的示例问题都有一个不正确的答案,以证明学生对此KC有困惑。在启发式评估的情况下,需要两个示例问题。从提示工程过程中的收获在本节中,我们描述了从提示工程过程中的收获,该过程导致了如图2所示的最终提示。提供示例mcq和答案可提高绩效。

    我们发现,根据之前的工作,使用示例问题来表明学生已经掌握了某个规则或对该规则有困惑比简单地陈述它更有效[41,52]。特别是,对于困惑提示组件,我们首先尝试指定学生对一个规则感到困惑。但是,它会使模型偏向于总是选择或不选择一个选项。从我们的试错过程来看,当前以两个规则作为参数的提示最适合模拟学生的困惑。此外,我们需要两个示例问题来证明学生可能在两个方向上都犯错误。当我们在提示中只使用一个示例问题时,模型会错误地认为生成性学生将总是选择一个规则而不是另一个。

    让模型扮演讲师并预测生成型学生的答案会有所帮助。我们不是让LLM扮演学生的角色,直接“回答”问题,而是让它扮演老师的角色,希望“预测”学生的答案。我们发现,当被要求根据学生的个人资料回答问题时,LLM更有可能根据其先前的知识来回答。例如,即使我们在提示中指定了学生对某个规则有困惑,模型仍然会正确地回答相关的问题。另一方面,当我们提示模型充当老师来预测学生的答案时,模型的表现与学生的个人资料更好地保持一致。

    使用未知规则增加预测答案的不确定性。为了更好地模拟真实学生对问题的回答,我们想在生成性学生的回答中引入一些不确定性。我们发现,指定一些未知的规则,即,在没有任何明确提示的情况下将其留空,可以实现这一目标。例如,对于GS1,H4、H9和H10是未知规则。我们没有任何提示组件来指定学生的关于这些知识的知识。事实证明,这种方法可以有效地在生成性学生的答案中引入不确定性。

图2:提示模板有三个主要部分:1)任务的介绍(C1);2)生成性学生简档的图示(C2);3)生成性学生将回答的新MCQ(C3)。生成性学生简档是学生已经掌握、对(a)有困惑或没有知识证据的启发式规则列表的函数。对于每个掌握的启发式规则,我们使用示例MCQ来表示学生具有足够的知识(B2);对于每一对混淆启发式规则,我们使用两个示例mcq来表明学生可能会错误地选择一个而不是另一个(b1)。
在这里插入图片描述

    通过提供正面和负面示例,在混淆提示组件中引入不确定性。事实上,即使学生对两个规则感到困惑,他们仍然可以正确回答简单的问题。为了模拟这种不确定性,我们创建了一个混淆提示组件的变体,学生已经表现出一些理解,但还没有掌握它。我们在提示中引入不同难度的示例问题。例如,我们指定生成性学生可以正确回答简单的问题,而在更难的问题上犯错误。我们发现混淆提示的变化引入了更多与提示规范一致的不确定性。

    使用提示让生成性学生一次回答一个问题会得到更好的结果。我们发现,让生成型学生一次性回答20个问题效果不佳。首先,由于每个回答中的令牌限制,每个问题的回答都较短。结果,我们观察到了更肤浅的推理。第二,如果要求一次预测20个问题,模型将使用它对前一个问题的回答来预测后一个问题。此外,前一个问题的回答也可能覆盖生成性学生的档案,导致答案与档案不一致。

生成性学生响应数据集

     45个生成性学生的创建如我们前面所提到的,每个生成性学生都是他们已经掌握的、对其有困惑的或没有知识证据的规则列表的函数。我们可以将规则列表作为参数传递,以自动创建生成性学生,如图2所示。我们需要做出的决定是生成性学生的知识水平,例如,学生可以掌握3条规则、5条规则或9条规则。在这个实验中,我们创建了一个由10名努力学习的学生、30名一般学生和5名高级学生组成的套件,如表2所示。

    高级学员知识更丰富,因为他们的困惑比提示中指定的要少。使用分布集(如表2所示),可以从列表中随机选择启发式规则来自动创建生成性学生。在这项研究中,我们采用了半随机的方法,而不是完全随机的方法,以更好地对比不同的生成性学生概况。我们创建了几对相似的学生档案,在这两个档案中,只有一个变量不同,其他变量都相同。例如,要创建两个具有相同的已掌握规则集但不同的混淆规则对的生成性学生,我们将为每个学生随机挑选一个混淆对,然后为他们两个随机挑选相同的5个已掌握规则集。

在这里插入图片描述
表2:45名生成性学生中已掌握、混淆和未知规则的数量分布。

    实施我们使用OpenAI API提供输入并从GPT-4获得响应。如3.4.5节所示,每个API调用仅包含一个生成性学生简档,并且仅预测一个问题的响应。为了确保得到最可靠的预测,我们将模型的温度设置为0,这确保了我们从GPT得到完全相同的结果。示例GPT-4响应对于每个API调用,模型将输出预测响应,即学生将选择哪个选项,以及解释为什么模型认为学生将选择该选项的基本原理。在这里,我们给出了GPT-4产生的响应的两个例子。在这个例子中,生成性学生混淆了“使用的灵活性和效率”和“用户控制和自由”。问题的正确答案是“用户控制和自由”,“使用的灵活性和效率”是选项之一。根据推理,预计John会错误地选择“使用的灵活性和效率”:假设John错误地选择了“使用的灵活性和效率”,而不是“用户控制和自由”,后者是正确的答案,如果他认为新的场景限制了系统的灵活性或效率,而不是用户控制的问题,他可能会重复这个错误。

    在另一个问题中,正确答案是John掌握的一个规则,“系统状态的可见性”。约翰那些混乱的规则都不在选项之列。据预测,John会根据推理选择正确的答案:考虑到John的历史记录,他可能会再次准确地认识到这种情况违反了“系统状态可见性”他的困惑并不直接适用于这个场景,所以它不太可能影响他在这里的回答。

生成性学生对输出的评估

    方法为了调查答案是否与生成性学生的概况一致,我们应用了定量和定性分析。首先,我们统计了生成性学生在不同条件下正确回答的例子数量,例如,什么时候这个学生掌握了一条规则。其次,我们分析了使用亲和图[33]生成的模型的基本原理,在亲和图中,我们迭代地对推理进行分组,并确定共同的主题。

    生成性学生的答案通常与学生概况一致。表3:已经掌握5条规则的生成性学生的表现,在1对规则之间有混淆。在目标问题中,当正确答案是已掌握的规则时,学生表现良好。当正确答案是混淆对中的一条规则时,准确率一般较低。当正确答案是一个未知规则时,学生有30%-50%的几率能答对。在所有三种情况下,当干扰物中存在混淆的规则时,学生的表现都较低。

在这里插入图片描述
    当正确答案是“掌握”的规则时,生成性学生可能会正确回答问题。当MCQ的正确答案是一个已掌握的规则,并且干扰物中不存在混淆的规则时,学生很可能正确回答(85.2%的时间)。例如,GS9已经掌握了规则“用户控制和自由”,他被预测为正确地回答相同启发式的问题,因为“他过去的表现表明对这个特定启发式有很好的掌握,表明他很可能再次正确地应用它。”当选项中出现混淆规则时,准确率略低(72.4%)。这里有一个GS8的样本,预测正确回答Q5,其中正确答案是一个掌握的规则,两个混淆的规则都在选项中。GPT-4的理由是“新问题直接关系到系统状态的可见性,这是约翰以前演示过的一个领域。此外,新问题没有直接涉及区分“错误预防”和“帮助用户识别、诊断错误并从错误中恢复”,这是约翰感到困惑的地方。我们总结了两种情况,当选项包含混乱的规则时,学生错误地回答了问题(27.6%)。首先,学生可能会错误地选择混乱的规则。

    第二,生成性学生可能会选择一个次优的答案,但推理显示了对掌握的规则的合理理解。当题干模糊不清,多个答案都可能正确时,就会出现这种情况。例如,Q20是关于系统不支持使用“tab”键浏览表格,正确答案是“使用的灵活性和效率”。然而,考虑到“tab”键功能的流行,这种情况也可以被解释为违反了“一致性和标准”。虽然GS9已经掌握了“使用的灵活性和效率”,他们被预测会因为这个原因选择“一致性和标准”。

    当正确答案是一个“混乱”的规则时,生成性学生很可能回答错误。当正确的答案是一个学生已经表现出困惑的启发法时,学生将很有可能出错。当混淆对中的另一个规则出现在选项中时,出错的可能性特别高,如表3所示。当正确答案是“混淆的”规则时,如果混淆对中的另一个规则不在选项中,生成性学生可以正确回答问题。例如,Q9的正确答案是“帮助用户识别、诊断错误并从错误中恢复”。

    尽管GS8混淆了“错误预防”和“帮助用户识别、诊断错误并从错误中恢复”,但预计他们会正确回答这个问题,因为“错误预防”不在选项中。GPT-4预测“他们更有可能选择最接近处理错误的选项…帮助用户识别、诊断并从错误中恢复。生成性学生也可能通过排除其他选项而得到正确答案。例如,GS2混淆了Q6中的正确答案,但由于其他混淆规则不在选项中,并且他们已经掌握了所有其他选项中的规则,GPT-4预测“他可能会消除这些选项,因为(他们可以识别)它们(其他选项)不像‘系统状态的可见性’一样适合该场景。”5.2.4生成性学生在正确答案是“未知”规则,选项中有“混淆”规则的情况下,很可能是错误的。然而,当选项不包含混乱的规则时,生成性学生有略高于50%的机会答对问题。例如,Q2在选项中不包含GS3的任何混淆规则,正确答案是未知规则。预计GS3会正确回答这个问题,因为“这个场景的描述和‘用户控制和自由’的基本概念非常匹配。”以及“情况不直接涉及错误消息或预防”的事实。此外,GPT-4还根据学生对相关启发式规则的了解来预测他们对未知规则的了解。例如,Q4的正确答案——“一致性和标准”——对GS8来说是一个未知规则。Q4的选项不包含任何GS8的混淆规则。GPT-4预测,由于他们“正确回答了与用户界面设计和用户体验一致性相关的问题(“系统状态的可见性”、“美学和极简设计”以及“系统与现实世界之间的匹配”),因此“他们有合理的机会选择正确的答案”。

    提示中的受控变量生成导致可能的结果如前所述,当选择启发式规则列表来创建生成性学生时,我们应用了半随机方法。我们创建了几对相似的学生档案,在这两个档案中,只有一个变量不同,其他变量都相同。这允许我们检查提示中一个变量的变化是否会导致与我们的期望一致的输出。仅改变学生档案中的混淆对会产生合理的输出。我们创造了多对相似的学生唯一不同的是混淆对。我们发现生成型学生会产生与我们期望一致的输出。比如Q15的正确答案是“使用的灵活性和效率”。GS4在“使用的灵活性和效率”和“识别而不是回忆”之间表现出了混淆,所以预测他们在这个问题上会选择“识别而不是回忆”。另一方面,GS11和GS4有相同的一套被掌握的规则,它们之间唯一的区别是GS11混淆了“使用的灵活性和效率”和“用户控制和自由”。对于这个问题,GS11因此预测选择“用户控制和自由”。

    知识更丰富的学生更有可能正确回答未知规则的问题。考虑一个生成性学生,他已经掌握了5条规则,有1对混乱的规则和3条未知的规则。如果我们通过添加2个已掌握的规则使这个学生更有知识,同时保持原来的混淆对,我们的实验表明,知识更丰富的学生将更有可能正确回答关于未知规则的问题。这符合我们的期望。例如,Q10的正确答案“系统状态的可见性”是GS2的混淆规则。Q10的其他3个选项中,GS2掌握了一个规则,另外两个规则未知。GS2预测回答Q10不正确。

    当我们创建一个新的创成式学生GS12,并额外掌握两个未知选项时,他们会正确回答Q10,因为他们可以成功地消除选项。此外,对启发式规则的总体理解的增加表明识别启发式规则的整体能力的提高。在GS12的案例中,对其他启发式方法的理解增加表明,他们在回答模型推理的未知规则问题时可能是正确的:“(因为)他们在与直接影响用户交互和控制的可用性启发式方法相关的问题上的整体良好表现。”5.4集中混淆提示引入了不确定性,并提高了学生在与混淆规则相关的问题上的整体表现。

表4:我们对比了使用原始混淆提示和集中混淆提示的生成性学生的表现。聚焦混淆提示表明学生将正确回答与混淆相关的简单问题。这与我们的预期一致,即使用集中混淆提示的学生表现更好。

在这里插入图片描述
在这里插入图片描述

图3:聚焦混淆提示(右)包含学生答错的两个原始问题(Q1,Q2),以及两个显示学生可能正确回答简单问题的附加示例(Q3,Q4)。使用集中混淆提示的生成性学生预计会有更好的整体表现。聚焦混淆提示旨在引入更多的不确定性,以更好地模拟现实场景。

    我们实现了一个集中的混淆提示,以表明即使当学生在两个规则之间混淆时,他们也有可能正确回答关于混淆规则的简单问题。GPT-4的输出与预期一致,如表4所示。具有集中混淆提示的学生简档正确回答问题的可能性更高。我们比较了两个生成性学生GS1和GS21,他们具有相同的配置文件,除了GS21在相同的混淆规则对上使用聚焦混淆提示。GS21被预测为正确地回答Q14,其中正确的答案对于GS21和GS1都是混淆的规则,而GS1被预测为不正确地回答它。GS21的正确答案的理由是“考虑到他们在之前的问题中正确识别了‘使用的灵活性和效率’,而这确实是正确的答案,这次他很有可能会选择正确的答案。”6真实学生、生成性学生、随机学生之间的比较6.1数据集6.1.1真实学生的回答数据集。2021年,在R1的一个机构的大学水平的课程中,同样的20个mcq已经被指定为家庭作业。我们得到了IRB的批准,从那个班级收集学生的反馈。这门课的学生被要求通过一个网站完成作业,该网站包含了同样的20个关于启发式评估主题的mcq。

    100名学生完成了作业。随机学生回答数据集。为了研究随机模拟在这项任务中的表现,并将我们的原则模拟方法与随机模拟方法进行比较,我们设计了一个随机产生学生反应的基线条件。我们称这些人为随机学生。随机学生是基于随机数生成而创建的。每道题都有70%的几率答对。我们随机产生了45名学生。

    方法首先,为了检查真实学生的回答分别与生成性和随机学生的回答的一致性,我们使用学生在每个问题上的平均分计算皮尔逊相关。其次,我们使用Cronbach的Alpha来度量每个数据集的内部一致性。第三,我们根据回答识别困难和简单的问题。我们采用了两个阈值:如果平均分数高于80%,则认为这是一个简单的问题,如果平均分数低于40%,则认为这是一个困难的问题。我们比较了这三种情况,以评估容易和困难问题的重叠。此外,对于真实学生和生成性学生产生不同结果的问题,我们进行了错误分析,分析了学生选择的选项的分布。

    结果首先,如表5所示,生成性学生的回答显示出与真实学生的回答高度相关,皮尔逊相关系数为0.72。另一方面,随机学生与真实学生之间的相关性仅为-0.16。第二,生成性学生的回答数据集显示了高度的内部一致性,如Cronbach的Alpha (0.6176)所测量的,也显示在表5中。内部一致性与真实学生的回答数据集(0.559)相当。然而,随机学生的回答数据具有较低的内部一致性(0.042)。我们看到,在确定的困难问题中,生成性和真实学生数据集之间有3个重叠,在确定的简单问题中有2个重叠。然而,在真实的和随机的学生数据集之间不存在任何重叠。得分低的问题可能表明问题的清晰度需要提高。对于这些难题,我们进一步分析了学生在选项上的答案分布,以揭示错误的来源。在表7中,我们列出了超过25%的学生经常选择的错误答案。

表5:三个响应数据集的20个mcq的平均分数。绿色文字表示容易的问题(> 0.8),红色文字表示难的问题(< 0.4)。得分很低的问题可能表明问题的清晰度需要提高。
在这里插入图片描述

表6:真实学生和生成性学生的回答数据集与随机学生的回答数据集相比,具有相当的中到高的克朗巴赫α值,表明良好的内部一致性。
在这里插入图片描述

表7:真正的学生和生成性学生在他们为难题选择的分散注意力的选项(超过25%的学生选择)上有相当大的重叠。教师可以利用这些信息来提高问题的清晰度。
在这里插入图片描述

    在真实学生和生成性学生回答数据集之间,学生选择的错误选项有相当大的重叠。如果教师对提高问题的清晰度感兴趣,他们可以利用这些信息。错误分析我们进一步进行了错误分析,以揭示是什么导致生成性学生回答问题与真实学生不同。生成性学生在某些问题上表现更好,因为真实学生的困惑没有包含在简介中。与真实学生相比,生成性学生在Q4、Q10和Q18表现更好。一个原因是,这些问题中的大多数选项都不在混淆对中。

    因此,大多数生成性学生不会发现任何选项令人困惑,并且会正确回答。然而,真正的学生在这些问题中表现出连贯的困惑。76%(67人中的51人)的真题学生答错了Q4,49%的真题学生答错了Q18,选择了“使用的灵活性和效率”而不是“一致性和标准”。这表明,包含一组更加多样化的混淆知识可以提高生成性学生的答案与真实学生的答案之间的接近度。

    学生的困惑可能被过度强调或过度概括,导致对某些问题的预测更加悲观。当选项包含他们感到困惑的启发时,生成型学生表现出更高的失败倾向。虽然真正的学生也可能犯重复的错误,但比例较低。例如,对于Q7,大约25%的生成性学生倾向于错误的选项“系统状态的可见性”。同样的趋势也出现在真实的学生身上,但只占回答的7%。

    LLM可能会对问题失去关注。当问题描述强调一个看似积极的特征时,生成性学生可能会将问题误解为询问它描述了什么启发,而不是它违反了什么。例如,Q3的描述是“有几种方法可以在同一页面上浏览不同类别的产品。用户既可以点击“按类别购物”下拉菜单,也可以点击主页上的选项卡。”。许多生成性学生“将多种浏览方式的存在解释为提高灵活性和效率的一个特征”。

利用生成性学生提高问题质量的潜在用例

    2024年春季学期,我们与一位在R1机构教授启发式评估的教师进行了案例研究。具体来说,我们向他们展示了最初的20个问题,即生成性学生的回答,并要求他们根据信号修改一些问题。讲师特别挑选了Q3、Q9、Q13和Q20,当生成性学生回答时,它们的平均得分低于0.4(如表5所示)。教师认为这4个问题措辞不当,并根据生成性学生选择的错误选项提高了清晰度。然后,我们在一个有280名学生的班级中进行了一次课堂实验,包括在一次必考中的原始和改进版本的问题。案例研究和课堂实验都获得了IRB的批准。在课堂实验中,所有同意的学生需要回答一个关于启发式评估的7个问题的测验。我们按照交叉设计[46]创建了两个版本的测验。测验版本A包含Q9和Q20的改进版本,以及Q3、Q13、Q1、Q5和Q7的原始版本。测验版本B包含Q3和Q13的改进版本,以及Q9、Q20、Q1、Q5、Q7的原始版本。所有学生被随机分配到一个测验版本。Q1、Q5和Q7在两个版本之间共享,并用于控制两组的先验知识。

    真正的学生在修订的问题上获得了更好的表现。随机检查显示,两个测验版本中的学生在共享问题Q1、Q5和Q7上表现出相似的表现,这表明两组之间的比较是公平的。调查修改后的问题是否出现为了降低难度,我们建立了一个混合效应逻辑回归模型,其中因变量是问题得分(0表示不正确,1表示正确),固定效应是问题形式,即问题是原始的还是修改过的。考虑到不同的问题难度和不同的学生能力,我们包括了每个问题的随机斜率,以及每个学生和每个问题的随机截距[46]。我们发现,修改后的问题导致问题得分显著增加(z=-2.538,p=0.01 < 0.05)。平均分提升0.248。每个问题的平均分如表8所示。特别是,第三季度的表现没有改善,这可能是因为学生在原始问题上获得了相当高的分数。

表8:学生被随机分配回答测验的版本A或B。对于Q3、Q9、Q13和Q20,带下划线的版本是利用生成性学生信号的修订问题(包括生成性学生选择的错误选项)。Q1、Q5和Q7是两个版本中相同的基准问题。我们观察到,原始版本和修订版本之间的平均问题分数有显著提高。
在这里插入图片描述

讨论和未来工作

    我们的工作显示了使用生成性学生提示架构来模拟学生概况的前景,这些学生概况可以生成对mcq的可信且合乎逻辑的响应。这项工作的一个潜在途径是帮助教师快速评估最初的一组问题,找出不好的项目,并在分配给真正的学生之前改进它们。在本节中,我们将根据本次研究的结果,讨论我们离这一目标还有多远。首先,我们在生成性学生的回答和真实学生的回答之间的高度相关性上看到了有希望的结果,并且在学生回答得不好的问题上有重叠。我们讨论了几个用于模拟学生行为的即时工程要点。

    首先,将任务描述为教学预测会导致与学生概况更一致的预测。第二,用示例问题和答案来说明学生的知识会导致更好地与简档一致的预测。第三,我们探索了在模拟学生时引入多样性和不确定性的方法,包括集中混淆提示、提示架构中的未知组件,以及在指定学生概况时包括不同难度的示例问题。另一方面,我们也揭示了真实学生和生成性学生背后不同的推理模型。例如,生成型学生可能看起来更顽固,因为他们反复犯类似的错误。需要更多的实验来提高生成性学生答案的接近度。例如,未来的工作可以探索包括一组更多样化的混淆规则,并引入更多类似于集中混淆提示的提示变化,以增加不确定性。

    其次,我们提出了一个通用的体系结构来模拟学生档案。虽然我们只展示了我们的管道在一个主题上,即启发式评估,该架构可以应用于其他领域。对于KCs定义不太明确且有更多相关性的主题,需要专家的输入和说明,以确保生成性学生产生可靠和可信的输出。在未来的工作中,我们计划与教师合作,以了解他们如何定义KCs,构建提示,收集示例,并解释结果。我们还旨在调查当教师不能清晰地表达技能掌握所需的知识时,这种方法的可行性。我们还计划了解讲师投入的时间,以确保他们为原型和重复他们的问题付出了合理的努力。

    第三,我们纳入学生档案的困惑,是基于专家对新手学生挑战的理解,可能不全面。我们计划进一步探索将学生的知识传达给LLM的方法。例如,学生的历史成绩数据可以提供更准确的学生知识表示,但是它需要大量的数据输入,并且对于日常教学来说不太具有可扩展性。未来的工作可能会探索的方法,结合专家指导的方法,如提出在生成学生与一个小的学生表现数据集,以改善模拟输出。

    第四,案例研究表明,生成性学生可以为教师提供信号,以改善他们的问题,例如,帮助他们识别困难的问题,并给予他们对经常挑选的错误选项的见解。案例研究表明,教师确实可以利用这些信息来重复问题,降低问题的难度。然而,我们承认“难度较小”并不一定意味着更高的教育价值。它需要进一步的仔细分析,以了解“不太难”是否以及何时是教师和学生所希望的。

结论

    我们提出了生成性学生,一个使用LLM来模拟学生档案并对MCQs产生可靠和可信的响应的提示架构。在为给定主题确定了知识成分(KC)的情况下,生成性学生简档是学生已经掌握的、对其有困惑的或者没有表现出知识证据的KC列表的函数。我们表明,提供具体的问答示例并让模型扮演教师的角色来预测学生的表现有助于模拟可信的学生行为。我们的结果表明,生成性学生对MCQs的反应与他们的个人资料一致,并与真实学生的反应有很强的相关性。随后的个案研究表明,生成性学生为教师提供了有用的信号,以识别措辞不当的mcq并加以改进。一项课堂实验表明,根据生成性学生的行为,修改后的问题变得“不那么难”了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值