项目实训(一)

项目背景

本项目主要针对短文本语义一致性判定。在现实生活中,伴随着文本信息的爆炸式增长,从短文本中快速提取关键信息以及对短文本语义的分析显得尤为重要。在当下线上线下教育结合以及网络文本信息审批数据量越来越大,给单纯依靠人工进行文本阅读的工作带来了很大的负担。尤其在网上阅卷、和中小学生网上作业批阅的情况下,用机器代替教师进行作业、题目的评阅有很大的需求。本项目通过机器学习的方法,对短文本的语义进行分析和提炼,将标准答案和考生目标文本进行对比分析,最终对两段文本语义的关系进行判定,实现对考生内容的智能评分,从而减轻阅卷老师的压力。

主体研究

一致性判断

给定两段文本(一段为标准答案,另一段为考生文本)进行文本信息的提取和分析,得到文本的语义信息并进行对比,判定两段文本语义的关系,从而完成评分。

噪音样本分析

研究样本自动筛查优选方法,对离群样本、错评样本进行预筛选,提高样本质量。

样本增强方法

在给定少量的样本下,对样本进行扩充,以形成更多更丰富的样本数据集用于模型的学习和训练。

可视化证据

实现考生作答内容智能判分,评分结果可解释,实现得分点评分和标注,对正确和错误的得分点进行区别标注。

相关调研

通过查阅论文我们发现类似的项目已经存在,但基本上只是通过TF-IDF等基础方法实现,较少使用深度学习。部分文章中给出的例子也较为简单,给出的回答示例与标准答案出入较少。但在项目初期,研究这种解决方案也可以给我们今后创新拓展提供思路。

在这里我选择阅读的论文是《基于文本相似度的短文本主观题自动评分方法研究》

这篇文章给出了详细的评分流程,并且能给出贴切实际的样例。
主观题评价流程主要分为了五个步骤:分句处理,语句预匹配,分词处理,关键词提取和相似度计算。
流程图

分句加预匹配可以提高算法效率,减少运算;在分词部分,可以使用国内已有的分词系统,在分词的准确度,速度,适用性等方面均有良好效果。
此外,文章对简答题与材料分析题各给出了不同的解决方案。简答题的特点突出在关键词密集,简明扼要。在人工阅卷过程中,阅卷人也是按照评分标准中的采分点对比学生答案进行给分。据此,在自动阅卷时,首先要做到将关键词进行有效提取,并给出关键词权重,并计算考生答案的相似度。在这篇文章中,作者使用了基于多特征与单项贴近度的方法进行评分。对论述题,关键词不再那么密集,我们更加关注的是语义的相似。就像阅卷标准中的“言之有理即可”。这里的计算是通过词语相似度的计算进而得到句子相似度,从而得到整个答案文本的相似度,并给出评分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值