2021SC@SDUSC
目录
2021SC@SDUSC
一、项目综述
项目背景
本项目是山东大学软件学院2020-2021学年度“软件工程应用于实践”课程开放项目。
小组成员
网安(工学):吴泽昊、软件工程: 刘敬炜
数据科学与大数据技术:张致晏 、数据科学与大数据技术:熊静飞
课程目标
与指导老师沟通,了解项目详情,并且下载项目源代码,小组对于难点与主要技术进行了解,对于代码进行分析。
项目计划
本课程的第一篇博客是对于项目“文本分类半监督学习问题”的难点与技术进行分析,组内进行分工。了解goole公司开发的BERT基线模型,并且对于UDA模型与MixText模型进行实践对比。
项目结果
训练出两个合适的模型(UDA与MixText),并且在给定 IMDB、 AG-news、DBpedia、中文专业主观题数据集上进行训练和测试。
任务分配
刘敬炜: tf-idf数据增强方法 ,kl散度损失函数 ,在有标签的数据集上进行训练(防止过拟合)防止过拟合的TSA技术,锐化预测(Confidence-based masking)。
熊静飞:回译数据增强方法 ,交叉熵损失函数,使用经过训练的模型来预测无标签数据的标签创造伪标签结合出新的训练数据,锐化预测(Softmax temperature controlling)。
张致晏:运用Mixup方法对数据进行增强,熵最小化进行标签预测,监督损失,了解MixText模型,模型的结果分析,移除MixT