文本分类半监督学习问题(一)

2021SC@SDUSC

目录

一、项目综述

项目背景

小组成员

课程目标

项目计划

项目结果

任务分配

二、项目简介

三、环境配置

Anaconda的配置

代码与数据集的下载

机器学习框架的导入

 环境配置完毕


2021SC@SDUSC

一、项目综述

项目背景

本项目是山东大学软件学院2020-2021学年度“软件工程应用于实践”课程开放项目。

小组成员

网安(工学):吴泽昊、软件工程: 刘敬炜

数据科学与大数据技术:张致晏 、数据科学与大数据技术:熊静飞

课程目标

与指导老师沟通,了解项目详情,并且下载项目源代码,小组对于难点与主要技术进行了解,对于代码进行分析。

项目计划

本课程的第一篇博客是对于项目“文本分类半监督学习问题”的难点与技术进行分析,组内进行分工。了解goole公司开发的BERT基线模型,并且对于UDA模型与MixText模型进行实践对比。

项目结果

训练出两个合适的模型(UDA与MixText),并且在给定 IMDB、 AG-news、DBpedia、中文专业主观题数据集上进行训练和测试。

任务分配

刘敬炜: tf-idf数据增强方法 ,kl散度损失函数 ,在有标签的数据集上进行训练(防止过拟合)防止过拟合的TSA技术,锐化预测(Confidence-based masking)。

熊静飞:回译数据增强方法 ,交叉熵损失函数,使用经过训练的模型来预测无标签数据的标签创造伪标签结合出新的训练数据,锐化预测(Softmax temperature controlling)。

张致晏:运用Mixup方法对数据进行增强,熵最小化进行标签预测,监督损失,了解MixText模型,模型的结果分析,移除MixT

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值