文本分类半监督学习问题(五)

本文探讨了在2021SC@SDUSC活动中,如何使用半监督学习进行文本分类的问题。首先,文章详细介绍了loader_label()函数,该函数用于加载已标记的数据。接着,作者阐述了数据增强技术在文本分类中的实现,同时提到了加载未标记数据的方法。
摘要由CSDN通过智能技术生成

2021SC@SDUSC

继上次对于read_data.py 文件的分析

首先是第一个类loader_label() 这里主要是为了加载标记数据

class loader_labeled(Dataset):

   首先是其构造函数
 def __init__(self, dataset_text, dataset_label, tokenizer, max_seq_len, aug=False):
        self.tokenizer = tokenizer
        self.text = dataset_text
        self.labels = dataset_label
        self.max_seq_len = max_seq_len

        self.aug = aug
        self.trans_dist = {}
        其次是对于数据进行增强,其中需要加载transformer中的一个翻译模型,将数据从英文翻译为德文,然后再将它翻译回来。
   
     if aug:
            print('Aug train data by back translation of German')
            self.en2de = torch.hub.load(
                'pytorch/fairseq', 'transformer.wmt19.en-de.single_model', tokenizer='moses', bpe='fastbpe')
            self.de2en = torch.hub.load(
                'pytorch/fairseq', 'transformer.wmt1
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值