BERT微调做中文文本分类

本文介绍了如何利用BERT模型进行中文文本分类,包括重写数据读取类、自定义评估指标、加载预训练模型和微调步骤。建议深入理解BERT模型以提升应用效果。
摘要由CSDN通过智能技术生成

BERT模型在NLP各项任务中大杀四方,那么我们如何使用这一利器来为我们日常的NLP任务来服务呢?我们首先介绍使用BERT做文本分类任务。

重写读取数据的类

需要根据文件格式重写读取数据的类,只要能够正常读取数据即可。以下代码将x文本记为不含标签训练数据,y文本记为标签数据。

class StatutesProcessor(DataProcessor):

    def _read_txt_(self, data_dir, x_file_name, y_file_name):
        # 定义我们的读取方式,我的工程中已经将x文本和y文本分别存入txt文件中,没有分隔符
        # 用gfile读取,打开一个没有线程锁的的文件IO Wrapper
        # 基本上和python原生的open是一样的,只是在某些方面更高效一点
        with tf.gfile.Open(data_dir + x_file_name, 'r') as f:
            lines_x = [x.strip() for x in f.readlines()]
        with tf.gfile.Open(data_dir + y_file_name, 'r') as f:
            lines_y = [x.strip() for x in f.readlines()]
        return lines_x, lines_y

    def get_train_examples(self, data_dir):
        lines_x, lines_y = self._read_txt_(data_dir, 'train_x_no_seg.txt', 'train_y.txt')
        examples = []
        for (i, line) in en
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值