自己的思路-套Bert-Chinese-Text-Classification-Pytorch-master语料处理流程

代码小学渣

已于 2022-06-09 14:57:41 修改

阅读量477

点赞数

分类专栏：毕设文章标签： pytorch 深度学习自然语言处理

于 2022-06-09 14:50:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yansl072516/article/details/125203144

版权

毕设专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文档介绍如何利用Bert-Chinese-Text-Classification-Pytorch-master框架处理语料，包括数据集划分、内容格式处理和错误排查。通过随机打乱数据并确保标签从0开始，将数据转换为txt格式，避免分隔符冲突，解决内容和标签的分割问题。实现在信息技术领域的文本分类任务中应用Bert模型。

摘要由CSDN通过智能技术生成

自己的思路-套Bert-Chinese-Text-Classification-Pytorch-master语料处理流程

把数据集按比例划分train(0.7)，test(0.15)和dev(0.15)
在excel里把train，test和dev使用=RAND(),打乱排序。
分类从0开始，不允许有负值。（当时报错提示“交叉熵要让目标值从0开始”）
转换成txt格式，编码要为“utf-8”
内容和格式的分隔符：要记得查看在在内容里是是否存在相同的分割符，如果存在相同的分隔符，需要处理掉（目的是防止程序识别错误，分割错误）
导入自己语料时，经常出现的错误。“超过所需要的值”，提示：去检查自己的内容和标签分割问题，检查语料。

代码小学渣

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自己的思路-套Bert-Chinese-Text-Classification-Pytorch-master语料处理流程

数据预处理阶段
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。