NLP:微调BERT进行文本分类

Sun_Sherry(停更)

已于 2024-09-21 21:29:40 修改

阅读量1.1k

点赞数 5

分类专栏： # 自然语言处理文章标签：自然语言处理 bert 分类

于 2024-09-13 21:01:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeshang_lady/article/details/141859446

版权

本篇博客的重点在于BERT的使用。
transformers包版本：4.44.2

1. 微调BERT进行文本分类

这里我们使用stanford大学的SST2数据集来演示BERT模型的微调过程。SST-2数据集(Stanford Sentiment Treebank 2)是一个用于情感分类的经典数据集，常用于自然语言处理(NLP)领域的情感分析任务。

第1步: 下载数据。其代码如下：

import pandas as pd
from transformers import BertTokenizer
from datasets import DatasetDict, Dataset
from torch.utils.data import DataLoader
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments

splits = {
   'train': 'data/train-00000-of-00001.parquet', 
          'validation': 'data/validation-00000-of-00001.parquet', 
          'test': 'data/test-00000-of-00001.parquet'}
train = pd.read_parquet("hf://datasets/stanfordnlp/sst2/" + splits["train"])
validation = pd.read_parquet("hf://datasets/stanfordnlp/sst2/" + splits["validation"])
test = pd.read_parquet("hf://datasets/stanfordnlp/sst2/" + splits["test"])
dataset = DatasetDict(

最低0.47元/天解锁文章

Sun_Sherry(停更)

博客等级

码龄9年

270
原创

1171
点赞

5118
收藏

673
粉丝

关注

私信

热门文章

分类专栏

vue
大语言模型 10篇
Tensorflow 2篇
Torch
LangChain 5篇
自然语言处理 6篇
区块链 15篇
Hyperledger Fabric 10篇
Go语言 3篇
机器学习 39篇
PySpark 16篇
数据清洗 16篇
Kettle工具 13篇
Python 57篇
Tableau 33篇
SQL 12篇
数据分析 18篇
Echarts 3篇
读书笔记 11篇
LeetCode 5篇
爬虫 6篇

最新评论

LLM:函数调用(Function Calling)
某xxx: 所以 qwen 一直报这个错messages with role ‘tool’ must be a response to a preceeding message with ‘tool_calls’
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 想问一下博主是怎么设置背书策略的，我初始化的时候一直报错 error getting channel response for channel [carchannel]: Discovery status Code: (11) UNKNOWN. Description: error received from Discovery Server: failed constructing descriptor for chaincodes:<name:"carcc" > 查看容器日志报错， [discovery] chaincodeQuery -> Failed constructing descriptor for chaincode chaincodes:<name:"carcc" > : no peer combination can satisfy the endorsement policy 就是搞不懂背书策略哪里出错了
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 博主，这个每次运行代码之后，ccversion改动之后，还是报错了，我每次运行一次我就加一，我有一点不理解的是，我每次都是把容器清空了再启动再运行程序的，为什么还要改这个版本号呀，我直接docker-compose down -v，直接清空容器的，为啥还要加1呢？求博主解答
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 博主，遇到这个错误该咋处理呀，就是在组织批准链码的时候报错了 [fabsdk/util] 2025/02/27 02:47:43 UTC - lazyref.(*Reference).refreshValue -> WARN Error - initializer returned error: load MSPs from config failed: configure MSP failed: sanitizeCert failed the supplied identity is not valid: x509: certificate signed by unknown authority. Will retry again later sending approve transaction proposal failed to verify signature: Failed to verify signature: Endorser Client Status Code: (8) SIGNATURE_VERIFICATION_FAILED. Description: the creator certificate is not valid
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 博主，有没有fabric-go-gateway调用链码的教程

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。