预训练bert模型导入与字符串表征

最新推荐文章于 2023-02-19 16:15:32 发布

Panesle

最新推荐文章于 2023-02-19 16:15:32 发布

阅读量650

点赞数 1

分类专栏：总结文章标签： python pip 图论 bert pytorch

本文链接：https://blog.csdn.net/weixin_52582710/article/details/121511488

版权

总结专栏收录该内容

5 篇文章 0 订阅

订阅专栏

#coding=utf-8
##预训练bert模型导入与字符串表征(单句)
#import torch
#from transformers import BertModel, BertTokenizer

#model_name = 'bert_pretrain'#模型目录
##注意文件名：下载的文件预训练模型config.json, pytorch_model.bin, vocab.txt
#tokenizer = BertTokenizer.from_pretrained(model_name)

#model = BertModel.from_pretrained(model_name)

#input_text = '今天天气很不错，阳光明媚。'
##input_text = ['今天天气很不错，阳光明媚。','今天的天气很不错，阳光明媚。','今天天气很不错，是吗，阳光明媚。','今天天气很不错，阳光明媚，不会吧。']

#input_ids = tokenizer.encode(input_text, add_special_tokens=True)#id化，可以编码多个作为batchsize

#input_ids = torch.tensor([input_ids])#id转换tensor
##input_ids = torch.tensor([input_ids,input_ids,input_ids])#batchsize方式：id转换tensor，结果[3, 6, 768]

#with torch.no_grad():
    #last_hidden_states = model(input_ids)[0]#表征，与12层transformer特征提取，输出cls的特征用于分类
    #print(last_hidden_states.shape)
    


#临时的batchsize方式
#coding=utf-8
#预训练bert模型导入与字符串表征
import torch
from transformers import BertModel, BertTokenizer

model_name = 'bert_pretrain'#模型目录
#注意文件名：下载的文件预训练模型config.json, pytorch_model.bin, vocab.txt
tokenizer = BertTokenizer.from_pretrained(model_name)

model = BertModel.from_pretrained(model_name)

##方法1 手动控长：这样的方法需要控制长度，否则转换tensor报错。
#input_text = ['今天天气很不错，阳光明媚。','今天天气很不错，阳光明媚。','今天天气很不错，阳光明媚。','今天天气很不错，阳光明媚。']
#input_ids = [tokenizer.encode(text, add_special_tokens=True, max_length=32, padding=True) for text in input_text]
#input_ids = torch.tensor(input_ids)

##方法2 自动控长（推荐）：直接控制max_length方式，总长padding 0
input_texts = ['今天天气很不错，阳光明媚。','今天的天气很不错，阳光明媚。','今天天气很不错，是吗，阳光明媚。','今天天气很不错，阳光明媚，不会吧。']
input_ids = [tokenizer.encode(text, add_special_tokens=True, max_length = 32,padding='max_length', truncation=True) for text in input_texts]
input_ids = torch.tensor(input_ids)    

with torch.no_grad():
    last_hidden_states = model(input_ids)[0]#表征，与12层transformer特征提取，输出cls的特征用于分类
    print(last_hidden_states.shape)

Panesle

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
预训练bert模型导入与字符串表征

#coding=utf-8#预训练bert模型导入与字符串表征import torchfrom transformers import BertModel, BertTokenizermodel_name = 'bert_pretrain_test_qy'#模型目录#注意文件名：下载的文件预训练模型config.json, pytorch_model.bin, vocab.txttokenizer = BertTokenizer.from_pretrained(model_name)mod
复制链接

扫一扫

专栏目录