真小白 使用Bert步骤记录

Google开源了多个版本的BERT(Bidirectional Encoder Representation from Transformers)预训练模型。针对语言主要分为中文、英文和多语言,针对非中文区分大小写的Cased版本,其中Base版本网络规模比Large小。选择中文训练模型并下载。
BERT-Base, Chinese
语言种类:中文
网络结构:12-layer, 768-hidden, 12-heads
参数规模:110M

文本特征提取 BERT-Master模型

bert目前官方提供tensorflow、keras版本、目前github上也有其他版本的,本文以tensorflow版本为准,环境管理采用anaconda管理。anaconda在mac上的安装与配置步骤:

一、下载及安装

  1. 官网下载命令行版本。
  2. 下载完成后, 按 <bottom>cmd + t </bottom> 打开终端 进入我们的下载目录
  3. cd ~/Download/
    bash ./Anaconda3.sh #执行我们刚才下载的文件,文件名要看你自己的
  4. 注意ENTER to continue,很长一段协议阅读可以一直向下滑动,直到accept the license
  5. Enter 会有长时间的空白,不要乱按。

二、将conda加入系统变量

       1. “cd..”敲回车,退回下载文件夹

       2. conda --version 如下信息安装成功。

       3. 然后是,在mac终端用命令行的形式,添加并激活anaconda的环境变量:

           添加命令:echo 'export PATH="/Users/software/anaconda3/bin:$PATH"' >> ~/.zshrc

           解释说明:echo是返回字符串的命令,~/目录是家目录,即/Users/<个人用户名>。两个>(英文半角下的大于号)表示不改变               后面文件中的原有内容,添加引号中的内容,有这个文件会自动新建。为什么是.zshrc文件呢,因为我的终端打开用的是-                 zsh工具。

      4. 激活命令:source ~/.zshrc

       (source命令的功能:读入指定的sh程序文件并依次执行文件中的所有语句。通常用于重新执行刚修改的初始化文件,是之立           即生效,而不必注销并重新登录)

三、电脑中的虚拟环境

1.现在电脑里面应该只有一个base环境。使用命令:conda env list进行查看。

2. 如何删除多余的虚拟环境 conda remove -n your_env_name --all

失败原因总结:

四、安装tensorflow并查看版本

pip install tensorflow

>>> import tensorflow as tf

>>> tf.__version__

使用pip安装tensorflow报错:ERROR: Could not find a version that satisfies the requirement tensorflow==1.15.4 (from versions: none)

       ERROR: No matching distribution found for tensorflow==1.15.4

由于系统python语言版本为3.8,还没有对应的tensorflow的低版本,所以创建了一个新的python3.6的虚拟环境来安装低版本的tensorflow

五、将anaconda的虚拟环境配置到pycharm中

找到anaconda中安装虚拟环境envs里面对应环境的对应python3.6.exe

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
PyTorch使用BERT(Bidirectional Encoder Representations from Transformers)是一种自然语言处理(NLP)模型,它基于Transformer架构,并且在预训练阶段使用了大量的无标签文本数据。下面是使用PyTorch实现BERT的一般步骤: 1. 安装PyTorch和Transformers库:首先,你需要安装PyTorch和Transformers库。可以通过pip命令来安装它们: ``` pip install torch pip install transformers ``` 2. 加载预训练的BERT模型:使用Transformers库中的`BertModel`类来加载预训练的BERT模型。你可以选择不同的预训练模型,如BERT-base或BERT-large。加载模型的代码如下: ```python from transformers import BertModel model = BertModel.from_pretrained('bert-base-uncased') ``` 3. 准备输入数据:BERT模型接受输入数据的格式是tokenized的文本序列。你需要将文本转换为对应的token,并添加特殊的标记,如[CLS]和[SEP]。可以使用Transformers库中的`BertTokenizer`类来完成这个任务: ```python from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') text = "Hello, how are you?" tokens = tokenizer.tokenize(text) input_ids = tokenizer.convert_tokens_to_ids(tokens) ``` 4. 输入数据编码:将输入数据编码为模型可以接受的形式。BERT模型需要输入的是token的索引序列,以及每个token的attention mask和segment mask。可以使用Transformers库中的`BertTokenizer`类的`encode_plus`方法来完成编码: ```python encoding = tokenizer.encode_plus( text, add_special_tokens=True, max_length=512, padding='max_length', truncation=True, return_attention_mask=True, return_token_type_ids=True, return_tensors='pt' ) input_ids = encoding['input_ids'] attention_mask = encoding['attention_mask'] token_type_ids = encoding['token_type_ids'] ``` 5. 使用BERT模型进行预测:将编码后的输入数据传递给BERT模型,即可进行预测。可以使用PyTorch的`torch.no_grad()`上下文管理器来关闭梯度计算,以提高推理速度: ```python with torch.no_grad(): outputs = model(input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids) # 获取模型输出 last_hidden_state = outputs.last_hidden_state ``` 以上是使用PyTorch实现BERT的一般步骤。你可以根据具体的任务和需求对模型进行微调或进行其他操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值