BERT源码解读,详细写记录从零实现BERT模型

目录

1、参数设置

2、数据预处理

3、预训练任务的数据构建部分(非常重要)

mask部分

(***)为什么在max_pred - 实际mask掉的单词数量上补0

4、模型整体架构

损失函数


1、参数设置

if __name__ == '__main__':
    # BERT Parameters
    maxlen = 30 # 句子的最大长度 cover住95% 不要看平均数 或者99%  直接取最大可以吗?当然也可以,看你自己
    batch_size = 6 # 每一组有多少个句子一起送进去模型
    max_pred = 5  # max tokens of prediction
    n_layers = 6 # number of Encoder of Encoder Layer
    n_heads = 12 # number of heads in Multi-Head Attention
    d_model = 768 # Embedding Size
    d_ff = 3072  # 4*d_model, FeedForward dimension
    d_k = d_v = 64  # dimension of K(=Q), V
    n_segments = 2

 max-pred一个句子中最大可以预测多少个token,控制每个句子最多有多少个单词被masked

  • 5
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Bert 压缩模型代码可以在以下地址获取: - Bert 原始模型代码:https://github.com/google-research/bert 如果你想要使用压缩版的 Bert 模型,你可以参考以下项目: - DistilBert:https://github.com/huggingface/transformers/tree/main/src/transformers/modeling_distilbert - TinyBert:https://github.com/huggingface/transformers/tree/main/src/transformers/modeling_tinybert - MobileBert:https://github.com/huggingface/transformers/tree/main/src/transformers/modeling_mobilebert 这些压缩版的 Bert 模型都是在原始的 Bert 模型的基础上进行了改进和优化,使得它们的模型大小更小,推理速度更快,同时保留了较高的准确率。 ### 回答2: bert压缩模型码地址可以在GitHub上找到。在GitHub上有许多开项目,其中有一些是专门为BERT模型压缩而设计的。这些项目通常会提供详细代码和使用指南。 一种常见的BERT模型压缩方法是通过稀疏化来减少模型的参数数量。稀疏化可以通过引入稀疏矩阵或掩码的方式来实现。这些方法的目标是识别和删除不重要的参数,从而减少模型的大小。在GitHub上可以找到一些使用这种方法的开项目,它们提供了压缩BERT模型代码。 另一种常见的压缩方法是权重剪枝。这种方法通过将参数的数值范围变得更小来减少模型的体积。通过剪枝掉参数的小值,可以减少模型的参数数量。GitHub上也有一些开项目提供了使用权重剪枝来压缩BERT模型代码。 总之,如果您想要获取BERT模型压缩的代码地址,建议在GitHub上搜索相关的开项目,其中会有一些专门为此目的而创建的项目,提供了详细代码和使用指南。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值