bert模型部分代码记录

最新推荐文章于 2024-05-29 16:20:17 发布

wzlearning

最新推荐文章于 2024-05-29 16:20:17 发布

阅读量374

点赞数

分类专栏：计算机技术文章标签： bert 深度学习人工智能

本文链接：https://blog.csdn.net/wuange/article/details/128400117

版权

bert源码理论有很多，核心结构应该是transformer代码部分，如下。bert的transformer结构用了多层。初始层的输入张量是字符embedding与位置embedding，后面的n层输入张量是前一层的输出张量，中间有存储注意力层的输出张量。存储的注意力层输出张量会做拼接，输出给下面的ln和dense，产生当前层的输出张量。

摘要由CSDN通过智能技术生成

def transformer_model(input_tensor,
                      attention_mask=None,
                      hidden_size=768,
                      num_hidden_layers=12,
                      num_attention_heads=12,
                      intermediate_size=3072,
                      intermediate_act_fn=gelu,
                      hidden_dropout_prob=0.1,
                      attention_probs_dropout_prob=0.1,
                      initializer_range=0.02,
                      do_return_all_layers=False):
  """Multi-headed, multi-layer Transformer from "Attention is All You Need".

  This is almost an exact implementation of the original Transformer encoder.

  See the original paper:
  https://arxiv.org/abs/1706.03762

  Also see:
  https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/transformer.py

  Args:
    input_tensor: float Tensor of shape [batch_size, seq_length, hidden_size].
    attention_mask: (optional) int32 Tensor of shape [batch_size, seq_length,

最低0.47元/天解锁文章

wzlearning

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
bert模型部分代码记录

bert源码理论有很多，核心结构应该是transformer代码部分，如下。bert的transformer结构用了多层。初始层的输入张量是字符embedding与位置embedding，后面的n层输入张量是前一层的输出张量，中间有存储注意力层的输出张量。存储的注意力层输出张量会做拼接，输出给下面的ln和dense，产生当前层的输出张量。
复制链接

扫一扫