- 博客(3)
- 收藏
- 关注
原创 在恒源云GPU上实现基于transformer实现机器翻译(日译中)
NHEAD = 8功能定义了模型的超参数和架构。是一个自定义的序列到序列Transformer模型,具有指定的编码器和解码器层数、词嵌入维度、隐藏层维度等。功能用作损失函数,对模型预测的logits和目标输出进行交叉熵计算,指定忽略填充符号的损失计算。Adam是一种优化器,用于更新模型的参数,通过传入获取所有需要更新的参数。
2024-06-23 20:33:18
669
原创 注意力机制机器翻译
机器翻译是指将一段文本从一种语言自动翻译到另一种语言。因为一段文本序列在不同语言中的长度不一定相同,所以我们使用机器翻译为例来介绍编码器—解码器和注意力机制的应用。这些导入语句引入了必要的Python标准库和PyTorch相关模块,例如、、、以及PyTorch的、、等。这些库提供了在进行深度学习模型开发和数据处理时所需的基本功能和工具。2. 设置特定环境变量、和是特殊的标记字符串,通常用于在处理文本数据时作为填充、起始和结束标记。 设置了环境变量,指定使用CUDA设备编号为0(如果可用)
2024-06-23 14:32:23
534
原创 使用前馈网络实现姓氏的分类
多层感知器(MLP)被认为是最基本的神经网络构建模块之一。最简单的MLP是对第3章感知器的扩展。感知器将数据向量作为输入,计算出一个输出值。在MLP中,许多感知器被分组,以便单个层的输出是一个新的向量,而不是单个输出值。在PyTorch中,正如您稍后将看到的,这只需设置线性层中的输出特性的数量即可完成。MLP的另一个方面是,它将多个层与每个层之间的非线性结合在一起。最简单的MLP,如图4-2所示,由三个表示阶段和两个线性层组成。第一阶段是输入向量。这是给定给模型的向量。
2024-06-22 21:46:34
586
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人