- 博客(3)
- 收藏
- 关注
原创 实验14.基于Transformer实现机器翻译(日译中)
在模型训练过程中,我们基于PyTorch框架实现了Transformer模型,并通过一系列实验调整了超参数。这可能是因为训练数据集中简单句子的样本较少,导致模型在这方面的学习能力有所限制。在这里,将BATCH_SIZE设置为16,以避免“cuda内存溢出”,但这取决于诸如机器内存容量、数据大小等各种因素,因此可以根据需求自由更改批量大小。最终,在准备好必要的类和函数之后,我们准备开始训练我们的模型。在数据准备阶段,我们精细处理了中日双语语料,包括分词和构建词汇表,以便将文本转换为模型可理解的张量形式。
2024-06-29 20:40:00 675
原创 机器翻译实验报告
具体而言,解码器在每个时间步都会接收两个输入:一个是来自上一个时间步的输出,另一个是来自编码器的上下文向量。例如,在PyTorch的nn.GRU实现中,经过前向计算后,除了返回输出外,还会得到每个时间步的多层隐藏状态。门控循环单元在最终时间步的多层隐藏状态的形状为(隐藏层个数, 批量大小, 隐藏单元个数)。其中隐藏层的输入是解码器的隐藏状态与编码器在所有时间步上隐藏状态的一一连结,且使用tanh函数作为激活函数。在下面的例子中,编码器的时间步数为10,批量大小为4,编码器和解码器的隐藏单元个数均为8。
2024-06-29 18:13:16 840
原创 自然语言处理前馈网络
1.实验内容1.1多层感知机1.2卷积神经网络2.1实验目的2.2实验环境2.3实验流程3.具体代码实现3.1实验预处理3.2实验训练3.2.1实验准备3.2.2卷积神经网络3.2.3多层感知机3.3实验预后部分处理4.实验小结。
2024-06-28 22:12:07 1394
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人