1、在隐藏层选择ReLu激活函数
2、二分类使用sigmoid激活函数
3、多分类使用softmax激活函数
4、多分类任务的损失函数是交叉熵损失
5、Transformer主要用于机器翻译,主要包括5个部分:
输入部分、输出部分、编码器部分、解码器部分、解码器输入部分(输出部分再输入)
6、batchsize越大,训练效果越好,但并不是越快。主要是受制于cpu的屋脊效应,io吞吐过大会卡住,反而慢。
7、nlp的社区是huggingface
中文社区是魔搭 pip install modelscope