- 博客(3)
- 收藏
- 关注
原创 深度学习基础
在多任务学习中,模型通常包含一个共享的底层网络,用于提取输入数据的共享特征。与传统的离线算法在处理静态数据集时一次性对所有数据进行处理不同,在线算法在处理数据时只能逐个处理数据元素,并且不能回头或重复处理已经处理过的数据元素。这种算法通常设计用于解决那些难以在有限时间内精确求解的问题,在任意时刻停止算法时,它会返回之前所计算出的最优解的一个近似值,这个近似值通常随着算法运行时间的增加而不断改进。在对新的数据元素进行处理时,算法会根据之前处理过的数据元素的信息来更新其状态,并基于这些信息来生成新的决策。
2023-05-07 10:25:22
134
1
原创 李宏毅老师机器学习 第五节 Transformer
1. 什么是Transformer?Transformer是一种sequence to sequence的神经网络模型架构,可以处理序列问题,相比于CNN和RNN,具有更好的并行处理能力。Transformer由encoder和decoder组成,采用了self-attention机制,可以自适应学习每个位置和其他位置之间的依赖关系。此外,Transformer还采用了残差连接和层归一化等技术,用于加速模型的训练和提高模型的泛化能力2. Transformer与RNN相比,优点是什么?
2023-05-02 21:49:45
417
原创 李宏毅老师机器学习 第四节 Self-attention
1.Self-attention和全连接的区别是什么?输入层有A B C 3个特征向量,现在要构造一个网络求3者的权重,然后加权求和得到输出O,即O=w_a*A + w_b*B + w_c*C,如果采用全连接层,w_a,w_b,w_c是根据位置确定的,我第一次给你三个数据ABC,然后你得出了B最重要,也就是让 w_B 最大。然而我下次给你的顺序可能是BAC,这次A在刚才B的位置,如果你用全连接层来实现的话,得出的结果就会变成 O=w_A*B + w_B*A + w_C*C。
2023-05-01 23:04:39
146
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人