深度学习
文章平均质量分 94
LLC74
每天都困
展开
-
Bi-LSTM + Attention 模型学习记录(一)
将词汇表中的词或短语映射为固定长度向量的技术,我们可以将高维稀疏向量转为低维连续向量。为了进一步说明词与词之间的关系,我们可以使用降维算法,将词嵌入向量转变至二维(将这些词汇在二维平面图上绘制出来,我发现,语义相近的一些词,向量位置之间的距离也会更近一些如下图:并且,词嵌入向量还能通过向量之间的数学关系来描述词语间的语义关联。如图所示:)向量(“King")-向量("man")~向量(”queen")-向量(”woman")原创 2023-11-23 09:28:28 · 1438 阅读 · 1 评论 -
Attention +Transformer学习记录(二)
3.一、Self-Attention。原创 2023-11-29 10:51:30 · 1098 阅读 · 1 评论 -
Seq2seq学习记录(三)
每次进行预测时,都会把所有输入序列的隐藏层信息都看一遍,决定当前预测的词和输入序列的哪些词最相关,从而提高预测的质量。Attention机制表示在解码Decoder阶段,有三个输入,S(i-1)为解码上一阶段的隐藏状态,yi为上一阶段的预测输入,Ci为本次预测所对应的编码阶段上下文向量。seq2seq即序列到序列模型,为Encoder-Deconder结构,是将输入序列通过特定方法生成另一个序列的模型,输入和输出的序列可以不等长,解决了RNN中要求序列等长的问题。原创 2023-12-06 19:52:50 · 929 阅读 · 1 评论 -
BERT 预训练模型学习记录(四)
BERT是一种预训练语言模型。原创 2023-12-13 17:20:50 · 936 阅读 · 0 评论