- 博客(4)
- 收藏
- 关注
原创 Seq2seq学习记录(三)
每次进行预测时,都会把所有输入序列的隐藏层信息都看一遍,决定当前预测的词和输入序列的哪些词最相关,从而提高预测的质量。Attention机制表示在解码Decoder阶段,有三个输入,S(i-1)为解码上一阶段的隐藏状态,yi为上一阶段的预测输入,Ci为本次预测所对应的编码阶段上下文向量。seq2seq即序列到序列模型,为Encoder-Deconder结构,是将输入序列通过特定方法生成另一个序列的模型,输入和输出的序列可以不等长,解决了RNN中要求序列等长的问题。
2023-12-06 19:52:50 49 1
原创 Bi-LSTM + Attention 模型学习记录(一)
将词汇表中的词或短语映射为固定长度向量的技术,我们可以将高维稀疏向量转为低维连续向量。为了进一步说明词与词之间的关系,我们可以使用降维算法,将词嵌入向量转变至二维(将这些词汇在二维平面图上绘制出来,我发现,语义相近的一些词,向量位置之间的距离也会更近一些如下图:并且,词嵌入向量还能通过向量之间的数学关系来描述词语间的语义关联。如图所示:)向量(“King")-向量("man")~向量(”queen")-向量(”woman")
2023-11-23 09:28:28 479 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人