语言模型
文章平均质量分 93
colorful_-_
在读博士,前互联网大厂工程师,人工智能研究院技术产品经理,深耕人工智能、大模型等领域的研究与落地应用
展开
-
聊聊ELMo
ELMo来自论文:Deep contextualized word representations**1.ELMo模型**ELMO采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中。**1.1利用语言模型进行预训练**上图中左端的前向双层LSTM代表...原创 2019-12-26 19:18:24 · 322 阅读 · 0 评论 -
LSTM模型、双向LSTM模型以及模型输入输出的理解
#Tensorflow中实现双向RNNs在tensorflow中已经提供了双向RNNs的接口,使用**tf.contrib.rnn.bidirectional_dynamic_rnn()**这个函数,就可以很方便的构建双向RNN网络。def bidirectional_dynamic_rnn(cell_fw, # 前向RNNcell_bw, # 后向RNNinputs, # 输入 s...原创 2019-12-25 16:56:56 · 14445 阅读 · 1 评论 -
聊聊Bert
在上一篇文章中我们提到了Transformer,详见:聊聊Transformer 。在这篇文章中,我们讲解一下BERT模型。**1.BERT模型**BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-...原创 2019-12-24 12:51:09 · 485 阅读 · 0 评论 -
聊聊 Transformer
这里写自定义目录标题Encoderencoder由 6 层相同的层组成,每一层分别由两部分组成:第一部分是 multi-head self-attention第二部分是 position-wise feed-forward network,是一个全连接层两个部分,都有一个残差连接(residual connection),然后接着一个 Layer Normalization。Deco...原创 2019-12-24 10:11:06 · 592 阅读 · 0 评论