NLP大模型
文章平均质量分 92
NLP大模型介绍
安徒生在ACL讲一千零一夜
写博客纯属为了期末和回顾整理,有漏洞欢迎指正
展开
-
Seq2Seq模型
end to end:已知input和output,去学习input到output 的映射关系,也就是求对应法则f的过程。Encoder层的输出语义向量c包含了输入序列X全部的语义信息,作为Decoder层的输入。可以作为初始化参数参与运算,也可以作为Decoder层每一个STEP的输入参与计算。neural models,也就是end-to-end的NLP文本任务流程。双向LSTM中,每层的输出经过归一化之后,输出各种可能结果的概率分布。Encoder的隐状态输出作为Decoder隐状态的输入。原创 2023-06-14 23:22:43 · 375 阅读 · 0 评论 -
Attention模型
seq2seq在应对长序列下效果不明显,会出现Encoder层输出的语义向量c信号丢失严重。在长序列文本输入/输出场景下,RNN/LSTM模型很显然,在加入了Attention机制之后,记忆力缺陷被很好地弥补了。原创 2023-06-15 02:46:36 · 62 阅读 · 1 评论 -
word2vec模型
如果w1和w2两个单词词义相近,那么w1和w2两个单词的向量表达应该是类似或相近的。word2vec尝试去表达单词之间的关系。原创 2023-06-13 00:25:16 · 227 阅读 · 1 评论 -
BERT实现文本标签分类任务
(通过在bert模型中配置)导入数据集与分类类别名单。原创 2023-06-29 22:13:29 · 272 阅读 · 1 评论 -
BERT预训练模型
参考资料。原创 2023-06-26 00:09:26 · 2727 阅读 · 1 评论 -
Glove模型
基于矩阵分解的词表示方法:首先统计语料库中的“词-文档”或者“词-词”共现矩阵,然后通过矩阵分解的方法来获得一个低维词向量Cons:时间复杂度高、过度重视共现词频高的单词对(没有语义、语法信息)Pros:利用全局统计信息基于神经网络的词表示方法:通过神经网络使上下文窗口内频繁共现的单词对的表示接近Cons:没有充分利用全局统计信息、过度重视共现词频高的单词对,共现词频高的单词对不绝对是语义相关的Pros:效果较好且速度快。原创 2023-06-14 01:45:20 · 122 阅读 · 0 评论 -
Transformer in CV
最后,作者在未来将在以下几个方向完善VAN:继续改进它的结构。在本文中,只展示了一个简单的结构,还存在很多潜在的改进点,例如:应用大核、引入多尺度结构和使用多分支结构。大规模的自监督学习和迁移学习。VAN 自然地结合了CNN和ViT的优点。一方面VAN利用了图像的2D结构。另一方面 VAN可以基于输入图片动态的调整输出,它很适合自监督学习和迁移学习。结合了这两点,作者认为VAN可以在这两个领域有更好的性能。更多的应用场景。由于资源有限,作者只展示了它在视觉任务中的优秀性能。原创 2023-07-03 15:57:17 · 77 阅读 · 1 评论 -
Transformer模型
[seq2seq模型]]由两个主要部分组成:编码器Encoder和解码器DecoderEncoder将输入序列转换为一个固定长度的向量,而Decoder将该向量生成输出序列核心思想:将整个序列(输入)encode为一个向量,然后使用该向量来生成(decode)另一个序列(输出)整体上来说,seq2seq是一种先降维后升维的方法Encoder和Decoder通常使用循环神经网络RNN或变体,例如[[LSTM以及GRU模型]]Encoder的输入是一次性全部输入的,而Decoder的输入是。原创 2023-06-21 00:19:46 · 1344 阅读 · 0 评论 -
RNN升级模型
LSTM模型、GRU模型以及简单介绍了Stacked RNN和BiRNN模型原创 2023-06-06 16:44:48 · 97 阅读 · 1 评论 -
CNN,Transformer,MLP三分天下
随着Transformer这个外来物种的入侵,CV领域逐渐形成了Transformer和CNN二分天下的情况。在原有机器学习模型多层感知机MLP中也逐渐产生了变革,MLP-Mixer就是其产物。在MLP-Mixer工作中,研究人员表明,尽管Conv和attention都足以获得良好的性能,但它们都不是必须的,纯MLP+非线性激活函数+Layer Normalization也能取得不错的性能,其预训练和推理成本可与最新模型相媲美。在MLP-Mixer为什么要使用全连接层,全连接的优点在哪。原创 2023-07-05 21:06:26 · 387 阅读 · 2 评论 -
循环神经网络RNN模型
rnn模型原创 2023-06-05 17:27:54 · 1355 阅读 · 2 评论