论文精读
文章平均质量分 94
内容主要以大模型为主,包括Bert,GPT,Transformer等等。
K24B;
这个作者很懒,什么都没留下…
展开
-
ERNIE 3.0知识增强大模型
Ernie3.0框架,试图对包括大量纯文本和知识图谱在内的大规模无监督语料进行预训练,此外,为了是model学到更多的有价值的词汇、句法和语义信息组成的不同层次的知识,其中预训练任务分布在三个任务范式中,即自然语言理解、自然语言生成和知识提取,因此,ERNIE 3.0创新性地设计了一个连续的多范式统一预训练框架,以实现多任务范式间的协同预训练。ERNIE 3.0,使不同的任务范式能够共享在一个共享网络中学习的底层抽象特征,并分别利用在他们自己的特定任务网络中学习的特定任务顶层具体特征。原创 2023-09-25 15:52:20 · 319 阅读 · 1 评论 -
BERT参数计算,RBT3模型结构
Bert沿用了惯用的全连接层大小设置,即4 * dmodle = 3072,其中用到了两个参数W1,W2,其中W1(768,3072),W2(3072,768),b1(768,1),b2(3072,1)。的模型由多层双向的Transformer编码器组成,由12层组成,768隐藏单元,12个head,总参数量110M,约1.15亿参数量。解释:m为输入的单词的数量,768位每个词的维度,64是因为分成了12个head(768/12)。:词汇量的大小为30522,每个词都是768维,共30522*768。原创 2023-07-21 13:12:10 · 1193 阅读 · 1 评论 -
Transformer And BERT Learning Is All You Need
对BERT和Attention两篇论文的理解原创 2023-07-21 09:57:34 · 643 阅读 · 1 评论 -
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(论文解读)
but also片段递归机制(segment-level recurrence mechanism )相对位置编码机制(relative positional encoding)提升了序列的长期依赖能力(capturing longer-termdependency)解决了上下文碎片问题(context segmentation problem)提升模型的预测速度和准确率。原创 2023-09-22 18:24:00 · 188 阅读 · 0 评论