nlp
文章平均质量分 75
nlp相关公式概念,自己的理解,代码练习和理解
SaltyFish_Go
未来某优质的算法工程师
展开
-
BERT源码解读,详细写记录从零实现BERT模型
BERT代码(源码)从零解读【Pytorch-手把手教你从零实现一个BERT源码模型】_哔哩哔哩_bilibili讲解视频如上,记录是为自己更好的学习的笔记和方便后面复习。1、参数设置max-pred一个句子中最大可以预测多少个tokenn-layer由多少个encoder进行堆叠,一般base有12个,large有24个n_head多少个头d_ff 前馈神经网络的维度d_k,d_v 是Q,K维度的大小,两个必须维度一致n_segment 是二分类任务中,区分多少不同句子.原创 2022-04-28 19:52:28 · 4293 阅读 · 0 评论 -
nn.Modulelist和nn.sequential的区别
nn.Modulelist是个list容器,存储不同的mudule,并自动把每个不同的Module的参数parameter添加到网络之中,所有模块没有顺序可言,只是把不同的模块存储到一起。nn.Sequential已经实现了forward函数,这里面的模块是按照顺序进行排列的,所以必须保证里面前一个模块的输出大小和后一个模块的输入大小是一样的...原创 2022-04-28 12:28:31 · 411 阅读 · 0 评论 -
Bert从入门到放弃——Bert文章精读(每部分的内容简介)及核心问题
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding谷歌的小哥写出来的,据说是master,我辈楷模文章逐段简介每段摘要,读的时候带有目的去读1.摘要(Abstract):与别的文章的区别是什么?效果有多好?gpt是用左侧的信息去预测未来,bert是用左右两边的上下文的双向的信息(带掩码所以允许看左右的信息,相当于完形填空);ELMO是基于RNN的架构的双向系统,bert是tra原创 2022-04-27 15:32:05 · 2525 阅读 · 0 评论 -
自监督词表示学习CBoW和skip-gram的原理与区别-词向量如何生成及如何决定窗口中每个词的概率
目录one-hot与embedding的区别词向量模型Word2Vec(自监督学习)1、skip-gram(给定中间词→上下文)2、CBoW(Continuous Bag-of-Words,给定上下文→中间词)CBoW和skip-gram的应用上的区别:one-hot与embedding的区别one-hot 独热编码:特征稀疏词之间相互独立,没有顺序关系不能表征词与词之间的关系,one-hot 之间是正交的Embedding :对每一个单词用一个..原创 2022-04-26 17:18:29 · 648 阅读 · 0 评论 -
Transformer结构解析和其中的块的原理
多头注意力transformer的架构逐位前馈网络层归一化Transformer是一个使用encoder-decoder架构,纯使用attention注意力机制,编码器和解码器中都有很多的transformer块,每个块里都使用了多头注意力,并且用逐位前馈网络,和layer-norm层归一化(batchnorm不适合nlp,因为句子不一样长,维度和特征不一样)。多头注意力通过不同的注意力机制的方法集合concat,也就是用同一对key,val...原创 2022-02-14 14:32:41 · 1654 阅读 · 0 评论 -
nlp中基于统计语言模型对贝叶斯公式的理解
大学期间概率论学过贝叶斯公式,当时感觉它的作用就是用先验概率和似然概率求后验概率,并没有任何直观的感受,仅用于求解不同条件下的概率值。今天读了一本新书,其中的一段基于自然语言处理上的理解给了我很大的启发,豁然开朗,因此发博客分享一下,同时也记录一下自己思考的过程,以供后续对nlp的思考和深入。贝叶斯法则是现在很多模型的基础,现代社会的很多新技术都需要它的支撑,例如:贝叶斯模型估计,机器翻译,Query纠错,搜索引擎等等。该公式由托马斯·贝叶斯生前提出,由好友替他发表论文,定义如下:...原创 2022-04-08 15:19:59 · 493 阅读 · 1 评论