NLP
文章平均质量分 62
孤舟独钓寒江雪
这个作者很懒,什么都没留下…
展开
-
NLP相关技术
由于训练集有限时,不能覆盖所有情况,若编码标签不够soft,模型对标签过分相信,从而导致模型过拟合,缺乏泛化能力。label smoothing 将原来的 one-hot 表示,在每一维上添加一个随机噪音。当采用 one-hot 编码方式,仅有y为1的一维参与loss计算,其他的都忽略了。对 label 编码有两种方式: hard label, soft label。,其中p为真实label分布,q为预测label分布。为目标函数,模型预测的 label 概率分布。其中,e∈[0,1],为了方便计算,原创 2022-12-10 14:13:47 · 775 阅读 · 0 评论 -
预训练语言模型
同一个词在不同的语境中,含义往往是不同的,而词向量对于某一个词只能生成一个固定的向量,无法结合语境上下文信息进行调整。原创 2022-10-27 21:47:24 · 171 阅读 · 0 评论 -
word embedding
首先,我们要将词转换为分布式表示的词嵌入,先对词进行one-hot编码,表示为每个词 Vdim维向量,与W(Vdim,N)相乘后就是选择W矩阵的第i行,即将词表示为N维向量(通常N远小于V,常用为300远小于词表不重复词个个数),即将长度为Vdim的ont-hot编码稀疏word vectors转换为稠密的长度为N的word embedding表示。Pij表示词j出现在中心词i环境中的概率,这一概率称为词 i和词j 的共现概率。这种将高维度的词表示转换为低维度的词表示的方法,我们称之为。原创 2022-10-22 16:18:26 · 702 阅读 · 0 评论 -
NLP基础
变换前是直线的,变换后依然是直线.直线比例保持不变.变换前是原点,变换后依然是原点。如:旋转、推移旋转实现:若有A=[xy],旋转矩阵Trotate=[cosθsinθ−sinθcosθ],通过矩阵乘法TrotateA=A’,得到旋转θ后的向量A’,平面上图形的每个点都如此,就形成旋转后的图形。原创 2022-09-28 09:50:47 · 360 阅读 · 0 评论 -
Seq2Seq 模型详解
Seq2Seq 是一种重要的 RNN 模型,也称为 Encoder-Decoder 模型,可以理解为一种 N×M的模型。原创 2022-09-25 10:26:40 · 286 阅读 · 0 评论 -
Machine Reading Comprehension(MRC)
Datasets:SQuAD原创 2022-09-24 19:19:08 · 600 阅读 · 0 评论 -
Named Entity Recognition(NER)
NER的简单综述原创 2022-09-24 19:14:51 · 216 阅读 · 0 评论 -
损失函数(loss function)
损失函数(Loss function)或代价函数(Cost function)的一般表示为L(y,f(x)),用以衡量真实值y和预测值f(x)之间不一致的程度。原创 2022-09-22 22:09:38 · 639 阅读 · 0 评论 -
BLUE 评价指标
BLEU:用于机器翻译任务的评价。常见的有BLUE-1、BLUE-2、BLUE-3、BLUE-4四种,其中的数字表示连续单词的个数。candidate {the cat sat, cat sat on, sat on the, on the mat} 中有1个在 reference 中,即 blue3=1/4=0.25。candidate {the cat, cat sat, sat on, on the, the mat} 中有3个在 reference 中,即 blue2=3/5=0.6。原创 2022-09-18 16:33:09 · 4065 阅读 · 0 评论 -
Attention Mechanism
nlp原创 2022-07-17 10:45:49 · 411 阅读 · 0 评论 -
ML or DL
降维,防止过度拟合 mean-pooling / max-pooling / Stochastic-pooling / global average pooling。提取图像特征 padding+stride+kernelSize+channel)1. local receptive fields(局部感受野)* 参数dilation:扩张卷积(也叫空洞卷积)2. shared weights(共享权值)输入层、隐藏层(前面输入对后面的影响)、输出层。:每一步 Wx,Wh,b相同。原创 2022-09-15 14:43:47 · 311 阅读 · 0 评论