- 博客(16)
- 资源 (1)
- 收藏
- 关注
原创 【python】利用traceback输出详细报错信息
import tracebacktry: a=int('asdf')except Exception as e: print(traceback.format_exc())输出:Traceback (most recent call last): File "D:/t1.py", line 4, in <module> a=int('asdf...
2019-09-24 11:25:05 851
原创 【深度学习】GeLU高斯误差线性单元原理
GeLU,(Gaussian Error Linerar Units),高斯误差线性单元1 Gelu数学原理G(x) = xΦ(X<=x)其中,Φ(X)为正态分布。累积分布函数是指随机变量XX小于或等于xx的概率,用概率密度函数表示为:正态分布的累积分布函数可以用“误差函数”erf 表示:其中误差函数的表达式为:2 代码实现:def gelu...
2019-09-19 14:17:58 1256
原创 【pytorch】利用requires_grad冻结部分网络参数
代码示例:import torchimport torch.nn as nnclass a1(torch.nn.Module): def __init__(self): super(a1, self).__init__() self.l1 = nn.Linear(3, 2)class aa(a1): def __init__(se...
2019-09-18 15:54:34 2010
原创 【python】python生成均匀分布的点
import numpy as npa = np.linspace(-10,10,21)print(a)输出:[-10. -9. -8. -7. -6. -5. -4. -3. -2. -1. 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]
2019-09-17 10:09:40 2441
转载 【NLP】Gelu高斯误差线性单元解释
Gaussian Error Linerar Units(GELUS)论文链接:https://arxiv.org/abs/1606.08415不管其他领域的鄙视链,在激活函数领域,大家公式的鄙视链应该是:Elus > Relu > Sigmoid ,这些激活函数都有自身的缺陷, sigmoid容易饱和,Elus与Relu缺乏随机因素。在神经网络的建模过程中,模型很重要的性质...
2019-09-17 09:54:23 574
转载 【pytorch】pytorch 计算 CrossEntropyLoss 需要先经 softmax 层激活吗
答案是不需要。碰到一个坑,之前用pytorch实现自己的网络时,如果使用CrossEntropyLoss我总是将网路输出经softmax激活层后再计算交叉熵损失。刚刚查文档时发现自己大错特错了。考虑样本空间的类集合为{0,1,2},网络最后一层有3个神经元(每个神经元激活值代表对不同类的响应强度),某个样本送入网络后的输出记为net_out: [1,2,3], 该样本的真...
2019-09-09 17:26:18 11219 1
原创 【python】torch.tensor 和 Tensor区别
Tensor是python类,tensor是python函数,区别在于默认的数据类型不一样。>>> a=torch.Tensor([1,2])>>> print(a)tensor([1., 2.])>>> a.type()'torch.FloatTensor'>>> a=torch.tensor([1,...
2019-09-06 11:24:02 1849 1
原创 【NLP】Bert base和 Bert large参数对比
Bert base的网络结构:L(网络层数)=12, H(隐藏层维度)=768, A(Attention 多头个数)=12, Total Parameters= 12*768*12=110M使用GPU内存:7G多Bert base的网络结构:) and BERTLARGE (L=24, H=1024,A=16, Total Parameters=340M).使用GPU内存:3...
2019-09-05 19:59:56 17199
原创 【NLP】Bert预训练中Mask LM和Next Sentence Prediction输入输出是什么形式?
1. Mask LM的输入输出形式:input : [CLS] I like[MASK] (原始句子:I like cat)ouput: Ch1 h2 h3对h3增加一层所有词的softmax,预测其输出是否为cat。2. Next Sentence Prediction输入输出形式:input [CLS] I like cat. [SEP] He like d...
2019-09-05 19:37:54 7143
原创 【python】pytorch中的detach是什么功能
detach的方法,将variable参数从网络中隔离开,不参与参数更新。如下:# y=A(x), z=B(y) 求B中参数的梯度,不求A中参数的梯度y = A(x)z = B(y.detach())z.backward()...
2019-09-05 19:27:46 27895 1
原创 【NLP】ACL-2019 录用论文
LONG PAPERS (MAIN CONFERENCE)SphereRE: Distinguishing Lexical Relations with Hyperspherical Relation EmbeddingsChengyu Wang, XIAOFENG HE and Aoying ZhouLearning from Dialogue after Deployment: Fee...
2019-09-04 15:25:27 25115 2
原创 【python】Optimizer优化器的zero_grad和step的理解
def zero_grad(self): r"""Clears the gradients of all optimized :class:`torch.Tensor` s.""" for group in self.param_groups: for p in group['params']: if...
2019-09-02 17:19:00 2096
原创 【python】torch中tensor的view函数怎么用
import numpy as npimport torchx = torch.Tensor(2, 2, 2)y = x.view(1, 8) #输出维度:1*8z = x.view(-1, 4) # -1表示维数自动判断,此输出的维度为:2*4t = x.view(8) #输出维度 : 8*1t = x.view(-1) #输出维度: 1*8...
2019-09-02 17:01:01 18107 2
原创 【NLP】如何理解Bert中的warmup_proportion
warmup_proportion表示,慢热学习的比例。比如warmup_proportion=0.1,总步数=100,那么warmup步数就为10。在1到10步中,学习率会比10步之后低,10步之后学习率恢复正常。在1到10步之间,学习率的改变一般有以下几种方式:"warmup_cosine": WarmupCosineSchedule,"warmup_constant": Warm...
2019-09-02 12:01:46 8723 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人