2019年09月_zkq_1986

原创【python】利用traceback输出详细报错信息

import tracebacktry: a=int('asdf')except Exception as e: print(traceback.format_exc())输出：Traceback (most recent call last): File "D:/t1.py", line 4, in <module> a=int('asdf...

2019-09-24 11:25:05 851

原创【深度学习】GeLU高斯误差线性单元原理

GeLU，(Gaussian Error Linerar Units)，高斯误差线性单元1 Gelu数学原理G(x) = xΦ(X<=x)其中，Φ(X)为正态分布。累积分布函数是指随机变量XX小于或等于xx的概率，用概率密度函数表示为：正态分布的累积分布函数可以用“误差函数”erf 表示：其中误差函数的表达式为：2 代码实现：def gelu...

2019-09-19 14:17:58 1256

原创【pytorch】利用requires_grad冻结部分网络参数

代码示例：import torchimport torch.nn as nnclass a1(torch.nn.Module): def __init__(self): super(a1, self).__init__() self.l1 = nn.Linear(3, 2)class aa(a1): def __init__(se...

2019-09-18 15:54:34 2010

原创【python】python生成均匀分布的点

import numpy as npa = np.linspace(-10,10,21)print(a)输出：[-10. -9. -8. -7. -6. -5. -4. -3. -2. -1. 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]

2019-09-17 10:09:40 2441

转载【NLP】Gelu高斯误差线性单元解释

Gaussian Error Linerar Units(GELUS)论文链接：https://arxiv.org/abs/1606.08415不管其他领域的鄙视链，在激活函数领域，大家公式的鄙视链应该是：Elus > Relu > Sigmoid ，这些激活函数都有自身的缺陷， sigmoid容易饱和，Elus与Relu缺乏随机因素。在神经网络的建模过程中，模型很重要的性质...

2019-09-17 09:54:23 574

转载【pytorch】pytorch 计算 CrossEntropyLoss 需要先经 softmax 层激活吗

答案是不需要。碰到一个坑，之前用pytorch实现自己的网络时，如果使用CrossEntropyLoss我总是将网路输出经softmax激活层后再计算交叉熵损失。刚刚查文档时发现自己大错特错了。考虑样本空间的类集合为{0,1,2}，网络最后一层有3个神经元（每个神经元激活值代表对不同类的响应强度），某个样本送入网络后的输出记为net_out： [1,2,3]，该样本的真...

2019-09-09 17:26:18 11219 1

原创【python】torch.tensor 和 Tensor区别

Tensor是python类，tensor是python函数，区别在于默认的数据类型不一样。>>> a=torch.Tensor([1,2])>>> print(a)tensor([1., 2.])>>> a.type()'torch.FloatTensor'>>> a=torch.tensor([1,...

2019-09-06 11:24:02 1849 1

原创【NLP】Bert base和 Bert large参数对比

Bert base的网络结构：L（网络层数）=12, H（隐藏层维度）=768, A（Attention 多头个数）=12, Total Parameters= 12*768*12=110M使用GPU内存：7G多Bert base的网络结构：) and BERTLARGE (L=24, H=1024,A=16, Total Parameters=340M).使用GPU内存：3...

2019-09-05 19:59:56 17199

原创【NLP】Bert预训练中Mask LM和Next Sentence Prediction输入输出是什么形式？

1. Mask LM的输入输出形式：input : [CLS] I like[MASK] (原始句子：I like cat)ouput: Ch1 h2 h3对h3增加一层所有词的softmax，预测其输出是否为cat。2. Next Sentence Prediction输入输出形式：input [CLS] I like cat. [SEP] He like d...

2019-09-05 19:37:54 7143

原创【python】pytorch中的detach是什么功能

detach的方法，将variable参数从网络中隔离开，不参与参数更新。如下：# y=A(x), z=B(y) 求B中参数的梯度，不求A中参数的梯度y = A(x)z = B(y.detach())z.backward()...

2019-09-05 19:27:46 27895 1

原创【NLP】什么是知识图谱？

知识图谱是一种基于图的数据结构，由点和边组成，点代表实体，边代表关系，点上有属性。

2019-09-05 14:18:02 492

原创【NLP】ACL-2019 录用论文

LONG PAPERS (MAIN CONFERENCE)SphereRE: Distinguishing Lexical Relations with Hyperspherical Relation EmbeddingsChengyu Wang, XIAOFENG HE and Aoying ZhouLearning from Dialogue after Deployment: Fee...

2019-09-04 15:25:27 25115 2

原创【python】Optimizer优化器的zero_grad和step的理解

def zero_grad(self): r"""Clears the gradients of all optimized :class:`torch.Tensor` s.""" for group in self.param_groups: for p in group['params']: if...

2019-09-02 17:19:00 2096

原创【python】torch中tensor的view函数怎么用

import numpy as npimport torchx = torch.Tensor(2, 2, 2)y = x.view(1, 8) #输出维度：1*8z = x.view(-1, 4) # -1表示维数自动判断，此输出的维度为：2*4t = x.view(8) #输出维度： 8*1t = x.view(-1) #输出维度： 1*8...

2019-09-02 17:01:01 18107 2

原创【python】除法中/与//的区别

/ ：表示除的时候留余数// : 表示整除，不留余数。例如： 5/2 = 2.5 5//2 = 2

2019-09-02 16:17:39 793

原创【NLP】如何理解Bert中的warmup_proportion

warmup_proportion表示，慢热学习的比例。比如warmup_proportion=0.1，总步数=100，那么warmup步数就为10。在1到10步中，学习率会比10步之后低，10步之后学习率恢复正常。在1到10步之间，学习率的改变一般有以下几种方式："warmup_cosine": WarmupCosineSchedule,"warmup_constant": Warm...

2019-09-02 12:01:46 8723 2

zkq_1986的博客