自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 【python】利用traceback输出详细报错信息

import tracebacktry: a=int('asdf')except Exception as e: print(traceback.format_exc())输出:Traceback (most recent call last): File "D:/t1.py", line 4, in <module> a=int('asdf...

2019-09-24 11:25:05 851

原创 【深度学习】GeLU高斯误差线性单元原理

GeLU,(Gaussian Error Linerar Units),高斯误差线性单元1 Gelu数学原理G(x) = xΦ(X<=x)其中,Φ(X)为正态分布。累积分布函数是指随机变量XX小于或等于xx的概率,用概率密度函数表示为:正态分布的累积分布函数可以用“误差函数”erf 表示:其中误差函数的表达式为:2 代码实现:def gelu...

2019-09-19 14:17:58 1256

原创 【pytorch】利用requires_grad冻结部分网络参数

代码示例:import torchimport torch.nn as nnclass a1(torch.nn.Module): def __init__(self): super(a1, self).__init__() self.l1 = nn.Linear(3, 2)class aa(a1): def __init__(se...

2019-09-18 15:54:34 2010

原创 【python】python生成均匀分布的点

import numpy as npa = np.linspace(-10,10,21)print(a)输出:[-10. -9. -8. -7. -6. -5. -4. -3. -2. -1. 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.]

2019-09-17 10:09:40 2441

转载 【NLP】Gelu高斯误差线性单元解释

Gaussian Error Linerar Units(GELUS)论文链接:https://arxiv.org/abs/1606.08415不管其他领域的鄙视链,在激活函数领域,大家公式的鄙视链应该是:Elus > Relu > Sigmoid ,这些激活函数都有自身的缺陷, sigmoid容易饱和,Elus与Relu缺乏随机因素。在神经网络的建模过程中,模型很重要的性质...

2019-09-17 09:54:23 574

转载 【pytorch】pytorch 计算 CrossEntropyLoss 需要先经 softmax 层激活吗

答案是不需要。碰到一个坑,之前用pytorch实现自己的网络时,如果使用CrossEntropyLoss我总是将网路输出经softmax激活层后再计算交叉熵损失。刚刚查文档时发现自己大错特错了。考虑样本空间的类集合为{0,1,2},网络最后一层有3个神经元(每个神经元激活值代表对不同类的响应强度),某个样本送入网络后的输出记为net_out: [1,2,3], 该样本的真...

2019-09-09 17:26:18 11219 1

原创 【python】torch.tensor 和 Tensor区别

Tensor是python类,tensor是python函数,区别在于默认的数据类型不一样。>>> a=torch.Tensor([1,2])>>> print(a)tensor([1., 2.])>>> a.type()'torch.FloatTensor'>>> a=torch.tensor([1,...

2019-09-06 11:24:02 1849 1

原创 【NLP】Bert base和 Bert large参数对比

Bert base的网络结构:L(网络层数)=12, H(隐藏层维度)=768, A(Attention 多头个数)=12, Total Parameters= 12*768*12=110M使用GPU内存:7G多Bert base的网络结构:) and BERTLARGE (L=24, H=1024,A=16, Total Parameters=340M).使用GPU内存:3...

2019-09-05 19:59:56 17199

原创 【NLP】Bert预训练中Mask LM和Next Sentence Prediction输入输出是什么形式?

1. Mask LM的输入输出形式:input : [CLS] I like[MASK] (原始句子:I like cat)ouput: Ch1 h2 h3对h3增加一层所有词的softmax,预测其输出是否为cat。2. Next Sentence Prediction输入输出形式:input [CLS] I like cat. [SEP] He like d...

2019-09-05 19:37:54 7143

原创 【python】pytorch中的detach是什么功能

detach的方法,将variable参数从网络中隔离开,不参与参数更新。如下:# y=A(x), z=B(y) 求B中参数的梯度,不求A中参数的梯度y = A(x)z = B(y.detach())z.backward()...

2019-09-05 19:27:46 27895 1

原创 【NLP】什么是知识图谱?

知识图谱是一种基于图的数据结构,由点和边组成,点代表实体,边代表关系,点上有属性。

2019-09-05 14:18:02 492

原创 【NLP】ACL-2019 录用论文

LONG PAPERS (MAIN CONFERENCE)SphereRE: Distinguishing Lexical Relations with Hyperspherical Relation EmbeddingsChengyu Wang, XIAOFENG HE and Aoying ZhouLearning from Dialogue after Deployment: Fee...

2019-09-04 15:25:27 25115 2

原创 【python】Optimizer优化器的zero_grad和step的理解

def zero_grad(self): r"""Clears the gradients of all optimized :class:`torch.Tensor` s.""" for group in self.param_groups: for p in group['params']: if...

2019-09-02 17:19:00 2096

原创 【python】torch中tensor的view函数怎么用

import numpy as npimport torchx = torch.Tensor(2, 2, 2)y = x.view(1, 8) #输出维度:1*8z = x.view(-1, 4) # -1表示维数自动判断,此输出的维度为:2*4t = x.view(8) #输出维度 : 8*1t = x.view(-1) #输出维度: 1*8...

2019-09-02 17:01:01 18107 2

原创 【python】除法中/与//的区别

/ :表示除的时候留余数// : 表示整除,不留余数。例如: 5/2 = 2.5 5//2 = 2

2019-09-02 16:17:39 793

原创 【NLP】如何理解Bert中的warmup_proportion

warmup_proportion表示,慢热学习的比例。比如warmup_proportion=0.1,总步数=100,那么warmup步数就为10。在1到10步中,学习率会比10步之后低,10步之后学习率恢复正常。在1到10步之间,学习率的改变一般有以下几种方式:"warmup_cosine": WarmupCosineSchedule,"warmup_constant": Warm...

2019-09-02 12:01:46 8723 2

ik分词和ictclas分词两者结合

ik分词和ictclas分词两者结合,可使得分词结果更加精准。

2014-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除