2018年07月_z0n1l2

12月 11月 10月 09月 08月 07月 06月 05月

翻译注意力机制入门

重点attention mechanism可以和很多现有模型结合,插入两层之间:attention model接手前一层的输出,以及一个上下文参数(这个上下文是注意力机制的关键),经过注意力模型,从前一层的输出中筛选出和上下文相关的一部分(没必要直接删减,可以采用加权平均的方式筛选)作为注意力模型的输出,这个输出作为下一层的输入,从而让下一层关注于局部信息,下图是一个示意图 image ...

2018-07-23 22:17:29 9947

翻译时间序列分析-linear-models-to-GARCH

重点稳态时间序列要满足三个条件：均值不随时间变化方差不随时间变化协方差不随时间变化验证一个TSM的正确性的方法是验证其残差是否是白噪声random walk process可以建模，但无法做预测？时间序列分析的套路是不断分解目标序列，提取趋势/周期性信息，直至残留信息是白噪声序列为止时间序列分析TSA的套路,一个尝试各种已知模型的过程,通过对残差的白噪声验证确定模型的有效性,...

2018-07-22 14:58:19 3426 1

原创 win10下cmake编译cuda程序

尝试把一个linux下的cuda+python项目移植到windows下，接触到了windows下利用cmake编译基于cuda的dll的问题，记录如下CMake版本直接升级到最新，网上很多是利用findCUDA.cmake的方法，但是这种方法已经deperated了如何创建CUDA工程 project(gpu_demo LANGUAGES CXX CUDA)这两句都需要，缺...

2018-07-19 23:40:24 4023

原创 mxnet-增加新层(cpp)[代码]

一个实际mxnet新增层的例子, 官网的例子是loss layer的，比较简单调用关系图 Proto2DBlock(nn.Block)-&gt; Proto2DProp(mx.operator.CustomOpProp) -&gt; Proto2D(mx.operator.CustomOp)“`class Proto2D(mx.operator.CustomOp): #custom ...

2018-07-17 21:49:27 433

原创 git突然没有权限push/clone

问题环境一直使用cygwin，把其bin目录加入系统path目录，直接使用其中的git/ssh等命令现象半个小时前git还一切正常，clone/pull都OK，但是一次push时提示 THE AUTHENTICITY OF HOST XX CAN’T BE ESTABLISHED 让选择yes/no，按照提示内容，自然选择了yes，然后任何git操作都提示没有权限。...

2018-07-15 20:45:08 2158

原创自动求导

源自动求导当前深度学习框架给深度学习的研究和应用带了诸多方便，其中之一就是让使用者不必关心求导计算，而是专注于于自己的工作。那么面对复杂的网络结构，框架是如何完成求导的？Numeratical differentiation源回到导数最基础的定义 df(x)dx=f(x+h)−f(x)hdf(x)dx=f(x+h)−f(x)h\frac{df(x)}{dx} = ...

2018-07-14 17:39:38 790

翻译 mxnet-增加新层(cpp)

A Beginner’s Guide to Implementing Operators in MXNet BackendIntroduction构造神经网络最核心的元素是operator. operator定义了输入到输出转换的数学公式.从最简单的operator,比如元素求和,到复杂如卷积,mxnet包含了丰富的operator支持当前流行的各种神经网络. mxnet中的opera...

2018-07-14 02:20:50 1647

转载加快github访问速度

源在本地host文件中添加映射，步骤如下：用文本编辑器打开hosts文件，位于C:\Windows\System32\drivers\etc目录下打开 http://tool.chinaz.com/dns ,这是一个查询域名映射关系的工具查询 github.global.ssl.fastly.net 和 assets-cdn.github.com 两个地址多查几次，选择一个稳定...

2018-07-13 17:54:38 522

翻译 Word2Vec-Tutorial-Part-2-Negative-Sampling

源论文注释的源码本教程将介绍一些对基本skip-gram模型的修改,这些修改使得模型训练的困难度大幅降低. 上一篇教程中介绍的skip-gram模型使用的神经网络尺寸很大. 教程中给出的例子中有300个词向量,10000个词. 神经网络三层,对应2个权重矩阵.每个权重矩阵的维度都是300×10000300×10000300 \times 10000,包括3百万权重值. 在如此规模...

2018-07-13 17:35:07 517

原创 ubuntu18.04安装cuda

重点整个安装过程中重装了N次，也查阅了很多网上资料。个人感觉，因为硬件配置的不同，并没有一个方法可以适用所有的机器，愿意尝试linux的人，应该做好了实验所有方法的心里准备。以下给出一个降低重装次数的方法，感觉是这次的最大收获了。安装过程中，最长遇到的是启动后无法进入系统，除了重装之外，另一个选择是“单用户模式”下卸载nvidia的所有东西，从而可以重新进入系统。方法是 * grub启...

2018-07-13 00:06:52 5009

原创让机器用人的方式识别图像[codes]

论文地址This looks like that: deep learning for interpretable image recognitionprototype layerprototype layer对应的公式如下: gpj=maxz⃗ ∈patch(z)−log(||z⃗ −pj||22+ϵ)gpj=maxz→∈patch(z)−log(||z→−...

2018-07-11 20:24:44 1559 1

翻译 Word2Vec-Tutorial-The-Skip-Gram-Model

源Chris McCormick Word2Vec(译注)Word2vec是一组产生word embeddings的模型(word embeddings是NLP中把词或短语映射到数字或向量的方法的合称).这些模型由2层的神经网络实现,通过训练来重建词或短语的语法上下文. Word2vec包括两个结构: continuous bag-of-words(CBOW)和continuou...

2018-07-03 12:29:28 519

原创池化层反向传播公式推导

重点根据不同类型,上采用上层反向传入的梯度信息池化层反向传播公式推导池化层在深度学习网络架构中的作用包括: * 减少计算量减少特征图尺寸,减少后面的层的计算量提高多尺度信息如果存在多个池化层,就相当于网络中构造了一个多尺度特征金字塔,多尺度金字塔有利于提高检测/识别的稳定性上述是池化层的优势,但是随着研究的深入,池化层的劣势也逐渐被发现,比如有实验发...

2018-07-03 01:23:48 2153

原创 BP反向传播公式推导

重点界定一个节点的输入和输出 zzz是激励函数的输出Backpropagation算法(BP)是深度学习的基础,没有BP算法就没有神经网络,也不会有现在如火如荼的深度学习. BP算法并不仅仅适用于神经网络,对于任意系统,抽象成输入/输出/参数三个部分,如果输出对每个参数的导数已知,那么可以用BP算法把该系统调节到最优. 当然上述结论只在理论上成立,实践中会遇到各种问题,比如梯度爆炸/...

2018-07-02 22:30:29 616

翻译命令式编程 vs 符号式编程

重点命令/符号式编程的定义并不明确,CXXNet/Caffe因为依赖于配置文件,配置文件看作计算图的定义,也可以被当作符号式编程源源网址什么是symblic/imperative style编程使用过python或C++对imperative programs比较了解.imperative-stype programs在运行时计算.大部分python代码都是impe...

2018-07-01 13:14:32 4332