Machine Learning
文章平均质量分 80
wuzqchom
这个作者很懒,什么都没留下…
展开
-
TensorFlow中CNN的两种padding方式“SAME”和“VALID”
在用tensorflow写CNN的时候,调用卷积核api的时候,会有填padding方式的参数,找到源码中的函数定义如下(max pooling函数也是一样): def conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, data_format=None, name=None)源码中对于pad...原创 2017-07-08 11:30:57 · 118739 阅读 · 21 评论 -
浅谈Attention-based Model【原理篇】
转载请标明出处:http://blog.csdn.net/wuzqchom/article/details/75792501 计划分为三个部分: 浅谈Attention-based Model【原理篇】(你在这里) 浅谈Attention-based Model【源码篇】 浅谈Attention-based Model【实践篇】0. 前言 看了台大的李宏毅老师关于......原创 2017-07-22 19:24:02 · 55765 阅读 · 16 评论 -
L2正则化(L2 Regularization)
标签(空格分隔): 机器学习1. L2L_2正则化项的导出正则化是机器学习中一个防止过拟合的一个重要手段通常,过拟合一个显著地表现是能够很好地拟合当前的数据,但是泛化能力不强。首先假设模型学到了多项式: H10:w00+w1x1+⋯+w10x10H_{10}:w_0^0+w_1x^1+\cdots+w_{10}x^{10} 即H10≡{w∈R10+1}H_{10}\equiv\{ w\in R^原创 2017-02-25 16:08:54 · 6054 阅读 · 0 评论 -
Batch Normalization
1. 背景 首先来看看归一化之前和归一化之后的代价函数示意图,左边的最归一化之前,右边为归一化之后,最中间的点为我们要优化的最优点(图片来自Andrew最新deeplearning.ai改善深层神经网络课程的1.9 Normalizing inputs)。 我们可以看到,在归一化之前,不同的特征的取值范围可能有所不同,这样带来的不好的地方就是在进行梯度下降的时候,学习率不能够设置太大原创 2017-09-18 22:31:22 · 1227 阅读 · 0 评论 -
偏差(Bias)与方差(Variance)
偏差方差标签(空格分隔): 未分类1.问题背景NFL(No Free Lunch Theorem)告诉我们选择算法应当与具体问题相匹配,通常我们看一个算法的好坏就是看其泛化性能,但是对于一个算法为什么好为什么坏,我们缺乏一些认识。“Bias-Variance Decomposition”就是从偏差和方差的角度来解释一个算法的泛化性能。2. 一点点数学“Bias-Variance Decomposit...原创 2017-07-13 20:14:17 · 27689 阅读 · 6 评论 -
逻辑斯蒂回归(Logistic Regression)
在之前的博客,简单的介绍了线性回归,今天来看看它的一个进阶Logistic Regression。1. 问题背景线性回归可以让我们呢学习得到特征和目标label的权重关系,新来的一组测试样本,用同样的特征,它可以告诉我们一个预测值。但是很多时候我们需要的是一个更加有意义的值,比如在CTR预估的时候我们预测用户点击投放广告的概率,医院里预测一个人心脏病发的概率。Logistic Regre(LR)就可原创 2017-06-30 23:02:49 · 1143 阅读 · 0 评论 -
浅谈Attention-based Model【源码篇】
转载请标明出处:http://blog.csdn.net/wuzqchom/article/details/77918780此为本人阅读tensorflow源码的记录,主要在一些步骤上加了一些注释和少许个人理解,如有不足之处,请予指正。 计划分为三个部分: 浅谈Attention-based Model【原理篇】 浅谈Attention-based Model【源码篇】 浅谈Attentio...原创 2017-09-09 22:54:19 · 12026 阅读 · 1 评论 -
Sampled Softmax
sampled softmax原论文:On Using Very Large Target Vocabulary for Neural Machine Translation 以及tensorflow关于candidate sampling的文档:candidate sampling1. 问题背景在神经机器翻译中,训练的复杂度以及解码的复杂度和词汇表的大小成正比。当输出的词汇表巨大时,传统的sof原创 2017-08-10 20:34:45 · 8218 阅读 · 0 评论 -
Seq2Seq模型
前言: 此文翻译自TensorFlow tutorial: Sequence-to-Sequence Models 阅读完之后感觉挺好的,所以萌生了翻译的念头。 本文的尽量在做到意思正确的情况下,做到不尬翻,但由于是第一次尝试翻译,另加上英语水平有限,难免有所出入,如有不当,请予指正。Sequence-to-Sequence模型 正如之前已经在RNN Tutorial讨论的一样(如果你还没有翻译 2017-08-03 21:55:30 · 7871 阅读 · 8 评论 -
tensorflow中取值
最近在写用tensorflow的程序时,中途遇到想取出tensorflow中的返回值是什么,可是其返回值也是一个tensor。了两种方法:tf.cast(value,dtype=int)tf.to_int32(value)可是,着两条语句返回的都是一个tensor的信息,最后找到了这篇博客,两种方法都可以得到同样的结果:import tensorflow as tfa = tf.constant...原创 2017-07-18 10:47:49 · 11685 阅读 · 0 评论 -
线性回归(Linear Regression)
标签(空格分隔): 机器学习 此为笔者在学习过程中的读书笔记,文章主要关于机器学习模型的知识与一些个人感受,不妥之处,请予指正。1. 学习目标对于银行贷款问题,假如我们要根据顾客的一些属性得到是否可以贷款给顾客,那么二分类问题就可以得到解决。但是试想,如果银行到底应该贷款多少钱给顾客(比如支付宝的蚂蚁花呗)?这个就需要算法的输出的是一个实数值而不是”+1”和”-1”这样的label。那么银行如何知道原创 2017-02-25 14:03:05 · 964 阅读 · 0 评论 -
从AdaBoost到GBDT(part 1)
标签(空格分隔): ML看到网上关于AdaBoost和GBDT资料都不少,可是鲜有资料介绍他们联系,刚好之前有看过,最近复习到此,觉得有所收获,所以记录下来。此为读书笔记,若有错误,请予纠正。 前情概要:涉及公式较多,如要阅读,请提前找一个安静场所。另一个角度看AdaBoost我们已经知道AdaBoost每一次的样本的权重更新公式如下: Ut+1n={Utn∗♣tUtn/♣t,incorrect原创 2017-04-06 22:51:45 · 634 阅读 · 0 评论 -
从AdaBoost到GBDT(part 2)
从AdaBoost到GBDT若上面的式子使用梯度下降求解,则可将式子变换为:minηminh1N∑Nn=1exp(−yn(∑T−1t=1αtgt(xn)+ηh(xn)))\min\limits_{\eta}\min\limits_{h} \frac{1}{N}\sum_{n=1}^{N}exp(-y_{n}(\sum_{t=1}^{T-1}\alpha_{t}g_{t}(x_n)+\eta h(x_原创 2017-04-06 22:53:06 · 750 阅读 · 0 评论 -
GibbsLDA++ Invalid (empty) document!
在使用GibbsLDA++-0.2的时候,碰到错误 “Invalid (empty) document!”因为我用的是中文文档,虽然深信这个和语言没有太大关系,但还是网上查询了一些相关资料,无果。经过一段时间的琢磨,发现出现这种情况只可能:1. 文档确实存在2. 文档中按照制定格式3. 文档中第一行的文档数和真实文档数要匹配4. 文档中不能有空行出现以上任何一种情况都会原创 2016-10-19 10:24:03 · 1187 阅读 · 0 评论