机器学习
ShenYounger
这个作者很懒,什么都没留下…
展开
-
工作中遇到的一些问题
1.关于tf.custom_gradient介绍的比较好的是下面的博文,https://blog.csdn.net/qq_39216794/article/details/86183668,注意这个博文对于dy的解释,是"upstream gradient"。原创 2021-07-04 19:14:30 · 242 阅读 · 0 评论 -
FM、FFM、DeepFM
1.关于tf.custom_gradient介绍的比较好的是下面的博文,https://blog.csdn.net/qq_39216794/article/details/86183668,注意这个博文对于dy的解释,是"upstream gradient"。原创 2021-06-29 22:37:08 · 1309 阅读 · 0 评论 -
机器学习中常用的loss
1.KL距离也叫作相对熵,讲的比较ok的网文在https://www.cnblogs.com/ywl925/p/3554502.html。KL散度通常用来衡量两个连续分布之间的距离。两个分布越相似,KL散度越接近0。原创 2020-08-10 16:28:22 · 1132 阅读 · 0 评论 -
神经网络中的最优化方法及正则化
第一篇《Intro to optimization in deep learning: Gradient Descent》https://blog.paperspace.com/intro-to-optimization-in-deep-learning-gradient-descent/第二篇《Intro to optimization in deep learning: Moment...原创 2020-02-24 16:46:42 · 353 阅读 · 0 评论 -
机器学习中的相似性度量
文章在这里,就不粘贴过来了。https://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html原创 2019-11-19 11:41:33 · 213 阅读 · 0 评论 -
Bert/Transformer模型的参数大小计算
因为不是原创文章,所以发在这里。https://blog.csdn.net/weixin_43922901/article/details/102602557转载 2019-11-13 12:21:15 · 3533 阅读 · 0 评论 -
Hold-out和Cross-validation
hold out其实就是比如说把随机80%数据作为训练集,把剩下的20%数据作为测试集。K Cross-validation就是随机把数据分为K等份,然后使用K-1份作为训练集,把剩下的一份作为测试集。这样,你需要训练模型K次,测试K次。K Cross-validation通常能够更好的测试出模型效果,因为他使得每一个训练样本都被测试过一次,训练过K-1次。但是因为需要训练K次,...原创 2019-09-29 19:05:11 · 1830 阅读 · 0 评论 -
有关激活函数的各个细节
1.神经网络最后一层 要有激活函数么?不一定要有激活函数。见过代码,对mnist进行多分类的。直接wx+b,然后后面又接了一个soft max,使用交叉熵做loss function,学习率是0.01,虽然准确率不怎么样大概0.917(学习1000个batch,batch size是100),,但是证明最后一层并不一定需要激活函数(也可以认为soft max也是一种激活函数)。2.re...原创 2019-08-19 15:17:53 · 736 阅读 · 0 评论 -
Softmax函数
其完成的操作是将一个k维向量transform到另外一个k维向量。transform后的向量,每一个元素的范围在(0,1)之间。并且所有元素之和为1。softmax函数的一个功能,是凸显大的元素,并抑制小的元素。比如向量 [1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0] transform后的向量是[0.024, 0.064, 0.175, 0.475, 0.024, 0...原创 2019-08-16 19:50:29 · 330 阅读 · 0 评论 -
逻辑函数
逻辑函数(英语:logistic function)或逻辑曲线(英语:logistic curve)是一种常见的S函数,它是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。一个简单的Logistic函数可用下式表示:1/(1+e^-x)。...原创 2019-08-15 17:12:05 · 2382 阅读 · 0 评论 -
tensorflow中的各种函数、细节
1.tf.layers.dense是一个全连接层2.注意下面程序的输出ones = tf.ones(shape=[2,3])print(ones)temp1 = tf.nn.softmax(ones,axis=0)print(temp1)temp2 = tf.nn.softmax(ones,axis=1)print(temp2)print(tf.reduce_sum(...原创 2019-08-19 15:17:37 · 519 阅读 · 0 评论 -
不同的loss function
1.tf.nn.sigmoid_cross_entropy_with_logits其实官方文档已经说的很清楚了。https://www.tensorflow.org/api_docs/python/tf/nn/sigmoid_cross_entropy_with_logits值得注意的两点是第一个是labels可以是多label的,也就是可以是[1,0,1,0,0,0]这样的。第二个是...原创 2019-08-19 15:17:44 · 376 阅读 · 0 评论 -
关于惩罚因子C
惩罚因子C不是一个变量,整个优化问题在解的时候,C是一个你必须事先指定的值,指定这个值以后,解一下,得到一个分类器,然后用测试数据看看结果怎么样,如果不够好,换一个C的值,再解一次优化问题,得到另一个分类器,再看看效果,如此就是一个参数寻优的过程,但这和优化问题本身决不是一回事,优化问题在解的过程中,C一直是定值,要记住。转载 2015-11-05 13:56:55 · 6550 阅读 · 0 评论 -
SVM松弛变量
我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。???那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张图:可以看到一个离群点(可能是噪声)可以造成超平面的移动,间隔缩小,可见以前的模型对噪声非常敏感。转载 2015-11-05 12:56:51 · 8013 阅读 · 2 评论 -
为什么一些机器学习模型需要对数据进行归一化?
机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?很多同学并未搞清楚,维基百科给出的解释:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。下面我简单扩展解释下这两点。1 归一化为什么能提高转载 2015-11-09 20:05:47 · 885 阅读 · 0 评论 -
Feature scaling
From Wikipedia, the free encyclopediaFeature scaling is a method used to standardize the range of independent variables or features of data. In data processing, it is also known as data no转载 2015-11-09 20:05:09 · 611 阅读 · 0 评论 -
How to deal with an SVM with categorical attributes?
原文链接:http://stats.stackexchange.com/questions/52915/how-to-deal-with-an-svm-with-categorical-attributesQ:I have a space of 35 dimensions (attributes). My analytic problem is a simple classific转载 2015-12-15 12:57:01 · 611 阅读 · 0 评论 -
C5.0算法学习
C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了对连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。C4.5算法是ID3算法的修订版,采用GainRatio来进行改进,选取有最大GainRatio的分割变量作为准则,避免I转载 2015-06-01 22:11:07 · 5299 阅读 · 1 评论 -
ID3与C4.5的区别
无论是网络上还是任何一本入门级原创 2014-07-20 20:01:41 · 3873 阅读 · 0 评论 -
从最大似然到EM算法浅解
从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什转载 2016-02-19 15:33:40 · 504 阅读 · 0 评论 -
深入浅出最大似然估计(Maximum Likelihood Estimation)
转自 http://www.jianshu.com/p/f1d3906e4a3e最大似然估计是利用已知的样本的结果,在使用某个模型的基础上,反推最有可能导致这样结果的模型参数值。可得求解最大似然估计的一般过程为:1. 写出似然函数;2. 如果无法直接求导的话,对似然函数取对数;3. 求导数 ;4. 求解模型中参数的最优值。链接:http://www.jiansh转载 2017-07-12 11:59:09 · 2137 阅读 · 0 评论 -
数据的标准化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-max normalization)转载 2017-06-14 17:55:04 · 334 阅读 · 0 评论 -
Affine Function And Linear Function
原文链接为:http://www3.nccu.edu.tw/~joe/IO2010S/lecturenotes3_somemath.pdf版权为原作者所有。以下是文章内容。原创 2014-07-04 22:51:32 · 1962 阅读 · 0 评论