DL
简单点1024
熟悉ML,DM过程,参与ETL架构搭建,进行BI分析,热爱新技术
展开
-
局部最优和鞍点区分
真的结束于最优点吗?我们知道,在局部最优点附近,各个维度的导数都接近0,而我们训练模型最常用的梯度下降法又是基于导数与步长的乘积去更新模型参数的,因此一旦陷入了局部最优点,就像掉进了一口井,你是无法直着跳出去的,你只有连续不间断的依托四周的井壁努力向上爬才有可能爬出去。更何况梯度下降法的每一步对梯度正确的估计都在试图让你坠入井底,因此势必要对梯度“估计错很多次”才可能侥幸逃出去。那么从数学上看...转载 2018-10-14 19:58:10 · 6369 阅读 · 1 评论 -
Bandit总结3详细版
声明原文地址:https://blog.csdn.net/heyc861221/article/details/80129310bandit-RL:https://blog.csdn.net/qq_32690999/article/details/78996398Contextual bandit 在推荐系统中的应用:https://zhuanlan.zhihu.com/p/357532...转载 2018-08-28 21:48:22 · 2403 阅读 · 2 评论 -
Bandit总结2
原创: 石晓文 小小挖掘机 2018-06-09 推荐系统遇上深度学习系列:推荐系统遇上深度学习(一)--FM模型理论和实践推荐系统遇上深度学习(二)--FFM模型理论和实践推荐系统遇上深度学习(三)--DeepFM模型理论和实践推荐系统遇上深度学习(四)--多值离散特征的embedding解决方案推荐系统遇上深度学习(五)--Deep&Cross Networ...转载 2018-08-28 13:28:57 · 2659 阅读 · 0 评论 -
Bandit总结1
假设我有5枚硬币,都是正反面不均匀的。我们玩一个游戏,每次你可以选择其中一枚硬币掷出,如果掷出正面,你将得到一百块奖励。掷硬币的次数有限(比如10000次),显然,如果要拿到最多的利益,你要做的就是尽快找出“正面概率最大”的硬币,然后就拿它赚钱了。这个问题看起来很数学化,其实它在我们的生活中经常遇见。比如我们现在有很多在线场景,遇到一个相同的问题:一个平台这么多信息,该展示什么给用户,才能有最...转载 2018-08-28 13:25:26 · 492 阅读 · 0 评论 -
推荐和匹配推荐
1. 推荐场景:推游戏和推好友;召回-排序-数据分析2. 匹配场景:600人如何分配为100组,每组3*3的; 让游戏更加焦灼,即最好两组的得分尽可能相近。原创 2018-08-27 22:02:25 · 590 阅读 · 0 评论 -
Keras和tensorflow的区别
Keras 是一个高级的Python 神经网络框架,其文档详。Keras 已经被添加到 TensorFlow 中,成为其默认的框架,为TensorFlow 提供更高级的API。 如果读者不想了解TensorFlow 的细节,只需要模块化,那么Keras 是一个不错的选择。如 果将TensorFlow 比喻为编程界的Java 或C++,那么Keras 就是编程界的Python。它作为 Te...转载 2018-08-27 13:37:58 · 26182 阅读 · 2 评论 -
Spark transformation和action的区别
简介:1,transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD2,action是得到一个值,或者一个结果(直接将RDDcache到内存中)所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。 transfo...原创 2018-08-27 13:35:20 · 5505 阅读 · 0 评论 -
Keras实现CNN
CNN因为之前上课的时候对CNN学的不是很好,所以在这次训练之前我在知乎上找到一篇对CNN讲解的文章,先进行阅读了一番。来自机器之心的一篇文章http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650717691&idx=2&sn=3f0b66aa9706aae1a30b01309aa0214c#rdhtt...转载 2018-08-27 07:55:59 · 6314 阅读 · 0 评论 -
Tensorflow MINST CNN分类
TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow可被用于语音识别或图像识别等多项机器深度...转载 2018-08-27 06:05:42 · 587 阅读 · 0 评论 -
GBDT算法内部究竟是如何工作的?
http://blog.csdn.net/w28971023/article/details/8240756https://www.cnblogs.com/ModifyRong/p/7744987.html GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree...原创 2018-08-25 20:42:57 · 1667 阅读 · 0 评论 -
RF,GBDT,XGBoost,lightGBM对比分析
RF,GBDT,XGBoost,lightGBM都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善基本学习器的泛化能力和鲁棒性。 根据基本学习器的生成方式,目前的集成学习方法大致分为两大类:即基本学习器之间存在强依赖关系、必须串行生成的序列化方法,以及基本学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者...原创 2018-08-25 20:43:32 · 565 阅读 · 1 评论 -
SVM核函数的选择
SVM核函数的选择对于其性能的表现有至关重要的作用,尤其是针对那些线性不可分的数据,因此核函数的选择在SVM算法中就显得至关重要。对于核技巧我们知道,其目的是希望通过将输入空间内线性不可分的数据映射到一个高纬的特征空间内使得数据在特征空间内是可分的,我们定义这种映射为ϕ(x)ϕ(x),那么我们就可以把求解约束最优化问题变为但是由于从输入空间到特征空间的这种映射会使得维度发生爆炸式的增长,因此...原创 2018-08-26 20:27:45 · 6665 阅读 · 1 评论 -
SVM核函数的选择
1. 核函数的选取一般用线性核和高斯核,也就是Linear核与RBF核需要注意的是需要对数据归一化处理,很多使用者忘了这个小细节然后一般情况下RBF效果是不会差于Linear但是时间上RBF会耗费更多,其他同学也解释过了下面是吴恩达的见解:1. 如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM2. 如果Feature的数量比较小...原创 2018-08-26 20:17:17 · 3116 阅读 · 0 评论 -
GBDT详解
参考以下两篇博文:http://blog.csdn.net/w28971023/article/details/8240756https://www.cnblogs.com/ModifyRong/p/7744987.html GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regr...转载 2018-08-19 19:17:02 · 13882 阅读 · 3 评论 -
用深度学习(CNN RNN Attention)解决大规模文本分类问题
原文声明:https://blog.csdn.net/heyc861221/article/details/80128748#comments作者简介:清凇,本科毕业于山东大学,研究生就读于北邮,毕业后在阿里巴巴从事搜索排序算法相关工作。 原文:用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践 欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至he...转载 2018-08-28 21:57:27 · 1765 阅读 · 0 评论 -
推荐系统中的EE和bandit算法
经常听身边的人说起使用推荐系统的感受,“某宝某东就是看什么给推什么”,使用者对推荐系统产生厌倦;也有听做推荐系统的同学抱怨推荐的冷启动问题,如何去尝试新用户的兴趣点,尝试到什么时候地步才算真正掌握了用户的兴趣,用户的兴趣发生改变如何灵活的调整推荐策略。这些,都与今天聊到的E&E问题有关,而Bandit算法是解决E&E问题的一种思路。本文首先描述E&E问题的及策略框架,然后介...转载 2018-08-28 22:39:52 · 6199 阅读 · 1 评论 -
神经网络权重初始化总结
神经网络之权重初始化https://www.cnblogs.com/makefile/p/init-weight.html?utm_source=itdadao&utm_medium=referral权重初始化模型权重的初始化对于网络的训练很重要, 不好的初始化参数会导致梯度传播问题, 降低训练速度; 而好的初始化参数, 能够加速收敛, 并且更可能找到较优解. 如果权重一开始...转载 2018-10-13 22:25:21 · 2339 阅读 · 0 评论 -
Dropout and DropConnect
最近看Fractional Max-pooling 时,中提到了Dropconnect,一时间忘记了,就找出原文看了一下。参考 原文:Regularization of Neural Networks using DropConnect现在总结一下,其实在实验中我们经常使用的是dropout ((Hinton et al., 2012).)方法,这篇文章提出的dropconnect的...原创 2018-09-20 17:55:46 · 1663 阅读 · 1 评论 -
Structural Deep Network Embedding
本论文是kdd2016的一篇论文主要的目的也是做node embedding。主要的想法就是通过deep autoencode对node进行embedding,不过在在embedding的时候不仅考虑了1-hop的信息而且考虑了n-hop的信息。使其变成半监督学习的模式(其实就是对loss function改了改)输入是一个graph的n*n的邻接矩阵S,其实可以看成有n个数据的训练集...转载 2018-09-02 12:06:07 · 589 阅读 · 0 评论 -
LINE: Large-scale Information Network Embedding
LINE: Large-scale Information Network EmbeddingABSTRACTABSTRACT部分说了,这篇文章主要解决了大规模网络给embedding到低纬向量。而低纬向量能够更加有助于visualization, node classification, and link prediction。这个方法起了个名字叫LINE。而且这个方法能够处理各种各样的...转载 2018-09-02 11:56:09 · 632 阅读 · 0 评论 -
NRL原理总结
Embedding Nodes Encoder-decoder View Encoding Methods 1 Factorization based 2 Random Walk based 3 Deep Learning based 网络表示学习(Representation Learning on Network),一般说的就是向量化(Embedding)...转载 2018-09-02 11:52:04 · 2219 阅读 · 0 评论 -
TADW(Embedding:Network Representation Learning with Rich Text Information)
这次学习NetworkRepresentation Learning with Rich Text Information这篇论文,是关于embedding方面的。1 摘要表示学习已经在很多项目任务中表现出了它的功效,比如图像识别或文本采集。网络表示学习旨在对于每个节点的进行矢量表示,这种方法慢慢被认为是网络分析里很重要的一部分。大多数网络学习方法都通过探讨网络结构来学习。事实上,网络节...转载 2018-09-02 10:05:52 · 4905 阅读 · 2 评论 -
Tensorflow 进行图像分类
import tensorflow as tfimport loadmnist as lmimport numpy as npdef getW(shape,name): initial = tf.truncated_normal(shape, stddev=0.1) return tf.Variable(initial,name=name)def getB(num,na...原创 2018-08-30 09:43:24 · 751 阅读 · 0 评论 -
Word2vec详解2
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中...转载 2018-08-25 22:03:55 · 291 阅读 · 0 评论 -
深度学习和机器学习的区别
最近在听深度学习的课,老师提了一个基本的问题:为什么会出现深度学习?或者说传统的机器学习有什么问题。老师讲解的时候一带而过,什么维度灾难啊之类的,可能觉得这个问题太浅显了吧(|| Д)````不过我发现自己确实还不太明白,于是Google了一下,发现一篇很棒的科普文,这里翻译一下,分享给大家:翻译自文章:https://www.analyticsvidhya.com/blog/2017/04/co...转载 2018-09-01 20:40:23 · 46574 阅读 · 18 评论 -
解决梯度消失和梯度弥散的方法
第一个问题:模型过拟合 1.1 什么是过拟合 所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集 上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。 如上图所示:过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这...转载 2018-09-01 19:52:59 · 16906 阅读 · 0 评论 -
语义相似度算法总结1
转载请注明出处: http://blog.csdn.net/u013074302/article/details/76422551DSSM, Match-LSRM, MatchSRNN导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、C...转载 2018-08-29 21:46:50 · 18562 阅读 · 0 评论 -
LR和 SVM的区别
一、相同点 第一,LR和SVM都是分类算法(SVM也可以用与回归) 第二,如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的。 这里要先说明一点,那就是LR也是可以用核函数的。总之,原始的LR和SVM都是线性分类器,这也是为什么通常没人问你决策树和LR什么区别,你说一个非线性分类器和一个线性分类器有什么区别? 第三,LR和SVM都是监督学习算法。...原创 2018-08-25 21:41:40 · 1179 阅读 · 0 评论 -
LR,SVM,RF的区别
1、LR和SVM都是分类算法,LR和SVM都是监督学习算法,都是判别模型。2、如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的。LR的优缺点:1.适合需要得到一个分类概率的场景2.实现效率较高3.对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决;4.逻辑回归广泛的应用于工业问题上逻辑回归的缺点:1.当特征空间很大时,...原创 2018-08-25 21:39:28 · 2475 阅读 · 0 评论 -
GraphEmbedding
1. http://cazabetremy.fr/Teaching/catedra/6-Embedding.pdf2.https://yafei002.github.io/2018/04/11/Network-Embedding/3. http://i.stanford.edu/~jure/pub/talks2/leskovec-networks-01-nodes.pdf4. http...原创 2018-08-29 11:44:14 · 1146 阅读 · 0 评论 -
用户画像总结
基本信息,偏好信息,向量化信息,知识图谱,标签系统,正负反馈信息,社交关系,1. 深度学习方法:https://blog.csdn.net/xundh/article/details/783738302. 基本信息表构建:https://blog.csdn.net/wang1127248268/article/details/77367119?locationNum=6&fps=1...原创 2018-08-29 10:43:15 · 928 阅读 · 0 评论 -
树模型是如何计算特征重要性的
前言在特征的选择过程中,如果学习器(基学习器)是树模型的话,可以根据特征的重要性来筛选有效的特征。本文是对Random Forest、GBDT、XGBoost如何用在特征选择上做一个简单的介绍。各种模型的特征重要性计算Random Forests 袋外数据错误率评估 RF的数据是boostrap的有放回采样,形成了袋外数据。因此可以采用袋外数据(OOB)错误率进行特征重要性的...转载 2018-08-19 19:15:44 · 7407 阅读 · 1 评论 -
WDL
# !/usr/bin/env python# coding=utf-8# from __future__ import absolute_import# from __future__ import division# from __future__ import print_function'''structureLR+MLP='''import argparsei...原创 2018-08-25 20:43:09 · 1446 阅读 · 0 评论 -
PNN
# !/usr/bin/env python# coding=utf-8"""TensorFlow Implementation of <<Deep Learning over Multi-Field Categorical Data: A Case Study on User Response Prediction>>and <<Product-b...原创 2018-08-25 20:43:21 · 875 阅读 · 1 评论 -
DIN
对用户历史行为进行建模: sequence feature;使用attention方法;原创 2018-08-12 18:30:40 · 636 阅读 · 0 评论 -
DCN
Deep&Cross Network模型我们下面将简称DCN模型: 一个DCN模型从嵌入和堆积层开始,接着是一个交叉网络和一个与之平行的深度网络,之后是最后的组合层,它结合了两个网络的输出。完整的网络模型如图: 嵌入和堆叠层 我们考虑具有离散和连续特征的输入数据。在网络规模推荐系统中,如CTR预测,输入主要是分类特征,如“country=usa”。这些特征通常是编码...原创 2018-08-12 18:30:17 · 12267 阅读 · 0 评论 -
PNN
PNN,全称为Product-based Neural Network,认为在embedding输入到MLP之后学习的交叉特征表达并不充分,提出了一种product layer的思想,既基于乘法的运算来体现体征交叉的DNN网络结构,如下图: 输出层 输出层很简单,将上一层的网络输出通过一个全链接层,经过sigmoid函数转换后映射到(0,1)的区间中,得到我们的点击率的预测值:...原创 2018-08-12 18:29:43 · 5123 阅读 · 0 评论 -
FNN
FM(first-order+second-order)->DNN 网络结构 缺点:不能对低阶特征拟合,需要预训练模型。原创 2018-08-12 18:29:16 · 8820 阅读 · 0 评论 -
AFM
AFM和NFM一样也是一个串行的FM&DNN结构。在进行预测时,FM会让一个特征固定一个特定的向量,当这个特征与其他特征做交叉时,都是用同样的向量去做计算。这个是很不合理的,因为不同的特征之间的交叉,重要程度是不一样的。如何体现这种重要程度,之前介绍的FFM模型是一个方案。另外,结合了attention机制的AFM模型,也是一种解决方案。 网络结构: 预测公式由:...原创 2018-08-12 18:28:44 · 2637 阅读 · 0 评论 -
NFM
NFM模型(Neural Factorization Machine)是一种串行结构。在CTR预估中,为了解决稀疏特征的问题,学者们提出了FM模型来建模特征之间的交互关系。但是FM模型只能表达特征之间两两组合之间的关系,无法建模两个特征之间深层次的关系或者说多个特征之间的交互关系,因此学者们通过Deep Network来建模更高阶的特征之间的关系。因此 FM和深度网络DNN的结合也就成为了CT...原创 2018-08-12 18:28:15 · 2440 阅读 · 0 评论