- 博客(4)
- 收藏
- 关注
原创 交叉熵与KL散度和交叉熵之间的关系
熵的本质是香农信息量log1plog\frac{1}{p}logp1现有关于样本即的2个概率分布p和q,其中p为真是分布,q为非真实分布。按照真实分布p来衡量识别一个样本所需要的编码长度的期望(即平均编码长度)为:H(p)=−∑ip(i)logp(i)H(p)=-\sum_i p(i)log p(i)H(p)=−i∑p(i)logp(i)如果使用错误分布q来表示来自真是分布p的平均编码长度...
2019-05-30 22:02:31 9523 4
原创 优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW,LazyAdam)
文章目录优化方法概述整体框架SGDMomentum理解指数加权平均偏差修正AdaGradAdaDelta/RMSPropAdam(Adaptive Moment Estimation)Adam+L2 regularizationL2 regularization与Weight decay学习率衰减局部最优优化方法概述模型优化方法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的问题或...
2019-05-29 01:07:50 32250 10
原创 DeepFM理论
文章目录CTR预估其他方法的缺点该方法解决的问题具体方法实现FM ComponentDeep Componentembedding层该方法的优点CTR预估CTR预估数据的特征:输入数据包括类别型和连续型数据,类别型数据在经过one-hot编码之后维度非常的高,而且非常稀疏。CTR预估的重点在于学习组合特征(二阶,三阶甚至高阶的),高阶和低阶的组合特征都非常重要。关键问题是:如何高效的提取这些...
2019-05-20 19:17:52 507
原创 NFM(Neural Factorization Machines for Sparse Predictive Analytics)
普遍问题在预测任务中,特征向量是高度稀疏的,学习特征交互是重要的为什么提出该方法,其他方法的缺点人工设计特征组合需要领域知识,很难泛化到新问题或者新领域,没有办法捕获到没有出现在训练数据中的组合特征;embedding的方式:FM:以线性的方式学习二阶特征交互,对于捕获现实数据非线性和复杂的内在结构表达力不够;深度网络:例如Wide&Deep 和DeepCross,简...
2019-05-19 22:00:51 817
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人