机器学习
半路出家的开发狗
本科数学狗,硕士程序狗,第一份工作开发狗,要努力呀骚年
展开
-
梯度下降法
梯度下降法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。 最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a称为学习速率,可以是较小的常数。g(k)是x(k)的梯度。转载 2017-04-08 14:11:32 · 718 阅读 · 0 评论 -
Andrew Ng机器学习课程之学习笔记---牛顿方法
牛顿方法 本次课程大纲: 1、 牛顿方法:对Logistic模型进行拟合 2、 指数分布族 3、 广义线性模型(GLM):联系Logistic回归和最小二乘模型 复习: Logistic回归:分类算法 假设给定x以为参数的y=1和y=0的概率: 求对数似然性: 对其求偏导数,应用梯度上升方法,求得: 本次课程介绍的牛顿方法是一种比梯度上转载 2017-06-03 11:32:40 · 1201 阅读 · 0 评论 -
关于凸优化的一些简单概念
凸集的定义为: 其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示: 常见的凸集有: n维实数空间;一些范数约束形式的集合;仿射子空间;凸集的交集;n维半正定矩阵集;这些都可以通过凸集的定义去证明。 凸函数的定义为: 其几何意义表示为函数任意两点连线上的值大于转载 2017-06-04 16:17:24 · 1573 阅读 · 0 评论 -
VC维的来龙去脉
目录: 说说历史Hoeffding不等式Connection to Learning学习可行的两个核心条件Effective Number of HypothesesGrowth FunctionBreak Point与ShatterVC BoundVC dimension深度学习与VC维小结参考文献 VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理转载 2017-06-04 16:46:35 · 560 阅读 · 0 评论 -
梯度下降算法中的Adagrad和Adadelta
Adagrad 与梯度下降不同的是,更新规则中,对于学习率不在设置固定的值,每次迭代过程中,每个参数优化时使用不同的学习率。 假设 某次迭代时刻t,gt,i=∇θJ(θi)是目标函数对参数的梯度,普通的随机梯度下降算法,对于所有的θi都使用相同的学习率,因此迭代到第t次时,某一个参数向量θi的变化过程如下: θt+1,i=θt,i−η⋅gt,i 而在Adagrad的更新转载 2017-08-15 23:52:43 · 3274 阅读 · 0 评论