机器学习数学之回归

一、基础

1.监督学习:使用有标签的数据(正确答案数据)进行的学习称为有监督学习。

                   有两种主要方法:Regression and Classification

2.无监督学习:使用没有标签的数据进行的学习称为无监督学习。

                  主要方法有:Clustering

                                       Anomaly detection (find unusual data point, is important in fraud                                                   detection in the financial system, where unusual events, unusual                                                     transactions could be )

                                       Dimensionality reduction (compress data using fewer numbers while                                           losing as little information as possible)  

二、回归

以用广告费预测点击量为例

1、最小二乘法

修改θ的值,让目标函数变小,目标函数为

 这种做法为最小二乘法

1.1 最速下降法/梯度下降法

用上一个x定义新的x,η为正常数的学习率

当η较大时,x可能在两个值上反复横跳,甚至可能远离最小值,为发散状态;η较小时,移动量变小,更新次数增加,但值确是朝着收敛的方向走。

再看目标函数E(θ),其中包含的fθ(x),拥有θ0和θ1两个参数,所以要用偏微分,如此一来更新表达式就变成了:

 求偏导用到复合函数,令

 则

 而最后一行的\frac{1}{2}将2抵消掉。故而先前在目标函数E(θ)中的系数设为\frac{1}{2}

同样u对θ1微分的结果是

 因此参数θ0和θ1的更新表达式为:

根据这个表达式来更新θ0和θ1,就能找到正确的fθ(x),然后输入任意的广告费,就可以得到相应的点击量。这样就能根据广告费预测点击量。

2、多项式回归

定义二次函数

通过偏导求出系数,方法同1一样

 也可使用更大次数的表达式去表达更复杂的曲线,但并非次数越大拟合越好,会出现过拟合的现象。像这样增加函数中多项式的次数,然后再使用函数的分析方法被称为多项式回归。

3、多重回归

当自变量增加到3个以上,就无法再可视化

把参数θ和变量x看作向量

  则其简化表达方式为

 设u=E(θ)、v=fθ(x)的部分是一样的。为了一般化,对第j个元素θj偏微分的表达式为

 u对v微分的部分是一样的,只需要求v对θj的微分

 则第j个参数的更新表达式为

 像这样包含了多个变量的回归称为多重回归。

4、随机梯度下降法

最速下降法缺点:花时间,且容易陷入局部最优解,如图

最速下降法的更新表达式为

该表达式使用所有训练数据的误差,而在随机梯度下降法中会随机选择一个训练数据,并用它更新参数。以下表达式中的k就是被随机选中的数据索引:

最速下降法更新1次参数的时间,随机梯度下降法可以更新n次。此外,随机梯度下降法由于训练数据是随机选择的,更新参数时使用的又是选择数据时的梯度,所以不容易陷入目标函数的局部最优解。

此外还有随机选择m个训练数据来更新参数的做法。设随机选择m个训练数据的索引的集合为K,则这样来更新参数:

假设训练数据有100个,那么在m=10时,创建一个有10个随机数的索引的集合,例如K={61, 53, 59, 16, 30, 21, 85,31, 51, 10},然后重复更新参数。这种做法被称为小批量(mini-batch)梯度下降法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值