一、基础
1.监督学习:使用有标签的数据(正确答案数据)进行的学习称为有监督学习。
有两种主要方法:Regression and Classification
2.无监督学习:使用没有标签的数据进行的学习称为无监督学习。
主要方法有:Clustering
Anomaly detection (find unusual data point, is important in fraud detection in the financial system, where unusual events, unusual transactions could be )
Dimensionality reduction (compress data using fewer numbers while losing as little information as possible)
二、回归
以用广告费预测点击量为例
1、最小二乘法
修改θ的值,让目标函数变小,目标函数为
这种做法为最小二乘法
1.1 最速下降法/梯度下降法
用上一个x定义新的x,η为正常数的学习率
当η较大时,x可能在两个值上反复横跳,甚至可能远离最小值,为发散状态;η较小时,移动量变小,更新次数增加,但值确是朝着收敛的方向走。
再看目标函数E(θ),其中包含的fθ(x),拥有θ0和θ1两个参数,所以要用偏微分,如此一来更新表达式就变成了:
求偏导用到复合函数,令
则
而最后一行的将2抵消掉。故而先前在目标函数E(θ)中的系数设为
。
同样u对θ1微分的结果是
因此参数θ0和θ1的更新表达式为:
根据这个表达式来更新θ0和θ1,就能找到正确的fθ(x),然后输入任意的广告费,就可以得到相应的点击量。这样就能根据广告费预测点击量。
2、多项式回归
定义二次函数
通过偏导求出系数,方法同1一样
也可使用更大次数的表达式去表达更复杂的曲线,但并非次数越大拟合越好,会出现过拟合的现象。像这样增加函数中多项式的次数,然后再使用函数的分析方法被称为多项式回归。
3、多重回归
当自变量增加到3个以上,就无法再可视化
把参数θ和变量x看作向量
则其简化表达方式为
设u=E(θ)、v=fθ(x)的部分是一样的。为了一般化,对第j个元素θj偏微分的表达式为
u对v微分的部分是一样的,只需要求v对θj的微分
则第j个参数的更新表达式为
像这样包含了多个变量的回归称为多重回归。
4、随机梯度下降法
最速下降法缺点:花时间,且容易陷入局部最优解,如图
最速下降法的更新表达式为
该表达式使用所有训练数据的误差,而在随机梯度下降法中会随机选择一个训练数据,并用它更新参数。以下表达式中的k就是被随机选中的数据索引:
最速下降法更新1次参数的时间,随机梯度下降法可以更新n次。此外,随机梯度下降法由于训练数据是随机选择的,更新参数时使用的又是选择数据时的梯度,所以不容易陷入目标函数的局部最优解。
此外还有随机选择m个训练数据来更新参数的做法。设随机选择m个训练数据的索引的集合为K,则这样来更新参数:
假设训练数据有100个,那么在m=10时,创建一个有10个随机数的索引的集合,例如K={61, 53, 59, 16, 30, 21, 85,31, 51, 10},然后重复更新参数。这种做法被称为小批量(mini-batch)梯度下降法。