第二周 线性回归 linear regression
主题:梯度下降的一些技巧
<1>特征处理:使得梯度下降更快。
(1)特征缩放:将特征缩放到相同范围
(2)均值正规化:将特征处理为0均值。
<2>学习速率选择:DEBUG方法 绘制cost 相对于迭代步数的下降曲线
如果cost随着迭代次数上升或者振荡,而不收敛,有可能是学习率过大。
cost随着迭代次数增加下降得非常缓慢,则可能是学习率设置的过下。
<3>多项式回归:
部分特征为原始特征的多项式组合。
根据数据特点,设计合理特征
<4>正规方程 :解析式直接求解而非梯度下降
正规方程法缺陷:当变量非常多时,相对于梯度下降法,计算(XTX)-1速度非常慢。
当样本达到10000以上时,倾向于使用梯度下降法。
TODO 矩阵求导方法。
第三周 logistic regression
<1>分类问题
感知机->sigmoid函数->决策边界
代价函数:直接使用平方和,代价函数非凸。
由最大似然估计得到代价函数
高级优化方法:
不一定要写出代价函数,只要求出其导数。
多类别回归
将问题表示为N个二分类问题。
对新的样本,找出N个分类器中输出最大的作为其类别。
过拟合 正则化来解决
假设函数过于复杂,对训练样本拟合得很好,预测能力很差。
解决办法:
<1>减少特征的数目
人工选择需要的特征或者利用算法自动选择
<2>正则化
保留所有可能保留的特征,但是降低参数theta的幅值。
原理:更小的参数对应更简单的假设模型,意味着更少的过拟合可能性。
正则项惩罚系数的选取
正则化对线性回归影响:
梯度下降:使得theta的更新中包含朝向0调整的趋势
解析解法方法:使得解析解矩阵始终可逆。
编程作业注意:
不要正则化参数中的 theta0
第四周 神经网络的表达
<1>回归方法的缺陷
第五周 神经网络训练
神经网络的前向传播
反向传播
梯度校验
参数随机初始化
第六周 模型评估与提升
<1>评估模型
将数据集随机划分为训练集与验证集,在训练集上训练得到参数,在验证集进行验证。
<2>模型选择 样本集的划分
模型参数的选取,如正则化系数
训练集–>交叉验证集–>测试集
在训练集合上训练模型参数;
交叉验证集用于评估模型表现,从而选取最佳模型。
测试集用于评估最终模型的泛化能力。
<3>过拟合与欠拟合
欠拟合:偏差大。 训练集与交叉验证集 误差均大。
过拟合:方差大。 训练集误差小,交叉验证集误差大。
<4>绘制学习曲线
误差J关于训练样本数量的曲线
<5>提升方法
增加样本数量 --高方差 过拟合
减少样本特征 过拟合
增加特征 欠拟合
增加多项式特征 欠拟合
增大正则化项 过拟合
降低正则化项权重 欠拟合