1."Batch"梯度下降
意味着每一步梯度下降,都遍历了整个训练集样本
2.矩阵
2.1维数:行数*列数(例如 4*2矩阵)
2.2矩阵相加减 ,不改变维度
2.3标量*矩阵,不改变维度
2.4矩阵*矩阵
2.5预测房价
3向量:特殊的矩阵
3.1只有一列的矩阵
3.2矩阵*向量
3.3使用矩阵*向量计算房子价格
4.多元梯度下降
4.1代价函数
4.2特征缩放
特征缩放(Feature Scaling)是将不同特征的值量化到同一区间的方法,也是预处理中容易忽视的关键步骤之一。除了极少数算法(如决策树和随机森林)之外,大部分机器学习和优化算法采用特征缩放后会表现更优。
4.3均值归一化
如果有一个特征向量X_i,使用X_i减U_i替换,让特征值具有为0的平均值(U1是训练集中X1的平均值,S1是特征值的范围)
5学习率α
5.1只要α足够小,那么每次迭代后代价函数J(θ)都会下降但是如果太小梯度下降算法会收敛很慢;如果很大代价函数J(θ)可能不会在每次迭代都下降,甚至不下降
5.2选取合适α
尝试一系列α值,直到找到一个太大的α与一个太小的α,选取最大可能值或者比最大值略小的值,通常可以得到一个不错的学习率α
5.3判断梯度下降算法有没有正常工作
5.4J(θ)不断增大
代表α过大梯度下降算法冲过最小值导致J(θ)不断增大应选用更小的α