- Model representation
就是得到输入到输出的hypothesis(假设)函数,也就是得出学习算法。比如通过房子大小(输入)预测房价(输出)。
- cost function(代价函数)
线性回归,就是得到一个线性函数,就是直线吧。 y = k x + b y=kx+b y=kx+b 很像初中学习还考过的线性回归,不过和那时不太一样,那时候是最小二乘法求回归方程,现在是另外一种方法。
最终的一次函数(hypothesis): h θ ( x ) = θ 0 + θ 1 x h_\theta(x)=\theta_0+\theta_1x hθ(x)=θ0+θ1x
cost function(用到均方差函数): J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( i ) ( x ) − y ( i ) ) 2 J(\theta_0,\theta_1)=\frac {1}{2m}\sum_{i=1}^m(h_\theta^{(i)}(x)-y^{(i)})^2 J(θ0,θ1)=2m1i=1∑m(hθ(i)(x)−y(i))2
2.1 在这里的cost function 就是关于样本也就是训练集 的一个均方差的 1 2 \frac 12 21,为什么是一半呢,是为了抵消对cost function求导产生的2 。
要使 J ( θ 0 , θ 1 ) J(\theta_0,\theta_1) J(θ0,θ1)最小化(minimize),就完成了目地。不得不说现在学的就是统计学。
2.2 现在可以看出,把样本的数据代入后,就变成了关于 ( θ 0 , θ 1 ) (\theta_0,\theta_1) (θ0,θ1)的二元函数,构成关于J的函数图像是三维的,呈现碗状。
- Gradient descent(梯度下降)
3.1梯度下降是在这里找到minimize cost function的算法。
梯度下降法:是假设条件更为广泛(无约束)的,一种通过迭代更新来逐步进行的参数优化方法,最终结果为局部最优
3.2梯度下降就是对 θ j : = θ j − α δ δ θ j J ( θ 0 , θ 1 ) \theta_j:=\theta_j-\alpha\frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1) θj:=θj−αδθjδJ(θ0,θ1) 进行不断的迭代。
3.3其中j为0和1,代表了 ( θ 0 , θ 1 ) (\theta_0,\theta_1) (θ0,θ1)。
3.4这个公式里面有个 δ δ θ j J ( θ 0 , θ 1 ) \frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1) δθjδJ(θ0,θ1)是对相应的 θ j \theta_j θj的偏导数,大于零,表示增,在这里要找到最小的,所以要减去,小于零,表示减,在这里要找到最小的,所以要加上,不断迭代重复,从而达到局部最小,最终 δ δ θ j J ( θ 0 , θ 1 ) = 0 \frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1)=0 δθjδJ(θ0,θ1)=0到达底部,在这里要注意 α \alpha α学名叫learning rate
太大的话,会直接越过极小点,太小的话,在数据非常多的时候会很慢。
3.5另外,这个算法越接近极小点,速度会越慢。
Linear regression with one variable [ml]
最新推荐文章于 2022-06-02 15:21:35 发布