正规方程推导(Normal equation)

微积分差不多都还回去了

  1. 法一:
    m 为 样 例 数 目 , θ 为 列 向 量 m为样例数目,\theta为列向量 mθ
    h θ ( x ) = θ 0 + θ 1 x + . . . θ n x , J ( θ 0 , θ 1 . . . + θ n ) = 1 2 m ∑ i = 1 m ( h θ ( x ) ( i ) − y ( i ) ) 2 h_\theta(x)=\theta_0+\theta_1x+...\theta_nx,J(\theta_0,\theta_1...+\theta_n)=\frac {1}{2m}\sum_{i=1}^m(h_\theta(x)^{(i)}-y^{(i)})^2 hθ(x)=θ0+θ1x+...θnxJ(θ0,θ1...+θn)=2m1i=1m(hθ(x)(i)y(i))2 δ δ θ j J ( θ 0 , θ 1 + . . . θ n ) = 1 m ∑ i = 1 m ( h θ ( i ) ( x ) − y ( i ) ) x j ( i ) ( j = 0 , 1 , . . . n ) \frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1+...\theta_n)=\frac {1}{m}\sum_{i=1}^m(h_\theta^{(i)}(x)-y^{(i)})x^{(i)}_j(j=0,1,...n) δθjδJ(θ0,θ1+...θn)=m1i=1m(hθ(i)(x)y(i))xj(i)j=01...n 其 中 任 意 偏 导 数 可 表 示 为 1 m ∑ i = 1 m ( h θ ( i ) ( x ) y ( i ) ) x j ( i ) = x j T ( X θ − y ) 其中任意偏导数可表示为\frac {1}{m}\sum_{i=1}^m(h_\theta^{(i)}(x)y^{(i)})x^{(i)}_j=x_j^T(X\theta-y) m1i=1m(hθ(i)(x)y(i))xj(i)=xjT(Xθy) ( x j 为 相 应 列 向 量 ) 然 后 让 全 部 偏 导 数 为 0 , 综 合 可 得 到 : (x_j为相应列向量)然后让全部偏导数为0,综合可得到: xj0 X T ∗ ( X θ − y ) = 0 X^T*(X\theta-y)=0 XT(Xθy)=0 X T X θ = X T y X^TX\theta=X^Ty XTXθ=XTy θ = ( X T X ) − 1 X T y \theta=(X^TX)^{-1}X^Ty θ=(XTX)1XTy

  2. 法二: normal equation 推导思路
    先 推 导 , 用 例 数 目 m = 2 时 , X = [ 1 x 1 1 1 x 1 2 ] , Y = [ y 1 1 y 1 2 ] , θ = [ θ 1 1 θ 1 2 ] 先推导,用例数目m=2时,X=\begin{bmatrix} 1 & x_1^1 \\ 1 & x_1^2 \\ \end{bmatrix},Y= \begin{bmatrix} y_1^1 \\ y_1^2 \\ \end{bmatrix},\theta=\begin{bmatrix} \theta_1^1 \\ \theta_1^2 \\ \end{bmatrix} m=2X=[11x11x12],Y=[y11y12],θ=[θ11θ12]
    h θ ( x ) = θ 0 + θ 1 x , J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( i ) ( x ) − y ( i ) ) 2 h_\theta(x)=\theta_0+\theta_1x,J(\theta_0,\theta_1)=\frac {1}{2m}\sum_{i=1}^m(h_\theta^{(i)}(x)-y^{(i)})^2 hθ(x)=θ0+θ1x,J(θ0,θ1)=2m1i=1m(hθ(i)(x)y(i))2 将 X , Y , θ 代 入 J ( θ 0 , θ 1 ) 然 后 对 θ 0 , θ 1 分 别 求 偏 导 数 , 让 将X,Y,\theta代入J(\theta_0,\theta_1)然后对\theta_0,\theta_1分别求偏导数,让 X,Y,θJ(θ0,θ1)θ0,θ1 δ δ θ j J ( θ 0 , θ 1 ) = 0 ( j = 0 , 1 ) \frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1)=0(j=0,1) δθjδJ(θ0,θ1)=0j=01
    再 对 两 个 等 式 相 加 , 经 过 整 理 就 会 发 现 , X T X θ = X T y − − > θ = ( X T X ) − 1 X T y 再对两个等式相加,经过整理就会发现,X^TX\theta=X^Ty-->\theta=(X^TX)^{-1}X^Ty XTXθ=XTy>θ=XTX)1XTy
    可 想 而 知 , 经 过 推 广 , m = n 时 , 也 可 以 得 出 X T X θ = X T y − − > θ = ( X T X ) − 1 X T y 可想而知,经过推广,m=n时,也可以得出X^TX\theta=X^Ty-->\theta=(X^TX)^{-1}X^Ty 广m=nXTXθ=XTy>θ=XTX)1XTy

  3. normal equation vs gradient descent
    正规方程:一步到位,算法复杂度为 O ( n 3 ) O(n^3) O(n3) ,所以特征维度<10000时,使用normal equation。
    梯度下降: 选择 α \alpha α 并调试它(很耗时间),多次迭代(很耗时间),特征参数很大时也ok。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值