Datawhale x李宏毅苹果书入门 AI夏令营 task02学习笔记

  • 模型偏差:不同模型之间的差异
  • 线性模型有严重的局限性,故而我们推出更加复杂的模型(看着复杂其实只是更“泛化”了,“泛化”一词仅是笔者的归纳理解,即指更加抽象,是模型的“始祖”(这种说法不见得严谨,但是是笔者学完这个更复杂模型的第一感受,嘿嘿,未免有争议,笔者加了“”哦😉))

“泛化”模型的推演

红色的曲线可以看作是一个常数再加上一群 Hard Sigmoid 函数。(Hard Sigmoid 函数的图线就是蓝色图线)

黑色的可以由红色线无限逼近,当取的点够多,黑色的就可以用红色的表示,而红色的又可以由蓝色组成,则黑色的可以用蓝色的表示,即曲线可以由Hard Sigmoid 函数图像表示

但是Hard Sigmoid 函数表示比较麻烦(Hard Sigmoid 函数是分段函数要写三个分式),所以用 Sigmoid 函数来逼近 Hard Sigmoid,(Hard Sigmoid 不一定非要换成Sigmoid,也可以换成其他的)Sigmoid函数表达式(只有一个表达式,表示比Hard Sigmoid简单)其横轴输入是 x1,输出是 y,c为常数。

 新的模型公式的逐步变化如下:

上述最后式子比较抽象,所以用图像的形式来梳理最后的式子,sigmoid的个数也是由自己决定(sigmoid是个hyperparmeter)

用矩阵跟向量相乘的形式把上面的r表达式梳理一下:

r是sigmoid函数()里面的东西

 r经过sigmoid之后就得到a1,a2,a3,a=\sigma (r)是 r经过sigmoid之后就得到a1,a2,a3简写过程,a就是下图蓝色虚框部分

然后a再乘以c,再加上b就得到了y,最下面的公式是最上面公式的向量表示,如下图所示:

上述的所有步骤可以总结为下图:

下图,我们定义了一下变量含义,x代表特征,w,cT, b,b代表未知参数,将所有未知参数的向量表达按照图中顺序拼接好,称为\theta\theta里面的第一个数值叫做\theta1,第二个数值叫做\theta2,其他的依次类推,\theta1中的数值来自于w,cT, b,b

把上面图的过程再多来几次,这个来几次是自己决定的,故是一个hyperparmeter

ok,以上所有就是机器学习的第一步,(下图为机器学习找函数的过程图)

下图就是第二步,同task01的第二步一样,只不过是参数变成了“多参数体”\theta

下图是第三步,同task01的第二步一样,把w换成\theta,w移动的方法同样适用于\theta 以此类推,直到不想做。或者计算出梯度为 0 向量,导致无法再更新参数为止,不过在实现上几乎不太可能梯度为 0,通常会停下来就是我们不想做了。

上图中的compute gradient在实际中不是这样滴,而是下图这样的:1.把数据资料分为batch2.以batch(记作B)为单位compute gradient,batch中的每一次更新参数叫做一次更新(update)。更新跟回合是不同的东西。每次更新一次参数叫做一次更新,把所有的批量都看过一遍,叫做一个回合。(epoch)


update和epoch的差别,如下图:

  • batch的大小由自己决定(又是一个hyperparmeter)
  • 总结来看:epoch全局,batch局部,epoch更新几次由epoch本身的数据量和你规定的batch大小所决定。

    sigmoid函数也可以换成ReLu函数,2个ReLu函数构成一个sigmoid函数

 


 把一排神经元(激活函数)叫做隐藏层,许多层意味着deep,这整套技术叫做deep learning

  • Overfitting:Better on training data, worse on unseen data
  • 22
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值