Day1
三种方式:1)回归(Regresison) - 找出正确答案。2)分类Classification - 根据选项做选择题 3) 结构化学习(Structure learning): 生成有结构化的,如文章图片等
目的: 知道输入和输出,找出中间复杂的计算函数(know why)
方式:根据对过去已有的经验/数据 - 领域知识(domain knowledge)来预测未来的可能性,找出最接近现实的那个
1)定义模型
如何决定参数(未知,parameter)?实际衡量方式就是看预测和实际的差距,取平均
MSE(Mean Square Error):预测值和label 差值的平方
MAE (Mean Absolute Error):预测值和lable 差值的绝对值
2) 设置Loss function
Loss function 为什么是负的?- 可以自己定义
3) 找到optimization
方式:给parameter随意找两个点,w0和b0,使用梯度下降的方法不断向梯度为0的最小点移动,移动大小取决于学习度(learning rate)。这种需要手动设置的叫hyper parameter。
梯度下降的局限性:
- 局部最小点v.s全局最小值:找到的梯度为0的可能只是局部最小点,而不是全局最小点
参数调整后loss变化不大的原因?gradient消失了
gradient为0有几种情况:1)最低点 2)最高点 3)saddle point 鞍点
所以需要查到底是最小点还是鞍点 ->> 使用Taylor series approximation 可以查看某个点附近的loss function,按照taylor series approximation公式展开一共有三部分:
1)模拟的loss fucntion
2)theta 和 theta‘ 的距离有多近
3)海森矩阵(Hessian matrix) -> 通过二次微分来判断是最高点、最低点还是鞍点