【吴恩达 Machine Learning】 第一课 Week 1 学习笔记

文章介绍了监督学习,包括回归和分类,以及无监督学习的聚类和异常检测。重点讨论了线性回归模型,其符号表示、代价函数(平方误差)和梯度下降法在优化参数中的应用。此外,还提到了梯度下降可能遇到的局部最小值问题和学习率的影响。
摘要由CSDN通过智能技术生成

Week 1

1.1 监督学习

1)监督学习

  • x x x to y y y mappings
  • learns from being given “right anwsers”

2)回归 regression

  • predict a number
  • infinitely many possible outputs
  • 预测连续值的输出,例如预测房价

在这里插入图片描述

3)分类 classification

  • predict class/category (number or non number)
  • small number of possible outputs
  • 预测离散值输出,例如判断肿瘤是良性还是恶性
  • 拟合出一个boundary

在这里插入图片描述
在这里插入图片描述

1.2 无监督学习

1)无监督学习

data only comes with inputs x x x, but not output labels y y y

find structure in the data

2)聚类算法 clustering

group similar tata points together
在这里插入图片描述

3)异常检测 anomaly detection

find unusual data points

4)降维 dimensionality reduction

compress data using fewer numbers

2.1 线性回归

1)一些符号表示

训练集 training set

x x x:输入变量,特征(feature),输入特征

y y y:输出变量,目标(target)变量,即训练集中的真实值

m m m:训练样本总数

( x , y ) (x,y) (x,y):单个训练样本

( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i)):第i个训练样本

y ^ \hat{y} y^:y的估计或预测,即模型的输出

f u n c t i o n f function f functionf:模型model

X X X:输入,输入特征

2)线性回归

f ( x ) = f w , b ( x ) = w x + b f(x) = f_{w,b}(x) = wx + b f(x)=fw,b(x)=wx+b

w , b w,b w,b:参数parameter,参数coefficient,权重weight

w w w:斜率slope

b b b:截距intercept

在这里插入图片描述

2.2 代价函数

在这里插入图片描述

  • 如何找到 w 、 b w、b wb使得尽可能多的训练示例 x ( i ) 、 y ( i ) x^{(i)}、y^{(i)} x(i)y(i)的预测值 y ^ \hat{y} y^接近真实值 y y y
  • 如何衡量一条直线与训练数据的拟合程度?
  • 线性回归的目标:找到参数 w w w b b b使得成本函数 J J J最小。

1)Cost Function(squared error cost function)

在这里插入图片描述

  • 除以 m m m:为了避免代价函数随着数据集规模变大而增加
  • 除以 2 2 2:后续求导数可以与平方的2消去

2)代价函数可视化

(1)只有一个参数的代价函数

在这里插入图片描述

在这里插入图片描述

(2)有两个参数的代价函数
① 3D图

在这里插入图片描述

② 等高线图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 梯度下降

梯度下降可以最小化代价函数。

在这里插入图片描述

初值的不同可能会得到两个不同的结果,即梯度下降不一定得到全局最优解。

局部最小值local minima

学习率learning rate:通常是介于 ( 0 , 1 ) (0,1) (0,1)之间的一个正数,控制梯度下降的步幅

重复直至算法收敛convergence,即 w , b w,b w,b不再发生较大的变化

同时更新两个参数

在这里插入图片描述

偏导数对梯度下降的影响:

偏导数用来计算当前参数对应代价函数的斜率,导数为正则 w w w减小,导数为负则 w w w增大,通过这样的方式可以使整体向 w = 0 w=0 w=0收敛。

在这里插入图片描述

学习率 α α α对梯度下降的影响:

在这里插入图片描述

如果梯度下降到局部最小值之后,再次进行梯度下降将不会发生变化,因为偏导数为0。

在这里插入图片描述

即使学习率不发生变化,也能够梯度下降到最小值

在这里插入图片描述
在这里插入图片描述

凸函数convex function:局部最小值是全局最小值

batch gradient descent

梯度下降的每一步中,我们都查看所有的训练示例(整批训练示例),而不仅仅是训练数据的一个子集

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值