吴恩达机器学习第一讲之‘线性回归’笔记

目录

1机器学习(分类简介)

2线性回归(linear regression)

2.1 如何根据样本数据估计模型参数​?

2.2 方程求解方法

2.2.1 ①梯度下降

2.2.2 ②正规方程

 2.2.3 ③牛顿法

2.3 线性回归总结:


1机器学习(分类简介)

基本原始准备:Big O 符号;队列queues,堆栈stacks,二叉树binary trees; 概率(random variable,the expected value of a random variable,方差);线性代数(matrix,vector,矩阵相乘,矩阵与向量相乘,特征向量eigenvector)

1.监督学习:已知X和Y(人工标注)同时输入,将输入数据映射到输出,再输入另一个X时,可以预测Y。回归(输出是连续变化的),分类(输出是离散的)

回归分类

2.无监督学习:不输入Y,自己寻找输入数据的有趣变化。方法(降维,聚类)。data clustering,anomaly detection异常监测

3.自监督学习:已知X和Y(没有人工标注的标签)=没有人工参与的监督学习

4.强化学习:学会奖励最大化的行动。类似训练狗,并不知道怎么是最终模型,但是狗表现好时说‘good dog’,表现不好时说‘bad dog’,慢慢就训练好了。有和环境交互反馈的过程。自动驾驶,AlphaGo,智能控制系统

 下面讲的部分是:————机器学习(下的)→监督学习(下的)→线性回归

2线性回归(linear regression)

2.1 如何根据样本数据估计模型参数\Theta

两种

A:ordinary least square

几何法

B:maximum likelihood estimation

概率法(也可以 贝叶斯估计)

估计模型参数\Theta

的方法

假设误差项服从高斯分布,则误差项的density↓

第二个公式,已知输入x,参数theta,则y的分布;当我们想知道关于参数theta的函数时,写成似然函数。<关于硬币的例子,已知模型参数即硬币是两面均匀的,预测事件结果y正面朝上的概率; 似然:已知做了100次实验正面朝上50次,则计算模型参数theta最可能的值>

梯度下降和正规方程法比较:

 牛顿法: 

于是最大化概率似然函数相当于最小化↓

前面的概率假设可以得到与最小二乘相似的形式,但是最后与\sigma的值无关(说明这个假设不一定是必要的)。之后我们也会用指数族和广义线性模型来证明最小二乘的合理性。

2.2 方程求解方法

2.2.1 ①梯度下降

梯度下降(Gradient descent):BGD,SGD

①J(\Theta)误差函数,找到使得J高度最小的\Theta0和\Theta1。从初始点开始,环顾四周迈出一小步,看看怎么样可以最快到达山脚。

②函数的梯度:下降最快的方向。→计算公式 \Thetaj+1=\Thetaj —\alpha  \frac{\partial \left ( J\left ( \Theta \right ) \right )}{\partial \Theta j }

公式推导注:i是样本数据点个数,j是数据点的特征数。比如10个人的健康数据(样本数据点i=10,健康数据包含 体重 血压 则数据点特征数为2)。假设我们只有一个样本,从一个样本先计算。LMS least mean squares 最小均方

BGD和SGD:每次迭代,BGD用一整组样本数据 \Thetaj+1=\Thetaj —\alpha \sum_{j=1}^{m} \frac{\partial \left ( J\left ( \Theta \right ) \right )}{\partial \Theta j } ,SGD用一个样本数据  \Thetaj+1=\Thetaj —\alpha  \frac{\partial \left ( J\left ( \Theta \right ) \right )}{\partial \Theta j }

在数据量很大时,用SGD,速度快,但是会一直震荡达不到最优值,可以后期缩小学习率。或者用mini-BGD,相当于SGD和BGD中和,每次迭代计算一组样本数据的梯度。

只有一个training example:

有多个training examples的批量梯度下降BGD:

 有多个training examples的随机梯度下降SGD

补充:若误差函数是凸集,梯度下降法找到的是全局最优解

2.2.2 ②正规方程

补充内容:矩阵求导例2*2矩阵求导得2*2

正规方程,矩阵表示。用数学计算方法一次性算出最优解,即导数为0的点。

(当误差函数是凸函数,局部最小值=全局最小值)

 

 补充内容:局部加权线性回归(可不看)Locally weighted linear regression

引入:数据存在过拟合和欠拟合现象。线性回归和局部加权线性回归区别:

 w是非负值权重。w(i)很大时,那个点的误差考虑的更多,w(i)很小时,几乎不考虑那个点的误差。一种可行的w取值如下();当x(i)距离query point x很远时w接近0,距离query point x很近时w接近1,所以w给了离得近的点更多的权重。 τ控制离x远时w下降快慢, bandwidth parameter称为带宽参数

LWLR是非参数算法,前面LR是参数算法。参数算法有固定、有限数量的参数theta,当我们拟合了数据得到了theta就可以不保存训练数据。但是非参数算法我们要保留训练集。

 2.2.3 ③牛顿法

牛顿法:切线与横轴交点的坐标接近(函数为0的点),迭代法。

2.3 线性回归总结:

补充内容:概率和似然的理解

   参考这个博主:我觉得写的很清晰,比较容易理解。(3条消息) 【理解】似然函数_yzy_1996的博客-CSDN博客_似然函数 详解https://blog.csdn.net/yzy_1996/article/details/89139203

一文秒懂概率分布 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/28309212

资料参考来源:

1.【机器学习】分类VS.回归 - 知乎 (zhihu.com)【取了图片】

2.优化算法——牛顿法(Newton Method) - 腾讯云开发者社区-腾讯云 (tencent.com)

3.最大似然估计(Maximum likelihood estimation)(通过例子理解)_-麦_子-的博客-CSDN博客

4.啥是“独立同分布” - 知乎 (zhihu.com)

5.斯坦福吴恩达机器学习笔记

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值