目录
1机器学习(分类简介)
基本原始准备:Big O 符号;队列queues,堆栈stacks,二叉树binary trees; 概率(random variable,the expected value of a random variable,方差);线性代数(matrix,vector,矩阵相乘,矩阵与向量相乘,特征向量eigenvector)
1.监督学习:已知X和Y(人工标注)同时输入,将输入数据映射到输出,再输入另一个X时,可以预测Y。回归(输出是连续变化的),分类(输出是离散的)
回归 | 分类 |
| |
2.无监督学习:不输入Y,自己寻找输入数据的有趣变化。方法(降维,聚类)。data clustering,anomaly detection异常监测
3.自监督学习:已知X和Y(没有人工标注的标签)=没有人工参与的监督学习
4.强化学习:学会奖励最大化的行动。类似训练狗,并不知道怎么是最终模型,但是狗表现好时说‘good dog’,表现不好时说‘bad dog’,慢慢就训练好了。有和环境交互反馈的过程。自动驾驶,AlphaGo,智能控制系统
下面讲的部分是:————机器学习(下的)→监督学习(下的)→线性回归
2线性回归(linear regression)
2.1 如何根据样本数据估计模型参数
?
两种 | A:ordinary least square 几何法 | B:maximum likelihood estimation 概率法(也可以 贝叶斯估计) |
估计模型参数 的方法 | ![]() | ![]() |
| 假设误差项服从高斯分布,则误差项的density↓ | |
![]() | 第二个公式,已知输入x,参数theta,则y的分布;当我们想知道关于参数theta的函数时,写成似然函数。<关于硬币的例子,已知模型参数即硬币是两面均匀的,预测事件结果y正面朝上的概率; 似然:已知做了100次实验正面朝上50次,则计算模型参数theta最可能的值> | |
![]() | ![]() | |
梯度下降和正规方程法比较: 牛顿法: | 于是最大化概率似然函数相当于最小化↓ 前面的概率假设可以得到与最小二乘相似的形式,但是最后与 |
2.2 方程求解方法
2.2.1 ①梯度下降
梯度下降(Gradient descent):BGD,SGD |
![]() ![]() |
![]() ①J( ②函数的梯度:下降最快的方向。→计算公式 |
公式推导注:i是样本数据点个数,j是数据点的特征数。比如10个人的健康数据(样本数据点i=10,健康数据包含 体重 血压 则数据点特征数为2)。假设我们只有一个样本,从一个样本先计算。LMS least mean squares 最小均方 |
BGD和SGD:每次迭代,BGD用一整组样本数据 在数据量很大时,用SGD,速度快,但是会一直震荡达不到最优值,可以后期缩小学习率。或者用mini-BGD,相当于SGD和BGD中和,每次迭代计算一组样本数据的梯度。 |
只有一个training example: 有多个training examples的批量梯度下降BGD: 有多个training examples的随机梯度下降SGD |
补充:若误差函数是凸集,梯度下降法找到的是全局最优解 |
2.2.2 ②正规方程
补充内容:矩阵求导例2*2矩阵求导得2*2 |
正规方程,矩阵表示。用数学计算方法一次性算出最优解,即导数为0的点。 (当误差函数是凸函数,局部最小值=全局最小值) |
![]() |
|
|
补充内容:局部加权线性回归(可不看)Locally weighted linear regression
引入:数据存在过拟合和欠拟合现象。线性回归和局部加权线性回归区别: w是非负值权重。w(i)很大时,那个点的误差考虑的更多,w(i)很小时,几乎不考虑那个点的误差。一种可行的w取值如下();当x(i)距离query point x很远时w接近0,距离query point x很近时w接近1,所以w给了离得近的点更多的权重。 τ控制离x远时w下降快慢, bandwidth parameter称为带宽参数 |
|
LWLR是非参数算法,前面LR是参数算法。参数算法有固定、有限数量的参数theta,当我们拟合了数据得到了theta就可以不保存训练数据。但是非参数算法我们要保留训练集。 |
2.2.3 ③牛顿法
牛顿法:切线与横轴交点的坐标接近(函数为0的点),迭代法。 |
|
![]() |
|
|
2.3 线性回归总结:
补充内容:概率和似然的理解
参考这个博主:我觉得写的很清晰,比较容易理解。(3条消息) 【理解】似然函数_yzy_1996的博客-CSDN博客_似然函数 详解https://blog.csdn.net/yzy_1996/article/details/89139203
一文秒懂概率分布 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/28309212
资料参考来源:
1.【机器学习】分类VS.回归 - 知乎 (zhihu.com)【取了图片】
2.优化算法——牛顿法(Newton Method) - 腾讯云开发者社区-腾讯云 (tencent.com)
3.最大似然估计(Maximum likelihood estimation)(通过例子理解)_-麦_子-的博客-CSDN博客
5.斯坦福吴恩达机器学习笔记