吴恩达《机器学习》笔记

最新推荐文章于 2025-03-28 00:12:55 发布

两米七的大白菜

最新推荐文章于 2025-03-28 00:12:55 发布

阅读量2k

点赞数 3

分类专栏： deeplearn 文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_44747789/article/details/118695410

版权

deeplearn 专栏收录该内容

1 篇文章

订阅专栏

引言：个人当前研究倾向是智慧医疗，旨在通过信息科技的数据处理手段，解决当前医学界的问题。
学习初步思路：在师兄的指导下，初步的学习计划为理论与竞赛并行，即一方面补充基础知识，另一方面竞赛实践自己的知识。

公开课看：吴恩达coursera《机器学习》，李飞飞斯坦福《卷积神经网络》，李宏毅台湾大学《机器学习》/《深度学习》。
竞赛：https://beetl.ai/data；
官方代码，这个方法有70%准确率。
https://github.com/XiaoxiWei/NeurIPS_BEETL

吴恩达coursera《机器学习》

笔记：

第一章

1-2什么是机器学习？

定义：
A computer program is said to learn from experience E with respect to some task T and some performance measure P,if its performance on T, as measured by P,improves with experience E.

Machine learning algorithms:

Supervised learning
Unsupervised learning
Others:Reinforcement learning(强化学习),recommender systems.
Also talk about:Practical advice for applying learning algorithms.

1-3 监督学习 Supervised learning

栗子：房价预测
在这里插入图片描述
原本是零星的点，最后需要给出一条拟合的曲线。
Supervised Learning:“right answers” given
Regression(回归):Predict continuous valued output(price)

栗子2：肿瘤的预测
在这里插入图片描述
根据肿瘤的size判断是恶性还是良性。还可以加上年龄、肿瘤厚度等多个特征！分类问题！

1-4.无监督学习 Unsupervised learning

在这里插入图片描述
无监督学习会分成两个簇(clusters)，分簇的算法就叫做聚类算法。
应用很多：
1.谷歌新闻
2.基因检测分类
3.大计算机集群 Organize computing clusters
4.社会网络关系分析 Social network analysis
5.市场分配 Market segmentation
6.天文数据分析 Astronomical data analysis

Cocktail party problem 鸡尾酒算法：
在这里插入图片描述
相互啰嗦，但最后通过算法分离出来两个人的独立的声音，举了栗子。

只通过一行代码，调用就能解决问题。所以学习调包！！！

第二章

2-1.模型描述

在这里插入图片描述

举例的是一个房价预测的线性回归模型。介绍了背景和表达式的含义。比较简单。

Training Set 训练集
hypothesis 假设函数
Linear regeression with one variable 线性回归
Univariate linear regression 线性回归

2-2 代价函数 Cost Funtion

在这里插入图片描述
一图以蔽之，就是右侧上面的红框，是代价函数，也叫平方误函数！

2-3 代价函数intuition（一）

为了直观的看效果，这里对Cost Function进行简化，只保留一个参数，然后绘制两者的对应图像，我们可以看到两边的对比结果。其中代价函数是一个二次函数的图像，我们主要要他的最小值的点！
在这里插入图片描述

2-4 代价函数intuition （二）

如果我们保留所有的参数，并绘制对应的代价函数的图像如下
在这里插入图片描述
一般这种比较复杂，会用等高线去替代，如下图

越往中间，拟合的越好！
为了找到这个最小的值，我们需要一个算法。

2-5 梯度下降 Grardient descent

算法场景：有一个代价函数，找到对应的最小值。
大纲：从某些参数开始，不停的改变参数减小Cost Function，直到满足某个我们想要的minimum
在这里插入图片描述
算法的具体公式如下

注意左侧是正确的公式，右侧是错误的！必须同步更新！

2-6 梯度下降 Gradient Descent Intuition

本节主要介绍上节里的那个导数部分
首先介绍的是学习率
在这里插入图片描述
由于在下降的过程中，斜率也在降低，所以每次减小的幅度也在减小，因此无需自己再去手动降低学习率。这也是为什么用导数，而不是用一个固定值的原因。

2-7 Gradient Descent For Linear Regression

在这里插入图片描述
结合之前的二维代价函数，以及梯度下降算法，老师演示了每一个的优化过程。

在这里插入图片描述

第三章

3-1矩阵和向量 Matrices and Vectors

3-2 加法和标量乘法 Addition and Scalar Multiplication

3-3 矩阵向量乘法 Matrix-vector multiplication

3-4 矩阵乘法 Matrix-Matrix multiplication

3-5 矩阵乘法特征 Matrix multiplication properties

3-6 逆和转置 Inverse and transpose

基本知识，easy

第四章

4-1.多特征 Multiple Features

还是以房价预测为基础，给出了增加其他几个变量的情况。
在这里插入图片描述
多出的特征用新的表现形式，对应预测公式如下：

为了更简单的说明，引入矩阵的表述形式。假设X0=1；

4-2.多元梯度下降法 Gradient Descent for Multiple Variables

原先的二元拓展到多元，过程都是一样的，还是蛮好理解的哈。
在这里插入图片描述

4-3 多元梯度下降法演练 i-特征缩放 Gradient Descent in Practice I-Feature Scaling

why:因为如果两个参数范围偏差太大，就会导致他的图像是下图左侧的那样，一个椭圆，然后在梯度下降的时候就拐来拐去，很慢才能到最小值。因为需要将两个参数归一化处理。
在这里插入图片描述
Two techniuqes to help with this are feature scaling and mean normalization
减去平均值，并除以范围（max-min）

这里老师给的经验值是 -3~3 和 -1/3–1/3

4-4 多元梯度下降法 ii-学习率 Gradient Descent in Practice II-Learning Rate

“Debugging”:How to make sure gradient descent is working correctly
How to choose learning rate?
下图是一个随着迭代次数增加，cost function 在减小。
在这里插入图片描述
但是如果出现下面这个图的情况，证明算法有问题

因此在选择学习率时，需要按这个倍数的关系去选择。3倍3倍的改变！（吴恩达：我最喜欢3）

4-5 特征和多项式回归 Features and Polynomial Regression

这一节没有什么新的知识点，就是告诉我们要选择合适的自变量，以及合适的次数。

4-6 正规方程(区别于迭代方法的直接解法) Normal Equation

Normal equation:Method to solve for theta analytically
就是用线代的解法！
在这里插入图片描述
梯度下降法，和正规方程的对比比较有意思哈

注意不同的特征量，对应不同的范围。同时注意正规方程只有在线性回归的情况下比较好用！
后续越来越复杂的算法，都是梯度下降的地盘！

4-7 正规方程在矩阵不可逆情况下的解决方法 Normal Equation Noninvertibility

不可逆的原因

两个特征线性相关
太多的特征
解决方法：删除线性相关的特征，并减少特征的数量。其实不同太管，程序会帮你解决、

4-8 导师的编程小技巧 Programming tips from Mentors

略讲怎么交作业的

第五章

5-1基本操作

5-2 移动数据

5-3 计算数据

5-4 数据绘制

5-5 控制语句：for while if语句

5-6 矢量

第六章 logistic regression 逻辑回归

6-1 分类

之前学的是回归，这节课往后学的是分类，分类用于结果为离散值{0,1}；
为什么离散值问题不能用线性回归呢？见下图，如果出现极端大值，就会导致直线偏离
但是后续的优化也是在线性回归的基础上，注意分析这个表达式！
在这里插入图片描述
因此将学习logistic回归。其确保输出值在0到1之间。

6-2 假设陈述 Hypothesis Representation

为了确保输出值在0到1之间，我们引入函数
sigmoid function=logistic function
不同的函数用于不同的模型场景！
在这里插入图片描述
最后的h（x）的输出值可以理解为概率值！也就是条件概率

6-3 决策界限 Decision boundary

由y的结果，可以看出自变量z的取值大于0或小于0，对应不同的情况
在这里插入图片描述
由此可以绘制出 x 的图像，就是下图，中间那条线就是决策边界。用于区分两个结果

当然，决策边界也可以很复杂，如下；

再三强调 并不是由训练集决定决策边界，训练集可以得出对应的theta，theta对应的表达式决定决策边界。