一.初识机器学习与深度学习

犬来八汪?

已于 2024-08-19 16:42:17 修改

阅读量854

点赞数 26

分类专栏：考研复试文章标签：机器学习深度学习人工智能

于 2024-03-03 14:07:43 首次发布

本文链接：https://blog.csdn.net/weixin_46638147/article/details/136423786

版权

考研复试专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一. 经典机器学习算法(基于数学或者统计学，具有很强的可解释性)

1. KNN分类（K-Nearest Neighbors）

判断一个新数据的类别，就看他的邻居是谁。假设分类一个未知的水果，由尺寸和颜色找到其在坐标轴之间的位置。

计算距离：a=直线距离(欧式距离)，x与y的绝对值相加=曼哈顿距离

缺点：先计算新样本与所有样本的距离，由近及远排序，再确定K(奇数)进行分类。若样本数量则庞大，则计算量大且效率低。

2. 决策树

叶子结点=样本分类结果，非叶子结点=样本特征。关键在于谁做整棵树的根节点，接下来的子孙结点又是什么。为了构建决策树，人们找到了一个衡量标准S，在热力学的代表混乱度而在决策树中代表样本种类的丰富度。

构造基本思路：随着深度增加，令S都快速降低。S降低的越快则代表决策树分类效率越高。

缺点：任何样本都是有个例的，一棵树不可能将一个新样本完美的分类。如果可以那一定是过拟合的。

措施：剪枝。分为预剪和后剪。预剪则是在实验开始前规定前提条件，分类到达某一深度则停止训练。后箭则是先找到树，再根据一定条件限制叶子结点个数。

3. 朴素贝叶斯

之所以叫做朴素贝叶斯，是基于样本特征X来预测样本属于的类别Y(不同的交通工具)。因为假设X的特征是相互独立的(这种假设太过于简单粗暴，关键词出现的先后顺序并不影响计算结果，哪怕两句话意思天差地别)。根据贝叶斯定理，可以得到一个条件概率加上全概率公式。最后选择正确度最高的类别作为分类的结果。

二. 经典深度学习算法（是机器学习的子集）

1. 反向传播

也叫梯度回传：（计算梯度）通过反向传播算法，计算损失函数相对于模型参数的梯度。这一步是利用链式法则逐层计算梯度，涉及到每一层的参数（如权重和偏置）。

见下文三.3优化详例

2. 梯度下降

（更新参数）使用计算得到的梯度和优化算法（如随机梯度下降SGD、Adam等）更新模型的参数。这个过程会调整参数，以减少损失函数的值。

综上所述，前向过程之后是进行梯度回传，计算出梯度之后，再进行梯度下降来更新模型参数。

见下文三.3优化详例

3. 激活函数

即使多重神经元串联，最后输入输出的数据化简的依然是线性组合，所以哪怕再多的神经元连接，也与单个神经元无异，纯粹的线性组合不能解决更为复杂的问题。激活函数(能求导)的作用就是令神经网络可以逼近任何非线性函数以满足主体的需要，这使得神经网络应用到更多非线性模型中。最简的例子，一条直线永远也无法与一条抛物线拟合，但是添加的激活函数之后，可以把线性函数掰弯变成非线性的预测函数。

如何用：括号内的加权值经过一个非线性的变化sigmoid() 或者 relu()。

三. 深度学习的任务

// 深度学习就是构建一个很庞大的深度神经网络（Deep neural network），相当于找一个合适的函数F（x）=y。

常见的神经网络常见输入有三种形式：向量、矩阵/张量（照片都是红绿蓝三基色的矩阵）、序列

例如：F（身高，体重，财产）=寿命，F（一张脸照片）= 这个人的名字。F（一句描述）= 图片。

常见的神经网络常见输出有三种形式：回归任务（填空题，给确定的答案，根据昨天气温推测今天）、分类任务（选择题，阿尔法狗）、生成任务（结构化简答题，chatgpt生成一张完整图片）

输入形式	向量	矩阵	序列
输出形式	回归	分类	结构化输出

例题
往年3月水位推测明年3月水位	向量——回归
根据视频生成字幕	序列——结构化输出
编程软件自动填充代码	序列——结构化输出
判断图片人物是谁	矩阵——分类
判断两段动漫视频是否为一部	序列——分类
判断声优是否为同一个人	序列——分类
判断淘宝商品配图和标题是否一致	序列(一段文字加图片=多模态)——分类
由蛋白质名字生成其结构	序列——结构化输出
摄像头的画面标识出人、路、车(语义分割)	序列——结构化输出