【小白学机器学习1】机器学习，深度学习的概念和基础知识暂存

奔跑的犀牛先生

已于 2024-02-24 00:59:39 修改

阅读量1.2k

点赞数 20

文章标签： python 机器学习

于 2023-11-28 10:21:27 首次发布

本文链接：https://blog.csdn.net/xuemanqianshan/article/details/134660436

版权

1 人工智能相关概念：AI ,ML,DL,NN

1.1 概念名词缩写

1.2 人工智能、机器学习、深度学习、神经网络的概念

1.3 人工智能、机器学习、深度学习、神经网络之间的关系：

2 ML机器学习的分类：SL, USL,RL

1 人工智能相关概念：AI ,ML,DL,NN

1.1 概念名词缩写

AI： Artificial Intelligence
ML：Machine Learning
DL：Deep Learning
NN：Neural Network

1.2 人工智能、机器学习、深度学习、神经网络的概念

人工智能(Artificial Intelligence)是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科。

以下内容都是人工智能的不同方向

机器学习
遗传算法
群智能
专家系统
模拟控制
等等

机器学习(Machine Learning)是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

简单说，机器学习就是用在计算机上重现人类自主学习能力的技术

用到计算机的各种算法模拟

强化学习：用奖励惩罚等结果去强化获得最大化利益，比如各种游戏，alphaGo等
决策树：树形结构，擅长进行树形分类后去预测
支持向量机：擅长对数据进行分类
K近邻算法：最简单的机器学习算法？根据举例最近的K个点里的大多数点的分类继续分类的方法
神经网络：NN，深度学习就是基于神经网络的

深度学习(Deep Learning)是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近最初的目标——人工智能。

神经网络：NN，深度学习就是基于神经网络的
深度学习的特点，就是多层层状结构的神经网络进行的学习。
深度学习网络，首先是有输入，输出，最大特点：还可以调整网络的参数，进行最优化处理而实现自我学习。
典型算法：反向传播算法不断的调整参数进行多轮迭代学习

CNN 卷积神经网络
RNN 循环神经网络
LSTM 长短期记忆网络等等

深度学习的应用例子

图形识别
语音识别
自然语言处理
游戏对战AI
艺术，midjourney?
等等

深度学习的优点

现在这一波主要就是深度学习，为主要推动点
性能超高
准确率超高
领先其他机器学习算法

缺点

缺点就是计算时间很长很长
准备数据的时间，训练模型的时间也超长
因为太复杂，有点黑盒化的倾向。虽然计算逻辑很清晰，计算过程太长，优化过程很难逐步理解，因此tensorflow 还专门做了可视化的tensorBoard

神经网络(Neural Network)是一种模拟人脑的神经网络以期望能够实现类人的人工智能机器学习技术，它是深度学习的基础。
下面2个图片都是网图，学习用。

1.3 人工智能、机器学习、深度学习、神经网络之间的关系：

下面这个图，是来自吴恩达的图

1.4 深度了解 “智能” 的各种概念

以下内容来自日本我妻幸长教授的相关文章阅读后总结

单细胞动物，草履虫
多细胞动物，其他细胞，独立的神经细胞（专门处理信息的输入和输出）
多细胞动物，秀丽隐杆线虫，1000多个细胞里有300多个神经细胞，其神经连接网络已经被搞清楚
不同的动物的神经细胞数量级
人不运动的时候，大脑的耗能占25%

1.4.1 智能是什么？

智能是什么？
智能就是神经细胞及其网络？
多细胞动物，秀丽隐杆线虫，1000多个细胞里有300多个神经细胞，秀丽隐杆线虫的神经网络图看起来已经被研究很清晰了。如下图。
所以：智能的本质是神经连接体？神经细胞及其组织形式的整体？
如果是这样，那么模拟神经连接体，就是模拟了智能

迄今最完整的秀丽隐杆线虫神经图谱 | Nature论文学术资讯 - 科技工作者之家来源：Nature自然科研《自然》本周发表的一篇论文Whole-animal connectomes of both Caenorhabditis elegans sexes报道了两种性别（雄性和雌雄https://www.scimall.org.cn/article/detail?id=359513

1.4.2 智能可以从生物内分离吗？

智能可以从生物内分离吗？
人类近现代正在尝试：
计算机电信号，计算机算法模拟等各种方法

1.4.3 人可以模拟智能吗？

可以模拟智能吗？
当前模拟主要是用计算机算法来模拟
即使可以通过计算机算法，模拟神经连接体的作用，那也许能做成类生物的智能
但是到生物智能，计算机模拟的智能还差的远吧？

1.4.4 当前人工智能的阶段

人工智能的阶段：现在据说只到最多青蛙大脑神经细胞的量级的阶段，也就是发展前景还很大。
人工智能的阶段成果：特殊的领域如游戏领域的强化学习alphaGo等，已经超过了人类的水平。
chatGPT的出现

1.5 人工智能的发展

第1阶段：1950s-1960s

图灵机，明斯基的神经网络的机器学习设备，麦卡锡的AI会议。目标是用计算机去模拟被认为是电子信号的人脑。

第2阶段：1980s-1990s

专家系统诞生，
需要大量规则
无法处理模糊问题
提出反向传播算法

第3阶段：2000s----现在

辛顿提出深度学习概念
深度学习技术的发展和辉煌
deepmind alphaGo

2 ML机器学习的分类：SL, USL,RL

2.1 机器学习的分类

监督学习(Supervised Learning): 教计算机如何去完成任务。它的训练数据是有标签的，训练目标是能够给新数据（测试数据）以正确的标签。
无监督学习(Unsupervised Learning)：让计算机自己进行学习。它的训练数据是无标签的，训练目标是能对观察值进行分类或者区分等。
强化学习(Reinforcement Learning)：智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏

2.2 具体的应用举例

监督学习算法：线性回归、Logistic回归、神经网络、支持向量机等。

回归，regression，用来预测连续值的输出，用来处理连续数据，如事件序列数据，比如按天记录的数据
分类，classification，是预测离散值输出

无监督学习算法：聚类、降维、异常检测算法等。

聚类，clustering，是无监督学习，训练数据无标签

特殊算法：推荐算法等。

下面这个图，是来自吴恩达的图

2.3 数据分类

数据分为2部分
一部分训练数据
一部分，验证数据

以下内容暂存，还需要整理！！！

3 关于阈值θ和偏移量b的由来

比如很多信息传入可以表达为

WX=w1x1+w2x2+....+wnxn
其中w表示权重，x表示信息/输入信息，n表示输入信息个数
也有的写成 θX=θ1x1+θ2x2+....这个是输入值，都是一个意思

从神经网络的模型来说

如果w1x1+w2x2+....>θ 就会激活
如果w1x1+w2x2+....<=θ 就不激活

那么 w1x1+w2x2+....=θ就是判断公式
可以变形为
w1x1+w2x2+....=θ
w1x1+w2x2+....-θ=0
而尽量都取正数，就是
w1x1+w2x2+....+(-θ)=0
用系数b代替-θ
w1x1+w2x2+....+b=0

所以这个b就可以认为是偏移量，
如果把b看成一个虚拟的输入信息，那么b的权重就是1
w1x1+w2x2+....+1*b=0

w1x1+w2x2+....+w0*b=0

w0*b+w1x1+w2x2+....wnxn=0

转成矩阵形式

WT*X=0

转成点乘形式,W*X的内积点乘结果

W*X=w0*b+w1x1+w2x2+....wnxn

4 不同的激活函数

设置函数的结果在0-1之间，天生的符合概率的[0,1] 设计
一个最简单的函数，分段函数图形是直的，但是上下限也是[0,1]

f(x)=0, if x<=0
f(x)=1, if x>0

一个比较连续的， sigmod，分段函数图形是曲线，但是上下限也是[0,1]
sigmod，比较经典

f(x)=1/(1-e^(-x))
其中 (e^(-x))' = -e^(-x) ,可以通过复合函数求导推出

为了不同情况下计算方便

还有的函数，分段函数图形是直的，但是上下限也是[-1,1]

f(x)=1, if x>0
f(x)=-1, if x<=0

类似的例子比如

1/2Σi=1~n(Yi-f(x)i)^2 ，加上1/2 就是为了微分结果导数更简单

5 关于回归

回归

线性回归，就是一次回归，表现为一条直线，包括1元，多元等1次回归

非线性回归，比如2次回归函数

有1次回归函数，其中包含1元的，2元等等，如果是多元的需要求偏导数
一般来说，一次回归函数都是线性函数
有2次回归函数，其中包含1元的，2元等等，如果是多元的需要求偏导数
一般来说，二次回归函数都是曲线

选择什么样的函数有差别，并不是元的次数越高越好

如果函数次数太低，拟合不够，可以用精确度变化曲线，精确度和回归度比较
如果函数次数太高，可能是过拟合，可能训练数据拟合好，但是验证数据拟合不好，

6 关于分类

分类算法

Logistic回归，是分类方法
线性可分
线性不可分（比如是曲线等）

假设W*X=w1x1+w2x2
如果W*X=w1x1+w2x2=0
假设w1 w2=1
x1+x2=0

W*X=|W||X|cosθ
其中cosθ 决定点乘内积符号 90-270，cos为负数，使得内积为负的向量
使得内积为正的向量

内积为正，两者相似
内积为负数，两者不相似
内积为0，两者垂直，完全不相关

分类是把 f(x) 做成了一个概率函数

可以看作是

f θ(x)>0.5 时 y=1
f θ(x)<=0.5 时 y=0

其实就是

θTX>0 时 y=1
θTX<=0 时 y=0

7 关于误差和梯度下降

误差函数，感觉很类似于方差函数
(y-f(x))^2

最梯度下降
采用最小二乘法？可能会陷入局部最优

随机梯度下降
随机选择一些？一定能达到全局最优

随机梯度下降

最速下降，因为事先选取点的差别，可能陷入局部最优
而随机梯度下降，因为全局随机，理论上不会陷入局部最优，一定会找到全局最优
想象不规则的sinx这种函数曲线

1个随机数量
小批量随机梯度下降

8 最小二乘法修改θ

y=ax+b
y=θ0+θ1*x

根据一些原始数据，
大概200 → 500
但是随便假设θ0=1，θ1=2
fθ(x)=f(x)=y=1+2x
当时200 → 201
可见参数θ0=1，θ2=2 假设的不好

最小二乘法修改θ
E(θ)=1/2*∑(y-f(x))^2
E(θ)=1/2*∑(yi-f(x)i)^2

跟方差一样
还要去掉误差的正负影响，而是考虑误差与均值的差距的绝对值。
所以用平方

用平方，比abs更容易求导数
1/2也是为了求二次方的导数故意设计的，1/2或者2 只会改变函数形状的扁平还是高起，一般来说y=f(x) 值越大越高，值越小越扁平

所以最速下降法，就是求导数，也就是微分
导数函数求出来后，导数=0时的x 对应就是f(x)的极值

方法1 加上考虑函数的性质
比如 f(x)=x^2+2x+1这种往下凸出的，就是对应的最小值

方法2 比如 f(x)=x^2+2x+1 导数 f(x)'=2x+2
因此，最小值是x=-1对应
而且，
x>-1,f(x)'=2x+2>0 为正，f(x)递增
x<=-1,f(x)'=2x+2<0 为负，f(x)递减
所以
沿着与导数的符号相反的方向移动x，f(x) 就会朝着最小值前进

最速下降，梯度下降法
x=x-la*df(x)/dx
x=x-学习率*导数
学习率的选择要尽量小点，否则就会不容易收敛，或无法收敛

其实这就是更新的θ
如果f(x)=fθ(x1,x2,x3)=θ0+θ1*x+θ2*x^2 =θ*X
θ0=θ0-la*Σ(f(x)-y)
θ1=θ1-la*Σ(f(x)-y)x
θ2=θ2-la*Σ(f(x)-y)x^2
多变量，偏导数

如果f(x)=fθ(x1,x2,x3)=θ0*x0+θ1*x+θ2*x^2 =θ*X
变成2个向量点乘

9 和矩阵计算，矩阵内积点乘的关系

w1x1+w2x2+.....+wnxn
天生适合用矩阵计算
w1x1+w2x2+.....+wnxn=W*X

考虑到偏移量（其实是和阈值有关系）

1*b+w1x1+w2x2+.....+wnxn=W*X
可变成
列向量 (1,w1,w2...wn) ，转行向量 (1,w1,w2...wn) T
列向量 (b,x1,x2...xn)

10 深度学习

输入层，中间层，输出层

中间层的宽度
中间层的层数，深度学习？

加宽度相对容易
加深度就会很难？

奔跑的犀牛先生

关注

20
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
【小白学机器学习1】机器学习，深度学习的概念和基础知识暂存

人工智能的阶段：现在据说只到最多青蛙大脑神经细胞的量级的阶段，也就是发展前景还很大。人工智能的阶段成果：特殊的领域如游戏领域的强化学习alphaGo等，已经超过了人类的水平。chatGPT的出现
复制链接

扫一扫