机器学习相关知识点整理【更新中】

置顶什么都干的派森

已于 2023-08-27 16:59:45 修改

阅读量1.6k

点赞数 88

分类专栏： CV NLP 文章标签： python 逻辑回归

于 2022-09-17 15:07:53 首次发布

本文链接：https://blog.csdn.net/weixin_43721000/article/details/126898782

版权

CV 同时被 2 个专栏收录

27 篇文章 8 订阅

订阅专栏

NLP

20 篇文章 1 订阅

订阅专栏

一、前言

此文章记录一些机器学习的相关知识点、公式及书写方法

二、参考文献

KaTeX库 文档 https://katex.org/docs/supported.html
王木头b站视频 https://space.bilibili.com/504715181
李沐b站视频 https://space.bilibili.com/1567748478
百度百科

三、知识点及公式

1.线性回归

$\LARGE {y=wx+b}$

2.sigmoid函数

$\LARGE {\sigma(x) = {1 \above{1pt} 1+e^{-x}}}$

3.逻辑回归

$\LARGE {\sigma(x) = {1 \above{1pt} 1+e^{-(wx+b)}}}$

4.基尼指数

$\LARGE Gini\_index(D, a) = \displaystyle \sum_{v=1}^V{D^v\above{1pt}D}Gini(D^v)$

5.基尼值

$\LARGE Gini(D)=1-\displaystyle \sum_{k=1}^{|y|}P_k^2$

6.联合概率公式

$\LARGE P(AB) = P(B|A_i)*P(A_i)$

ps：

$P(B|A_i)$ ：表示 $A_i$ 事件已发生时， $B$ 事件发生的概率
$P (A B)$ ：表示A、B事件的联合概率【A、B同时发生的概率】

7.全概率公式

$\LARGE P(B) = \displaystyle \sum_{k=1}^{n}P(B|A_k)*P(A_k)$

ps：

$P (B)$ ：表示B事件的发生概率【全概率】

8.贝叶斯公式

$\LARGE P(A_i|B) = {P(AB) \above{1pt} P(B)} = {P(B|A_i)*P(A_i) \above{1pt} \displaystyle \sum_{k=1}^{n}P(B|A_k)*P(A_k)}$

ps：

$P(A_i)$ ：先验概率【事件还没有发生时，根据以往经验和分析得到的事件发生概率概率】，比如掷骰子结果为3的概率是六分之一
$P(A_i|B)$ ：后验概率【事件已经发生，但事情发生可能有多个原因，判断事件由哪个原因引起的概率】，比如你坐在马桶上分析今天窜稀的原因是吃了那种水果
$P(B|A_i)$ ：似然概率

9.求向量的模【 $L 2$ 范数】

$设：\LARGE A=[a_1,a_2,...a_n]$
$则：\LARGE |A| = \sqrt{\smash[]{a_1^2+a_2^2+...+a_n^2}} = \sqrt{\smash[]{ \displaystyle \sum_{i=1}^{n}a_i^2}}$

10.向量内积

$设：\Large A=[a_1,a_2,...a_n]，B=[b_1,b_2...b_n]$
$则：\Large A \cdot B = |A||B|\cos\theta = a_1*b_1+a_2*b_2+...+a_n*b_n = \displaystyle \sum_{i=1}^{n}a_i*b_i$

11.向量的余弦相似度

$设：\Large A=[a_1,a_2,...a_n]，B=[b_1,b_2...b_n]$
$\cos(\theta) = {向量的内积 \above{1pt} 向量模的乘积} = {向量的内积 \above{1pt} 向量L2范数的乘积} = {A \cdot B \above{1pt} |A|\cdot|B|} = {A \above{1pt} |A|} \cdot {B \above{1pt} |B|} = {\displaystyle \sum_{i=1}^{n}a_i*b_i \above{1pt} \sqrt{\smash[]{ \displaystyle \sum_{i=1}^{n}a_i^2}} * \sqrt{\smash[]{ \displaystyle \sum_{i=1}^{n}b_i^2}}}$

PS：

一般做相似度检索时，有两种方式：
<1> 将文本或图像编码获得向量化特征之后入库，使用余弦相似度检索
<2> 将文本或图像编码获得向量化特征之后，先除以该向量的模(L2范式)得到归一化的向量特征再入库，使用向量内积进行检索，因为L2范式归一化之后的向量内积就等于向量的余弦相似度计算
优劣：方式一便于理解，方式二速度更快

12.似然函数

$\LARGE P(x_1,x_2,x_3...x_n|\theta) = \displaystyle \prod_{i=1}^{n}P(x_i|\theta)$

ps：

似然值定义：当假设（概率模型 $\theta$ ）为真时所得到的样本观察结果出现的概率。如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。
举例：
1. 假设抛硬币正、反的概率分别为0.1、0.9，真实观察10次结果为4正6反，那么
  $P_1=0.1^4*0.9^6=5.314410000000001e-05$
2. 假设抛硬币正、反的概率分别为0.3、0.7，真实观察10次结果为4正6反，那么
  $P_2=0.3^4*0.7^6=9.529568999999997e-04$
3. $P_2>P_1$ ，所以我们可以拒绝第一种假设，保留第二种

13.伯努利分布

如果随机变量X只取0和1两个值，并且相应的概率为：
$\LARGE Pr(X=1)=p,Pr(X=0)=1-p,0<p<1$
则称随机变量X服从参数为p的伯努利分布，X的概率函数可写为：
$\LARGE f(x|p) = p^x(1-p)^{1-x}= \begin{cases} p & x=0 \\ 1-p & x=1 \\ 0 & x \mathrlap{\,/}{ = } 0,1 \end{cases}$
令q=1一p的话，也可以写成下面这样：
$\LARGE f(x|p) = \begin{cases} p^xq^{1-x} & x=0,1 \\ 0 & x \mathrlap{\,/}{ = } 0,1 \end{cases}$

ps：

定义：伯努利分布指的是对于随机变量X有, 参数为p(0<p<1)，如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)
什么样的事件遵循伯努利分布：任何我们只有一次实验和两个可能结果的事件都遵循伯努利分布【例如：抛硬币、猫狗分类】

14.信息量

某个事件发生的信息量可以定义成如下形式

$\LARGE F(p) = -\log_2p$

ps：

$p$ ：当前事件发生的概率
$F (p)$ 的单位是比特

15.熵

对概率系统 $P$ 求熵 $H$ 可定义为对系统 $P$ 求信息量 $f$ 的期望
$=E(P_f) = \displaystyle \sum_{i=1}^{m} p_i*f(p_i) = \displaystyle \sum_{i=1}^{m} p_i(-log_2p_i) = - \displaystyle \sum_{i=1}^{m} p_i*log_2p_i$
系统熵的求解过程简单来说，就是把系统里面所有 可能发生事件的信息量 $log_2p_i$ 求出来然后和这个 事件发生的概率 $p_i$ 相乘，最后把这些 结果 $log_2p_i*p_i$ 相加，得到的就是这个系统的熵

ps：

熵的定义：衡量一个系统从原来的不确定到确定，难度有多大【系统趋于稳定的难度有多大】，简单来说就是衡量一个系统的混乱程度，混乱程度越小，系统越稳定，结果置信度越高
信息量的定义：与熵类似，时衡量一个事件从原来的不确定到确定，难度有多大【系统中某个事件趋于稳定的难度有多大】
举例：
1. 一个预测中国乒乓球是否夺冠的系统，熵就很小，因为它输出稳定、置信度高
2. 一个抛硬币的系统，熵就很高，因为它混乱程度高、输出不稳定

16.相对熵【KL散度】

相对熵用于计算两个系统之间的熵的差距，公式如下：

$D_{KL} (P||Q): = \displaystyle \sum_{i=1}^{m} p_i*(f_Q(q_i) - f_P(p_i)) = \displaystyle \sum_{i=1}^{m} p_i*((-\log_2q_i) - (-\log_2p_i)) = \displaystyle \sum_{i=1}^{m} p_i*(-\log_2q_i) - \displaystyle \sum_{i=1}^{m} p_i*(-\log_2p_i) = H(P,Q) - H(P)$

ps：

$D_{KL} (P||Q)$ ：表示以 $P$ 系统为基准，计算 $Q$ 与 $P$ 的熵的差距
$f_Q(q_i) - f_P(p_i)$ ：代表某件事在 $Q$ 系统中的信息量减去此事件在 $P$ 系统中的信息量
$q_i$ ：表示当前事件在 $Q$ 系统发生的概率， $p_i$ ：表示当前事件在 $P$ 系统发生的概率
$H (P)$ ：就是P系统的熵
$H (P, Q)$ ：就是P系统的交叉熵
交叉熵 $H (P, Q)$ 永远大于 熵 $H (P)$ 【可根据吉布斯不等式求出】
当以 $P$ 系统为基准求 $P 、 Q$ 两系统的相对熵 $D_{KL} (P||Q)$ 时， $H (P)$ 是固定的， $H (P, Q)$ 又一定大于 $H (P)$ ，所以 $H (P, Q)$ 越小相对熵越小，因此相对熵的大小取决于交叉熵 $H (P, Q)$ ，交叉熵越小，系统 $P$ 越接近于 $Q$ ，这就是交叉熵可以作为损失函数的原因
$\displaystyle \sum_{i=1}^{m}$ 中的事件数量 $m$ 取两个系统中事件数量较多的那个即可，因为如果某个事件在 $Q$ 系统中存在，在 $P$ 系统中不存在，那么该事件在 $P$ 系统中的概率 $p_m=0$ ， $P$ 系统中的信息量就是 $0$ ，那么m事件的信息差 $M = f_Q(q_m) - f_P(p_m) = f_Q(q_m)$ ，受该事件影响，最终求出的相对熵也就距 $0$ 越远【因为 $Q$ 系统中多出了一个无关紧要的事件，导致 $P$ 和 $Q$ 的相似度变低，这很河里（旺柴）】

17.交叉熵

基本公式如下
$\LARGE H(P,Q)=\displaystyle \sum_{i=1}^{m} x_i*(-\log_2y_i)$
考虑正反两面的情况后可以写成如下形式
$\Large H(P,Q)=-( \displaystyle \sum_{i=1}^{n} (x_i*\log_2 y_i + (1-x_i)*\log_2(1-y_i)))$

18.泰勒公式

设 $f (x)$ 在 $x_0$ 处有n阶导数，则有公式：
$\large f(x) = f(x_0) + {f'(x_0)\above{1pt} 1!}(x-x_0) + {f''(x_0)\above{1pt} 2!}(x-x_0)^2 + ...+ {f^{(n)}(x_0)\above{1pt} n!}(x-x_0)^n + o[(x-x_0)^n]$

ps:

泰勒公式作用是 用一些幂函数相加来拟合原函数 $f (x)$ ，本质就是近似
泰勒公式展开的项数越高，最终拟合原函数的近似度就越高
等价无穷小就是只展开一次的泰勒公式，是特殊的泰勒公式
泰勒公式的本质是近似，洛必达计算的本质是降阶

19.麦克劳林公式

当 $x_0=0$ 时的 泰勒公式 就是 麦克劳林公式了，如下
$\Large f(x) = f(0) + {f'(0)\above{1pt} 1!}x + {f''(0)\above{1pt} 2!}x^2 + ... + {f^{(n)}(0)\above{1pt} n!}x^n + o(x^n)$

参考视频
https://www.bilibili.com/video/BV1WX4y1g7bx

20.高斯分布（正态分布）

若随机变量 $X$ 服从一个位置参数为 $\mu$ 、尺度参数为 $\sigma$ 的概率分布，且其概率密度函数为：
$\Large f(x) = { 1\above{1pt} \sqrt{2\pi\sigma}} \exp (- {(x-\mu)^2\above{1pt}{2\sigma^2}} )$

则这个随机变量就称为正态随机变量，正态随机变量服从的分布就称为正态分布，记作 $\thicksim N(\mu,\sigma^2)$ ，读作 $X$ 服从 $N(\mu, \sigma^2)$ ，或 $X$ 服从正态分布。

当 $\mu=0, \sigma=1$ 时，正态分布就成为标准正态分布
$\Large f(x) = { 1\above{1pt} \sqrt{2\pi}} \exp (- {x^2\above{1pt}{2\sigma^2}} )$

21.什么条件下的数据可以获得较好的训练结果

独立
数据之间相互独立
比如，小明和小红来贷款，银行会根据他俩的自身条件对他俩评估后分别放贷，他俩之间就没有任何联系，数据相互独立
相反的，一个风扇的转速和风力则呈正相关，他俩之间就有联系，数据特征不相互独立
乱序
模拟自然条件下的数据，也是数据独立的一个间接要求
同分布
数据尽可能来自于相同的分布
比如，小明和小红来贷款，他俩必须去的都是同一家银行，符合同一家银行下的放贷规则
相反的，小明和小红一个去建行贷款一个去农行贷款，他俩的数据特征就不满足同分布的要求了
高斯分布（正态分布）
释义参考上一条知识点
比如，大多数人的身高在1.5-1.8米之间，大多数人的体重在100-200斤之间，大多数人的薪资都在2-5k之间，这些都是符合高斯分布的数据

todo…

请添加图片描述

什么都干的派森

关注

88
点赞
踩
72

收藏

觉得还不错? 一键收藏
打赏
84
评论
机器学习相关知识点整理【更新中】

如果要在CSDN博客中输入数学公式又不知道那些奇奇怪怪的符号应该怎么写，那么可以参考KaTeX库的文档ps：KaTeX库是一个快速的，为网站呈现 Tex 科学公式的简单易用的 javascript 库下面整理了一些机器学习相关的常用公式写法，以供参考。
复制链接

扫一扫