综述:
导数:本文是对机器学习中用到的数学概念的简述,如需详细了解,请百度之。
导函数的简称,是微积分中的基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x0)或df(x0)/dx。几何意义是:函数上一点在该点处切线的斜率。比如f(x)=y=3x^2,则f'(x)=6x,具体求导方法见https://jingyan.baidu.com/article/7e440953176b312fc0e2effd.html。
原函数:
对于一个定义在某区间的已知函数f(x),如果存在可导函数F(x),使得在该区间内的任一点都存在dF(x)=f(x)dx,则在该区间内就称函数F(x)为函数f(x)的原函数。
不定积分:
求函数f(x)的不定积分,就是要求出f(x)的所有的原函数,由原函数的性质可知,只要求出函数f(x)的一个原函数,再加上任意的常数C就得到函数f(x)的不定积分。即∫f(x)dx=F(x)+C
定积分:
就是求函数f(x)在区间[a,b]中的图像包围的面积。即由 y=0,x=a,x=b,y=f(X)所围成图形的面积。这个图形称为曲边梯形,特例是曲边三角形。如果f(x)是[a,b]上的连续函数,并且有F′(x)=f(x),根据牛顿-莱布尼茨公式,f(x)在区间 [ a,b ] 上的定积分等于它的任意一个原函数在区间[ a,b ]上的增量。不定积分与定积分之间的关系:定积分是一个数,而不定积分是一个表达式,它们仅仅是数学上有一个计算关系。
级数:
指将数列的项依次用加号连接起来的函数。
收敛与发散:
有极限(极限不为无穷)就是收敛,没有极限(极限为无穷)就是发散。如:f(x)=1/x 当x趋于无穷是极限为0,所以收敛。f(x)= x 当x趋于无穷是极限为无穷,即没有极限,所以发散。
绝对收敛:
收敛就是当x取无穷时,函数数列趋向于一个定值。如果一个函数数列加绝对值以后还是收敛的,那就是绝对收敛。
矩阵:
是一个数表。由 m × n 个数aij排成的m行n列的数表称为m行n列的矩阵,简称m × n矩阵。
行列式:
是一个数字。一个n×n的正方矩阵A的行列式记为det(A),其值等于其任意行(或列)的元素与对应的代数余子式乘积之和。线性相关/无关:有向量组 a1,a2,a3,如果存在一组不全为零的数k1,k2,k3,使得 k1*a1 + k2*a2 +k3*a3 = 0
单位矩阵:
主对角线上的元素都为1,其余元素全为0的n阶矩阵称为n阶单位矩阵,通常用E来表示。
逆矩阵:
若A为一个n阶方阵,另一个n阶矩阵B,使得: AB=BA=E。 则我们称B是A的逆矩阵,而A则被称为可逆矩阵。矩阵的秩:
矩阵A的列秩是 A的线性无关的纵列的极大数目。类似地,行秩是 A的线性无关的横行的极大数目。矩阵的列秩和行秩总是相等的,因此它们可以简单地称作矩阵 A的秩。通常表示为 rk(A) 或 rank A。
矩阵的初等变换:
矩阵的初等行变换和初等列变换统称为初等变换。是指以下三种变换类型 (注:列也适用以下三条):
期望值:
又称数学期望、或均值,亦简称期望,记为E(X) 。是指在一个离散性(若为连续型,请百度)随机变量试验中每次可能结果的概率乘以其结果的总和。换句话说,期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。
方差:
各个数据分别与其平均数之差的平方的和的平均数,记为D(X) 。在概率论和数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差越小,代表这组数据越稳定,方差越大,代表这组数据越不稳定。
均方误差:
(mean-square error, MSE)是反映估计量与被估计量之间差异程度的一种度量。设t是根据子样确定的总体参数θ的一个估计量,(θ-t)2的数学期望,称为估计量t的均方误差。它等于σ2+b2,其中σ2与b分别是t的方差与偏倚。
标准差:
方差的算术平方根。
正态分布(Normal distribution):
也称“常态分布”,又名高斯分布(Gaussian distribution)。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
数据拟合:
又称曲线拟合,俗称拉曲线,是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据,根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,这过程就叫做拟合(fitting)。
线性增长:
指以一次函数y=kx+b的形式增长的图像,因为该函数图像是一条直线,所以是线性增长,注意,如果斜率<0,那么就是线性减小。
非线性增长:
线性增长之外的一切增长,也就是函数图象不是一条直线的,都是非线性增长。
概率密度:
概率密度f(x)是某value落在x处“单位宽度”内的概率。对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。
概率密度函数:
简称为密度函数。用于描述一个随机变量的输出值,在某个确定的取值点附近的可能性的函数。对于一维实随机变量X,设它的累积分布函数是Fx(x),如果存在可测函数fx(x)满足:Fx(x) = ∫fx(t)dt,区间为负无穷到x,那么X是一个连续型随机变量,并且fx(x)是它的概率密度函数。
协方差:
协方差Cov(X,Y) = E[(X - E[X])(Y - E[Y])] = E[XY]-E[X]E[X]。协方差只表示线性相关的方向,取值正无穷到负无穷。在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
相关系数:
相关系数r(X,Y) = Cov(X,Y)/sqrt(Var[X]*Var[Y]),其中Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。也就是说,相关系数为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。同时,相关系数的绝对值越接近1,线性关系越显著。通常情况下,当相关系数的绝对值大于2/sqrt(N),N为样本点的数量时,我们认为线性关系是存在的。
均方误差:
(mean-square error, MSE)是反映估计量与被估计量之间差异程度的一种度量。
自然底数e:
对于数列{ ( 1 + 1/n )^n },当n趋于正无穷时该数列所取得的极限就是e,即e = lim (1+1/n)^n。e ≈ 2.7182818.
先验概率:
指根据以往经验和分析得到的概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。
后验概率:
一般是我们求解的目标。指事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。后验概率的计算要以先验概率为基础。后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来。
条件概率:
又叫似然概率。条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
完备事件组:
如果事件B1、B2、B3…Bn 构成一个完备事件组,即它们两两互不相容,其和为全集,则称该组事件为完备事件组。也可这样理解,如果事件组B1,B2,.... 满足如下两条:1、 B1,B2....两两互斥,即 Bi ∩ Bj = ∅ ,i≠j , i,j=1,2,....,且P(Bi)>0,i=1,2,....;2、B1∪B2∪....=Ω ,则称事件组 B1,B2,...是样本空间Ω的一个完备事件组。
贝叶斯定理(公式):
用于计算在事件B发生的情况下事件A发生的可能性P(A|B)。其公式为:P(A|B)=P(B|A)*P(A)/P(B)。关于P(B)的解析见全概率公式。
熵:
本质是一个系统“内在的混乱程度”。
科学记数法:
把一个数表示成a(1≤a<10,n为整数)与10的幂相乘的形式,这种记数法叫做科学记数法。当我们要标记或运算某个较大或较小且位数较多时,用科学记数法免去浪费很多空间和时间。例如:19971400000000=1.99714×10^13。计算器或电脑表达10的幂是一般是用E或e,也就是1.99714E13=19971400000000。
无理数:
无限不循环小数,不能写作两整数之比。若将它写成小数形式,小数点之后的数字有无限多个,并且不会循环。 如:π和e等。
有理数:
整数和分数的集合,整数也可看做是分母为一的分数。有理数的小数部分是有限或为无限循环的数。
那么,这三个向量是线性相关的。如果只有 k1=k2=k3=0时,上面这个等式才成立,那么这三个向量就是线性无关的。
如果这三个向量线性相关,那么它们在同一个平面上。
同理,如果是两个向量线性相关,那么它们在同一直线上。
(1) 交换矩阵的两行(对调i,j,两行记为ri,rj);
(2) 以一个非零数k乘矩阵的某一行所有元素(第i行乘以k记为ri×k);
(3) 把矩阵的某一行所有元素乘以一个数k后加到另一行对应的元素(第j行乘以k加到第i行记为ri+krj)。
全概率公式:
将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。如果事件B1、B2、B3…Bn 构成一个完备事件组,即它们两两互不相容,其和为全集,并且P(Bi)大于0,则对任一事件A有P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bn)P(Bn).