Math
文章平均质量分 78
Math
JunanP
这个作者很懒,什么都没留下…
展开
-
相关性分析 协方差 相关系数
在机器学习当中,进行特征选择、特征筛选时都会使用特征之间的相关性分析。比如有两个特征相关程度非常大,几乎都是同一个意思,那么就可以只保留一个特征。简单总结一下一些计算变量之间相关性的指标。协方差 协方差是概率论当中非常基础的知识点了,它是用来描述两个随机变量相关程度的指标。公式: 如果两个变量呈正相关(即一个增大另一个也增大),则协方差值为正数;反之为负数。从协方差公式来看,它的算法是计算两个变量与其均值作差的乘积和。原理很好理解:当一个变量比均值大,另一个比均值小,就会乘出一个...原创 2022-02-17 20:14:30 · 2048 阅读 · 0 评论 -
最小二乘法理解与应用
最小二乘法是一个既熟悉又陌生的东西。 在回归问题中我们经常使用最小二乘法来预测出一条直线或者曲线用于拟合真正的数据点。而拟合数据的方式就是使用最小二乘法——使我们的预测值与真实值之间的差的平方和最小。 因为看起来十分基础和简单,甚至用上面这一段话就讲完了。 然而,为什么是平方和呢?而不是一次方或者三次方?因为一次方会有正负,无法表示实际距离?那么带上绝对值不就行了嘛……原来我对这个问题没有仔细想过,感觉最小二乘法反正就是最常用最经典的方式罢了,类似于求个欧氏距离嘛大家都很喜欢用的一种表...原创 2022-02-14 20:16:13 · 3549 阅读 · 1 评论 -
熵 信息熵 交叉熵
在信息论当中,我们经常用熵来表示信息的混乱程度和不确定程度。熵越大,信息的不确定性就越强。熵的公式如下:(注:log默认以2为底) 把这个公式拆开来看其实非常简单:一个负号,一个p(x)以及log(p(x))。我们知道一个事件发生的概率是0-1之间的,这样一个概率值送入log函数(如下图),肯定是小于0的,所以外面再加一个符号,就可以得到我们常见的正值的熵了。 当概率值趋于0或者1时(即确定性很强),则p(x)或者log(p(x))会趋于0,熵就会小;当概率值趋于1/2时...原创 2022-02-12 14:02:56 · 1892 阅读 · 0 评论 -
核函数 高斯核函数,线性核函数,多项式核函数
核函数是我们处理数据时使用的一种方式。对于给的一些特征数据我们通过核函数的方式来对其进行处理。我们经常在SVM中提到核函数,就是因为通过核函数来将原本的数据进行各种方式的组合计算,从而从低维数据到高维数据。比如原来数据下样本点1是x向量,样本点2是y向量,我们把它变成e的x+y次方,就到高维中去了。 把数据映射到高维在我们直观上理解起来是很难的,其实也并不用深刻理解,因为做这些的目的只是为了让机器去理解,帮助机器通过自己的模型去更好的挖掘一些语义信息。所以对于我们人来说,“样本点1是x向量,样本点...原创 2022-01-17 19:52:28 · 28740 阅读 · 15 评论 -
似然函数 极大似然估计 后验概率 最大后验概率估计
这篇主要想总结一下与标题相关的一些概念。之前一直也是模模糊糊的。先设定一个大环境:现在假设我们有一个产生数据的机器,我们这个机器的参数为θ,机器产生的结果的结果为x。不同的参数可以产生不同的结果。后面我们的θ,x也分别是参数、结果的意思。概率密度首先引入概率密度函数 ,它也等于:这几种写法。这个很好理解:在参数θ下得到x的可能性。概率密度函数是关于x的函数。 注意:对于这里P当中的竖杠|以及下文中所有类似的竖杠|可以当成条件概率来理解,但它并不是条件概率!因为θ不是随机变量...原创 2022-01-15 20:31:52 · 998 阅读 · 2 评论 -
对矩阵特征值分解和SVD奇异值分解的理解
矩阵分解是非常常见的操作矩阵方式。尤其是在推荐系统里,我们往往会有一个用户-物品矩阵,这个矩阵非常大,比如100w个用户*1000w个物品矩阵,这个时候我们可以通过矩阵分解一方面降低矩阵的维度,另一方面提取用户和物品各自的信息。 举个例子,对于100w*1000w的用户-物品矩阵,我们可以得到100w*10的用户矩阵和10*1000w物品矩阵。这样子其中的10维向量就是我们提取的主要特征。一般来说我们会把矩阵先分成三块再得到其中的这两块,具体原因看完这两种分解方式就懂了~ 下面没有涉及公式推...原创 2022-01-06 22:01:41 · 1725 阅读 · 0 评论 -
矩阵的秩,特征值和特征向量 矩阵基础概念
矩阵是非常重要而基础的数学知识了。大学课上学线性代数基本就是在学矩阵的各种操作和运算。在深度学习里,几乎所有的参数也都是存放在矩阵中,并通过矩阵来做各种运算。大概把矩阵的基本知识点复习和总结一下。行列式和矩阵的区别:行列式和矩阵特别像,行列式长这样(两边是竖线):矩阵长这样:或这样:(两边是个括号)1.行列式是一个具体的值,他的值表示为:这是二阶行列式,还有三阶,四阶行列式等,都可以用一套公式结论去求出值。行列式我们只说它是“几阶”的,所以行列式的行数和列...原创 2022-01-04 23:51:56 · 8640 阅读 · 0 评论 -
泰勒公式理解 数学基础
泰勒公式是非常又名和重要的一个知识点了,我记得学xgboost的时候就用到了“二阶泰勒展开”,这里对泰勒公式做一个梳理和总结。 对于泰勒公式,我把它理解成,用一个“有规律、可表达”的公式来代替一个复杂的函数。我们对一个函数进行“泰勒展开”,其实就是用泰勒公式去代替原函数。泰勒公式定义: 这个式子称为f(x)在x0关于x-x0的n阶泰勒多项式。 其中x0是任意位置的常数值,这个函数表示:原函数在x0处的瞬间,可以用这个式子f(x)来表示。 可以知道,随着x0的变化,...原创 2022-01-02 21:37:32 · 10347 阅读 · 3 评论 -
正规方程法(Normal Equation)原理以及与梯度下降法的区别
具体θ该怎么算呢,下面用一个具体的房价预测例子,来更加清晰地描述X和y以及θ的关系形式,并且引出另一种求正规方程法结论的方式。假设它只有一个参数θ1,我们通过下图中公式(梯度下降法)中的方法,就可以找到一个局部或者是全局最优解。中,我们已知要想得到theta,只需要左右两边都乘以X的逆矩阵即可,但大多数情况下X不一定是方阵,不一定有逆矩阵,于是我们先都同时乘以X的转置矩阵,让其成为方阵。这种思路的本质就是我们要求一个最优的θ,可以直接先假设Xθ=y,从而逆推出θ来。这样,正规方程法的思想就讲完了。.....原创 2022-07-25 10:03:27 · 1281 阅读 · 1 评论 -
方向导数与梯度
方向导数 接着偏导数的基础,我们可以引出方向导数。 方向导数和偏导数的区别就是:方向不同。仅此而已。 我们常说的偏导数无非就是对x轴求偏导,对y求偏导。而方向导数则是对x轴与y轴之间的某一新方向求导数。 还是用一下上次的图,这里我在x轴和y轴之间的平面上自己画了一个方向,并且与x轴夹角为α。 那么我们的z既然可以对x方向或y方向求偏导,自然也能对我新画的这个方向求“偏导”,这个“偏导”就是方向导数。 设这个新方向为l,因为这个方向导数和x与y轴有夹角关系,所以大可...原创 2022-01-01 19:59:21 · 7319 阅读 · 4 评论 -
偏导数 数学基础
最近想复习一下数学知识,才看到偏导数就感到“温故而知新“了。以前学高数的时候经常求偏导数,到最后就光记住怎么算了,这里带着实际意义总结一下。 偏导数的的定义就不写了,看了一下百度百科的定义是这样写的: 感觉实在是没有什么意义…… 从简单(普通导数)开始。我们都知道,对于一元函数而言,比如y=ax+b, 显然对x求导可以得到函数的变化率。 在上图这个函数中,只存在y随x的变化情况。对x求出的导数也就是y在x上的变化率。 然而对于二元函数,比如z=f(x,y),...原创 2021-12-28 22:53:52 · 5987 阅读 · 0 评论