统计学习
文章平均质量分 76
统计学习相关知识算法介绍
Guapifang
这个作者很懒,什么都没留下…
展开
-
SVM支持向量机公式推导
SVM主要分为3种:硬间隔、软间隔和核函数,最早的是硬间隔的SVM提出,要求数据是严格的线性可分,但现实生活中的很多数据是多少存在一定误差的,会有一些数据点是错误的,于是提出了添加一个误差容错,便得到了软间隔,后来也有一些现实的数据是完全没法线性可分的,SVM的思想是通过提出了核函数把数据映射到高维空间,SVM思想认为低维数据没法线性可分映射到高维空间一定可以线性可分。所以SVM可以解决非线性分类任务,但算法底层本质还是线性分类模型。以下贴了下硬间隔SVM的公式推导,软间隔和核函数都是在该基础上进行了一原创 2021-12-01 21:44:06 · 681 阅读 · 1 评论 -
训练集、验证集、测试集的区别和联系以及对统计学习和深度学习的意义
在我们一开始学机器学习的时候,可能大部分人和我状态一样,只知道搭建一个模型,然后读入数据去训练就完事了,后来才知道需要细分训练集、验证集和测试集。一、什么是训练集、验证集和测试集训练集:从原始数据集中分离出来的大量数据,喂给模型用来训练模型。验证集:从原始数据集中分离出来的少量数据,用来给训练集训练结束后的模型进行模型的精度评估。测试集:从原始数据集中分离出来的少量数据,用来给训练集训练结束后的模型进行模型的精度评估。其作用和验证集一致,一般是在深度学习的模型中和验证集区别对待,在统计学习模型中一般原创 2021-08-03 18:16:30 · 6125 阅读 · 0 评论 -
链式法则 理解应用
链式法则是微积分中的求导法则,用于求一个复合函数的导数,是在微积分的求导运算中一种常用的方法。复合函数的导数将是构成复合这有限个函数在相应点的 导数的乘积,就像锁链一样一环套一环,故称链式法则。为啥提链式法则,因为这对深度学习,神经网络的参数求解计算起着绝对的影响作用,之前提过神经网络中基本使用了梯度下降法进行参数优化求解,具体关于神经网络的基本组成单元感知机,神经网络是很多感知机根据复杂的连接关系构成,所以详细可以看看感知机的梯度下降求解参数过程就能知道神经网络中每个感知机的参数求解了。因为感知机的函原创 2021-07-29 21:19:26 · 3336 阅读 · 0 评论 -
梯度下降法+python代码实现解释
梯度下降法在统计学习还是深度学习中都得到了广泛的应用,我们通过构建合理的模型,将模型预测的输出和正确结果进行误差计算,通过优化模型参数使得输出的结果和正确结果的误差最小,我们往往会把误差损失函数构建成一个凸函数,这样使得参数的求解比较单一化,就像一元二次函数只有一个波峰或者波谷,那么求解答案就是寻找这个波峰或者波谷,如果把误差损失函数表达成类似sinx的函数,存在多个波峰波谷,那么求解的答案就会有多个,显然求解的众多个答案并非都是最优解。我们现在来解释梯度下降法。以一个一元二次函数举例。y=-10*x原创 2021-07-28 20:49:25 · 1476 阅读 · 1 评论 -
统计学习实战--SVM支持向量机
SVM支持向量机,算是统计学习模型中综合性能较好的这么一种,是一种非线性模型,其实底层还是线性模型,其思想为构建超平面最大化不同类别数据的间隔,但是在实际问题中很多数据是无法完全准确无误的被这个超平面分隔开,于是我们定义软间隔允许存在一定微小的误差,其次在实际运用中,非线性数据更多,SVM是通过将数据维度映射到更高维的空间中,SVM认为的是任何非线性数据通过隐射到某个高维空间中一定可以变得线性可分。这里简单介绍下使用sklearn中现成的svm框架进行svm做分类和回归问题的演示。SVM在不同任务中需要原创 2021-07-26 15:23:47 · 312 阅读 · 1 评论 -
统计学习实战--决策树模型处理分类和回归问题C4.5,CART,RF(随机森林),XGBoost,LGBM
决策树的相关介绍可以先看看这篇统计学习(三)决策树ID3、C4.5、CART。这里做一下使用sklearn直接导入决策树模型进行分类问题,回归问题的解决演示。关于sklearn中封装的决策树模型的详细参数可以看这篇文章SKlearn中分类决策树的重要参数详解。下面的示例所有数据和代码看这里。如果对你的学习有所帮助欢迎点star,谢谢~一、分类问题这里同样的,我们还是使用手写数字集进行分类问题演示。项目里面的data_process.py文件是运行加载分别生成train_data.npz和tes原创 2021-07-22 21:54:02 · 1497 阅读 · 1 评论 -
统计学习(三)决策树ID3、C4.5、CART
决策树是一种树形分类结构,利用数据集构建一棵高效的分类树,决策树的基本思想很简单,在后面的发展被很多学者进行了优化升级,其衍生物有CART,ID3,C4.5,RF,XGBoost和LightGBM。其中RF、XGBoost和LightGBM都是集成学习模型,其中包含了很多弱学习器(比如单一的一棵决策树),进行模型融合,将每棵决策树表现最优的地方进行融合,得到了一个综合表示最优的模型。不同于朴素贝叶斯模型,朴素贝叶斯模型大多用于解决分类问题,但是决策树既可以用于分类,也可以用于回归问题。本文先介绍决策树的基原创 2021-07-21 21:15:53 · 371 阅读 · 1 评论 -
统计学习实战--朴素贝叶斯分类手写数字图像(多项式模型、伯努利模型、高斯模型)
这次我们使用朴素贝叶斯分类最常用的3个衍生模型:多项式模型、伯努利模型、高斯模型对手写数字图像进行训练分类。我们直接采用sklearn框架,这个框架基本包含了所有机器学习统计学习模型,导入使用很方便简单,也省得我们自己手写模型框架了。关于朴素贝叶斯分类看我之前的博文,统计学习(二)朴素贝叶斯分类,当然博文有什么问题也欢迎及时指出交流,谢谢~完整工程文件点击这里如果对你的学习有所帮助欢迎点star,感谢~一、手写数字数据集MNIST 数据集来自美国国家标准与技术研究所, National Inst原创 2021-07-21 12:08:54 · 1641 阅读 · 1 评论 -
统计学习(二)朴素贝叶斯分类
一、什么是贝叶斯英国数学家贝叶斯提出了贝叶斯公式用来描述两个条件概率之间的关系,抛出公式如下:公式指出了在事件B发生的情况下事件A发生的概率,通过贝叶斯公式转换可以利用右边的P(A)和P(B|A)以及P(B)反推出我们的结果P(A|B),而P(B|A)和P(A)以及P(B)则可以通过我们已知的数据集进行统计计算得到,于是P(A|B)的结果得到。二、为什么叫朴素贝叶斯这里结合上面提的贝叶斯公式,来说一下经典的判断西瓜好坏问题。如下为西瓜好坏以及对应的特征信息。比如我们现在有一个西瓜,每个特征结原创 2021-07-14 21:58:03 · 1542 阅读 · 1 评论 -
统计学习(一)感知机
一、 什么是感知机?感知机是二类分类的线性分类模型,是神经网络和支持向量机的基础,是结合了生物学的一种机器仿生结构,学过生物的同学都记得我们动物是通过神经元传递信息,成千上万的神经元错综组合构成了复杂庞大的神经网络系统,我们让机器模仿这个过程于是构成了人工的神经网络系统Artificial Neural Networks,简称ANN。在这个基础上进行深入研究得到了我们庞大的深度学习知识系统。感知机对我们学习机器学习以及后面的深度学习都起着至关重要的作用,如下为一个感知机的示意图。其中x0到x3都为数原创 2021-07-07 22:31:42 · 553 阅读 · 1 评论