python
文章平均质量分 86
不一样的邓先生
你只需要一步一步踏踏实实的行走就可以,每个人的人生都有自己的通行道!!努力、踏实、学会承担责任
展开
-
支持向量机:抽象难懂?看这里就明白了!
今天给大家分享的知识是关于支持向量机的内容,支持向量机算法是目前学习到的机器学习算法中最抽象、最难以理解的内容,不过支持向量机算法在实际使用过程中还是比较常见,无论是在医学研究还是经济研究中都能看到身影,所有,这一块内容还是非常重要的,而且很多面试中对这一部分的基础知识还是会考察,所以大家还是需要掌握理解。支持向量机(support vector machines,SVM)是一种二类分类模型,但是和一般的二分类模型例如逻辑回归模型在分类结果上还是有区别,支持向量机的二分类是正类和负类的划分。原创 2024-05-07 14:58:06 · 581 阅读 · 0 评论 -
探秘双重机器学习:因果推断新视角,揭开模型参数偏误之谜!
如果是这么简单就好了,第二个问题出现了,既然这么好,那么为什么机器学习出现之后,传统经济模型在因果推断领域生生不息,大家可以去了解该方面的文章,因果推断还是传统模型居多,说明什么?第二个方面的话,就想文章中说到的机器学习来研究经济问题是存在偏误的,因果推断注重解释,因此在有限数据的情况下,模型的偏误越小越好,但是机器学习追求泛化能力,因此会要求牺牲训练数据的准确性,来实现泛化能力,如果将机器学习直接使用到参数估计,会参数较大的偏差,并且随着数据量的增大,这个偏差会不断增大的,后续会有公式推导。原创 2024-04-11 15:54:44 · 1383 阅读 · 0 评论 -
处理不平衡数据问题的利器!分位数随机森林算法解密
第一、我们首先按照规则生成随机森林中的树,假设有T课,树的生成和随机森林其实规则不太一样,在分位数随机森林中,我们首先计算出指定分位数对应的值,遍历所有特征以及特征的值,选择一个特征及值作为分裂点,标准参考随机森林(信息增益、残差平方和最小),将数据中小于分位数的数据划分到左边,大于等于分到右边,按照这样的过程生成树,知道满足某种条件,参考随机森林。”回复关键词获得,同时与分位数随机森林的研究论文我也将放到公众号,大家也可以回复关键词获得,不用于盈利,只做知识的传播者!所对应的变量最小值称为该分布的。原创 2024-03-03 23:19:24 · 483 阅读 · 0 评论 -
贝叶斯定理与条件独立假设:朴素贝叶斯分类方法深度解读
今天给大家分享的是朴素贝叶斯算法,这个算法在实际使用中不是很多,因为现在很多算法已经发展的很好,性能上也比朴素贝叶斯算法的好很多,因此在实际中我们其实看到在实际应用中朴素贝叶斯算法的使用已经比较少,即使出现,最终的效果也是不及其他算法的,但是作为简单、基础的算法之一,我们掌握该算法的原理还是非常有必要的,同时在实际论文研究中也经常会使用贝叶斯算法的改进版,所以大家可以多了解了解。大家也可以根据贝叶斯定理的前验分布和条件概率分布求出某个数据特征的后验概率,从而可以得出数据的类别,大家可以指定。原创 2024-03-02 00:12:10 · 919 阅读 · 0 评论 -
GBDT——梯度提升树算法详解
和梯度提升模型一样,我们首先初始化一个模型,该模型的预测值是所有真实值的均值,然后,我们开始M轮模型的迭代更新,在每一轮子模型构建中,我们采用决策树模型来进行构建,通过决策树模型来不断拟合上一轮中真实值和预测值之间的“残差”,通过决策树子模型,我们可以利用数据的特征将数据划分到不同的叶子结点,再分别计算不同叶子结点中使得损失函数最小化的步长,计算完之后,新的模型就变成了原模型基础上加上一个使得残差不断减小的决策树子模型的结合,我们接下来将会使用实际案例进行展示。代表步长,我们怎么求得这个步长呢?原创 2024-02-25 13:09:14 · 894 阅读 · 0 评论 -
随机森林——基于Kaggle数据的销售额预测
将数据划分为训练集、测试集数据之后,我们使用了训练集数据进行模型训练和调优,当然调优是采用交叉验证将训练集数据划分一部分为验证集数据进行的,在训练完模型之后,我们还有更重要的一步就是使用外部数据集也就是测试集数据评估模型性能,对于回归模型性能的评估常用的指标有均方误差(MSE)、均方根误差(RMSE)、绝对误差以及。我们采用分位数距离的1.5倍为浮动区间,对数据进行选择,并对选择之后的数据观察分布,经过处理之后,数据分布逐渐成正态分布,我们就以周销售额数据分布为例进行展示,原创 2024-02-23 19:31:44 · 1143 阅读 · 0 评论 -
探秘Cart算法:决策树新视角,数据预测行云流水!
理论上的答案是不会。大家可能比较好奇为什么要减去最小的g(t),这是因为当模型完全拟合训练数据的时候,模型的预测准确率非常高,同时模型的复杂也比较高,但是模型的在未知数据上的性能不一定很好,因此,为了保证我们模型的精准率,我们只能选择选择减去最小损失减少程度的决策树,如果损失减少程度比较大的话,模型的性能可能得不到保障,因此我们只能从最小损失减少程度见起。但是实际过程中,仍然会出现过拟合的情况,因此在训练过程中我们还是会采取前剪枝相关的参数设置与交叉验证相结合,对其中的树模型进行修剪,降低过拟合。原创 2024-02-21 23:03:12 · 668 阅读 · 0 评论 -
聚类分析——基于Kaggle数据集实战
聚类算法在实际中的应用主要侧重在以下几个方面:一、目标划分、特征画像,将目标数据按照特征的相似性,将目标划分为不同的类别,然后再对不同的类别进行特征描述,最后做出与研究目标相关的建议,这一块的话在论文和竞赛中使用比较常见,尤其是竞赛中做客户的特征画像,分析不同群体特征,从而给出针对性的建议;本次使用的聚类算法是kmeans++算法和层次聚类两种聚类算法进行演示,其中K-means++是对传统Kmenas算法的改进,旨在改善初始质心的选择,以提高算法的性能和结果的稳定性。原创 2024-02-19 14:20:36 · 1433 阅读 · 0 评论 -
Lasso回归——基于Kaggle数据集实战操作
特征选择方面的应用在金融、医学等领域应用比较广泛,较常用的步骤是先通过Lasso回归选择出对目标变量影响最大的特征,然后再利用这些特征构建模型,在一定程度上降低了模型的过拟合,提升了模型的泛化能力同时提升了模型的可解释性。在机器学习中,偏差是指模型在不同样本集上真实值和预测值之间的差异,简单地说,偏差衡量了模型对真实关系的拟合能力,如果偏差较低,模型能够相对准确地拟合数据中的关系,在这种情况下,模型可能在训练集上表现得很好,但是在测试集上的性能还需要检验。模型使用的数据来自于Kaggle网站中的。原创 2024-02-16 16:59:15 · 1054 阅读 · 0 评论 -
pandas中数据切片datetime索引数据出现‘Value based partial slicing on non-monotonic DatetimeIndexes with non-exis
datetime类型数据处理的实践中出现了'Value based partial slicing on non-monotonic DatetimeIndexes with non-existing keys is not allowed.'异常该如何处理原创 2023-10-03 21:28:40 · 1670 阅读 · 1 评论