![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 80
talle2021
这个作者很懒,什么都没留下…
展开
-
R语言课程论文-飞机失事数据可视化分析
当地时间,24小时制,格式为hh:mm。结构号或序列号/线号或机身号。事故发生日期(年-月-日)事故前飞行的全部或部分航线。由飞机操作员指定的航班号。国际民航组织对飞机的登记。航空公司或飞机的运营商。出课程论文-多元统计分析论文、R语言论文、stata计量经济学课程论文(论文+源代码+数据集)原创 2024-02-18 11:52:59 · 662 阅读 · 0 评论 -
多元统计分析课程论文-聚类效果评价
本文主要探讨了特征合成降维和主成分分析法(PCA)降维在K-Means聚类中的效果评价。通过特征合成和PCA方法进行降维处理,再用K-Means聚类分析进行聚类,并使用轮廓系数对两种降维方法的数据集聚类效果进行评价。结果显示,特征合成降维的数据集的聚类效果优于PCA降维的数据集。尽管PCA降维保留了95.8%的原始信息,但其聚类效果较差,可能是由于数据失去原有结构等原因。低价出课程论文-多元统计分析论文、R语言论文、stata实证分析论文(论文+源代码+数据集)原创 2024-02-18 10:49:32 · 1196 阅读 · 0 评论 -
【pandas技巧】group by+agg+transform函数
pandas常用技巧(agg函数+transform函数),agg函数的使用的方法是:agg(新列名=("原列名", "统计函数"))原创 2023-10-29 20:16:20 · 246 阅读 · 0 评论 -
Python异常值检测——案例分析
从上表可看出,总病例数与总死亡数之间的相关性非常高(0.93),而每百万人口总病例数与每百万人口总死亡数之间的相关性则较小(0.59),人均GDP与每百万人口总病例数之间也存在较强的相关关系(0.65)。在使用线性回归中,我们使用了每百万人口病例数作为因变量,而在没有标签数据的情况下,即没有目标变量或因变量时,无监督的机器学习工具也可以识别与其它观察结果不同的观察结果。使用线性回归的优势在于他们对于变量的分布依赖性较小,并且能比单变量或双变量分析揭示更多的东西,识别出在其它方面不显著的异常值。原创 2023-07-14 22:38:20 · 1285 阅读 · 0 评论 -
python-如何选择分类分析算法
(1)使用更多的数据:导致过拟合的根本原因是训练集和测试集的特征存在较大差异,导致原本完美拟合的模型无法对新数据集产生良好的效果;过拟合通俗点讲就是在做分类训练时面模型由于过度学习了训练集的特征,使得训练集的准确率非常高,测试集的准确率却很差。:混淆矩阵是作分类算法效果评估的基本方法,它是监督式学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。(2)降维:通过维度选择或转换的方式,降低参与分类模型的维度数量,能有效防止原有数据集中的“噪音”,对模型的影响,从而达到避免过拟合的目的。原创 2023-04-02 18:54:33 · 480 阅读 · 0 评论 -
python-如何选择回归分析算法
cross_val_score交叉检验后返回的得分默认调用算法模型的score方法做得分估计,因此使用不同的算法模型其得分计算方法可能有差异,具体取决于模型本身的score方法的计算逻辑。另外,各主成分间相互正交,能解决多元线性回归中的共线性问题。:判定系数,其含义也就是解释回归模型的方差得分,取值范围为[0,1],越接近1说明自变量越能解释因变量的方差变化,值越小说明效果越差。(7)如果注重模型的可解释性,那么容易理解的线性回归,指数回归,对数回归,二项式或多项式回归要比核回归、支持向量机回归等更适合。原创 2023-04-01 00:51:24 · 644 阅读 · 3 评论 -
2022第五届“泰迪杯”数据分析技能赛-B题-银行客户忠诚度分析(下)
2022第五届泰迪杯数据分析技能赛B题-银行客户忠诚度分析 数据分析比赛原创 2022-11-19 20:01:40 · 6362 阅读 · 11 评论 -
2022第五届“泰迪杯”数据分析技能赛-B题-银行客户忠诚度分析(上)
目录任务1 数据探索与清洗任务1.1 数据探索与预处理任务1.2 特征编码任务2 产品营销数据可视化分析任务2.1 任务2.2任务2.3任务2.4 任务3 客户流失因素可视化分析任务3.1任务3.2任务3.3任务3.4 分别对短期客户产品购买数据“short-customer-data.csv”(简称短期数据)和长期客户资源信息数据的训练集“long-customer-train.csv”(简称长期数据)进行数据探索与清洗。 (1) 探索短期数据各指标数据的缺失值和“user_id”列重复值原创 2022-11-18 14:03:17 · 10720 阅读 · 10 评论 -
python数据离散化
离散化,就是把无限空间中有限的个体映射到有限的空间中。数据离散的操作大多是针对连续数据进行的,处理之后的数据值域分布将从连续属性变为离散属性。离散化通常针对连续数据进行处理,但是在很多情况下也可以针对已经是离散化的数据进行处理,这种场景一般是离散数据本身的划分过于复杂、琐碎甚至不符合业务逻辑,需要进一步做数据聚合或重新划分。原创 2022-10-18 22:22:36 · 4129 阅读 · 0 评论 -
Python数据标准化
(1)如果要做中心化处理,并且对数据分布有正态需求,则使用Z-Score方法。(2)如果要进行0-1标准化或要指定标准化后的数据分布范围,Max-Min标准化或MaxAbs标准化是比较好的选择。(3)如果要对稀疏数据进行处理,Max-Min标准化或MaxAbs标准化仍是理想方法。(4)如果要最大限度保留数据集中的异常,则使用RobustScaler方法。原创 2022-10-08 20:40:20 · 18472 阅读 · 1 评论 -
特征选择-嵌入法、包装法 —— from 菜菜机器学习
包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法类似,不同的是,包装法并不是自己输入某个评估指标或统计量的阈值。包装法在初始特征平台上训练评估器,并且通过coef_ 属性或feature_importances_属性获得每个特征的重要性。然后从当前的一组特征中修剪掉最不重要的特征,在修剪的集合上递归重复该过程,直到最终到达所需数量的要选择的特征。原创 2022-10-01 23:54:16 · 1324 阅读 · 0 评论 -
Python数据抽样
分层抽样是先将所有个体样本按照某种特征划分为几个类别,然后从每个类别中使用随机抽样或等距抽样的方法选择个体组成样本。这种方法跟之前3种方法的差异点在于该方法抽取的是小群体集,不是每个数据个体本身。等距抽样是先将总体中的每个个体按顺序编号,然后计算出抽样间隔,再按照固定抽样间隔抽取个体。该方法适用于个体分布均匀或呈现明显的均匀分布规律,无明显趋势或周期性的规律的数据。简单随机抽样是按等概率原则直接从总体数据中抽取n个样本,这种抽样的基本前提是所有样本个体都是等概率分布的,该方法适用于个体分布均匀的场景。原创 2022-10-01 12:50:12 · 1833 阅读 · 0 评论 -
特征选择过滤法-方差过滤、F检验、互信息法
在sklearn中,决策树和随机森林都是随机选择特征进行分枝,但决策树在建模过程中随 机抽取的特征数目却远远超过随机森林当中每棵树随机抽取的特征数目(比如对于这个 780维的数据,随机森林每棵树只会抽取10-20个特征,而决策树可能会抽取200~400个 特征),因此,过滤法对随机森林无用,却对决策树有用。所以无论接下来的特征工程要做什么,通过这条曲线,可以观察到,随着k值的不断增加,模型的表现不断上升,这说明,k越大越好,数据中所有的特征都是与特征相关的。原创 2022-09-27 21:20:22 · 5323 阅读 · 0 评论 -
Python标志方法处理分类和数据和顺序数据
运用标志方法处理分类和顺序数据:分类数据和顺序数据要参与模型计算,通常都会转化为数值型数据。将非数值型数据转换位数值型数据的最佳方法是:将所有分类或顺序变量的值域从一列多值的形态转换为多列只包含真值的形态,其中的真值可通过True、False或0、1的方式来表示,这种标志转换的方法有时候也称为真值转换。采用sklearn.preprocessing中的OneHotEncoder方法进行标志转换。其中获得ID列和转换后的列做拼接,便于数据格式的还原和对照;toarray方法输出为矩阵。原创 2022-09-26 00:29:30 · 640 阅读 · 0 评论 -
异常值处理、重复值处理
有关异常值的确定有很多种规则和方法,这里使用Z标准化得到的阈值作为判断标准:当标准化后的得分超过阈值则为异常。代码用 jupyter notebook跑的,分割线线上为代码,分割线下为运行结果阈值的设定是确定异常与否的关键,通常当阈值大于2时,已经是相对异常的表现值。原创 2022-09-25 16:53:05 · 3169 阅读 · 0 评论 -
数据预处理之缺失值处理(sklearn、pandas)
数据预处理之缺失值处理(sklearn、pandas)原创 2022-09-22 11:53:16 · 891 阅读 · 0 评论