化数为金之Python数据分析
文章平均质量分 86
数据分析,科学计算基于IPython,jupyter-notebook交互式环境下的数据处理与分析,详解pandas与numpy等模块,从入门到实践,领略数据分析工具的美妙与高效,充分利用数据价值!
王小王-123
【私信必回】CSDN博客专家、内邀精英签约作者,CSDN年度优秀创作者,华为云享专家,阿里云专家博主、腾讯云、简书、InfoQ、51CTO等开源社区创作者。左手诗情画意,右手代码人生,欢迎一起探讨技术的诗情画意!
展开
-
罚函数的概念及内罚与外罚的理解与应用
罚函数(Penalty Function)是一种在优化算法中用来处理约束问题的方法。其基本思想是在目标函数中加入一个罚项(penalty term),以此来惩罚违反约束条件的解,从而引导算法寻找满足约束条件的最优解。从而将有约束的优化问题转化为无约束优化问题。在许多优化问题中,目标函数需要满足一些约束条件,如等式约束、不等式约束等。通过引入罚函数,可以构造一个新的无约束的优化问题,其目标函数包括原目标函数和罚函数两部分。原创 2024-06-20 11:15:46 · 769 阅读 · 0 评论 -
【万能代码+案例】详解SPC相关控制图原理及逻辑代码
每一种控制图都有其特定的用途和解读方式。比如,如果控制图显示数据点大多在控制限以内,这表明过程是稳定的。如果数据点超出控制限或呈现非随机模式,这可能表示过程有异常。原创 2023-12-11 13:43:17 · 1918 阅读 · 6 评论 -
基于Python的前程无忧、51job、智联招聘等招聘网站数据获取及数据分析可视化大全【代码+演示】
总的来说,这些分析揭示了网页等级排名和职位等级排名与职位的具体特征之间的关联。特定类型的职位、公司类型、规模和行业可能会影响它们在搜索结果中的可见度和优先级。综合来看,这些分析结果表明,不同搜索关键词下的职位在HR标签、薪资水平、公司类型和公司规模方面存在显著差异。综上所述,薪资发放次数不仅反映了薪资的发放频率,而且与薪资水平密切相关。更频繁的薪资发放(如包含年终奖的情况)通常意味着更高的总体薪资水平。这些分析为理解职位发布的时间模式提供了直观的视角,有助于求职者或招聘专家理解何时是职位市场最活跃的时段。原创 2023-12-09 19:40:59 · 3261 阅读 · 3 评论 -
【科学炼丹指南】机器学习最科学、最有效的参数优化全流程实现方法
机器学习模型都有很多超参数需要调整,比如神经网络的层数、节点数,树模型的最大深度、叶子节点数等。调参的目的是在限定的训练时间和计算资源内,通过调整这些超参数,使模型在验证集上的性能指标达到最优,如最小化预测误差,最大化准确率等。但是由于超参数组合数量极大,模式性能高度非凸,手工调参搜索空间巨大,效率低下。因此会使用一些调参策略与工具自动搜索,如网格搜索、随机搜索、贝叶斯优化等。还会使用技巧缩小搜索空间,降低调参难度,比如启发式初始化。但即便使用自动调参方法,调参过程也非常耗时,需要大量的计算资源。当数据集复原创 2023-12-08 17:23:03 · 1116 阅读 · 0 评论 -
回归模型中多重共线性问题——逐步回归法、方差膨胀因子(VIF)、因子分析【含代码与解释】
特征之间的多重共线性,是指在,自变量之间存在高度的线性相关性,导致回归系数的估计不准确,不稳定,甚至不可信的现象。多重共线性的存在会影响模型的解释能力和预测能力,增加模型的复杂度和不确定性,降低模型的泛化能力。举一个实际的例子,假设我们想用线性回归模型来预测房价,我们选择了以下几个自变量:房屋面积,房屋卧室数,房屋卫生间数,房屋所在地区,房屋建造年份等。因此,我们需要对多重共线性进行检测和处理,以提高模型的可靠性和有效性。原创 2023-12-06 11:55:26 · 4131 阅读 · 0 评论 -
【IQR与MAD】原理,一文带你玩转箱型图含详细解释与代码
IQR方法基于四分位数:使用数据的第一四分位数(25%)和第三四分位数(75%)来计算。对称:相对于中位数对称地考虑上下界。受极端值影响:如果数据中包含极端值,IQR可能会被拉得很大,导致异常值的检测不够敏感。MAD方法基于中位数:只考虑中位数和每个点的偏差。稳健:对异常值不敏感,特别适合于含有离群点的数据。非对称:只考虑偏离中位数的绝对偏差,因此不是关于中位数对称的。优点比较:对于含有离群点的数据集:MAD通常更优,因为它对异常值的敏感度低。原创 2023-11-28 16:48:08 · 1613 阅读 · 0 评论 -
机器学习之过拟合与欠拟合,K折交叉验证详解【含代码】
K折交叉验证不仅仅适用于多参数的网格搜索,也适用于单个参数的调优。其目的是为了提供对模型在未见数据上性能的一个更稳健的估计,从而帮助我们选择更好的参数。原创 2023-10-13 16:12:25 · 1747 阅读 · 2 评论 -
数据挖掘与统计分析——T检验,正态性检验和一致性检验——代码复现
T检验是一种参数检验,它的前提是数据近似于正态分布。它通过计算T统计量,并将其与特定分布(T分布)进行比较,来判断两个样本组的均值之间是否存在显著差异。原创 2023-10-11 17:42:58 · 2856 阅读 · 0 评论 -
【多思路附源码持续更新】2023年华为杯(中国研究生数学建模)竞赛C题
加上研究生的论文表达不到位,评审专家的视角不同,同一份作品的几位专家给出的成绩会有较大的差异(极差)。第二阶段评审仍然存在部分极差大的作品,因为是终审,误差可能影响获奖等级,因此对部分极差大的作品,需要复议调整极差(附件的数据中有记录,复议分就是该专家最后给的标准分,用来替换原来的标准分)。但在大规模创新类竞赛评审中,通常任意两位专家评审的作品只有小部分是共同的,绝大多数作品是不同的(见问题一),而且每位专家只看到作品集合的很小部分,因此标准分评审方案的假设可能不成立,需要探索新的评审方案。原创 2023-09-22 08:37:30 · 5273 阅读 · 0 评论 -
【案例+操作+演示】20分钟带你入门Pandas,掌握数据分析科学模块,附带上百个案例练习题【含答案】
这个一篇针对pandas新手的简短入门,想要了解更多复杂的内容,参阅Cookbook。原创 2023-09-14 16:23:01 · 222 阅读 · 0 评论 -
适合初学者快速入门的Numpy实战全集
NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。原创 2023-09-15 08:00:00 · 190 阅读 · 0 评论 -
基于Python的海量豆瓣电影、数据获取、数据预处理、数据分析、可视化、大屏设计项目(含数据库)
有需要本项目的代码或文档以及全部资源,或者部署调试可以私信博主!!!!!!!!!!本文基于Python的网络爬虫手段对豆瓣电影网站进行数据的抓取,通过合理的分析豆瓣网站的网页结构,并设计出规则来获取电影数据的JSON数据包,采用正态分布的延时措施对数据进行大量的获取。并利用Python的Pandas数据分析库,对获取的数据进行预处理,将非结构化的数据清洗为干净的数据,便于后续的大数据分析,分别对数据进行空值检测与处理,字符串的约束,字段值的扩充,以及数据的清洗。原创 2023-06-27 15:05:11 · 17449 阅读 · 24 评论 -
Kyligence Zen 产品体验——超好用指标平台一站式体验教程
在数字化建设初期,许多企业主要采用基于商业智能(BI)报表的方式来处理数据,旨在解放业务人员,使其摆脱繁琐的数据处理工作。然而,随着报表数量的急剧增长,数据变得分散且长期缺乏有效管理,形成了所谓的数据孤岛。由于存在数据口径不一致、数据信任缺失、运维成本过高以及数据交付周期长等问题,企业开始寻求从报表模式向指标模式的转变。领先的企业在转型过程中选择建立指标体系并构建指标平台,为其他企业提供了一个可供参考的模式。原创 2023-05-16 16:42:06 · 1042 阅读 · 10 评论 -
一文带你斩杀Python之Numpy☀️Pandas全部操作【全网最详细】❗❗❗
Numpy简介Numpy专门针对ndarray的操作和运算进行了设计,所以数组的存储效率和输入输出性能远优于Python中的嵌套列表,数组越大,Numpy的优势就越明显。Numpy系统是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix))。据说NumPy将Python相当于变成一种免费的更强大的MATLAB系统。...原创 2021-09-08 19:43:57 · 19503 阅读 · 55 评论 -
pandas基础 Series与Dataframe
Seriesseries是一种一维的数组型对象,它包含了一个值序列和一个数据标签import pandas as pd import numpy as np创建第一个seriess1=pd.Series([4,7,-5,3])#创建一个series,索引为默认值print(s1)通过简单的一个传入数组,就可以形成一个一维的数据表格获取序列的值和标签序列,应该如何去做?我们在想这样一个问题,这个序列标签是默认的0....,如果我们需要自己去定义那应该怎么办...原创 2021-02-15 18:07:05 · 1289 阅读 · 1 评论 -
numpy之线性代数与随机漫步
线性代数介绍线性代数,矩阵计算,优化与内存;比如矩阵乘法,分解,行列式等数学知识,是所有数组类库的重要组成部分。和MATLAB等其他语言相比,numpy的线性代数中有所不同的是矩阵相乘不是点积运算而是逐个元素计算,因此在numpy里面都有一个特定的函数来计算,它就是dot,语法如下numpy之线性代数函数 diag 将一个方阵的对角(或非对角)元素作为一维数组返回,或者将一个一维数转换为一个方阵,并且在非对角线上有零点 dot 矩阵点乘 trace 计算对角.原创 2021-02-15 18:06:24 · 1223 阅读 · 0 评论 -
Python numpy对二进制文件输入输出
numpy可以在硬盘中将数据以文本或二进制文件的形式进行存入硬盘或由硬盘载入。在本篇文章里面我们需要简单的讨论内建二进制格式,而对于其他表格pandas才是“天选之子”np.save和np.load是高效存取硬盘数据的两大工具函数。数组在默认情况下是以压缩的格式进行储存的,后缀名是.npy上面就介绍了数据的存储和数据的加载方法np.savez:用于未压缩文件中保存多个数据...原创 2021-02-15 18:05:39 · 1340 阅读 · 1 评论 -
Numpy 面向数组编程常见操作
如何利用numpy达到数组编程的效果来实现数据分析的目的?使用Numpy数组可以使你利用简单的数组表达式完成多项数据操作任务,而不需要编写大量的循环,这个极大的帮助了我们高效的解决问题。我们都知道向量化的数组操作比纯Python的等价实现在速度这一方面快很多,至于多少(一到两个数量级)甚至更多,生活需要慢节奏,但是计算就不可以了,掌握高效的计算模型,可以让数据分析如虎添翼!简单例子我们生成从-3.14--3.14,按照0.01的间隔生成,最后计算表达式X^2+Y^2的值...原创 2021-02-15 18:05:02 · 742 阅读 · 0 评论 -
Python之Numpy 常用函数归纳总结
目录通用函数常见的简单数组函数一元函数二元函数每文一诗(语)通用函数常见的简单数组函数先看看代码操作mport numpy as np# # 产生一个数组arr=np.arange(15)arr>>array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])# 对里面的元素进行开根号处理np.sqrt(arr)>>array([0.原创 2021-02-09 14:12:50 · 1422 阅读 · 5 评论 -
Numpy ndarray 多维数组对象
Numpy基础介绍目前它是Python数值计算中最为重要的基础包,将numpy的数组的对象作为数据交互的通用语,一般我们要充分理解好矩阵计算的原理,这需要你要有一些线性代数的基础知识。在对数据处理、清洗、构造子集、过滤、变换以及其他计算的过程快速的进行向量化计算,后续也会介绍R语言,因为R语言就是一个原生态基于向量化计算的编程语言。Numpy的核心特征之一就是一个N维数组对象——ndarray,这是一个快速灵活的大型数据集容器,可以进行科学数值计算。代码操作import numpy a原创 2021-02-09 11:27:41 · 1661 阅读 · 8 评论 -
Python数据分析之搭桥牵线
曾经有一个老师这样问过他的学生,21世纪什么最值钱?刹那间,众说纷纭,有人说知识最值钱,也有人说颜值最值钱,更有甚者说“生命诚可贵,爱情价更高”,老师让每一个人说出了自己心中的答案,坐在一角的同学说了这样一句话,让这个答案似乎完美的回应了这个问题。“你最需要的东西才是最有价值的”原创 2021-02-07 14:53:57 · 1099 阅读 · 0 评论