数据分析与挖掘
学习python入门数据分析与挖掘
Mr.kun
这个作者很懒,什么都没留下…
展开
-
python数据可视化
文章目录数据可视化matplotlib基本元素画图的美感画图的有效表现数据可视化首先我们需要明确的是,数据可视化的目的是让我们更直观的感受数据,挖掘数据的信息。而不是为了炫酷。matplotlib这是一个巨无霸,但是我们可以拆分成以下几个部分去理解。基本的元素画图的美感画图的有效表现基本元素首先我门需要对matplotlib有一个框架性的理解。需要知道里面都有哪些元素。比如总体来说,matplotlib包含两类元素:基础 (primitives) 类:线 (line), 点 (ma原创 2020-08-25 23:14:58 · 459 阅读 · 0 评论 -
数据分析入门(三)数据重构
文章目录数据重构合并与连接聚合groupby()用法配合使用的函数实战发现数据重构前面已经知道了数据的清洗,这一部分十分重要.数据分析入门(二)数据清洗只有数据变得相对干净,我们之后对数据的分析才可以更有力。这一次我们来进行数据重构,数据重构依旧属于数据理解(准备)的范围。包括对数据进行合并连接,聚合等等。合并与连接关于如果用pandas进行数据的合并与连接,在之前的一篇的博客中已有说明。python之pandas入门在这篇文章中已经说明了pandas的concat方法和merge方法的使用原创 2020-08-23 23:53:53 · 2648 阅读 · 0 评论 -
python中的冒号箭头是啥?
文章目录缘起: ->缘起最近看到了如下代码看到函数括号里面的冒号以及括号外面的箭头->,直接一脸懵逼。因为未见过python的类似写法。后来经查阅相关的资料得到如下的解释。: ->因为python是一种动态类型的语言,在定义变量的时候并不需要指定它的类型。而我们在C++,java中函数的形参都会指定类型,这样如果实参的类型与形参的类型不匹配会报错。而在python中则不会有类似的错误。为了方便程序员阅读以及更好的使用函数,函数参数中的冒号是参数的类型建议符,表示希望传入的实参的原创 2020-08-23 22:25:11 · 2233 阅读 · 0 评论 -
Data mining(二) 时间序列规则法预测
文章目录时间序列规则法介绍基于周期因子进行时间序列预测实战预测时间序列规则法介绍首先时间序列规则的核心是数据的周期性,因为现实生活中很多的数据都具有周期性,比如支付数据,客流量数据等,这些数据的周期可能是一周也可能是一个月或者是其他。时间序列规则通过挖掘数据的周期特性来对未来一个周期内的数据做出预测。具体的介绍推荐这篇文章:时间序列规则法快速入门基于周期因子进行时间序列预测如何挖掘数据的周期特性来对未来一个周期进行预测,可以采用周期因子的方法。其核心有两点,一个是周期因子,一个是base。周期因原创 2020-08-22 17:21:32 · 1145 阅读 · 0 评论 -
数据分析入门(二)数据清洗
文章目录缺失值观察与处理缺失值观察缺失值处理重复值观察与处理重复值观察重复值处理特征观察与处理数值类型的分箱操作文本类型数据的处理拓展我们得到的数据通常并不是一开始就是我们想要的,这时候我们需要对数据进行清洗,以期望最后以我们所要的方式呈现出来,并且便于后面的分析与建模。上一篇:数据分析入门一缺失值观察与处理我们得到的数据中往往可能会有一些缺失值,这个缺失值如果不进行处理的话,会对我们后面的分析造成很大影响。缺失值观察一般我们可以用两种方法对缺失值进行观察,如下:缺失值处理对于缺失值我们原创 2020-08-21 17:47:56 · 1266 阅读 · 0 评论 -
Data mining-资金流入流出预测(一)
文章目录介绍赛题简介数据准备与探索时间序列图数据分布可视化箱型图小提琴图变量间的相关性与独立性分析相关性分析变量的独立性检验代码实战时间序列分析介绍此数据挖掘项目基于阿里云天池赛题:赛题链接参考github项目进行学习:github项目链接赛题简介具体的赛题介绍可去官网查看,这里只简单总结一下。官方提供了2013年7月~2014年8月28041位用户余额宝的申购赎回信息,我们需要通过数据挖掘的手段从这些数据中挖掘出有效信息,并预测2014年9月的每一天申购和赎回的总量。理解了大概是个什么任务之后原创 2020-08-20 20:15:16 · 1201 阅读 · 0 评论 -
数据分析入门(一)数据加载及初步分析
文章目录何为数据分析numpy和pandas库实战何为数据分析时常看到一些资料资讯介绍说,我们身处一个“大数据时代”。每天围绕在我们周围的有大量的纷扰的数据。好的,不多bb。直接进入主题,一个完整的数据分析一般包含如下几个过程:1. 数据加载2. 数据清洗3. 数据重构4. 数据可视化5. 数据建模及模型评估首先我们来看一下数据加载以及尝试着进行简单的分析。numpy和pandas库我选择是当下最热门的python进行入门学习,那么就不得不提到python中的两个总要的模块,numpy和原创 2020-08-18 18:01:21 · 513 阅读 · 0 评论 -
python之pandas入门(详细)
文章目录何为pandaspandas入门何为pandaspandas入门原创 2020-08-17 22:34:17 · 2449 阅读 · 3 评论 -
python之numpy入门(详细)
文章目录何为numpynumpy入门初始化操作广播机制(与列表的区别)索引选取与切片数据转换与规整逻辑条件下的筛选通用序列函数数据本地序列化操作何为numpynumpy是python里面专门用于处理高维数据计算的包,十分的方便!具体来说,numpy可以说是数据分析领域的基础数组。底层实现中使用了C语言和Fortran语言的机制分配内存。可以理解它的输出是一个非常大且连续的并由同类型的数据组成的内存区域。作用:可以构造一个比普通列表大的多的数组,并且可以很灵活的对其中所有的元素进行并行化操作。我个人原创 2020-08-17 19:13:59 · 1123 阅读 · 0 评论