数据分析
zyc53
随遇随记。
展开
-
数据分析入门----------适合入门
写在前面的话:哈喽,你好。接触电脑后,光看‘官方文字’,觉得有点陌生,自己找了画图软件,自己‘写字’来帮助自己理解。接下来的方式,随写随补充,采用思维导图、文字、手稿的形式。这场疫情,愿你我都能修炼好铠甲,待阳光灿烂之时,振翅翱翔。大纲:...原创 2020-02-24 23:40:23 · 176 阅读 · 0 评论 -
pandas中的绘图函数---Seaborn/ seaborn.load_dataset/ matplotlib.pyplot/ matplotlib.pyplot.plot
1.SeabornSeaborn是基于matplotlib的Python数据可视化库。它提供了一个高级界面,用于绘制引人入胜且内容丰富的统计图形。更多运用了解Seaborn官方介绍2.seaborn.load_datasetseaborn.load_dataset(name, cache=True, data_home=None, **kws)从在线库中获取数据集(需要联网)。参数说明:...原创 2020-01-13 21:56:23 · 779 阅读 · 0 评论 -
pandas数据处理---聚合操作[describe]排序[take]数据分类聚合[Series.groupby]高级数据聚合[DataFrame.groupby]
4.使用聚合操作对数据异常值检测和过滤4.1:describeA.使用函数:DataFrame.describe(self,percentiles = None,include = None,exclude = None )B.参数解析:C.实战:C1.官方例子C2.E.小节练习5.排序A.使用函数:DataFrame.take(self,index,axis = 0,is_...原创 2020-01-10 20:23:21 · 1161 阅读 · 0 评论 -
pandas数据处理--2映射replace函数、map函数
2.映射2.1映射含义说明:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定2.2相关操作函数:2.2.1 replace()函数:替换元素(DataFrame\Series的函数)A.函数:df.replace(to_replace=None,value=None,inplace=False,limit=None,regex=False,method=‘pad’)...原创 2020-01-10 20:20:03 · 1984 阅读 · 0 评论 -
pandas数据处理---1查看、删除重复元素 df.duplicated(subset=None, keep='first'/'last'/False)
1.查看标记重复元素**1.1使用函数:**duplicated():df.duplicated(subset=None, keep=‘first’/‘last’/False)1.2参数解析:A.subset:对应值是列名,表示只考虑写的列,将列对应值相同的行进行去重,默认值None,即考虑所有列;B.keep='first/last/False’:first:默认值,除了第一次出现外,其...原创 2020-01-10 20:15:49 · 11592 阅读 · 4 评论 -
pandas数据处理---交叉表和透视表
目录:1.查看重复元素 df.duplicated(subset=None, keep=‘first’/‘last’/False)2.删除重复元素 df.drop_duplicates(subset=None, keep=‘first’, inplace=False)3.映射4.使用聚合操作对数据异常值检测和过滤5.排序6.数据分类/组处理【重点】7.高级数据聚合写在前面:制造数据...原创 2020-01-10 09:08:35 · 299 阅读 · 0 评论 -
pandas空值(缺省/失值)处理方式---数据清洗
本文目录:1.None和np.nan的区别?2.pandas空值介绍;2.1excel表格制造数据;2.2读取数据;2.3缺失值介绍、产生原因、分类、属性、形式:3.人为制造空值4.空值操作1.None和np.nan的区别?2.pandas空值的操作:涉及函数:any、all;isnull()、notnull()、dropna()、fillna()、isna()https:/...原创 2020-01-08 17:00:11 · 1773 阅读 · 0 评论 -
Pandas DataFrame查询访问、索引、切片---初学基础
索引1.根据索引取值*# BOOL列表访问默认访问的是行,而不是列2.行索引2.1 通过标签索引行数据loc对列进行索引 - 通过类似字典的方式- 通过属性的方式,loc方法通过标签或者bool数组选取一些行和列,可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。2.2 iloc...原创 2020-01-07 22:24:39 · 2260 阅读 · 0 评论 -
Pandas DataFrame二维数组说明、DataFrame的创建、从文件中读取DataFrame对象知识---初学基础
1.DataFrame说明DataFrame是一个【表格型】的数据结构,可以看做是【由Series组成的字典】(共用同一个索引)。DataFrame由按一定顺序排列的多列数据组成,设计初衷是将Series的使用场景从一维拓展到多维,DataFrame既有行索引,也有列索引,DataFrame属性:values、columns、index、shape。行索引:index列索引:columns...原创 2020-01-07 21:42:01 · 6592 阅读 · 0 评论 -
pandas数组(pandasSeries)的运算及案例---初学基础
Series的运算1.索引对齐,与索引的顺序无关;名字相同,算对齐;######索引不对齐,用NaN填充######2.索引如果有确实,会补全,并且以np.nan来填充;如果不想以np.nan来填充,可以用full_value来设置填充值注意:要想保留所有的index,则需要使用:add() 加;sub() 减; mul() 乘; div() 除;add()sub()mul(...原创 2020-01-07 20:51:13 · 1213 阅读 · 0 评论 -
Series的10大基本概念及代码案例-----初学基础
1.可以把Series看成一个定长的有序字典,向Series增加一行:相当于给字典增加一组键值对。2.可以通过shape,size,index,values等得到series的属性shape:形状size:元素的个数index:获取index的值,返回的是对象values:获取value的值*numpy tolist()的用法3.可以使用head(),tail()分别查看前n个...原创 2020-01-07 20:08:02 · 1296 阅读 · 0 评论 -
Series的切片知识点案例解析---初学基础
推荐使用显示切片、隐式切片,除了标签访问全闭区间之外,都是左闭右开编者寄:那个,截图存导图里,再放这里好像图片不太清晰了,后期做改进;文章面向小白也可能会被行业前辈看到,为避免知识误导,若文章有错误,还请过路朋友指出,末学好及时更正,评论区见~整理于学习资料,比心图片来源网络;...原创 2020-01-07 18:45:42 · 597 阅读 · 0 评论 -
Series的访问知识点及案例解析---初学基础
访问:1.支持数组、字典的访问形式2.支持numpy数组的访问方式3.BOOL数组的访问方式4.字典的访问形式推荐使用如下访问方式:5.显示索引访问loc6.隐式索引iloc**7.注意:使用列表访问Series,得到的是一个Series对象;同理:使用列表访问numpy数组,得到的也是一个numpy数组使用索引访问,返回元素编者寄:那个,截图存导图里,再放这里好像图...原创 2020-01-07 13:58:10 · 673 阅读 · 0 评论 -
Series的创建知识点搭配案例解析---初学基础
Series是一种类字典的一维数组的对象,由下面两个部分组成:values:一组数据(ndarray类型)index:相关的数据索引标签1.Series的创建1.由列表或numpy数组创建a列表创建b.numpy创建2.由字典创建a. 字典的键自动成为显式索引b. 字典是无序的,而Series是有序的,所以字典会按照键进行排序编者寄:啊哈哈,截图存导图里,再放这里...原创 2020-01-07 13:46:06 · 575 阅读 · 0 评论 -
ndarray的属性解析及代码案例----基础
1.numpy介绍:numpy 是使用python进行数据分析不可或缺的第三方库,非常多的科学计算工具都是基于 numpy 进行开发的。NumPy数组的维数称为秩(rank),一维数组的秩为1,二维数组的秩为2,以此类推。在NumPy中,每一个线性的数组称为是一个轴(axes),秩其实是描述轴的数量。比如说,二维数组相当于是一个一维数组,而这个一维数组中每个元素又是一个一维数组。所以这个一维数组...原创 2020-01-07 09:12:47 · 475 阅读 · 0 评论 -
使用numpy的routines函数构造矩阵几种方式细致解析---初学
import numpy as np1.numpy.ones(shape, dtype=None, order=‘C’)用1来填充一个矩阵:shape:形状,生成2行3列矩阵:shape=(2,3);dtype:指的是数组当中数据元素的类型,如果单type,指的是整个对象的类型;默认类型是numpy.float64order:影响数组在内存中的储存方式,不用动;2.numpy.z...原创 2020-01-06 22:20:26 · 384 阅读 · 0 评论 -
numpy一维、二维及列表创建---- (jupyter notebook) ----初学
1.numpy—二维、三维数组2.使用numpy.array()由python list创建构造列表,也可以接收任意类型:numpy中数组结构是,一组【有序】的【类型相同】的数据的集合;numpy默认ndarray的所有元素的类型是相同的如果传进来的列表中包含不同的类型,则统一为同一类型,优先级:str>float>int编者寄:文章面向小白也可能会被行业前辈看到,...原创 2020-01-06 21:41:05 · 2418 阅读 · 0 评论 -
jupyter notebook之IPython输入输出历史---初学
1.IPython输入输出历史a.可使用In/Out调用输入输出历史In返回一个字符串列表,里面是所有输入命令的字符串,Out返回一个含有输出的命令的序号及其输出组成的字典,两者皆可以通过索引获取元素。2.使用下划线表示输出"_“表示上一个输出,”_num"表示Out[num]编者寄:文章面向小白也可能会被行业前辈看到,为避免知识误导,若文章有错误,还请过路朋友指出,末学好及时更...原创 2020-01-06 21:12:06 · 1710 阅读 · 0 评论 -
IPython魔法命令---jupyter notebook初学
1.运行外部python文件使用下面命令运行外部python文件(默认是当前目录,最好加上绝对路径)%run *.py实践例子:a.在当前文件夹下创建hello.py文件,并如下内容:def all_num(number_list):for number in number_list:print(number)b.%run2. 运行计时案例操作:**a.ti...原创 2020-01-06 20:59:36 · 348 阅读 · 0 评论 -
Jupyter Notebook 查看帮助文档——初学
1.help2.?3.快捷键:shift+table原创 2020-01-06 19:47:16 · 5131 阅读 · 1 评论 -
Jupyter Notebook 快捷键大全
1.Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是蓝色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元Y :...原创 2020-01-06 15:18:52 · 1115 阅读 · 0 评论