Python数据分析
Jennie本妮
这个作者很懒,什么都没留下…
展开
-
《利用Python进行数据分析》第十章数据聚合与分组知识点总结
1、groupby机制 首先创建相关DataFrame import pandas as pd import numpy as np df = pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','two','one'], 'data1': np.random.randn(5), 'data2': np.rando原创 2020-08-12 16:55:40 · 258 阅读 · 0 评论 -
《利用Python进行数据分析》第九章数据可视化重要知识点总结
学到第九章了,好快啊-.- 关于子图的创建 文章提到了subplot的简单用法:绘制多个图形。 代码示例: import matplotlib.pyplot as plt import numpy as np #绘制多图 fig = plt.figure() ax1 = fig.add_subplot(2,2,1)#2×2 最多四个图形 ax2 = fig.add_subplot(2,2,2) ax3 = fig.add_subplot(2,2,3) plt.plot(np.random.randn(50原创 2020-08-06 20:40:38 · 638 阅读 · 0 评论 -
《利用Python进行数据分析》第八章数据规整相关知识点总结
1、分层索引 在pandas包中,我们利用set_index方法可以设置多层索引。 import pandas as pd frame = pd.DataFrame({'a':range(7),'b':range(7,0,-1), 'c':['one','one','one','two','two', 'two','two'], 'd':[0,1,2,0,1,2,3]}) fr原创 2020-08-04 18:07:02 · 235 阅读 · 0 评论 -
《利用Python进行数据分析》第六章数据载入存储相关知识点总结
1、文本格式数据的读写 关于文件的读取,CSDN已经有很多博主写的很详细,这里不再详细地叙说。但是笔者最近导入文件时,将文件路径直接复制上去,结果产生了报错,于是我就讲路径手动码上去,错误就没了。网上找了下原因,原来是复制的路径出现了\t的换行符,在pandas导入文件时识别不了就报错。 import pandas as pd data = pd.read_excel('C:/Users/Blackpink/Desktop/学校作业/2月到3月的变化.xlsx') #不能直接复制路径上去 否则会报错 因为有原创 2020-08-01 21:36:28 · 238 阅读 · 0 评论 -
《利用Python进行数据分析》第七章数据预处理相关知识点总结
1、缺失值的处理 Series与DataFrame的dropna可以去除数据中的缺失值 import pandas as pd from numpy import nan as NA data = pd.Series([1,NA,3,NA,7]) data data.dropna() 同时,可以使用fillna来填充缺失值,并换成自己想要的值。 import numpy as np df = pd.DataFrame(np.random.randn(7,3)) df.iloc[:4,1] = NA原创 2020-07-28 17:35:27 · 465 阅读 · 0 评论 -
《利用python进行数据分析》第五章Pandas包重难点
1、数据结构介绍 字典传入DataFrame:如果嵌套字典被赋值给DataFrame,它会将字典的键作为列,内部字典的键作为索引 pop = {'Nevada':{2001:2.4, 2002:2.9}, 'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}} frame = pd.DataFrame(pop) frame 输出 同时,可以将使用类似Numpy语法对DataFrame进行转置操作(调换行和列) frame.T 输出 python索引对象可以包含重复标原创 2020-07-20 09:18:50 · 332 阅读 · 0 评论 -
《利用Python进行数据分析》第四章Numpy包重难点总结
笔者最近在学习《利用Python进行数据分析》一书,想通过写博客,对知识点加强巩固,避免对知识点遗忘过快。第一次写博客,若有做的不好的地方请谅解。(本文采用notebook编写程序) 1、Numpy的随机数组生成 import numpy as np #生成两行三列的随机数组 data = np.random.randn(2,3) data 生成结果 array([[ 2.326716 , 1.4890664 , 1.68326484], [ 0.21693349, -0.512471原创 2020-07-13 12:07:37 · 261 阅读 · 0 评论