本文首先将会介绍Python在数据分析领域最常见的两个包:pandas和numpy的使用,然后通过一个简单的案例巩固前面的内容。
目录
一、pandas和numpy的使用
二、案例解析:销售数据分析
文末领取全套Python系统学习籽料
一、pandas和numpy的使用
#导入numpy包
import numpy as np
#导入pandas包
import pandas as pd
1、一维数据分析
numpy:array
- a = np.array([2,3,4,5]) #定义:一维数组array,参数传入的是一个列表[2,3,4,5]
- a[0] #查询
- a[1:3] #切片访问:获取到的是序号从1到3的元素
- a.dtype #查看数据类型dtype
- a.mean()#统计计算:平均值
- a.std()#统计计算:标准差
- b=a*4#向量化运行:乘以标量
pandas,Series,比numpy多了一个索引功能。
- 定义:stockS=pd.Series([54.74,190.9,173.14,1050.3,181.86,1139.49],index=[‘腾讯’, ‘阿里巴巴’, ‘苹果’, ‘谷歌’, ‘Facebook’, ‘亚马逊’])
- stockS.describe()#获取描述统计信息
- stockS.iloc[0]#iloc属性用于根据索引获取值
- stockS.loc[‘腾讯’]#loc属性用于根据索引获取值
- stockS2=stockS+stockS1#向量化运算:向量相加
- 对于缺失值,可以用
- stockS2.dropna()#方法1:删除缺失值
- stockS2=stockS.add(stockS1,fill_value=0)#方法2:将缺失值进行填充
2、二维数据分析
numpy:array
- 定义:a=np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])
- 查询,获取行号是0,列号是2