数据加载
读取
- 直接读取
df = pd.read_csv('train.csv')#输入相对路径
df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集合/train.csv')# 输入绝对路径
- 逐块读取
当加载数据过多时需要分批加载
chunker = pd.read_csv(‘train.csv’, chunksize=1000) - 按照自定义表头读取
df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐
妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID')
按需加载
- 数据的基本信息 info()
df.info()
- Pandas.describe()
‘’’
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
‘’’
- Head(), tail()
- 查看某列的项
首先查看所有列
df.columns
选择其中一列查看
df['Cabin'].head(3)#方法一
df.Cabin.head(3)#方法二
- 用Drop()隐藏列
df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)
如果加入inplace=True则变为删除
- Del 删除列
del test_1['a']
- 按条件筛选显示信息
midage = df[(df["Age"]>10)& (df["Age"]<50)]
- 按索引显示信息
midage.loc[[100],['Pclass','Sex']]
保存数据
df.to_csv('train_chinese.csv')
pandas基础
DataFrame 与 Series
-
区别
Series: 类似于hash,一个index对应一个值
Dataframe:类似于表格
Dataframe可以由多个series组成,series也可以从dataframe获取 -
实例
Series
import pandas as pd
s=pd.Series(['a','b','c','d'])
Dataframe
import pandas as pd
df=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns=['a','b','c'])
简单数据分析
对数据排序
- 自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['2', '1'],
columns=['d', 'a', 'b', 'c'])
- 单列排序
按照值排序
frame.sort_values(by='c', ascending=False)
按照索引排序(行,列)
frame.sort_index() # 列
frame.sort_index(axis=1) # 行
- 双列排序
frame.sort_values(by=['a', 'c'])
列相加后分析
max(text['兄弟姐妹个数'] + text['父母子女个数'])