DataWhale 数据分析实战 数据的加载与观察

数据加载

读取
  • 直接读取
df = pd.read_csv('train.csv')#输入相对路径
df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集合/train.csv')# 输入绝对路径

  • 逐块读取
    当加载数据过多时需要分批加载
    chunker = pd.read_csv(‘train.csv’, chunksize=1000)
  • 按照自定义表头读取
df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐
妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID')

在这里插入图片描述

按需加载
  • 数据的基本信息 info()
df.info()

在这里插入图片描述

  • Pandas.describe()

‘’’
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
‘’’

  • Head(), tail()
  • 查看某列的项
    首先查看所有列
df.columns

在这里插入图片描述选择其中一列查看

df['Cabin'].head(3)#方法一
df.Cabin.head(3)#方法二

在这里插入图片描述

  • 用Drop()隐藏列
df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)

在这里插入图片描述如果加入inplace=True则变为删除

  • Del 删除列
    在这里插入图片描述
del test_1['a']

在这里插入图片描述

  • 按条件筛选显示信息
midage = df[(df["Age"]>10)& (df["Age"]<50)]

midage

  • 按索引显示信息
midage.loc[[100],['Pclass','Sex']]

在这里插入图片描述

保存数据
df.to_csv('train_chinese.csv')

pandas基础

DataFrame 与 Series
  • 区别
    Series: 类似于hash,一个index对应一个值
    Dataframe:类似于表格
    Dataframe可以由多个series组成,series也可以从dataframe获取

  • 实例
    Series

import pandas as pd
s=pd.Series(['a','b','c','d'])

在这里插入图片描述
Dataframe

import pandas as pd 
df=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns=['a','b','c'])

在这里插入图片描述

简单数据分析

对数据排序
  • 自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['2', '1'],
columns=['d', 'a', 'b', 'c'])

在这里插入图片描述

  • 单列排序
    按照值排序
frame.sort_values(by='c', ascending=False)

在这里插入图片描述

按照索引排序(行,列)

frame.sort_index() # 列
frame.sort_index(axis=1) # 行

  • 双列排序
frame.sort_values(by=['a', 'c'])

在这里插入图片描述

列相加后分析
max(text['兄弟姐妹个数'] + text['父母子女个数'])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值