DataWhale 数据分析实战数据的加载与观察

最新推荐文章于 2024-10-04 11:33:45 发布

韩雨庭

最新推荐文章于 2024-10-04 11:33:45 发布

阅读量189

点赞数

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_45019579/article/details/108113386

版权

数据分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

数据加载

读取

直接读取

df = pd.read_csv('train.csv')#输入相对路径
df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集合/train.csv')# 输入绝对路径

逐块读取
当加载数据过多时需要分批加载
chunker = pd.read_csv(‘train.csv’, chunksize=1000)
按照自定义表头读取

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐
妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID')

在这里插入图片描述

按需加载

数据的基本信息 info（)

df.info()

在这里插入图片描述

Pandas.describe()

‘’’
count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值
‘’’

Head（）， tail（）
查看某列的项
首先查看所有列

df.columns

在这里插入图片描述选择其中一列查看

df['Cabin'].head(3)#方法一
df.Cabin.head(3)#方法二

在这里插入图片描述

用Drop（）隐藏列

df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)

在这里插入图片描述如果加入inplace=True则变为删除

Del 删除列

del test_1['a']

在这里插入图片描述

按条件筛选显示信息

midage = df[(df["Age"]>10)& (df["Age"]<50)]

midage

按索引显示信息

midage.loc[[100],['Pclass','Sex']]

在这里插入图片描述

保存数据

df.to_csv('train_chinese.csv')

pandas基础

DataFrame 与 Series

区别
Series: 类似于hash，一个index对应一个值
Dataframe：类似于表格
Dataframe可以由多个series组成，series也可以从dataframe获取
实例
Series

import pandas as pd
s=pd.Series(['a','b','c','d'])

在这里插入图片描述
Dataframe

import pandas as pd 
df=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns=['a','b','c'])

在这里插入图片描述

简单数据分析

对数据排序

自己构建一个都为数字的DataFrame数据

frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['2', '1'],
columns=['d', 'a', 'b', 'c'])

在这里插入图片描述

单列排序
按照值排序

frame.sort_values(by='c', ascending=False)

在这里插入图片描述

按照索引排序（行，列)

frame.sort_index() # 列
frame.sort_index(axis=1) # 行

双列排序

frame.sort_values(by=['a', 'c'])

在这里插入图片描述

列相加后分析

max(text['兄弟姐妹个数'] + text['父母子女个数'])

韩雨庭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

DataWhale 数据分析实战 数据的加载与观察

数据加载

读取

按需加载

保存数据

pandas基础

DataFrame 与 Series

简单数据分析

对数据排序

列相加后分析

DataWhale 数据分析实战数据的加载与观察