小豪的Pandas 学习笔记

Pandas方法

使用pandas首先要导入pandas包。

import pandas as pd  //标准的导入pandas的代码

读入csv文件

trainData = pd.read_csv("./Data/train.csv") //
./Data/   表示路径,train表示文件名

标题获取文件中的前5行数据

trainData.head() //
.head()是pandas中的一个方法,可以获取文件中的前5行数据

在这里插入图片描述

info() 迅速获取数据描述

trainData.info()  // 方法就不具体介绍了   下面给出运行结果

//    运行结果
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 10 columns):
Pclass      891 non-null int64
Name        891 non-null object
Sex         891 non-null object
Age         714 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Ticket      891 non-null object
Fare        891 non-null float64
Cabin       204 non-null object
Embarked    889 non-null object
dtypes: float64(2), int64(3), object(5)
memory usage: 69.7+ KB

在这里插入图片描述

.drop( , , )

#删除name
allData.drop("Name",axis=1,inplace=True)  //
第一个参数为要删除的内容,第二第三个参数的形式固定

替换文件中的内容

#可以考虑替换为出现的次数
allData['SibSp'].value_counts()   // 
替换SibSp中缺失的数据为出现的次数

///运行结果
0    891
1    319
2     42
4     22
3     20
8      9
5      6
Name: SibSp, dtype: int64

合并两个文件中的内容

allData = pd.concat([trainData,testData],axis=0,ignore_index=True)  
//第一个参数为两个文件名,第二第三个参数格式相同

pd.set_option() 设置指定的值

pd.setoption('max_rows',7)  //设置最大的行数

value_counts() 获取每个值出现的次数

trainData['Pclass'].value_counts()

fillna() 用指定方法填充

age = trainData['Age']
age = age.fillna(0)   将年龄用0来填充

客串seaborn中的一个方法 distplot(age) 画出age的树状图

sns.distplot(age)

在这里插入图片描述

describe() 简要显示数据的数字特征

allData['Fare'].describe()

在这里插入图片描述

小豪能力有限,还在学习中,未完待续……

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值