小豪的Pandas 学习笔记

最新推荐文章于 2023-03-25 11:07:07 发布

秦曼巴

最新推荐文章于 2023-03-25 11:07:07 发布

阅读量394

点赞数

分类专栏：小豪的机械学习之路

博主真的水，博客可以被转载，但要注明出处https://me.csdn.net/weixin_43895482

本文链接：https://blog.csdn.net/weixin_43895482/article/details/90413934

版权

小豪的机械学习之路专栏收录该内容

0 篇文章 0 订阅

订阅专栏

Pandas方法

使用pandas首先要导入pandas包。

import pandas as pd  //标准的导入pandas的代码

读入csv文件

trainData = pd.read_csv("./Data/train.csv") //
./Data/   表示路径，train表示文件名

标题获取文件中的前5行数据

trainData.head() //
.head()是pandas中的一个方法，可以获取文件中的前5行数据

在这里插入图片描述

info() 迅速获取数据描述

trainData.info()  // 方法就不具体介绍了   下面给出运行结果

//    运行结果
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 10 columns):
Pclass      891 non-null int64
Name        891 non-null object
Sex         891 non-null object
Age         714 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Ticket      891 non-null object
Fare        891 non-null float64
Cabin       204 non-null object
Embarked    889 non-null object
dtypes: float64(2), int64(3), object(5)
memory usage: 69.7+ KB

在这里插入图片描述

.drop( , , )

#删除name
allData.drop("Name",axis=1,inplace=True)  //
第一个参数为要删除的内容，第二第三个参数的形式固定

替换文件中的内容

#可以考虑替换为出现的次数
allData['SibSp'].value_counts()   // 
替换SibSp中缺失的数据为出现的次数

///运行结果
0    891
1    319
2     42
4     22
3     20
8      9
5      6
Name: SibSp, dtype: int64

合并两个文件中的内容

allData = pd.concat([trainData,testData],axis=0,ignore_index=True)  
//第一个参数为两个文件名，第二第三个参数格式相同

pd.set_option() 设置指定的值

pd.setoption('max_rows',7)  //设置最大的行数

value_counts() 获取每个值出现的次数

trainData['Pclass'].value_counts()

fillna() 用指定方法填充

age = trainData['Age']
age = age.fillna(0)   将年龄用0来填充

客串seaborn中的一个方法 distplot(age) 画出age的树状图

sns.distplot(age)

在这里插入图片描述

describe() 简要显示数据的数字特征

allData['Fare'].describe()

在这里插入图片描述

小豪能力有限，还在学习中，未完待续……

秦曼巴

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录