Python数据分析——pandas数据类型，DataFrame操作

最新推荐文章于 2024-07-08 21:17:35 发布

AA_呃

最新推荐文章于 2024-07-08 21:17:35 发布

阅读量742

点赞数 1

本文链接：https://blog.csdn.net/weixin_45371595/article/details/108127142

版权

1.pandas数据类型

DataFrame和Series是pandas中的两个数据类型

import numpy as np
import pandas as pd

Series可以看成是一维数组，也可以看成是一个特殊的字典

#创建简单的Series
data={'A':2000,'B':3000,'C':3435,'D':7899,'E':578}
exa_1=pd.Series(data)
exa_1

A    2000
B    3000
C    3435
D    7899
E     578
dtype: int64

DataFrame可以看成是二维表格数据，包含第一列有序数字，可以看成是由Series组成的字典，输出的是一个表格

#创建简单的DataFrame
data_1={'state':['A','B','C','D','E','F'],
       'year':[2000,2001,2009,2008,2008,2005],
       'num':[1.2,3.2,2.3,3,2,9]}
exa_2=pd.DataFrame(data_1)
exa_2

	state	year	num
0	A	2000	1.2
1	B	2001	3.2
2	C	2009	2.3
3	D	2008	3.0
4	E	2008	2.0
5	F	2005	9.0

2.对DataFrame的基本操作

先加载"mytrain.csv"文件，加载后的数据就是DataFrame类型

df=pd.read_csv('mytrain.csv')
df.head(3)

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked	Unnamed: 12
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S	NaN
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C	NaN
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S	NaN

（1）查看DataFrame数据每列的项

df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked', 'Unnamed: 12'],
      dtype='object')

（2）查看某列所有的项（'mytrain.csv’中’cabin’列所有项）

#方法1
df['Cabin'].head(3)

0    NaN
1    C85
2    NaN
Name: Cabin, dtype: object

#方法2
df.Cabin.head(5)

0     NaN
1     C85
2     NaN
3    C123
4     NaN
Name: Cabin, dtype: object

（3）删除多余的列

比如删除’Fare’一整列

del df['Fare']
df.head(3)

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	NaN	S

除此之外还可以用drop函数删除列，drop和del的区别是del只能删除一列，drop可以删除多列

 df.drop('Pclass', axis=1,inplace=True)#axis为1表示在第一行中找到相应的项，再删掉一整列,注意inplace=True
    #drop不仅可以通过列名，也可通过数组索引来删除列
df.head(3)

	PassengerId	Survived	Name	Sex	Age	SibSp	Ticket	Cabin	Embarked
0	1	0	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	NaN	S
1	2	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	C85	C
2	3	1	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	NaN	S