第一章：第二节pandas基础

最新推荐文章于 2023-04-27 16:15:28 发布

卷卷自然ing

最新推荐文章于 2023-04-27 16:15:28 发布

阅读量253

点赞数

分类专栏：动手学数据分析文章标签： python 数据挖掘数据分析

本文链接：https://blog.csdn.net/xzzxxz1111/article/details/121913808

版权

本文档介绍了pandas数据结构的基础知识，包括DataFrame和Series的定义，并通过实际任务展示了如何加载、查看和操作CSV数据。内容涉及查看列名、筛选特定列、删除多余列以及基于条件筛选数据行等操作。

摘要由CSDN通过智能技术生成

复习：数据分析的第一步，加载数据我们已经学习完毕了。当数据展现在我们面前的时候，我们所要做的第一步就是认识他，今天我们要学习的就是了解字段含义以及初步观察数据。

1 第一章：数据载入及初步观察

1.4 知道你的数据叫什么

我们学习pandas的基础操作，那么上一节通过pandas加载之后的数据，其数据类型是什么呢？

开始前导入numpy和pandas

import numpy as np
import pandas as pd

1.4.1 任务一：pandas中有两个数据类型DateFrame和Series，通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子🌰[开放题]

解：Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

#写入代码
Stest = ['apple' , 'peach' , 'banana']
Sexample = pd.Series(Stest)

Stest2 = pd.Series(Stest , index = ['a', 'b', 'c']) #自定义索引
Stest2

a     apple
b     peach
c    banana
dtype: object

Stest2['b'] #通过索引访问

'peach'

Dtest = [['a','qq'], ['b','tt'] , ['c','rr']]
Dexample = pd.DataFrame(Dtest)
Dexample

	0	1
0	a	qq
1	b	tt
2	c	rr

'''
#我们举的例子
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
example_1 = pd.Series(sdata)
example_1
'''

"\n#我们举的例子\nsdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}\nexample_1 = pd.Series(sdata)\nexample_1\n"

'''
#我们举的例子
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
example_2 = pd.DataFrame(data)
example_2
'''

"\n#我们举的例子\ndata = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],\n        'year': [2000, 2001, 2002, 2001, 2002, 2003],'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}\nexample_2 = pd.DataFrame(data)\nexample_2\n"

1.4.2 任务二：根据上节课的方法载入"train.csv"文件

#写入代码
csv2 = pd.read_csv('train.csv')
csv2.head(5)

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

也可以加载上一节课保存的"train_chinese.csv"文件。通过翻译版train_chinese.csv熟悉了这个数据集，然后我们对trian.csv来进行操作

1.4.3 任务三：查看DataFrame数据的每列的名称

#写入代码
csv2.columns

Index(['乘客ID', '是否幸存', '乘客等级(1/2/3等舱位)', '乘客姓名',

最低0.47元/天解锁文章

卷卷自然ing

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录