1 第一章:第一节数据载入及初步观察
1.1 载入数据
数据集下载 Titanic - Machine Learning from Disaster | Kaggle
1.1.1 任务一:导入numpy和pandas
import numpy as np
import pandas as pd
1.1.2 任务二:载入数据
(1) 使用相对路径载入数据
data=pd.read_csv("train.csv")
相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录。
import os
os.getcwd()
输出结果:'C:\\Users\\HP\\Downloads\\组队学习\\第一单元'
(2) 使用绝对路径载入数据
data=pd.read_csv("C:/Users/HP/Downloads/组队学习/第一单元/train.csv")
【思考】知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下'.tsv'和'.csv'的不同,如何加载这两个数据集?
data=pd.read_table("train.csv")
输出结果知道,pd.read_table()是默认“/t”为分隔符的,而pd.read_csv()是默认","为分隔符,想让两种方法得到相同的读入效果,可以通过对sep参数的控制来对文件进行读取。
| PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked | |
|---|---|
| 0 | 1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/ |

该章节介绍了如何使用Python的pandas库载入和初步观察数据,包括相对和绝对路径载入数据、块读取、更改表头和索引、检查空值,以及保存数据。还探讨了DataFrame和Series数据类型的区别,并进行了一些实际操作,如筛选特定年龄范围的乘客信息。
最低0.47元/天 解锁文章

6387

被折叠的 条评论
为什么被折叠?



