1 第一章:第一节数据载入及初步观察
1.1 载入数据
数据集下载 Titanic - Machine Learning from Disaster | Kaggle
1.1.1 任务一:导入numpy和pandas
import numpy as np
import pandas as pd
1.1.2 任务二:载入数据
(1) 使用相对路径载入数据
data=pd.read_csv("train.csv")
相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录。
import os
os.getcwd()
输出结果:'C:\\Users\\HP\\Downloads\\组队学习\\第一单元'
(2) 使用绝对路径载入数据
data=pd.read_csv("C:/Users/HP/Downloads/组队学习/第一单元/train.csv")
【思考】知道数据加载的方法后,试试pd.read_csv()和pd.read_table()的不同,如果想让他们效果一样,需要怎么做?了解一下'.tsv'和'.csv'的不同,如何加载这两个数据集?
data=pd.read_table("train.csv")
输出结果知道,pd.read_table()是默认“/t”为分隔符的,而pd.read_csv()是默认","为分隔符,想让两种方法得到相同的读入效果,可以通过对sep参数的控制来对文件进行读取。
PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked | |
---|---|
0 | 1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/ |