1、用pandas库读取csv文件
绝对路径:
(1)反斜杠“\”:用“\”表示路径时,必须使用双斜杠"\\"
(2)使用原始字符串“r”:若路径使用“\”时,可在路径前面加上"r"
import pandas as pd #导入pandas库
data=pd.read_csv(r"C:\Users\86178\Desktop\动手学数据分析\titanic_data\titanic_data\train.csv")
print(data)
相对路径
./train.csv表示当前目录下的train文件
.../train.csv表示当前目录的上一层目录的train文件
/train.csv表示项目根目录
data=pd.read_csv("./train.csv")
print(data)
查看当前文件的目录:
import os
os.getcwd()
2、查看数据基本信息
data.info(): # 打印摘要
data.describe(): # 描述性统计信息
data.values: # 数据
data.to_numpy() # 数据 (推荐)
data.shape: # 形状 (行数, 列数)
data.columns: # 列标签
data.columns.values: # 列标签
data.index: # 行标签
data.index.values: # 行标签
data.head(n): # 前n行
data.tail(n): # 尾n行
pd.options.display.max_columns=n: # 最多显示n列
pd.options.display.max_rows=n: # 最多显示n行
data.memory_usage(): # 占用内存(字节B)
3、查看数据前10行和后10行
data.head(10)
data.tail(10)
4、判断数据是否为空值
data.isnull()
5、将文件英文表头改成中文表头
data.columns = ['乘客ID','是否幸存','乘客等级(1/2/3等舱位','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
print(data.columns)
6、把修改后的文件保持为一个新文件train_chinese.csv。
注意:不同的操作系统保存下来可能会有乱码。大家可以加入encoding='GBK' 或者 encoding = 'utf-8'
data.to_csv(r"C:\Users\86178\Desktop\动手学数据分析\titanic_data\titanic_data\train_chinese.csv",encoding = 'utf-8')