基于python进行数据分析-基础篇(1)

1、用pandas库读取csv文件

绝对路径:
(1)反斜杠“\”:用“\”表示路径时,必须使用双斜杠"\\"

(2)使用原始字符串“r”:若路径使用“\”时,可在路径前面加上"r"

import pandas as pd   #导入pandas库
data=pd.read_csv(r"C:\Users\86178\Desktop\动手学数据分析\titanic_data\titanic_data\train.csv")  
print(data)

 相对路径

./train.csv表示当前目录下的train文件

.../train.csv表示当前目录的上一层目录的train文件

/train.csv表示项目根目录

data=pd.read_csv("./train.csv")
print(data)

查看当前文件的目录:

import os
os.getcwd()

2、查看数据基本信息

data.info(): # 打印摘要
data.describe(): # 描述性统计信息
data.values: # 数据 
data.to_numpy() # 数据 (推荐)
data.shape: # 形状 (行数, 列数)
data.columns: # 列标签 
data.columns.values: # 列标签 
data.index: # 行标签 
data.index.values: # 行标签 
data.head(n): # 前n行
data.tail(n): # 尾n行
pd.options.display.max_columns=n: # 最多显示n列
pd.options.display.max_rows=n: # 最多显示n行
data.memory_usage(): # 占用内存(字节B)

3、查看数据前10行和后10行

data.head(10)
data.tail(10)

4、判断数据是否为空值

data.isnull()

5、将文件英文表头改成中文表头

data.columns = ['乘客ID','是否幸存','乘客等级(1/2/3等舱位','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
print(data.columns)

6、把修改后的文件保持为一个新文件train_chinese.csv。

注意:不同的操作系统保存下来可能会有乱码。大家可以加入encoding='GBK' 或者 encoding = 'utf-8'

data.to_csv(r"C:\Users\86178\Desktop\动手学数据分析\titanic_data\titanic_data\train_chinese.csv",encoding = 'utf-8')

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值