Hands-on data analysis学习笔记task01

第一次接触数据分析,本文是根据“Hands-on data analysis”项目实践的数据分析笔记,旨在记录学习过程中遇到的问题及感悟。

第一章 数据加载

1.1载入数据

1.1.1 任务一:导入numpy和pandas

问题1:在导入numpy 和pandas 的时候显示出错:ModuleNotFoundError: No module named ‘numpy’
解决办法:

pip install numpy
pip install pandas
import numpy as np
import pandas as pd

1.1.2 任务二:载入数据

df = pd.read_csv('train.csv')	#pandas在读取csv文件是通过read_csv这个函数读取的,''里是文件位置
print(df.head(3))	#head(n)函数返回前n行数据

这里,对于pandas中read_csv的方法可以参考博文:
详解pandas的read_csv方法

重点关注names,header和index_col,还有下面的chunk。
fig1.1载入数据结果
图1.载入结果

问题2:找不到文件
解决办法:将train.csv于代码放在同意文件夹下;使用绝对路径。

问题3:加载表头信息不完整
解决办法:

1.1.3 任务三:每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=10)	#chunksize设置文件块的大小
print(chunker)	#返回一个类似于迭代器的对象

调用get_chunk,可以看到chunk的数据

print(chunker.get_chunk())

1.1.4 任务四:将表头改成中文

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
print(df.head(3))

在这里插入图片描述
图2.表头更换

1.2 初步观察

这一步主要在学习如何观察数据

1.2.1 任务一:查看数据的基本信息

df.info()	#padas中DataFrame.info()函数的作用:显示有关DataFrame的信息,包括索引dtype和列dtype,非空值和内存使用情况。

在这里插入图片描述

1.2.2 任务二:观察表格前10行的数据和后15行的数据

print(df.head(10))

在这里插入图片描述

print(df.tail(15))

在这里插入图片描述

1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False

1.3 保存数据

df.to_csv('train_chinese.csv')

运行代码(ctrl+b)后,在原train.csv所在文件夹下生成新的文件train_chinese.csv.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值