Hands-on data analysis学习笔记task01
第一次接触数据分析,本文是根据“Hands-on data analysis”项目实践的数据分析笔记,旨在记录学习过程中遇到的问题及感悟。
第一章 数据加载
1.1载入数据
1.1.1 任务一:导入numpy和pandas
问题1:在导入numpy 和pandas 的时候显示出错:ModuleNotFoundError: No module named ‘numpy’
解决办法:
pip install numpy
pip install pandas
import numpy as np
import pandas as pd
1.1.2 任务二:载入数据
df = pd.read_csv('train.csv') #pandas在读取csv文件是通过read_csv这个函数读取的,''里是文件位置
print(df.head(3)) #head(n)函数返回前n行数据
这里,对于pandas中read_csv的方法可以参考博文:
详解pandas的read_csv方法
重点关注names,header和index_col,还有下面的chunk。
图1.载入结果
问题2:找不到文件
解决办法:将train.csv于代码放在同意文件夹下;使用绝对路径。
问题3:加载表头信息不完整
解决办法:
1.1.3 任务三:每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('train.csv', chunksize=10) #chunksize设置文件块的大小
print(chunker) #返回一个类似于迭代器的对象
调用get_chunk,可以看到chunk的数据
print(chunker.get_chunk())
1.1.4 任务四:将表头改成中文
df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
print(df.head(3))
图2.表头更换
1.2 初步观察
这一步主要在学习如何观察数据
1.2.1 任务一:查看数据的基本信息
df.info() #padas中DataFrame.info()函数的作用:显示有关DataFrame的信息,包括索引dtype和列dtype,非空值和内存使用情况。
1.2.2 任务二:观察表格前10行的数据和后15行的数据
print(df.head(10))
print(df.tail(15))
1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False
1.3 保存数据
df.to_csv('train_chinese.csv')
运行代码(ctrl+b)后,在原train.csv所在文件夹下生成新的文件train_chinese.csv.