Hands-on data analysis学习笔记task01

最新推荐文章于 2024-10-08 16:59:10 发布

小赫的小太阳�

最新推荐文章于 2024-10-08 16:59:10 发布

阅读量351

点赞数

分类专栏： data_analysis 文章标签：数据分析 python

本文链接：https://blog.csdn.net/weixin_44301616/article/details/117959851

版权

data_analysis 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Hands-on data analysis学习笔记task01

第一章数据加载
1.1载入数据
1.2 初步观察
1.3 保存数据

第一次接触数据分析，本文是根据“Hands-on data analysis”项目实践的数据分析笔记，旨在记录学习过程中遇到的问题及感悟。

第一章数据加载

1.1载入数据

1.1.1 任务一：导入numpy和pandas

问题1：在导入numpy 和pandas 的时候显示出错：ModuleNotFoundError: No module named ‘numpy’
解决办法：

pip install numpy
pip install pandas

import numpy as np
import pandas as pd

1.1.2 任务二：载入数据

df = pd.read_csv('train.csv')	#pandas在读取csv文件是通过read_csv这个函数读取的，''里是文件位置
print(df.head(3))	#head(n)函数返回前n行数据

这里，对于pandas中read_csv的方法可以参考博文：
详解pandas的read_csv方法

重点关注names，header和index_col，还有下面的chunk。
fig1.1载入数据结果
图1.载入结果

问题2：找不到文件
解决办法：将train.csv于代码放在同意文件夹下；使用绝对路径。

问题3：加载表头信息不完整
解决办法：

1.1.3 任务三：每1000行为一个数据模块，逐块读取

chunker = pd.read_csv('train.csv', chunksize=10)	#chunksize设置文件块的大小
print(chunker)	#返回一个类似于迭代器的对象

调用get_chunk，可以看到chunk的数据

print(chunker.get_chunk())

1.1.4 任务四：将表头改成中文

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
print(df.head(3))

在这里插入图片描述
图2.表头更换

1.2 初步观察

这一步主要在学习如何观察数据

1.2.1 任务一：查看数据的基本信息

df.info()	#padas中DataFrame.info()函数的作用：显示有关DataFrame的信息，包括索引dtype和列dtype，非空值和内存使用情况。

在这里插入图片描述

1.2.2 任务二：观察表格前10行的数据和后15行的数据

print(df.head(10))

在这里插入图片描述

print(df.tail(15))

在这里插入图片描述

1.2.4 任务三：判断数据是否为空，为空的地方返回True，其余地方返回False

1.3 保存数据

df.to_csv('train_chinese.csv')

运行代码（ctrl+b）后，在原train.csv所在文件夹下生成新的文件train_chinese.csv.

小赫的小太阳�

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hands-on data analysis学习笔记task01

Hands-on data analysis学习笔记task01

第一章 数据加载

1.1载入数据

1.1.1 任务一：导入numpy和pandas

1.1.2 任务二：载入数据

1.1.3 任务三：每1000行为一个数据模块，逐块读取

1.1.4 任务四：将表头改成中文

1.2 初步观察

1.2.1 任务一：查看数据的基本信息

1.2.2 任务二：观察表格前10行的数据和后15行的数据

1.2.4 任务三：判断数据是否为空，为空的地方返回True，其余地方返回False

1.3 保存数据

第一章数据加载