前言
今天是系统学习数据挖掘分析的Task1天。
该课程需要搭配joyful-pandas课程进行学习。
joyful-pandas的链接为:
https://gitee.com/panjoe/joyful-pandas?_from=gitee_search
目的
本课程的目的是通过参与kaggle的泰坦尼克号的比赛,掌握数据挖掘技术。
本课程的主要内容分为1.数据基础操作 2.数据清洗与重构 3.建模与评估
实验环境
本次博客是通过研究数据基础操作,实验环境是使用jupyter notebook环境,使用的包是numpy(1.18.2)、pandas(0.24.2)
实验步骤
1.载入库包
2.加载数据
将泰坦尼克号的数据加载进来
(1)分批读取
逐块读取应该是为了防止表格内容太大,容易占内存
(2)读取并修改表头
这里是为了方便大家理解与阅读
3.探索数据
(1)观察数据类型
(2)观察表格前5行的数据和后5行的数据
(3)判断数据是否为空,为空的地方返回True,其余地方返回False
4.数据保存
5.查看某列的所有值
6.筛选的逻辑
(1)我们以"Age"为筛选条件,显示年龄在10岁以下的乘客信息。
(2)以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
(3)将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来。
7.进一步探索
(1)数据排序
对泰坦尼克号数据(trian.csv)按票价和年龄两列进行综合排序(降序排列)
(2)计算
通过泰坦尼克号数据如何计算出在船上最大的家族有多少人?