Task02 数据分析

DataWhale组队学习打卡第二阶段内容

本学习笔记为Datawhale开源学习训练营21年4月数据挖掘学习的学习内容,学习链接为:团队学习数据挖掘/智慧海洋
所在学习小组:梅利号


学习目标:

通过数据分析达到熟悉数据的目的,为后面的特征工程做准备。
EDA的主要价值在于熟悉数据集的基本情况,包括缺失值,异常值检查,来保证所得的数据集可以在接下来的训练中正常使用。
了解特征间的相关性,分布,以及特征与预测值之间的关系。

学习内容:

1、读取数据集
2、大概了解数据特征
3、数据可视化

打卡学习:

学习准备

在这里插入图片描述

自定义脚本文件

在这里插入图片描述
因为用的是jupyter,这个文件就不能在jupyter里面创建保存,得在windows资源管理器中手动添加.py文件,不然会调用失败

读取数据集

定义加载和存储数据的类方法在这里插入图片描述
定义读取数据的方法
在这里插入图片描述
训练数据和测试数据的读取
在这里插入图片描述

数据集大致特征

存储训练数据的形状 以及训练数据文件的列名
在这里插入图片描述
展示出所有的训练数据信息
在这里插入图片描述
检查数据集中是否有数据为空值
在这里插入图片描述
单独返回出训练集和测试集中值是唯一值的属性,不存在则返回空列表
在这里插入图片描述

数据可视化

船舶轨迹可视化

将读取的训练数据集中3中船舶数据单独存放着
在这里插入图片描述
随机读取某种指定类型船舶的轨迹数据
在这里插入图片描述
三种船舶都随机读取3个船舶数据
在这里插入图片描述
每种船舶都随机读取三个轨迹记录并可视化
在这里插入图片描述

在这里插入图片描述
随机可视化船舶轨迹的时候,随机数种子设13的时候,显示出来第2个围网轨迹只有一个点了;随机数种子设成14,显示出来第2个拖网船轨迹也只有一个点。即这些情况为异常轨迹。

坐标序列可视化

在这里插入图片描述
在这里插入图片描述
通过对坐标x和坐标y序列的可视化,两个序列存在同时不变的情况下,也就是说速度数据一直在该序列中接近0,由此可判断POI点

船舶速度和方向的可视化

在这里插入图片描述
在这里插入图片描述

总结:

  1. jupyter 创建编码文件是默认为.ipynb,自定义导包时需要手动在jupyter之外创建对应包的.py文件,这样才能正常import
  2. 训练数据集中数据不存在缺失值和唯一值
  3. 训练数据包括了异常数据
  4. 可视化分析时需要从多角度分析思考,找到一个可以轻易区分开船舶作业种类的可行分析方向。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值