Task02 数据分析

最新推荐文章于 2024-10-17 11:21:39 发布

hhhhhxin

最新推荐文章于 2024-10-17 11:21:39 发布

阅读量100

点赞数

分类专栏： Datawhale开源学习文章标签：可视化 python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45201561/article/details/115773764

版权

Datawhale开源学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

DataWhale组队学习打卡第二阶段内容

本学习笔记为Datawhale开源学习训练营21年4月数据挖掘学习的学习内容，学习链接为：团队学习数据挖掘/智慧海洋
所在学习小组：梅利号

学习目标：

通过数据分析达到熟悉数据的目的，为后面的特征工程做准备。
EDA的主要价值在于熟悉数据集的基本情况，包括缺失值，异常值检查，来保证所得的数据集可以在接下来的训练中正常使用。
了解特征间的相关性，分布，以及特征与预测值之间的关系。

学习内容：

1、读取数据集
2、大概了解数据特征
3、数据可视化

打卡学习：

学习准备

在这里插入图片描述

自定义脚本文件

在这里插入图片描述
因为用的是jupyter，这个文件就不能在jupyter里面创建保存，得在windows资源管理器中手动添加.py文件，不然会调用失败

读取数据集

定义加载和存储数据的类方法在这里插入图片描述
定义读取数据的方法

训练数据和测试数据的读取

数据集大致特征

存储训练数据的形状以及训练数据文件的列名
在这里插入图片描述
展示出所有的训练数据信息

检查数据集中是否有数据为空值

单独返回出训练集和测试集中值是唯一值的属性，不存在则返回空列表

数据可视化

船舶轨迹可视化

将读取的训练数据集中3中船舶数据单独存放着
在这里插入图片描述
随机读取某种指定类型船舶的轨迹数据

三种船舶都随机读取3个船舶数据

每种船舶都随机读取三个轨迹记录并可视化

在这里插入图片描述
随机可视化船舶轨迹的时候，随机数种子设13的时候，显示出来第2个围网轨迹只有一个点了；随机数种子设成14，显示出来第2个拖网船轨迹也只有一个点。即这些情况为异常轨迹。

坐标序列可视化

在这里插入图片描述

通过对坐标x和坐标y序列的可视化，两个序列存在同时不变的情况下，也就是说速度数据一直在该序列中接近0，由此可判断POI点

船舶速度和方向的可视化

在这里插入图片描述

总结：

jupyter 创建编码文件是默认为.ipynb，自定义导包时需要手动在jupyter之外创建对应包的.py文件，这样才能正常import
训练数据集中数据不存在缺失值和唯一值
训练数据包括了异常数据
可视化分析时需要从多角度分析思考，找到一个可以轻易区分开船舶作业种类的可行分析方向。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。