DataWhale组队学习打卡第二阶段内容
本学习笔记为Datawhale开源学习训练营21年4月数据挖掘学习的学习内容,学习链接为:团队学习数据挖掘/智慧海洋
所在学习小组:梅利号
学习目标:
通过数据分析达到熟悉数据的目的,为后面的特征工程做准备。
EDA的主要价值在于熟悉数据集的基本情况,包括缺失值,异常值检查,来保证所得的数据集可以在接下来的训练中正常使用。
了解特征间的相关性,分布,以及特征与预测值之间的关系。
学习内容:
1、读取数据集
2、大概了解数据特征
3、数据可视化
打卡学习:
学习准备
自定义脚本文件
因为用的是jupyter,这个文件就不能在jupyter里面创建保存,得在windows资源管理器中手动添加.py文件,不然会调用失败
读取数据集
定义加载和存储数据的类方法
定义读取数据的方法
训练数据和测试数据的读取
数据集大致特征
存储训练数据的形状 以及训练数据文件的列名
展示出所有的训练数据信息
检查数据集中是否有数据为空值
单独返回出训练集和测试集中值是唯一值的属性,不存在则返回空列表
数据可视化
船舶轨迹可视化
将读取的训练数据集中3中船舶数据单独存放着
随机读取某种指定类型船舶的轨迹数据
三种船舶都随机读取3个船舶数据
每种船舶都随机读取三个轨迹记录并可视化
随机可视化船舶轨迹的时候,随机数种子设13的时候,显示出来第2个围网轨迹只有一个点了;随机数种子设成14,显示出来第2个拖网船轨迹也只有一个点。即这些情况为异常轨迹。
坐标序列可视化
通过对坐标x和坐标y序列的可视化,两个序列存在同时不变的情况下,也就是说速度数据一直在该序列中接近0,由此可判断POI点
船舶速度和方向的可视化
总结:
- jupyter 创建编码文件是默认为.ipynb,自定义导包时需要手动在jupyter之外创建对应包的.py文件,这样才能正常import
- 训练数据集中数据不存在缺失值和唯一值
- 训练数据包括了异常数据
- 可视化分析时需要从多角度分析思考,找到一个可以轻易区分开船舶作业种类的可行分析方向。