智慧海洋-数据分析
)
根据教程说明,本次通过pandas分析渔船数据的轨迹特征,并尝试找出具有强区分性质的特征。
由于数据量较大,本次还加载了 multiprocessing 库,用于加速数据读取和运算。
渔船数据的训练集特征如下:
共有约270万数据点,其中,time和type为对象类型,因此无describe统计信息。此外,训练集无缺测值。
从三类渔船作业方式样本中分别挑选3个样本,进行展示如下:
可以看出:中间的围网作业方式较容易根据轨迹形态区分,其轨迹多会出现圈形;刺网的轨迹比较直线化,这根该作业方式需要把网拉直有关;拖网则具有围网和刺网的特征,较难与前两者区分。
考察渔船的速度和方形分布:
刺网和围网都有很多速度较低的点,而拖网的速度变化较大。由此可见:刺网和围网在作业时,会出现长时间的停船动作,而拖网则在一直运动中,较为符合各自的捕捞作业特征。速度方向的抖动较为剧烈,尤其是刺网和拖网的作业方式,该特征不利于区分刺网和拖网。
由各自的数据分布来看,速度和方向都在0位置呈单峰分布。值得注意的是:拖网的峰值密度较低,速度变化范围明显高于另外两者。而另外两者的速度和行驶方向的分度都较为相似。
综上所述,可以考虑通过速度变化区分:拖网 vs(刺网,围网),再通过轨迹信息,进一步尝试区分:刺网 vs 围网。