特征工程
特征工程主要分为3部分
- 特征构建
- 特征提取
- 特征选择
针对赛题的特征工程
- 船舶的特征主要有:
+ x,y坐标:构造与定点(6165599,5202660)距离
+ 对特征hour的值划定黑天和白天:5-20白天,其余黑天
+ 对特征month的值划定四季:(1,2,3):1/(4,5,6):2/(7,8,9):3/(10,11,12):4
+ 对特征v划分6个等级,以及求取速度,角度变化值,并得到xy相似性特征
+ 对v,x,y的分箱特征进行展示
+ 学习groupby以及agg统计特征的用法,agg用法在当前pandas中更新如gb.agg([[]]),不再是原先的字典格式
embedding特征
Word2vec在向量空间中对词进行表示, 或者说词以向量的形式表示,在词向量空间中:相似含义的单词一起出现,而不同的单词则位于很远的地方。这也被称为语义关系。
引用
Word2Vec在构造词向量时候,新版本为Word2Vec(sentences, vector_size=embedding_size, min_count=min_count,workers=mp.cpu_count(),window=window_size,seed=seed, epochs=iters,sg=0
学习笔记中的if word not in model:
在Word2Vec
4.××版本中需改为if word not in model.wv: