特征工程
文章平均质量分 95
yb705
一个初出茅庐的数据分析员
展开
-
特征工程——离散化与分箱
序数据表示的最佳方法不仅取决于数据的语义,还取决于所使用的模型种类。线性模型与基于树的模型(比如决策树,梯度提升树和随机森林)是两种成员很多同时有非常常用的模型,它们在处理不同的特征表示时就具有非常不同的性质。我们先用线性模型和决策树来训练一个数据集。PS:线性模型和决策树模型之前都已经讲解过了,感兴趣的可以去点击相关链接看一下,这里就不再赘述了。训练模型1.数据来源第一人称fps游戏csgo的等分数据:https://www.kaggle.com/sp1nalcord/mycsgo-data原创 2021-09-13 15:37:11 · 769 阅读 · 1 评论 -
特征工程-独热编码
序到目前为止,我们一直假设数据是由浮点数组成的二维数组,其中每一列是描述数据点的连续特征。对于许多应用而言,数据的收集方式并不是这样。一种特别常见的特征类型就是分类特征,也叫离散特征。这种特征通常并不是数值。分类特征与连续特征之间的区别类似于分类和回归之间的区别,只是前者在输入端而不是输出端。**其实,无论你的数据包含哪种类型的特征,数据表示方式都会对机器学习模型的性能产生巨大影响。**譬如说,我们之前讲过的数据缩放。其实对于某个特定的应用来说,如何找到最佳数据表示,这个问题被称为特征工程,它是数据科学原创 2021-09-07 14:22:40 · 1895 阅读 · 1 评论