一、什么是feature(特征)?
在机器学习中,特征是一种对数据的表达。
衡量特征是否能合适的表达数据。需要根据数据,应用,ML的模型,方法…很多方面来看。
一般来说,Feature应该是informative(富有信息量),discriminative(有区分性)和independent(独立)的。
具体怎么选择feature,在机器学习里面,feature的选择是至关重要的:对于同一种学习的模型,同样的学习方法,同样的数据,选择不同的feature来表达,可能会产生完全不同的效果。
二、Feature的特性和分类
Feature可以是Linear(线性),也可以是Non-linear(非线性)的;Feature可以是Fixed(固顶的),也可以是Adaptive(适应性的)…甚至feature都可以不是numerical(数值)的,其中sparse feature是numerical的feature。
三、什么是sparse feature?
如果把我们的每一个数据点,想象成一个vector(向量),记作y,对应的feature则可以用另外一个vector(向量)来表示,记作x。
那么关于稀疏特性的feature(sparse feature),其实就是x这个向量里面有很多index都是0…而非零的index远小于x的维度(x向量的长度)。