特征提取、转换和选择

一、特征提取

1.1、TF-IDF

1.2、Word2Vec

1.3、 计数向量器

二、特征转换

  在机器学习中,数据处理是一件比较繁琐的事情,需要对原有特征做多种处理,如类型转换、标准化特征、新增衍生特征等等,需要耗费大量的时间和精力编写处理程序, Spark ML包中提供了很多现成转换器,例如:StringIndexer、IndexToString、OneHotEncoder、VectorIndexer,它们提供了十分方便的特征转换功能,这些转换器类都位于org.apache.spark.ml.feature包下。

2.1、分词器

2.2、 移除停用词

2.3、 n-gram

2.4、 二值化

2.5、 主成分分析

2.6、 多项式展开

2.7、 离散余弦变换

2.8、 字符串-索引变换

2.9、 索引-字符串变换

2.10 独热编码(OneHotEncoder (Deprecated since 2.3.0))

2.11 向量-索引变换(VectorIndexer)

2.12 交互式

2.13、 归一化、规范化、正则化

  • 正则化
  • 规范化(StandardScaler)
  • 最大值-最小值缩放
  • 最大值-绝对值缩放

2.14、 离散化重组

2.15、 元素乘积

2.16、 SQL转换器

2.17、 向量汇编(VectorAssembler)

2.18、 分位数离散化

三、特征选择

  特征选择(Feature Selection)是从特征向量中选择那些更有效的特征,组成新的、更简单有效的特征向量的过程。它在数据分析中常用使用,尤其在高维数据分析中,可以剔除冗余或影响不大的特征,提升模型的性能。

3.1、 向量机

3.2、 R公式

3.3、 卡方特征选择

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值