Spark MLlib 特征抽取、转化和选择 -- 特征抽取3 CountVectorizer

本文深入探讨Spark MLlib中的特征提取,特别是CountVectorizer算法。CountVectorizer通过计数将文档转换为向量,它能创建词汇表并根据词频排序选择词汇。在训练过程中,可通过设置vocabsize和minDF超参数来控制词汇表大小和词语出现频率。通过实例展示了如何使用CountVectorizer对DataFrame进行预处理。
摘要由CSDN通过智能技术生成

这一部分主要介绍和特征处理相关的算法,大体分为以下三类:
1)特征抽取:从原始数据中抽取特征

2)特征转换:特征的维度、特征的转化、特征的修改

3)特征选取:从大规模特征集中选取一个子集

特征提取:

CountVectorizer

CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时,CountVectorizer作为Estimator提取词汇进行训练,并生成一个CountVectorizerModel用于存储相应的词汇向量空间。

在CountVectorizerModel的训练过程中,CountVectorizer将根据语料库中的词频排序从高到低进行选择,词汇表的最大含量由vocabsize超参数来指定,超参数minDF,则指定词汇表中的词语至少要在多少个不同文档中出现。

1)导入CountVectorizer所需要的包:

2)假设我们有如下的DataFrame,其包含id和words两列,可以看成是一个包含两个文档的迷你语料库

3)通过CountVecto

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值