Spark MLlib 特征抽取、转化和选择 -- 特征抽取3 CountVectorizer

最新推荐文章于 2022-03-29 16:20:24 发布

studiousq

最新推荐文章于 2022-03-29 16:20:24 发布

阅读量332

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaoqqa/article/details/81902833

版权

本文深入探讨Spark MLlib中的特征提取，特别是CountVectorizer算法。CountVectorizer通过计数将文档转换为向量，它能创建词汇表并根据词频排序选择词汇。在训练过程中，可通过设置vocabsize和minDF超参数来控制词汇表大小和词语出现频率。通过实例展示了如何使用CountVectorizer对DataFrame进行预处理。

摘要由CSDN通过智能技术生成

这一部分主要介绍和特征处理相关的算法，大体分为以下三类：
1）特征抽取：从原始数据中抽取特征

2）特征转换：特征的维度、特征的转化、特征的修改

3）特征选取：从大规模特征集中选取一个子集

特征提取：

CountVectorizer

CountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时，CountVectorizer作为Estimator提取词汇进行训练，并生成一个CountVectorizerModel用于存储相应的词汇向量空间。

在CountVectorizerModel的训练过程中，CountVectorizer将根据语料库中的词频排序从高到低进行选择，词汇表的最大含量由vocabsize超参数来指定，超参数minDF，则指定词汇表中的词语至少要在多少个不同文档中出现。

1）导入CountVectorizer所需要的包：

2）假设我们有如下的DataFrame，其包含id和words两列，可以看成是一个包含两个文档的迷你语料库

3）通过CountVecto

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark MLlib 特征抽取、转化和选择 -- 特征抽取3 CountVectorizer

这一部分主要介绍和特征处理相关的算法，大体分为以下三类：1）特征抽取：从原始数据中抽取特征2）特征转换：特征的维度、特征的转化、特征的修改3）特征选取：从大规模特征集中选取一个子集特征提取：CountVectorizerCountVectorizer旨在通过计数来将一个文档转换为向量。当不存在先验字典时，CountVectorizer作为Estimator提取词汇进行训练，并...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。