Spark机器学习之 TF-IDF

最新推荐文章于 2021-05-29 11:54:24 发布

路人张的鱼生

最新推荐文章于 2021-05-29 11:54:24 发布

阅读量288

点赞数

分类专栏： Spark 机器学习文章标签： Spark

本文链接：https://blog.csdn.net/zhangdy12307/article/details/90734992

版权

Spark 同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

机器学习

10 篇文章 0 订阅

订阅专栏

Spark机器学习之 TF-IDF

TF-IDF简介

TF-IDF叫做词频-逆向文件频率，主要体现一个文档当中的词语在语料库中的重要程度,计算公式如下：
$log\frac{|D|+1}{DF(t,D)+1},.$

TF分为两步，分为TF和IDF，在TF中使用Hashing处理文本，HashingTF相当于一个转换器，在文本当中会把相关的单词构成一个集合输入到hashingTF中，并由HasingTF转换成固定长度的特征向量，IDF是一个评估器，将TF转换器转换得到的特征向量作为当前的IDFModel的输入，通过计算得到单词在文档中出现的频次，IDF会进行权重的调整，会把介词等词的权重进行调整

示例如下

导入TF-IDF所需要的包

import org.apache.spark.ml.feature.{HashingTF,IDF,Tokenizer}

RDD的隐式转换包

import spark.implicits._

创建一个简单的DataFrame

val sentenceData=spark.createDataFrame(Seq(
      (0,"I heard Spark but I love MapReduce"),
      (1,"I wish Java could use case classes"),
      (2,"Logistic regression models are neat")
      )).toDF("label","sentence")

使用tokenizer对句子进行分词操作

setInputCol表示输入列，setOutputCol表示输出列，输入列为sentence，输出到words中

val tokenizer=new Tokenizer().setInputCol("sentence").setOutputCol("words")
val wordsData=tokenizer.transform(sentenceData)

查看分词结果

wordsData.show(false)

在这里插入图片描述

使用HashingTF的transform方法把句子哈希成为特征向量

使用setNumFeatures()设置向量空间大小

val hashingTF=new
HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(2000)
val featurizedData=hashingTF.transform(wordsData)
featurizedData.select("rawFeatures").show(false)

在这里插入图片描述其中2000表示哈希桶数量，第一个中括号的内容表示哈希值，第二个中括号表示单词出现的次数

使用IDF对单纯的词频特征向量进行权重调整

这一步主要是减少a,an,the之类的单词的权重，得到新的特征向量

val idf=new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel=idf.fit(featurizedData)

调用IDFModel的transform方法

take(3)表示取出前三条记录

val rescaledData=idfModel.transform(featurizedData)
rescaledData.select("features","label").take(3).foreach(println)

在这里插入图片描述
此时第二个中括号内的数据表示的就是每个单词的重要性的权值

自此结束，完成了TF-IDF度量值的抽取

路人张的鱼生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark机器学习之 TF-IDF

Spark机器学习之 TF-IDFTF-IDF简介TF-IDF叫做词频-逆向文件频率，主要体现一个文档当中的词语在语料库中的重要程度,计算公式如下：IDF(t,D)=log∣D∣+1DF(t,D)+1,.IDF(t,D) = log\frac{|D|+1}{DF(t,D)+1},.IDF(t,D)=logDF(t,D)+1∣D∣+1,.TF分为两步，分为TF和IDF，在TF中使用Ha...
复制链接

扫一扫

专栏目录