Spark机器学习之 Word2Vec

最新推荐文章于 2024-08-12 17:27:29 发布

路人张的鱼生

最新推荐文章于 2024-08-12 17:27:29 发布

阅读量898

点赞数

分类专栏： Spark 机器学习文章标签： Spark

本文链接：https://blog.csdn.net/zhangdy12307/article/details/90765289

版权

Spark 同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

机器学习

10 篇文章 0 订阅

订阅专栏

Spark机器学习之 Word2Vec

Word2Vec简介

Word2Vec是一个词嵌入方法，可以计算每个单词在给定的语料库环境下的分布式向量，如果两个单词的语义相近，那么词向量在向量空间中也相互接近，判断向量空间的接近程度来判断来两个单词是否相似

首先导入Word2Vec所需要的包，并创建可以代表文档的词语序列

如果是由数组构成的相关元素，在转换成相关的DataFrame需要用 Tuple1.apply

import org.apache.spark.ml.feature.Word2Vec
val documentDF=spark.createDataFrame(Seq(
      "Hi i heard about spark".split(" "),
      "I wish Java could use case classes".split(" "),
      "Logistic regression models are neat".split(" "),
      "Hi i love MapReduce".split(" ") 
       ).map(Tuple1.apply)).toDF("text")

新建一个word2vec 单词出现0次以上统计

val word2Vec=new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize(3).setMinCount(0)

读入训练数据，用fit()方法生成word2vecmodel

val model=word2Vec.fit(documentDF)

把文档转换成特征向量

val result=model.transform(documentDF)
result.select(“result”).take(3).foreach(println)

结果如下所示
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

路人张的鱼生

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark MLlib — Word2Vec

Alice

10-12

4825

Word2vec 是 Google 在 2013 年开源的一款将词表征为实数值向量的高效工具。能够将单词映射到K维向量空间，同时由于算法考虑了每个单词的上下文环境，因此词向量表示同时具有语义特性。本文对Word2Vec的算法原理以及其在spark MLlib中的实现进行了对应分析。1.背景知识1.1 词向量NLP中词向量通常有两种表示方式： One-hot Representaion 把每个单词按

【Spark原理系列】Spark Word2Vec原理示例源码分析详解

wang2leee的博客

01-07

888

【Spark原理系列】Spark Word2Vec原理参数示例源码分析详解

参与评论您还未登录，请先登录后发表或查看评论

Spark MLlib 特征工程系列—特征提取Word2Vec

最新发布

2401_84052244的博客

08-12

1007

Word2Vec 是一种流行的词嵌入方法，用于将词语转换为低维的向量表示，这些向量能够捕捉词语之间的语义关系。：词向量的每个维度（即向量中的每个数字）通常不直接代表某个具体的语法或语义特征，而是从大规模语料中学习到的抽象特征。词向量的维度指的是用来表示每个词语的向量的长度，或者说是向量中包含的数值元素的个数。Word2Vec 的主要目标是生成单词的向量表示，而不是整个文本的向量表示。：如果词向量的维度是 100，那么每个词语都被表示为一个 100 维的实数向量，类似于一个包含 100 个数字的列表。

word2vec的spark实现_Spark ML Word2Vec算法分析与代码实战

weixin_42319436的博客

01-30

237

一.简介Word2Vec是一个Estimator代表文档的单词序列并训练一个 Word2VecModel。该模型将每个单词映射到唯一的固定大小的向量。使用Word2VecModel 文档中所有单词的平均值将每个文档转换为向量；然后，可以将此向量用作预测，文档相似度计算等的功能。词向量映射Word2Vec计算单词的分布式矢量表示。分布式表示的主要优点是向量空间中相似的词很接近，这使得对新颖模式的泛化...

离线轻量级大数据平台Spark之MLib机器学习库Word2Vec实例

医疗影像检索

11-07

4286

Word2Vecword2vec能将文本中出现的词向量化，可以在捕捉语境信息的同时压缩数据规模。Word2Vec实际上是两种不同的方法：Continuous Bag of Words (CBOW) 和 Skip-gram。CBOW的目标是根据上下文来预测当前词语的概率。Skip-gram刚好相反：根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初，每个单词都是一个

Spark-MLlib 学习入门到掌握-Word2Vec分词向量[7]

qq_41610493的博客

06-22

275

word2vector 是google开源的一个生成词向量的工具，以语言模型为优化目标，迭代更新训练文本中的词向量，最终收敛获得词向量。词向量可以作为文本分析中重要的特征，在分类问题、标注问题等场景都有着重要的应用价值。 def Word2VecTest(): Unit = { import org.apache.spark.ml.feature.Word2Vec import org.apache.spark.ml.linalg.Vector import org.apache

Spark word2vec使用

热门推荐

Crystal_Zero的博客

12-08

1万+

Spark 提供有两个包提供了word2vec，分别是 org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel} org.apache.spark.ml.feature.Word2Vec 本质没有太大的区别，只是两个包的作用对象不一样 spark.mllib contains the original API built on top of RDDs. spark.ml provides higher-level API built on top

基于spark word2vec实践

hjj974834257的博客

01-17

1万+

1、word2vec简介、作用 1）解决哪些问题 word2vec，字面意思，将word转化为vector，word是顺序有意义的实体，比如文档中单词、用户依次点击的商品。 word2vec得到实体向量，可以用来度量实体间相似度，在此基础上，以下方向都可以应用（部分方向未实践，参考资料所得）：分类聚类推荐句子向量

【机器学习】word2vec学习笔记（二）：word2vec-tool

长相忆兮长相忆的专栏

07-31

609

本文主要介绍Google官网提供的word2vec工具：word2vec，计算词的连续分布表示的工具。本文并不涉及word2vec算法的原理与细节，只是简单的介绍了word2vec这个工具及一些在实践中的表现等。 word2vec工具提供了CBOW模型和skip-gram模型计算词的向量表示的有效实现。这些表示能够随后应用在后期的NLP应用和进一步研究中。

利用ansj分词和word2vec算法的基于spark的相似词推荐+源代码+文档说明

04-11

word2vec的spark实现_Spark Word2Vec算法代码实现

weixin_39540018的博客

12-21

333

1 import com.hankcs.hanlp.tokenizer.NLPTokenizerimport org.apache.hadoop.io.{LongWritable, Text}import org.apache.hadoop.mapred.TextInputFormatimport org.apache.log4j.{Level, Logger}import org.apache....

w2v：使用Spark使用Twitter数据对Word2Vec进行建模。博客：

02-06

基于Spark的机器学习，用于捕获词义在此存储库中，您将了解如何使用Twitter数据构建Word2Vec模型。要获得有关如何在IBM 上构建模型的端到端教程，请选择仓库。先决条件：安装Python，numpy和Apache Spark I.）安装Anaconda会同时安装Python，numpy和其他Python软件包。如果有兴趣，请访问 II。）下载并安装Apache Spark，请转到此处： : 该步骤对我在Mac 上安装Spark 1.5.1很有用。 III。）在这里添加了一个笔记本带有Twitter数据usign Spark RDDs.ipynb，好消息是Spar

word2vec的spark实现_2小时入门Spark之MLlib

weixin_35710893的博客

12-30

208

最近由于一直在用Spark搞数据挖掘，花了些时间系统学习了一下Spark的MLlib机器学习库，它和sklearn有八九分相似，也是Estimator，Transformer，Pipeline那一套，各种fit，transform接口。sklearn有多好学，MLlib就有多好学，甚至MLlib还要更加简单一些，因为MLlib库中支持的功能相对更少一些，并且MLlib基于DataFrame数据比s...

word2vec的spark实现_Spark的Word2Vec示例

weixin_42516830的博客

01-13

266

import org.apache.spark.ml.feature.{Word2Vec, Word2VecModel}import org.apache.spark.ml.linalg.Vectorimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}/*** 从句子训练得到Embedding*/object TextEmb...

sparkmllib算法之操作-第三篇（Word2Vec）

01-14

638

1、定义如果用一句比较简单的话来总结，word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度，其中的tricks包括Hierarchical softmax，negative sampling, Huffman Tree等。 2、原理 word2vec可以分为两部分：模型与通过模型获得的词向...

Spark：HanLP+Word2Vec+LSH实现文本推荐(kotlin)

u010076574的博客

09-25

3487

Spark：HanLP+Word2Vec+LSH实现文本推荐(kotlin) 文本推荐的基本流程就是首先对目标本文进行关键词提取，接着把关键词转成词向量，再计算词向量的相似性进行推荐。这三个步骤都有现成的模型和算法来实现，本文介绍的就是基于spark用hanlp+word2vec+lsh实现文本推荐。下面先介绍每个步骤所用的模型和算法。 1.HanLP：提取中文文本的关键词 1.HanLP是一系...

spark集群运行大数据集的word2vec问题汇总

STHSF的地盘

02-08

4683

对于大数据集的文本数据，使用spark运行word2vec时对spark的设置：首先word2vec暂时就不介绍了，在上代码之前我先简要介绍下我的数据，我使用的是新闻文本数据，分词之后初步统计大概有674608个词。（ps 我也不知道这数据量能不能算得上大数据)，然后简单的调用spark中的word2vec程序，并且将运行的模型保存下来。我的spark设置大致如下上面是最基本的

机器学习spark ml提取文章关键词特征并聚类word2Vec+KMeans

灬皇帝的新装灬的博客

10-22

2862

1.取英文文章数据，训练成模型，就是特征向量，用word2Vec。 2.然后用这个模型，去将新数据，或者老数据进行分类。 3.效果非常好的话，会形成类似：体育、游戏、生活、艺术等类别。 4.所用为最新的spark ml，不是mllib。 5.中间可以自己加一些去除停用词，结果优化，格式化输出等。 val conf = new SparkConf().setMaster...

Spark推荐系列-Word2vec算法介绍、实现和应用说明

abcdefg90876的博客

05-26

1269

1. 背景word2vec 是Google 2013年提出的用于计算词向量的工具，在论文Efficient Estimation of Word Representations in Ve...

word2vec深度解析：原理与应用探讨

word2vec通过将单词映射到连续的向量空间，捕捉词汇之间的语义和语法关系，以便机器更好地理解和处理文本数据。文章按照以下几个部分展开： 1. **word2vec的基本概念**： - 文章首先介绍了word2vec的基本原理，它...