Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)

最新推荐文章于 2024-08-29 17:03:58 发布

阳光洒落你窗前

最新推荐文章于 2024-08-29 17:03:58 发布

阅读量9.7k

点赞数 3

分类专栏： scala spark 文章标签： spark

scala 同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

10 篇文章 1 订阅

订阅专栏

题目: 将数据的某个特征作为label, 其他特征(或其他某几个特征)作为Feature, 转为LabelPoint

参考: http://www.it1352.com/220642.html

首先构造数据

import scala.util.Random.{setSeed, nextDouble}
setSeed(1)

case class Record(foo: Double, target: Double, x1: Double, x2: Double, x3: Double)

val rows = sc.parallelize(
    (1 to 10).map(_ => Record(
        nextDouble, nextDouble, nextDouble, nextDouble, nextDouble
   ))
)
val df = sqlContext.createDataFrame(rows)
df.registerTempTable("df")

sqlContext.sql("""
  SELECT ROUND(foo, 2) foo,
         ROUND(target, 2) target,
         ROUND(x1, 2) x1,
         ROUND(x2, 2) x2,
         ROUND(x2, 2) x3 
  FROM df""").show

得到的数据如下:

+----+------+----+----+----+
| foo|target|  x1|  x2|  x3|
+----+------+----+----+----+
|0.73|  0.41|0.21|0.33|0.33|
|0.01|  0.96|0.94|0.95|0.95|
| 0.4|  0.35|0.29|0.51|0.51|
|0.77|  0.66|0.16|0.38|0.38|
|0.69|  0.81|0.01|0.52|0.52|
|0.14|  0.48|0.54|0.58|0.58|
|0.62|  0.18|0.01|0.16|0.16|
|0.54|  0.97|0.25|0.39|0.39|
|0.43|  0.23|0.89|0.04|0.04|
|0.66|  0.12|0.65|0.98|0.98|
+----+------+----+----+----+

假设我们想排除x2和foo, 抽取 LabeledPoint(target, Array(x1, x3)):

import org.apache.spark.mllib.linalg.{Vector, Vectors}  
import org.apache.spark.mllib.regression.LabeledPoint 

// Map feature names to indices
val featInd = List("x1", "x3").map(df.columns.indexOf(_))

// Or if you want to exclude columns
val ignored = List("foo", "target", "x2")
val featInd = df.columns.diff(ignored).map(df.columns.indexOf(_))

// Get index of target
val targetInd = df.columns.indexOf("target") 

df.rdd.map(r => LabeledPoint(
   r.getDouble(targetInd), // Get target value
   // Map feature indices to values
   Vectors.dense(featInd.map(r.getDouble(_)).toArray) 
))

阳光洒落你窗前

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

阳光洒落你窗前 CSDN认证博客专家 CSDN认证企业博客

码龄16年

45: 原创

18万+: 周排名

222万+: 总排名

51万+: 访问

: 等级

3058: 积分

48: 粉丝

150: 获赞

43: 评论

464: 收藏

私信

关注

热门文章

分类专栏

数据库 1篇
打鸡血 4篇
参与的题目 2篇
扩展 3篇
书目 1篇
scala 16篇
算法 1篇
python 6篇
统计 2篇
数据挖掘 4篇
机器学习 5篇
Linux 4篇
前端 5篇
设计模式 1篇
sbt 2篇
spark 10篇
java 2篇
IDE 2篇
数据分析 2篇
git 1篇
效率 3篇

最新评论

数据挖掘竞赛题目 -- 文本分类
阿白_大攀: 你好该数据集测试集没有标签，能不能找到完整数据集
Markdown中公式的写法(Latex)
mileszhaof: 正态分布好像缺个负号
TF-IDF原理及使用
黑眼圈@~@: 我的数据计算出来TF-IDF的数值都是大于1的。用模拟数据大部分都是0<X<1之间的。好烦。实在不明白什么原因。
Spark集群中使用spark-submit提交jar任务包实战经验
lmw0320: 请教下，如果我是用pyspark交互环境下进入yarn模式，可以正常连接hbase获取数据。而如果用spark-submit提交完整的py代码，则会报这个资源不足的提示：WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources 进入pyspark的时候命令是pyspark --master yarn，我并没有指定相应的worker内存。。同样的，我用spark-submit提交的时候，也是没有指定： spark-submit --master yarn test.py 结果却一直无法获取到数据。RM的UI页面上，我也没有看到相应的任务在执行。。而我强制结束该spark-submit任务时，在Spark的 History Server的提交记录中却看到了该任务。。求指点下，如何解决。。
程序员的正能量：干IT的六大好处
qq_43646308: 冲冲冲

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。