如何将pyspark的rdd数据类型转化为DataFrame

一夜了

已于 2022-04-11 15:57:17 修改

阅读量7.6k

点赞数 3

分类专栏：机器学习及深度学习相关 NLP 文章标签： pyspark xgboost DataFrame pipelineRDD

于 2018-09-17 11:03:33 首次发布

本文链接：https://blog.csdn.net/yiyele/article/details/82734069

版权

机器学习及深度学习相关同时被 2 个专栏收录

36 篇文章 7 订阅

订阅专栏

NLP

33 篇文章 11 订阅

订阅专栏

1. 简述

在用pyspark进行开发的时候，经常会遇到如何将pyspark读取的数据使用xgboost的模型进行训练，当然，如果是使用scala，可以直接使用xgboost4j，这个库里面提供了可以读取rdd的数据文件的函数接口，通过scala可以很简单的进行训练，但是对于python用户来说，如何使用pyspark和xgboost进行训练，就比较难以处理了？
　　本人通过对libsvm的数据进行测试，实现了一套通过pyspark读取数据，xgboost训练的流程．

主要的思路是，首先，读取libsvm的数据．然后，将pipelineRDD数据转化为pyspark的DataFrame的数据类型，最后，通过pyspark中DataFrame的数据类型提供的函数，将pyspark中的DataFrame转化为pandas中的DataFrame的数据类型．
　在这里插入图片描述

2. 代码介绍

2.1 读取libsvm数据类型

data = MLUtils.loadLibSVMFile(sc,'{}://{}'.format(FLAGS.file_path, FLAGS.source_path))
# split data to train , test
(trainingData, testData) = data.randomSplit([0.7, 0.3])

2.2 转化label

def label_rdd_to_dataframe(sqlContext, data):
    label = data.map(lambda x: x.label)
    label_row = Row('label')
    label_rdd = label.map(lambda r: label_row(r))
    label_DF = sqlContext.createDataFrame(label_rdd)
    return label_DF.toPandas()

2.3 转化features

def features_rdd_to_dataframe(sqlContext, data):
    features = data.map(lambda x: Vectors.dense(x.features.toArray()))
    attribute_str = ['attributes[{}]'.format(i) for i in range(len(features.take(1)[0]))]
    features_rdd = features.map(lambda attributes: [float(eval(value)) for value in attribute_str])
    features_DF = sqlContext.createDataFrame(features_rdd)
    return features_DF.toPandas()

2.4 训练xgboost

# transform train data
label_train_DF = label_rdd_to_dataframe(sqlContext, trainingData)
features_train_DF = features_rdd_to_dataframe(sqlContext,trainingData)
train_data = xgb.DMatrix(features_train_DF, label=label_train_DF)

# transform test data
label_test_DF = label_rdd_to_dataframe(sqlContext, testData)
features_test_DF = features_rdd_to_dataframe(sqlContext, testData)
test_data = xgb.DMatrix(features_test_DF, label= label_test_DF)

# params
param_dict = {'eta':FLAGS.eta,
              "max_depth":FLAGS.max_depth,
              "silent":FLAGS.silent,
              "objective":FLAGS.objective,
              "lambda":FLAGS.xgb_lambda,
              "nthread":FLAGS.nthread}
evallist = [(test_data, 'eval'), (train_data, 'train')]
num_round = FLAGS.num_round

# train
model = xgb.train(param_dict,
                  train_data,
                  num_round,
                  evallist)

完整代码链接：