pyspark实现随机森林与交叉验证

最新推荐文章于 2024-05-24 20:58:29 发布

zx8167107

最新推荐文章于 2024-05-24 20:58:29 发布

阅读量3.9k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/zx8167107/article/details/101709245

版权

该博客详细介绍了如何使用PySpark进行随机森林模型的训练，包括交叉验证参数调优，并且讨论了如何保存和加载模型以进行测试及获取特征重要性排序。

摘要由CSDN通过智能技术生成

主要分为两大部分：

第一部分是训练模型、交叉验证调参以及保存模型；

第二部分是load模型并且测试模型以及获得特征重要性排序

# -*- coding:utf-8 -*-

### 获取数据以及特征列
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("RF").enableHiveSupport().getOrCreate()

data = spark.sql("SELECT * FROM db.data where event_date >= '2019-06-21' and event_date <= '2019-06-23'")
#数字型null值处理
data = data.na.fill(value=0.0, subset=['column', ...])
#字符型null值处理
data = data.na.fill(value='0', subset=['column', ...])

featureList = []
columns = data.columns
#取特征列
featureList.extend(columns[21:-1])

### 特征处理
import pyspark.ml.feature as ft

#离散型特征处理
labelIndexer = ft.StringIndexer(inputCol="label", outputCol="indexedLabel", handleInvalid='skip')
data = labelIndexer.fit(data).transform(data)
e_localday_indexed = f

最低0.47元/天解锁文章

zx8167107

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
pyspark实现随机森林与交叉验证

主要分为两大部分：第一部分是训练模型、交叉验证调参以及保存模型；第二部分是load模型并且测试模型以及获得特征重要性排序# -*- coding:utf-8 -*-### 获取数据以及特征列from pyspark.sql import SparkSessionspark = SparkSession.builder.appName("RF").enableHiveSupp...
复制链接

扫一扫