利用决策树算法进行预测

最新推荐文章于 2024-08-06 17:42:20 发布

probtions

最新推荐文章于 2024-08-06 17:42:20 发布

阅读量92

点赞数

文章标签：算法决策树机器学习

本文链接：https://blog.csdn.net/weixin_46028840/article/details/134340835

版权

利用决策树算法进行预测

from pyspark.ml.feature import StringIndexer, VectorAssembler

df_train = spark.read.csv('./data/titanic-train.csv',header=True,inferSchema=True).cache()

df_train = df_train.fillna({'Age': round(29.699,0)})
df_train = df_train.fillna({'Embarked': 'S'})

labelIndexer = StringIndexer(inputCol="Embarked", outputCol="iEmbarked")
model = labelIndexer.fit(df_train)
df_train = model.transform(df_train)

labelIndexer = StringIndexer(inputCol="Sex", outputCol="iSex")
model = labelIndexer.fit(df_train)
df_train = model.transform(df_train)

# 选取数值类型的字段
features = ['Pclass', 'iSex', 'Age', 'SibSp', 'Parch', 'Fare', 'iEmbarked','Survived']
train_features = df_train[features]

# 将多列转换成向量
df_assembler = VectorAssembler(inputCols=['Pclass', 'iSex', 'Age', 'SibSp','Parch', 'Fare', 'iEmbarked'], outputCol="features")
train = df_assembler.transform(train_features)

from pyspark.ml.classification import DecisionTreeClassifier
#DecisionTree模型
dtree = DecisionTreeClassifier(labelCol="Survived", featuresCol="features")
treeModel = dtree.fit(train)

#打印treeModel
print(treeModel.toDebugString)

#利用模型的transform方法对训练数据train进行预测
dt_predictions = treeModel.transform(train)
# 从预测集合中选择 "prediction", "Survived", "features" 这三个字段进行显示
dt_predictions.select("prediction", "Survived", "features").show()

from pyspark.ml.evaluation import MulticlassClassificationEvaluator

multi_evaluator = MulticlassClassificationEvaluator(labelCol = 'Survived', metricName = 'accuracy')

print('Decision Tree Accu:', multi_evaluator.evaluate(dt_predictions))

注释：
accuracy 精度

probtions

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
利用决策树算法进行预测

从预测集合中选择 "prediction", "Survived", "features" 这三个字段进行显示。利用模型的transform方法对训练数据train进行预测。#DecisionTree模型。#打印treeModel。利用决策树算法进行预测。accuracy 精度。
复制链接

扫一扫