代码
# 首先对数据进行切分,即分出数据集和测试集
import pandas as pd
from sklearn.model_selection import train_test_split
iris_data = pd.read_csv('C:/Users/it possible/Desktop/新建文件夹/titantic_and_iris_dataset/mytestData.csv')
# all_inputs = iris_data[['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width']].values
all_inputs = iris_data[['1', '2', '3', '4', '5']].values
all_classes = iris_data['Species'].values
# 设置随机数种子,保证每次都是同一个随机数。若为0或不填,则每次得到数据都不一样
(X_train, X_test, Y_train, Y_test) = train_test_split(all_inputs, all_classes, train_size=0.8, random_state=0)
# 使用决策树算法进行训练
from sklearn.tree import DecisionTreeClassifier
# 定义一个决策树对象
decision_tree_classifier = DecisionTreeClassifier()
# 训练模型
model = decision_tree_classifier.fit(X_train, Y_train)
# 所得模型的准确性
print(decision_tree_classifier.score(X_test, Y_test))
# 使用训练的模型进行预测,为了偷懒,
# 直接把测试集里面的数据拿出来了三条
print(X_test[0:2])
print(Y_test[0:2])
print(model.predict(X_test[0:2]))
数据集csv文件数据填写方式
第一行填写数据类别
第一列填写数据编号
最后一列填写数据所属类别