决策树之实现

import  pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

##http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

data = pd.read_csv('aaa.txt')
# print(data)

#2,pclass, age, sex
x = data[['pclass','age','sex']]
y = data['survived']

#3.数据清洗:
# print(x.isnull().sum())
#填充缺失值
x['age'].fillna(x['age'].mean(),inplace = True)
# print(x.isnull().sum())

#one-hot编码: —— 替代类别号
y1= x.to_dict(orient='records') ##转换为字典类型
# print(y1)

#转化为数组类型
dict1 = DictVectorizer(sparse=False)
# print(dict1)
x = dict1.fit_transform(y1)
# print(x)
print(dict1.get_feature_names())

##测试集、训练集的分割:
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.7)

#决策树 :
dc = DecisionTreeClassifier(criterion='entropy',max_depth=5)
y = dc.fit(x_train,y_train)
# print(y)

y1 = dc.predict(x_test)
print('测试结果:\n',y1)
print('真实结果:\n',y_test)

#准确度的方法:
print(dc.score(x_test, y_test))

from sklearn.tree import export_graphviz

export_graphviz(dc,out_file='tree.dot',feature_names=['age', 'pclass=1st', 'sex=female', 'sex=male'])
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值