3.2 决策树(decision tree)应用

Python机器学习库:scikit-learn

1、特性:

简单高效的数据挖掘和机器学习分析

对所有用户开放,根据不同需求可高度可重用性

基于Numpy,Scipy和matplotlib

开源,商用级别:获得BSD许可

2、覆盖问题领域:

分类(Classification),回归(Regression),聚类(Clustering),降维(dimensionality reduction)

模型选择(model selection),预处理(preprocessing)

3、使用scikit-learn

安装scikit-learn:pip,easy_install,Windows installer

安装必须package:numpy,Scipy和matplotlib,可使用Anaconda(包含numpy,scipy等科学计算常用package)

安装注意问题:python解释器版本(2.7 or 3.4?),32-bit or 64-bit系统

安装Graphviz:http://www.graphviz.org/    配置环境变量    转化dot文件至pdf可视化决策树。


决策树(decision tree)应用:Datesets.csv数据集


from sklearn.feature_extraction import DictVectorizer  #feature特征 extraction提取 dict字典 vectorizer向量化程序
import csv   #csv程序
from sklearn import preprocessing   #preprocessing预处理
from sklearn import tree   #tree树
from sklearn.externals.six import StringIO  #external外部的   string字符串

allElectronicsData = open(r'E:\\data\\DataSets.csv','rb')  #electronics电子工业
reader = csv.reader(allElectronicsData)
headers = reader.next()

print(headers)

featureList = []  #特征示例
labelList = []   #标号表

for row in reader:  #行
    labelList.append(row[len(row) - 1])
    rowDict = {}
    for i in range(1, len(row) - 1):
        rowDict[headers[i]] = row[i]
    featureList.append(rowDict)
    
print(featureList)

vec = DictVectorizer()
dummyX = vec.fit_transform(featureList).toarray()

print("dummyX:" + str(dummyX))  #dummy虚拟的
print(vec.get_feature_names())

print("labelList:" + str(labelList))

lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(labelList)
print("dummyY:" + str(dummyY))

clf = tree.DecisionTreeClassifier(criterion='entropy')  #熵
clf = clf.fit(dummyX,dummyY)
print("clf:" + str(clf))

with open("allElectronicInformationGainOri.dot",'w') as f:
    f = tree.export_graphviz(clf,feature_names=vec.get_feature_names(),out_file = f)
    

oneRowX = dummyX[0,:]
print("oneRowX:" + str(oneRowX))

newRowX = oneRowX

newRowX[0] = 1
newRowX[2] = 0
print("newRowX:" + str(newRowX))

predictedY = clf.predict(newRowX)
print("predictedY:" + str(predictedY))


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值