机器学习实战决策树之眼镜男买眼镜

本文介绍了使用决策树进行机器学习的实践,重点在于如何利用决策树算法为眼镜男选择合适的隐形眼镜。内容涵盖决策树的优势、缺点、数据类型适用性,以及如何计算熵、划分数据集、选取最优划分方式等关键步骤。通过实例展示了从构建到应用决策树的全过程,并提及了数据集来源和最终结果——帮助眼镜男找到适合的隐形眼镜。
摘要由CSDN通过智能技术生成

欢迎关注我的个人博客blog.timene.com

决策树是个极其易懂的算法,建好模型后就是一连串嵌套的if..else...或嵌套的switch。

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据;

缺点:可能会产生过度匹配的问题;

适用数据类型:数值型和标称型。


决策树的Python实现:

(一)先实现几个工具函数:计算熵函数,划分数据集工具函数,计算最大概率属性;

(1)计算熵:熵代表集合的无序程度,集合越无序,熵越大;

def entropy(dataset):
	from math import log  
	log2 = lambda x:log(x)/log(2) 
	
	results={}  
	for row in dataset:  
		r = row[len(row)-1]
		results[r] = results.get(r, 0) + 1
	
	ent = 0.0
	for r in results.keys():  
		p = float(results[r]) / len(dataset)  
		ent=ent-p*log2(p)  
	return ent  
	

(2)按属性和值获取数据集:

def fetch_subdataset(dataset, k, v):
	return [d[:k]+d[k+1:] for d in dataset if d[k] == v]
这个函数只有短短一行,他的意义是:从dataset序列中取得第k列的值为v的子集,并从获得的子集中去掉第k列。python的简单优美显现无遗。

(3)计算最大概率属性。在构建决策树时,在处理所有决策属性后,还不能唯一区分数据时,我们采用多数表决的方法来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值