机器学习实战决策树之眼镜男买眼镜

最新推荐文章于 2021-09-30 14:05:22 发布

bollwang

最新推荐文章于 2021-09-30 14:05:22 发布

阅读量4.5k

点赞数 3

分类专栏： Data Mining 文章标签：数据挖掘机器学习决策树

本文链接：https://blog.csdn.net/wyb_009/article/details/9191325

版权

本文介绍了使用决策树进行机器学习的实践，重点在于如何利用决策树算法为眼镜男选择合适的隐形眼镜。内容涵盖决策树的优势、缺点、数据类型适用性，以及如何计算熵、划分数据集、选取最优划分方式等关键步骤。通过实例展示了从构建到应用决策树的全过程，并提及了数据集来源和最终结果——帮助眼镜男找到适合的隐形眼镜。

摘要由CSDN通过智能技术生成

欢迎关注我的个人博客blog.timene.com

决策树是个极其易懂的算法，建好模型后就是一连串嵌套的if..else...或嵌套的switch。

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据；

缺点：可能会产生过度匹配的问题；

适用数据类型：数值型和标称型。

决策树的Python实现：

（一）先实现几个工具函数：计算熵函数，划分数据集工具函数，计算最大概率属性；

（1）计算熵：熵代表集合的无序程度，集合越无序，熵越大；

def entropy(dataset):
	from math import log  
	log2 = lambda x:log(x)/log(2) 
	
	results={}  
	for row in dataset:  
		r = row[len(row)-1]
		results[r] = results.get(r, 0) + 1
	
	ent = 0.0
	for r in results.keys():  
		p = float(results[r]) / len(dataset)  
		ent=ent-p*log2(p)  
	return ent

（2）按属性和值获取数据集：

def fetch_subdataset(dataset, k, v):
	return [d[:k]+d[k+1:] for d in dataset if d[k] == v]

这个函数只有短短一行，他的意义是：从dataset序列中取得第k列的值为v的子集，并从获得的子集中去掉第k列。python的简单优美显现无遗。

（3）计算最大概率属性。在构建决策树时，在处理所有决策属性后，还不能唯一区分数据时，我们采用多数表决的方法来

最低0.47元/天解锁文章

bollwang

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录