python机器学习实战——算法篇之决策树算法(学习的心路历程及学习路线适合小白)(上)

本文介绍了决策树的基本概念,包括信息熵和信息增益,并通过一个放贷决策树的实例展示了其在实战中的应用。强调了机器学习在构建决策树过程中的作用,提供了一个学习决策树的初步路径,鼓励读者通过阅读代码和实践来深入理解。
摘要由CSDN通过智能技术生成

传统的机器学习有很多的算法,我上一篇文章整理的KNN是一类,本文将要讲的决策树也是一种很重要的算法,当然要提前说明的是,这些算法本身也有很多小的知识点和分类,我这里只准备将其最经典的算法(或者说入门算法,以及自己对它的理解)随着自己的技术水评的提升后期会一一补充回来的。

决策树的相关理论知识,我认为比我整理的全面的大有人在,所以在这里就分享出来 : 决策树(分类树、回归树) 而我只分享自己的感想,因此各位读者在阅读本文的文章和代码的过程中一定要去认真看看提及到的相关文章,站在巨人的肩膀上才能看的更远,当然本文不会提及决策树相关的所有概念,欢迎补充指点。

在记录我的学习路径之前我还是提一下喽,非常欢迎志同道合的同学加入我们的交流群,可以讨论相关的所有内容,我也会把包括我文章资源在内的所有资源尽数分享给大家,一起学习一起进步,欢迎进群~~~

在这里插入图片描述


一 、决策树相关概念及理解

注: 相关概念中所包含的概念只是我认为非常必要且重要的,但是并不完整。
在这里插入图片描述

个人理解:

可以将决策树理解为一个构建(倒置大树)的一个过程,而我们构建的算法就是完成这一个“”的工具,可能你会疑问那机器学习在这里扮演的位置是什么呢?

没错,机器学习就是用于完成在从若干的训练集中提取相关信息(香农熵与信息增益),也就是说,我们构建好的这棵其中包含了针对相关事件或者数据的潜在信息或者内在信息,而预先判断(本质是分类)正是用这些信息进行的。

当然,你也可以说,人工也可以提取这些信息,无非就是在不同情况下做什么决定的问题,当然可以,但是如果一件事物的影响因素(特征维度)远远大于人的处理极限的时候,就需要决策树算法(或者别的算法)帮助了。

而决策树算法的本质是对于不同特征的级次进行排序的问题(计算对应的信息增益)

举个栗子:

女孩去相亲,相亲条件是将有房有车排在第一位(第一级)还是将有上进心排在第一级,这就是决策树的问题。

  • 香侬熵(information entropy)
  • 信息增益(information gain)

香侬熵(information entropy):
在这里插入图片描述
其中P 是对应事件的概率(这个概念看起来简单,但是实际运算与使用过程中只有用心体会才能进一步理解)而ln也可以替换为对应的log2

信息增益(information gain):

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值