3、决策树

决策树主要包括ID3、C4.5、CART三种主要的算法。这三种算法的思想是一致的,都是选择一个属性,对特征空间逐步细分,最后再剪枝。这三步用书上的原话说就是:特征选择,决策树的生成和剪枝。


1、特征选择

信息增益相当于“用这个特征分类”和“数据集本身混乱度”之间的互信息。我们倾向于选择能提供更大互信息的特征,这样意味着用该特征分类更有价值。

在ID3算法中,特征选择是使用了信息增益最大的特征作为节点特征。通过计算特征集中最大的信息增益来选择特征。

但是这样有一点不足,取值较多的特征,一般来说互信息也比较大。所以我们提出了信息增益比的概念。

C4.5算法与ID3的算法基本一致,只是使用信息增益比来代替信息增益。

而在CART算法中,这一想法又有了一些改变。

对于CART回归树,我们采用最小均方误差准则。遍历所有的输入变量和它的定义域,找到最优的特征值对(均方误差最小),然后做分类。

而CART分类树,我们定义了基尼指数(这个是用来衡量数据集的混乱程度,与信息熵类似),切分的方式与回归树类似,一次选择一个特征值对,找到分类后基尼系数最小的特征值对。


2、决策树的生成

一般决策树的生成都是特征选择-->划分特征空间的迭代过程,满足一定条件时结束生成。

这里的条件主要包括:子空间内数据点少,信息增益(信息增益比、基尼指数)小于指定阈值。


3、剪枝

剪枝是为了降低模型的复杂度,一般最小化损失函数。

损失函数由两部分构成,模型精确度项(信息增益,基尼指数等构成)和复杂度罚项。

CART考虑的因素比较多,还考虑了如何找到合适的参数。如果损失函数相同,选择模型复杂度最小的。

内容概要:本文详细探讨了智慧医疗建设的历程、现状、挑战及未来发展趋势。智慧医疗建设经历了信息化、数字化和数智化三个阶段,政策、需求和技术是其发展的三大推动力。文章指出,当前智慧医疗已从数据收集与治理阶段迈向数据价值应用阶段,特别是在高质量数据库建设、云计算、人工智能等技术的推动下,实现了临床科研、药物研发、真实世界研究及数字营销等多个场景的商业化落地。此外,文中还分析了医疗信息化系统同质化、数据孤岛、互联互通等痛点,并提出了云化转型、新产品、新技术和新服务作为突破方向。最后,通过奈特瑞、医渡科技、东软集团三个企业案例,展示了不同企业在智慧医疗领域的创新实践。 适合人群:医疗信息化从业者、医疗行业研究人员、医疗机构管理者、医疗科技企业相关人员、政策制定者及对智慧医疗感兴趣的投资者。 使用场景及目标:①了解智慧医疗建设的阶段性特征和发展趋势;②掌握医疗信息化建设中的关键技术和应用场景;③探讨解决医疗信息化系统同质化、数据孤岛等问题的策略;④学习企业如何通过新产品、新技术和新服务实现突破,推动智慧医疗发展。 其他说明:本文通过对智慧医疗建设的深入剖析,强调了政策导向、技术创新和市场需求的重要性,为企业和政策制定者提供了宝贵的参考。同时,文章也揭示了未来智慧医疗发展的广阔前景,特别是在数据资产化和数智化应用方面的巨大潜力。阅读时应注意结合政策背景和技术发展趋势,关注行业动态和企业创新实践。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值