一个 python + 数据预处理+随机森林模型 (案列)

本文提供了一个Python实现的数据预处理和随机森林模型的案例,详细介绍了如何运用随机森林进行分类,并强调该案例适合有一定基础的读者。文中还提及了随机森林的原理和学习算法,并给出了相关库的安装建议。
摘要由CSDN通过智能技术生成

一个 python + 数据预处理+随机森林模型 (案列)

本次使用的是 样本可以去 boci_trial_0423.csv 下载

下载boci_trial_0423.csv

也可以见文档



前言

这个是之前写的一个 python 的 + 随机森林模型例子,不适合初学者。

根据 百度百科的定义

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。

定义 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 “Random Forests” 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 “Bootstrap aggregating” 想法和 Ho 的"random subspace method"以建造决策树的集合。 随机森林是一种包含很多决策树的分类器,既可以用于处理分类和回归问题,也适用于降维问题。其对异常值与噪音也有很好的容忍,相较于决策树有着更好的预测和分类性能。 [3]

学习算法

根据下列算法而建造每棵树 [1]: 1.用N来表示训练用例(样本)的个数,M表示特征数目。 2.输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。 3.从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。 4.对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。 5.每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。


准备

[下载帮助文档]

image.png

请先安装下面的库

pip install sklearn
pip install pandas
pip install joblib

一、python 代码

深度学习和强化学习都需要丰富的词汇来定义架构

import pandas
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值