随机森林案例

基本原理

  • 单一决策树很容易产生过拟合;如果采用多棵决策树,共同投票来做决定,往往会比采用单一决策树具有更好的效果。
  • Bagging策略:从样本集(假设样本集N个数据点)中重采样选出n个样本(有放回的采样,样本数据点个数仍然不变为N),对这n个样本建立分类器(ID3\C4.5\CART等方法),重复以上两步m次,获得m个分类器,最后根据这m个分类器的投票结果,决定数据属于哪一类。
  • 使用步骤:
  • 样本的随机:从样本集中用Bagging策略随机选取n个样本
  • 特征的随机:从所有属性中随机选取个属性,选择最佳分割属性作为节点建立CART决策树(也可以是其他类型的分类器,比如SVM、Logistics)
  • 重复以上两步m次,即建立了 棵CART决策树
  • 这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类(投票机制有一票否决制、少数服从多数、加权多数)

案例1:使用自定义随机森林分类器

  • 分类器代码参考【random_forest.py】
  • 生成多棵决策树
  • 每棵决策树使用不完全相同的样本数据。每次生成决策树之前,先将原始样本数据的顺序打散,然后取前若干条数据作为样本
  • 因为特征数量不多,因此本例没有对特征进行随机选取,而是直接使用了所有特征
  • 投票
  • random_forest.forest_classify方法用于在多个决策树之间做出判别并根据投票结果给出最终判别
链接:https://pan.baidu.com/s/1x7XgdFHdEfykZm7bxs-1GQ?pwd=6688 
提取码:6688
''' 基于ID3决策树的随机森林实现 '''
import numpy as np    
import collections as col
import random_forest

data   = []    
labels = []   
inputs = [] 
with open("car.csv") as ifile:    
        first_line = True
        for line in ifile:
            if first_line:              # 跳过第一行(标题行)
                first_line = False
                continue
            rowDict = {}
            tokens = line.strip().split(',')  
            rowDict['buying']=tokens[0]
            rowDict['maint']=tokens[1]  
            rowDict['doors']=tokens[2]  
            rowDict['persons']=tokens[3]  
            rowDict['lug_boot']=tokens[4]  
            rowDict['safety']=tokens[5]  
            inputs.append((rowDict, False if tokens[-1]=='unacc' else True))

total_count = len(inputs)
train_inputs = []
test_inputs = []
temp = train_inputs, test_inputs
ratio = 0.75
for i in range(len(inputs)):
    dataSetIndex = 0 if np.random.random() < ratio else 1
    temp[dataSetIndex].append(inputs[i])

tree_count = 6              # 生成6棵树
sample_ratio = 0.75         # 每棵树中样本比例
sample_count = int(sample_ratio*len(train_inputs))
trees = []
for i in np.arange(tree_count):
    np.random.shuffle(train_inputs)                 # 打乱样本
    sample_inputs = train_inputs[:sample_count]
    tree = random_forest.build_tree_id3(sample_inputs)
    trees.append(tree)

correct_count = 0
for row in test_inputs:
    predict = random_forest.forest_classify(trees, row[0])  #random_forest.forest_classify方法用于在多个决策树之间做出判别并根据投票结果给出最终判别
    if predict == row[1]:
        correct_count += 1
print("预测正确率:", correct_count / len(test_inputs))

 案例2:使用sklearn.ensemble.RandomForestClassifier

''' 使用RandomForestClassifier '''
import numpy as np    
from sklearn.feature_extraction import DictVectorizer 
from sklearn.ensemble import RandomForestClassifier

data   = []    
labels = []    
with open("car.csv") as ifile:    
        for line in ifile:
            #data需要是字典形式,因为之后需要使用DictVectorizer()修改字符串数据类型,以便符合DecisionTreeClassifier()  
            rowDict = {}
            tokens = line.strip().split(',')  
            rowDict['buying']=tokens[0]
            rowDict['maint']=tokens[1]  
            rowDict['doors']=tokens[2]  
            rowDict['persons']=tokens[3]  
            rowDict['lug_boot']=tokens[4]  
            rowDict['safety']=tokens[5]  
            data.append(rowDict)  
            labels.append(tokens[-1])   
x = np.array(data)  
labels = np.array(labels)    
y = np.zeros(labels.shape)  # 初始label全为0  
  
y[labels =='vgood']=1       # 当label等于这三种属性的话,设置为1。  
y[labels =='good']=1  
y[labels =='acc']=1  
  
vec = DictVectorizer()      # 转换字符串数据类型  
dx = vec.fit_transform(x).toarray()  

# 拆分成训练数据和测试数据
ratio = 0.75
xTrain = []
yTrain = []
xTest = []
yTest = []
features = xTrain,xTest
labels = yTrain, yTest
for i in range(len(dx)):
    dataSetIndex = 0 if np.random.random() < ratio else 1
    features[dataSetIndex].append(dx[i])
    labels[dataSetIndex].append(y[i])
  
clf = RandomForestClassifier()
clf.fit(xTrain,yTrain)        

# 检查准确率
accuracy = clf.score(xTest, yTest)
print(accuracy)

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

伪_装

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值