[学习笔记]随机森林预测代码MATLAB-华数杯2023C题

zhounei

已于 2023-08-27 20:46:57 修改

阅读量899

点赞数 4

文章标签：学习笔记随机森林

于 2023-08-24 14:58:47 首次发布

本文链接：https://blog.csdn.net/zhounei/article/details/132473837

版权

今天写了一个随机森林分类代码，实测没毛病，大家可以放心用

决策树

决策树通过把样本实例从根节点排列到某个叶子节点来对其讲行分类。树上的每个非叶子节点代表对一个属性取值的测试其分支就代表测试的每个结果;而树上的每个叶子节点均代表一个分类的类别，树的最高层节点是根节点

简单地说，决策树就是一个类似流程图的树形结构，采用自顶向下的递归方式，从树的根节点开始，在它的内部节点上进行属性值的测试比较，然后按照给定实例的属性值确定对应的分支，最后在决策树的叶子节点得到结论。这个过程在以新的节点为根的子树上重复。

优缺点

随机森林分类

1.输入训练集，测试集

在处理过异常值后，输入data，以7：3为比例，先用randperm生成随机数,随机数就是你代码的行数，把数据分为测试和训练集，然后进行归一化，PN，PM是自变量，TN,TM是因变量

clc, clear all,close all;
data = xlsread('附件-副本.xlsx');
%% 划分训练集和测试集
TE = randperm(389); % 将数据打乱，重新排序；

PN = data(TE(1:273), 2:9)'; % 划分训练集输入
TN = data(TE(1:273), 10)'; % 划分训练集输出

PM = data(TE(274:end), 2:9)'; % 划分测试集输入
TM = data(TE(274:end), 10)'; % 划分测试集输出

[pn, ps_input] = mapminmax(PN, 0, 1); % 归一化到（0，1）
pn = pn';
pm = mapminmax('apply', PM, ps_input); % 引用结构体，保持归一化方法一致；
pm = pm';
[tn, ps_output] = mapminmax(TN, 0, 1);
tn = tn';

2.模型参数设置及训练模型

我们可以不断调整决策树数目和最小叶子数，来改进模型准确性，选择“分类”模型

%% 模型参数设置及训练模型
trees = 800; % 决策树数目
leaf = 3; % 最小叶子数
OOBPrediction = 'on'; % 打开误差图
OOBPredictorImportance = 'off'; % 关闭特征重要性
Method = 'classification'; % 选择回归或分类
rf = TreeBagger(trees, pn, tn, 'OOBPredictorImportance', OOBPredictorImportance, ...
    'Method', Method, 'OOBPrediction', OOBPrediction, 'MinLeafSize', leaf, 'NumPredictorsToSample', 'all');

3.仿真测试，反归一化

我们用rf来计算测试集的预测值，并将预测标签转换为离散的数值类型


%% 仿真测试
pyuce = rf.predict(pm);
pyuce = str2double(pyuce); % 将预测标签转换为离散的数值类型

%% 数据反归一化
Pyuce = mapminmax('reverse', pyuce, ps_output);
Pyuce = round(Pyuce); % 四舍五入为最接近的整数标签

4.绘图以及准确率计算

在这里，随机森林分类模型中，我们把准确率定义为预测值对的个数除以总个数，A就是预测对的个数


%% 绘图
figure % 画图真实值与预测值对比图
plot(TM, 'bo-')
hold on
plot(Pyuce, 'r*-')
hold on
legend('真实值', '预测值')
xlabel('预测样本')
ylabel('预测结果')
grid on

%% 相关指标计算
A=sum(Pyuce==TM') ;
accuracy =A / length(TM);
% accuracy=sum(accuracy)/ length(TM);
disp(['测试集数据的分类准确率为：', num2str(accuracy)])

5.给定自变量后预测未来值

我们打开有自变量的数据集，即因变量未知，我们用rf来进行预测

%% 预测
data2=xlsread("附件 (2).xlsx");
future_input = data2(391:410, 2:9)';
normalized_future_input = mapminmax('apply', future_input, ps_input);
normalized_future_input = normalized_future_input';
future_prediction = rf.predict(normalized_future_input);
future_prediction = str2double(future_prediction);
reverse_future_prediction = mapminmax('reverse', future_prediction, ps_output);
reverse_future_prediction = round(reverse_future_prediction);

6.结果

由于样本较少和题目原因，经过多次测试，准确率可达到60%以上

随机森林回归

完整代码

由于步骤一样，我就不多说了，完整代码如下：

clc, clear all;
data = xlsread('附件-副本.xlsx');

%%  划分训练集和测试集
TE= randperm(389);%将数据打乱，重新排序；

PN = data(TE(1: 273), 2: 9)';%划分训练集输入
TN = data(TE(1: 273), 10)';%划分训练集输出

PM = data(TE(274: end), 2: 9)';%划分测试集输入
TM = data(TE(274: end), 10)';%划分测试集输出

%%  数据归一化
[pn, ps_input] = mapminmax(PN, 0, 1);%归一化到（0，1）
pn=pn';
pm = mapminmax('apply', PM, ps_input);%引用结构体，保持归一化方法一致；
pm=pm';
[tn, ps_output] = mapminmax(TN, 0, 1);
tn=tn';

%%  模型参数设置及训练模型
trees = 1000; % 决策树数目
leaf  = 5; % 最小叶子数
OOBPrediction = 'on';  % 打开误差图
OOBPredictorImportance = 'on'; % 计算特征重要性
Method = 'regression';  % 选择回归或分类
net = TreeBagger(trees, pn, tn, 'OOBPredictorImportance', OOBPredictorImportance,...
      'Method', Method, 'OOBPrediction', OOBPrediction, 'minleaf', leaf);
importance = net.OOBPermutedPredictorDeltaError;  % 重要性

%%  仿真测试
pyuce = predict(net, pm );

%%  数据反归一化
Pyuce = mapminmax('reverse', pyuce, ps_output);
Pyuce =Pyuce';

%%  绘图
figure %画图真实值与预测值对比图
plot(TM,'bo-')
hold on
plot(Pyuce,'r*-')
hold on
legend('真实值','预测值')
xlabel('预测样本')
ylabel('预测结果')
grid  on

figure % 绘制特征重要性图
bar(importance)
legend('各因素重要性')
xlabel('特征')
ylabel('重要性')

%%  相关指标计算
error=Pyuce-TM;
[~,len]=size(TM);
R2=1-sum((TM-Pyuce).^2)/sum((mean(TM)-TM).^2);%相关性系数
MSE=error*error'/len;%均方误差
RMSE=MSE^(1/2);%均方根误差
disp(['测试集数据的MSE为：', num2str(MSE)])
disp(['测试集数据的MBE为：', num2str(RMSE)])
disp(['测试集数据的R2为：', num2str(R2)])

有问题可留言