![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
R
文章平均质量分 58
zhouxiuli1001
生活如此多娇
展开
-
决策树
1、基本思想: 忽略对数据分布的要求,找出输入变量和输出变量取值间的逻辑对应关系并实现对新数据输出变量的预测。包括分类树和回归树。 分类树:通过对特征空间的划分,使得同一区域中样本输出变量尽可能取同一类别值。 回归树:通过对特征空间的划分,即同一区域中样本输出变量取值的离散程度应尽可能低。 2、两大问题: 2.1 树的生长,即利用训练样本集完成决策树的建立过程。 决策树生长伪代码:...原创 2018-09-11 16:49:29 · 1498 阅读 · 0 评论 -
高精准的分类方法---Boosting
基本思想 回忆袋装技术: 根据重抽样自举法(各观测被抽到的概率相等1/n)建立k棵树,最后这k棵树各自对数据进行预测,预测结果根据少数服从多数规则得出最终结果。 对袋装技术的改进–boosting: boosting也是进行重抽样,但是希望每次抽样,能较大概率的抽到预测错误的观测。 建模过程: 第1次抽样:各观测被抽到的概率相等,都是1/n,建立第1棵树,对数据进行预测,计算此时模型的...原创 2018-09-13 15:48:55 · 378 阅读 · 0 评论 -
KNN
1、基本思想: 将样本包含的n个观测数据看成p维(p个输入变量)特征空间中的点,为预测一个新观测X0输出变量y0的取值,首先在已有数据中找到与X0相似的K个观测,如(X1, X2, …, Xk),这些观测称为X0的近邻。对于分类问题,预测值应为最大概率值对应的分类;对于回归预测问题,是近邻输出变量的平均值。 核心问题:依据怎么的标准选择近邻?选择几个近邻(k如何确定)?...原创 2018-09-07 15:31:50 · 1681 阅读 · 1 评论 -
组合预测模型:bagging
基本思想 通过Bootstrap抽样(0.632自举法),对样本量为n的样本,做k次有放回重复抽样,得到k个样本容量仍为n的随机样本Si,基于样本Si,建立k棵分类回归树,即k个预测模型。 对于分类问题,采用k个预测模型“投票”和“少数服从多数”的原则。哪个类别“得票”最多,就预测为哪个类别。对于回归问题,以k个预测模型给出的预测值的平均值作为最终的预测值。 若令k个预测模型为所有观测投票预...原创 2018-09-13 13:11:19 · 6810 阅读 · 0 评论 -
用R绘制几个常见的统计描述图
直方图 单个直方图: mycol <- c("#377EB8","#FF7F00","#4DAF4A") #定义颜色变量 p0 <- ggplot(data=dt1,aes(x=index1))+ geom_histogram(fill = mycol[1],posit原创 2018-09-03 18:08:36 · 3274 阅读 · 0 评论