![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 79
zou_gr
在路上,在努力,在成长,
展开
-
集成学习(下)Stacking集成学习方法原理与实战
导言上次我们介绍了Blending算法的优缺点,而Stack算法的出现就是解决了Blending的缺点并进行改进。原理简单来说,Stacking就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。我们举个例子来具体感受Stacking处理问题的细节。(1)将所有数据集生成测试集和训练集(假如训练集为10000条,测试集为2500条),那么第一层会进行5折交叉验证(折数可以自己定),使用训练集中的8000条作为训练集,剩余2000行作为验证集。(原创 2021-05-13 10:48:04 · 1365 阅读 · 3 评论 -
集成学习(下) Blending集成学习算法原理和实战
导言Blending被称为简化版的Stacking,是属于集大成类的算法之一。我们通过原理和简单实战了解Blending是在做什么?原理学习方式(1) 将数据划分为大训练集和测试集,其中大训练集需要再次划分为小训练集和验证集(划分的比例取决于自己);(2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的;(模型的选择可以说是监督学习的任何模型都可以接受)(3) 使用大训练集训练步骤2中的多个模型,然后用训练好的模型预测验证集和测试集得到val_predict, test_predict原创 2021-05-11 22:07:25 · 887 阅读 · 1 评论 -
集成学习(中)——基于Boosting方式的集成方法简单原理及代码实战(上)
Boosting概述怎么理解Boosting?我觉得我们可以从回答问题出发,解决这个问题。第一个是每一轮学习应该如何改变数据的概率分布?第二个是如何将各个弱分类器组合起来如Adaptive Boosting(Adaboost)和 Gradient Boosting(GBDT)及其变体Xgboost、LightGBM以及Catboost都是在采用不同的方法去解答这个问题。同时也声明本文不做详细的数学原理推导AdaboostAdaboost可谓是Boosting最经典的算法,对于Adaboos原创 2021-04-18 07:16:22 · 465 阅读 · 0 评论 -
集成学习(中)——投票法和bagging及代码实现
投票法讲bagging前就应该先谈到投票法,投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。举个例子,在预测泰坦尼克号的生死问题上,综合了logistics、Knn和决策树三个模型的预测结果,再决定出label的叫做投票。那么怎么综合这三个模型的预测结果便是关键问题了,第一种,直接使用预测的结果,如果三个模型中,一个预测死,两个预测生,那么便是生,这就是投票法的硬投票,第二种,使用模型预测的概率,可以做平均,也可以出现第四个模型讲三个模型的概率作为输入,再原创 2021-04-13 23:46:25 · 2821 阅读 · 2 评论 -
集成学习(上)三之优化模型基础
背景在前面我们已经基本了解了机器学习项目的选择模型大致流程,原创 2021-03-21 23:33:09 · 329 阅读 · 0 评论 -
超级详细证明感知机收敛性(Novikoff定理)
前提此文章是根据李航的《统计学习方法2》进行详解的,需要了解感知机的基本原理才能看懂下面的公式推导。感知机收敛性(Novikoff定理)原创 2021-03-20 12:11:50 · 1284 阅读 · 3 评论 -
集成学习(上)二之构建完整的机器学习项
背景本章通过简单的实例来完成正常情况下我们需要完成一个机器学习项目需要进行哪些步骤。一般情况下,一个完整的机器学习项目分为以下步骤:获取数据集数据清洗特征工程(简单来说就是选择合适的特征)选择模型训练选择度量模型性能的指标并评估模型模型调参优化。在这些步骤中,我们大部分的时间都是在花在数据清洗上,但是本章的目的是为了了解机器学习的步骤,所以采用了干净的数据集——波士顿房价。构建流程由上一篇文章,我们已经知道波士顿房价的预测问题是回归问题,因此我们此次选择线性模型进行拟合。获取数据原创 2021-03-18 10:14:56 · 143 阅读 · 12 评论 -
集成学习(上)之机器学习基础
背景关注datawhale这个团队挺久的了,最近参加了他组织的一个线上组队学习,第二十三期组队学习_集成学习(上),需要写点东西进行打卡,所以就在csdn进行简单的总结和回顾了。导论讲到机器学习最基础的东西,那肯定得问什么是机器学习?其实机器学习包括的东西太多了,我的理解其实就是机器学习就是像人学习一样,告诉一个人这个动物是狗,等见过很多狗的时候,下一次问他这是什么动物,他就可以答出这是狗,机器也是同样,我们给点数据他训练,然后机器就可以学习到我们想要的东西。这是我们白话上简单的理解机器学习,像数学原创 2021-03-15 12:54:07 · 179 阅读 · 0 评论 -
logistics回归原理推导+纯代码实现泰坦尼克号预测
前言刚开始接触机器学习的时候,了解比较多的还是回归问题,但其实实际生活中,更多的是分类问题,例如人脸识别、目标识别、过滤垃圾邮件等等。而logistics可以说是最简单的分类算法。sigmoid函数sigmoid函数又称logistics函数,如图呈现s形,**sigmoid可以将线性回归函数值映射到区间 ( 0,1 ) ** ,作为概率输出,大于或等于0.5判为正类,小于0.5判为父类。那么又有疑问了?那是不是logistics只能做二分类呢?那肯定不是啦,只要能做二分类,那肯定就能做多分类,因为我原创 2020-06-27 15:29:00 · 654 阅读 · 0 评论 -
卷积神经网络简单理解+pytorch实战操作
一 前言卷积神经网络(CNN)可谓是深度学习网络的经典代表之一,吹牛的话就不多说了,我们直接说正事。其实学习过CNN的人都应该知道,其实CNN理解并不难,但是往往认为自己懂的时候,我觉得更应该多问自己一些理解模糊的问题,那这篇文章就是带领大家再大概了解一下CNN到底做了什么事,使得图像识别的准确率提高那么多。二 CNN的基本操作我们所了解到的神经网络模型,基本都可以认为,神经网络就是在自动...原创 2020-03-19 22:40:51 · 682 阅读 · 5 评论 -
机器学习十大算法之kNN和python实现
knn算法简介K-近邻算法( KNN ),又叫K最近邻分类算法,也称懒惰学习,是数据挖掘分类技术中最简单的方法之一。少应用在回归问题上,常用来做分类。knn怎么分类?我们举个书里面通俗易懂的案例来讲一下knn是怎么进行分类的。我们用某电影发生打斗的场面和接吻的场面来确定该电影是动作片还是爱情片。现已有以下电影的统计,并给出未知电影的打斗镜头和接吻镜头的次数,用knn求这部未知电影的分类:...原创 2020-01-24 01:28:27 · 398 阅读 · 0 评论 -
机器学习 用python和matlab实现决策树
1.认识决策树决策树的思想来源非常之简单,就是条件分支语句:“如果是,执行哪一步,如果否,执行哪一步”,我们通过一个案例对决策树形成初步认识。...原创 2020-01-19 21:51:44 · 2639 阅读 · 0 评论