快乐的小橘子-CSDN博客

原创 a1集成学习上-08Bagging的原理和案例分析-202104

目录1bagging的原理2bagging分类2.11bagging的原理Bagging的核心在于自助采样(bootstrap)这一概念，即有放回的从数据集中进行采样，也就是说，同样的一个样本可能被多次进行采样。一个自助采样的小例子是我们希望估计全国所有人口年龄的平均值，那么我们可以在全国所有人口中随机抽取不同的集合（这些集合可能存在交集），计算每个集合的平均值，然后将所有平均值的均值作为估计值。首先我们随机取出一个样本放入采样集合中，再把这个样本放回初始数据集，重复K次采样，最终我们可以获得一个大

2021-04-18 08:46:48 93

原创 a1集成学习上-07投票法的原理和案例分析-202104

目录1 投票法定义2 投票法分类2.2 按照投票应用情景分2.2 按照投票形式分3 案例分析3 引用参考**ps：第一次尝试在CSDN平台排版，有点意思**1 投票法定义投票法是一种遵循少数服从多数原则的集成学习模型，通过多个模型的集成降低方差，从而提高模型的鲁棒性。在理想情况下，投票法的预测效果应当优于任何一个基模型的预测效果。2 投票法分类投票法是一种遵循少数服从多数原则的集成学习模型，通过多个模型的集成降低方差，从而提高模型的鲁棒性。在理想情况下，投票法的预测效果应当优于任何一个基模型的预

2021-04-12 15:08:30 372

原创 a1集成学习上-06分类问题的评估及超参数调优-202103

模型性能评估k折交叉验证思想将数据分成k份，每一次取出其中的一份作为测试集，剩下的作为训练集，一共取k次，每次测试集都是互斥的，不重复取，最后计算所有测试集均方误差的平均值参数的具体意义sklearn.model_selection.cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=’warn’, n_jobs=None, verbose=0, fit_params=None, pre_dispatch=‘2*n

2021-03-28 10:41:48 130

原创 a2心脏信号分类-task05模型融合-202103

模型融合定义：大概意思就是三个臭皮匠订个诸葛亮吧，把若干个一般的模型进行融合，获取一个更优的模型。模型融合的层次结果层面的融合：对不同的结果进行融合，要求就是结果是得分尽量相近，但是结果的差异尽量大。特征层面的融合：适用于同种模型进行训练的时候，可以把特征切割给不同的模型模型层面的融合：不同模型的融合效果比较好，同种模型不同参数的融合效果一般。模型融合的方法（1）简单加权融合:包含回归问题中的算术平均融合和几何平均融合，分类问题中的投票（Voting)和综合排序融合（2）stacking/b

2021-03-28 10:05:36 82

原创 a1集成学习上-05基本的分类模型-202103

1、度量模型性能的指标对于回归模型和分类模型，度量模型性能的指标有所不同：对于回归模型而言，重点是看它预测值与实际值的差距大小，因此可用方差、偏差、残差这种指标来衡量；对于分类模型，重点是看他预测的分类与实际的分类的符合度，所以采用混淆矩阵里面的精确率，准确率，召回率等指标，以此来衡量分类的准确度2、常用的分类模型逻辑回归模型：虽然名字带回归，但却是分类模型，实质是在线性回归的基础上，引入logic函数，以此来讲所有实数转换为[0:1]直接的概率问题。基于概率的分类模型1）线性判别分析；

2021-03-27 20:45:14 96

原创 a2心脏信号分类-task04建模与调参-202103

此节涉及模型较多，既有逻辑回归模型、树模型等单一模型，又有基于单一模型的集成模型，在此基础上还要了解模型的调参，可以说涉及内容众多，与前三节相比，难度可谓是跳跃性增大，对于编程基础薄弱，数学知识所剩无几的小白菜来说难度较大。在此先把几种模型学习一下吧。逻辑回归模型：定义：将数据拟合到一个logit函数，从而能够完成对事件发生的概率进行预测。产生背景是线性回归对于分类的问题没有办法准确地分割，因此逻辑回归算法诞生。好处：原本输出结果范围可以非常大，通过sigmoid函数映射到(0,1)，从而完成

2021-03-25 14:43:56 98

原创 a1集成学习上-04掌握回归模型的评估及超参数调优-202103

参数和超参数的区别参数（model parameter）：模型根据数据自动学习得出的变量，应该就是参数。比如，深度学习的权重，偏差等，比如线性回归的系数超参数（model Hyperparameter）：用于确定模型的参数，超参数不同，模型是不同的，比如假设都是CNN模型，如果层数不同，模型不一样，虽然都是CNN模型。超参数一般根据经验确定。在深度学习中，超参数有：迭代次数，层数，每层神经元的个数等等。超参数搜索——网格搜索和随机搜索网格搜索适用于三四个（或者更少）的超参数，网格搜索的思想非常

2021-03-24 10:15:30 191

原创 a1集成学习上-03偏差与方差理论-202103

经常用spss、stata等软件分析数据，给出残差、偏差、方差等结果，几个差经常傻傻分不清楚，现在就这模拟拟合的学习，正好把这几个总结一遍吧。方差：反映的是模型每一次输出结果与模型输出期望（即均值）之间的误差，即模型的稳定性。模型方差不是针对某一个模型输出样本进行判定，而是指多个(次)模型输出的结果之间的离散差异，注意这里写的是多个模型或者多次模型，即不同模型或同一模型不同时间的输出结果方差较大，方差是由训练集的数据不够导致，一方面量 (数据量) 不够，有限的数据集过度训练导致模型复杂，另一方面质(

2021-03-22 10:05:57 195

原创 a2心脏信号分类-task03-202103

对可视化操作比较陌生，针对这块查阅资料并总结如下：Seaborn用法seaborn是python基于matplotlib可视化库seaborn.kdeplot(data,data2=None,shade=False,vertical=False,kernel=‘gau’,bw=‘scott’,gridsize=100,cut=3,clip=None,legend=True,cumulative=False,shade_lowest=True,cbar=False, cbar_ax=None, cbar

2021-03-22 09:33:23 85

原创 a2心脏信号分类-task02-202103

1、载入数据：Train_data = pd.read_csv(‘路径’,engine=’python’,encoding=’utf-8-sig’)2、观察首尾数据(head()+shape)：data.head().append(data.tail())3、总览数据：describe()和info的区别describe统计每列的个数count、平均值mean、方差std、最小值min、中位数25% 50% 75%info可以解数据每列的type，有助于了解是否存在除了nan以外的特殊符号异常

2021-03-19 09:22:00 117

原创 a1集成学习上-02掌握基本的回归模型-202103

机器学习的基本步骤：明确项目任务：回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。本次task02只要是对第三步模型进行展开，重点是线性回归模型，通过最小二乘估计/几何解释和概率视角来求解损失函数，并将线性回归模型推广至多项式线性回归和GAM模型框架。同时将了决策树和支持向量机。针对本次打卡学习，线性回归基本理解，但是涉及求导/最小二乘法等计算，手推有难度，主要是线性代数/矩阵等数学知识大部分都还给老师。好在日常工作对此

2021-03-18 09:28:39 104

原创 a2心脏信号分类-01-202103

1、操作环境感受：pycharm是Python比较好的开发环境，但是有很多要学的地方，小文件或者图多的可以用jupyter notebook，大文件用Spyder，有时候文件大了再用jupyter，浏览器会卡死。2、数据读取问题：读取数据Initializing from file failed，指定引擎Train_data = pd.read_csv(‘路径’,engine=’python’,encoding=’utf-8-sig’)3、数据预览括号问题Train_data.shape→注意此

2021-03-16 09:46:22 164

原创 a1集成学习上-01机器学习之三大任务-202103

随着大数据、云计算、互联网的兴起，机器学习作为一种处理数据的方法，也变得越来越火。字面上它不禁让人联想到一群机器人排排坐上自习的科幻场景，然而实际上它指的是让计算机具备像人一样的学习能力的高端技术，进而从堆积如山的数据中寻找出有用的知识。机器学习分有监督学习和无监督学习两种： 1. 有监督学习，就像论证题，是有标准答案的，可以验证学习效果，就像老师一样，最后要检查结果的正确与否。有监督学习按照因变量离散与否，分为了分类（因变量离散）和回归（因变量连续）两类问题。无监督学习则是开放的，主观的，根据自

2021-03-15 14:01:50 109

xiangpirenhaha的博客