自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 a1集成学习上-08Bagging的原理和案例分析-202104

目录1bagging的原理2bagging分类2.11bagging的原理Bagging的核心在于自助采样(bootstrap)这一概念,即有放回的从数据集中进行采样,也就是说,同样的一个样本可能被多次进行采样。一个自助采样的小例子是我们希望估计全国所有人口年龄的平均值,那么我们可以在全国所有人口中随机抽取不同的集合(这些集合可能存在交集),计算每个集合的平均值,然后将所有平均值的均值作为估计值。首先我们随机取出一个样本放入采样集合中,再把这个样本放回初始数据集,重复K次采样,最终我们可以获得一个大

2021-04-18 08:46:48 93

原创 a1集成学习上-07投票法的原理和案例分析-202104

目录1 投票法定义2 投票法分类2.2 按照投票应用情景分2.2 按照投票形式分3 案例分析3 引用参考**ps:第一次尝试在CSDN平台排版,有点意思**1 投票法定义 投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果。2 投票法分类 投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预

2021-04-12 15:08:30 372

原创 a1集成学习上-06分类问题的评估及超参数调优-202103

模型性能评估k折交叉验证思想将数据分成k份,每一次取出其中的一份作为测试集,剩下的作为训练集,一共取k次,每次测试集都是互斥的,不重复取,最后计算所有测试集均方误差的平均值参数的具体意义sklearn.model_selection.cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=’warn’, n_jobs=None, verbose=0, fit_params=None, pre_dispatch=‘2*n

2021-03-28 10:41:48 130

原创 a2心脏信号分类-task05模型融合-202103

模型融合定义:大概意思就是三个臭皮匠订个诸葛亮吧,把若干个一般的模型进行融合,获取一个更优的模型。模型融合的层次结果层面的融合:对不同的结果进行融合,要求就是结果是得分尽量相近,但是结果的差异尽量大。特征层面的融合:适用于同种模型进行训练的时候,可以把特征切割给不同的模型模型层面的融合:不同模型的融合效果比较好,同种模型不同参数的融合效果一般。模型融合的方法(1)简单加权融合:包含回归问题中的算术平均融合和几何平均融合,分类问题中的投票(Voting)和综合排序融合(2)stacking/b

2021-03-28 10:05:36 82

原创 a1集成学习上-05基本的分类模型-202103

1、度量模型性能的指标对于回归模型和分类模型,度量模型性能的指标有所不同:对于回归模型而言,重点是看它预测值与实际值的差距大小,因此可用方差、偏差、残差这种指标来衡量;对于分类模型,重点是看他预测的分类与实际的分类的符合度,所以采用混淆矩阵里面的精确率,准确率,召回率等指标,以此来衡量分类的准确度2、常用的分类模型逻辑回归模型:虽然名字带回归,但却是分类模型,实质是在线性回归的基础上,引入logic函数,以此来讲所有实数转换为[0:1]直接的概率问题。基于概率的分类模型1)线性判别分析;

2021-03-27 20:45:14 96

原创 a2心脏信号分类-task04建模与调参-202103

此节涉及模型较多,既有逻辑回归模型、树模型等单一模型,又有基于单一模型的集成模型,在此基础上还要了解模型的调参,可以说涉及内容众多,与前三节相比,难度可谓是跳跃性增大,对于编程基础薄弱,数学知识所剩无几的小白菜来说难度较大。在此先把几种模型学习一下吧。逻辑回归模型:定义:将数据拟合到一个logit函数,从而能够完成对事件发生的概率进行预测。产生背景 是线性回归对于分类的问题没有办法准确地分割,因此逻辑回归算法诞生。好处:原本输出结果范围可以非常大, 通过sigmoid函数映射到(0,1),从而完成

2021-03-25 14:43:56 98

原创 a1集成学习上-04掌握回归模型的评估及超参数调优-202103

参数和超参数的区别参数(model parameter):模型根据数据自动学习得出的变量,应该就是参数。比如,深度学习的权重,偏差等,比如线性回归的系数超参数(model Hyperparameter):用于确定模型的参数,超参数不同,模型是不同的,比如假设都是CNN模型,如果层数不同,模型不一样,虽然都是CNN模型。超参数一般根据经验确定。在深度学习中,超参数有:迭代次数,层数,每层神经元的个数等等。超参数搜索——网格搜索和随机搜索网格搜索适用于三四个(或者更少)的超参数,网格搜索的思想非常

2021-03-24 10:15:30 191

原创 a1集成学习上-03偏差与方差理论-202103

经常用spss、stata等软件分析数据,给出残差、偏差、方差等结果,几个差经常傻傻分不清楚,现在就这模拟拟合的学习,正好把这几个总结一遍吧。方差:反映的是模型每一次输出结果与模型输出期望(即均值) 之间的误差,即模型的稳定性。模型方差不是针对某一个模型输出样本进行判定,而是指多个(次)模型输出的结果之间的离散差异,注意这里写的是多个模型或者多次模型,即不同模型或同一模型不同时间的输出结果方差较大,方差是由训练集的数据不够导致,一方面量 (数据量) 不够,有限的数据集过度训练导致模型复杂,另一方面质(

2021-03-22 10:05:57 195

原创 a2心脏信号分类-task03-202103

对可视化操作比较陌生,针对这块查阅资料并总结如下:Seaborn用法seaborn是python基于matplotlib可视化库seaborn.kdeplot(data,data2=None,shade=False,vertical=False,kernel=‘gau’,bw=‘scott’,gridsize=100,cut=3,clip=None,legend=True,cumulative=False,shade_lowest=True,cbar=False, cbar_ax=None, cbar

2021-03-22 09:33:23 85

原创 a2心脏信号分类-task02-202103

1、载入数据:Train_data = pd.read_csv(‘路径’,engine=’python’,encoding=’utf-8-sig’)2、观察首尾数据(head()+shape):data.head().append(data.tail())3、总览数据:describe()和info的区别describe统计每列的个数count、平均值mean、方差std、最小值min、中位数25% 50% 75%info可以解数据每列的type,有助于了解是否存在除了nan以外的特殊符号异常

2021-03-19 09:22:00 117

原创 a1集成学习上-02掌握基本的回归模型-202103

机器学习的基本步骤:明确项目任务:回归/分类 收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。本次task02只要是对第三步模型进行展开,重点是线性回归模型,通过最小二乘估计/几何解释和概率视角来求解损失函数,并将线性回归模型推广至多项式线性回归和GAM模型框架。同时将了决策树和支持向量机。针对本次打卡学习,线性回归基本理解,但是涉及求导/最小二乘法等计算,手推有难度,主要是线性代数/矩阵等数学知识大部分都还给老师。好在日常工作对此

2021-03-18 09:28:39 104

原创 a2心脏信号分类-01-202103

1、操作环境感受:pycharm是Python比较好的开发环境,但是有很多要学的地方,小文件或者图多的可以用jupyter notebook,大文件用Spyder,有时候文件大了再用jupyter,浏览器会卡死。2、数据读取问题:读取数据Initializing from file failed,指定引擎Train_data = pd.read_csv(‘路径’,engine=’python’,encoding=’utf-8-sig’)3、数据预览括号问题Train_data.shape→注意此

2021-03-16 09:46:22 164

原创 a1集成学习上-01机器学习之三大任务-202103

随着大数据、云计算、互联网的兴起,机器学习作为一种处理数据的方法,也变得越来越火。字面上它不禁让人联想到一群机器人排排坐上自习的科幻场景,然而实际上它指的是让计算机具备像人一样的学习能力的高端技术,进而从堆积如山的数据中寻找出有用的知识。机器学习分有监督学习和无监督学习两种: 1. 有监督学习,就像论证题,是有标准答案的,可以验证学习效果,就像老师一样,最后要检查结果的正确与否。有监督学习按照因变量离散与否,分为了分类(因变量离散)和回归(因变量连续)两类问题。无监督学习则是开放的,主观的,根据自

2021-03-15 14:01:50 109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除