自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 2.3-图解BERT

图解BERT图解BERTBERT句子分类模型结构模型输入模型输出预训练任务:Masked Language Model预训练任务:相邻句子判断BERT的应用BERT特征提取在学习完2.2章节的Transformer之后,我们来学习一下将Transformer模型结构发扬光大的一个经典模型:BERT。站在2021年来看,2018年是自然语言处理技术的一个转折点,运用深度学习技术处理文本的能力通过预训练模型被极大的发挥了出来。同时,伴随着NLP开源社区的贡献,很多强大的模型被封装

2021-09-17 22:43:30 884

转载 2.2-图解transformer

图解transformer内容组织:图解transformerTransformer宏观结构Transformer结构细节输入处理词向量位置向量编码器encoderSelf-Attention层多头注意力机制Attention代码实例残差连接解码器线性层和softmax损失函数附加资料致谢在学习完图解attention后,我们知晓了attention为循环神经网络带来的优点。那么有没有一种神经网络结构直接基于attention构造,并且不再依赖

2021-09-15 21:07:21 311

转载 Boosting方法的基本思路

Boosting方法的基本思路前言Boosting方法的基本思路Adaboost算法案例前言在前面的学习中,我们探讨了一系列简单而实用的回归和分类模型,同时也探讨了如何使用集成学习家族中的Bagging思想去优化最终的模型。Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要通过降低方差的方式减少预测误差。那么,本章介绍的Boosting是与Baggin.

2021-04-21 00:17:22 1074

转载 Bagging原理分析

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档bagging原理分析bagging的思路bagging的原理分析bagging的案例分析(基于sklearn,介绍随机森林的相关理论以及实例)bagging的思路与投票法不同的是,Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。在上一章中我们提到,希望各个模型之间具有较大的差异性,而在实际操作中的模型却往往是同质的,因此一个简单的思路是通过不同的采样增加模型的差异性。ba

2021-04-18 00:15:15 560

转载 集成学习

集成学习投票法的思路投票法的原理分析投票法的案例分析bagging的思路bagging的原理分析bagging的案例分析投票法的思路投票法是集成学习中常用的技巧,可以帮助我们提高模型的泛化能力,减少模型的错误率。举个例子,在航空航天领域,每个零件发出的电信号都对航空器的成功发射起到重要作用。如果我们有一个二进制形式的信号:11101100100111001011011011011在传输过程中第二位发生了翻转10101100100111001011011011011这导致的结果可能是致命的。一.

2021-04-14 21:56:50 108

转载 模型调参方法

模型参数调参网格搜索GridSearchCV()随机网格搜索RandomizedSearchCV()类别为二分类时实例 :XGBoost调参网格搜索GridSearchCV()from sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimport timestart_time = time.time()pipe_svc = make_pipeline(StandardScaler(),SVC(rando

2021-03-29 21:43:17 1159

转载 使用sklearn构建完整的分类项目

使用sklearn构建完整的分类项目量模型性能的指标逻辑回归决策树支持向量机SVM量模型性能的指标度量分类模型的指标和回归的指标有很大的差异,首先是因为分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通。其次,在分类任务中,我们对于每个类别犯错的代价不尽相同,例如:我们将癌症患者错误预测为无癌症和无癌症患者错误预测为癌症患者,在医院和个人的代价都是不同的,前者会使得患者无法得到及时的救治而耽搁了最佳治疗时间甚至付出生命的代价,而后者只需要在后续的治疗过程中

2021-03-28 00:14:01 238

原创 对模型超参数进行调优

对模型超参数进行调优一、参数与超参数二、网格搜索GridSearchCV三、随机搜索 RandomizedSearchCV一、参数与超参数什么是模型参数?模型参数是模型内部的配置变量,其值可以根据数据进行估计。它们的值定义了可使用的模型模型在进行预测时需要它们。他们是从数据估计或获悉的。它们通常不由编程者手动设置。他们通常被保存为学习模型的一部分。参数是机器学习算法的关键。它们通常由过去的训练数据中总结得出。什么是模型超参数?模型超参数是模型外部的配置,其值无法从数据中估计。

2021-03-24 22:02:09 977

原创 XGBoost的参数介绍及调参

XGBoost的参数介绍及调参XGBoost参数解释一、通用参数二、Booster参数二、学习目标函数三、XGBoost调参XGBoost参数解释XGBoost的参数分为三大类:通用参数:根据需求宏观调控。Booster参数:booster参数一般可以调控模型的效果和计算代价。我们所说的调参,很这是大程度上都是在调整booster参数。学习目标参数:控制训练目标的表现。我们对于问题的划分主要体现在学习目标参数上。比如我们要做分类还是回归,做二分类还是多分类,这都是目标参数所提供的。一、通用参

2021-03-23 11:34:27 3337 2

原创 模型优化基础

优化基础模型训练均方误差与测试均方误差偏差-方差的权衡特征选择压缩估计(正则化)降维在刚刚的回归问题的基本算法中,我们使用数据集去估计模型的参数,如线性回归模型中的参数w,那么这个数据集我们称为训练数据集,简称训练集。我们在回归问题中使用训练集估计模型的参数的原则一般都是使得我们的损失函数在训练集达到最小值,其实在实际问题中我们是可以让损失函数在训练集最小化为0,如:在线性回归中,我加入非常多的高次项,使得我们模型在训练集的每一个数据点都恰好位于曲线上,那这时候模型在训练集的损失值也就是误差为0。

2021-03-22 21:49:39 563 3

原创 线性回归算法基础

线性回归算法基础一、pandas是什么?一、回归树二、支持向量机回归(SVR)支持向量回归SVR一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。一、回归树基于树的回归方法主要是依据分层和分割的方式将特征空间划分为一系列简单的区域。对某个给定的待预测的自变量,用他所属区域中训练集的平均数或者众数对其进行预测。由于划分特征空间的分裂规则可以用树的形式进行概括,因此这类方法称为决策树方法。决策树由结点(node)和有向边(diredcted

2021-03-18 22:33:16 369

原创 2021-03-16

心跳信号分类心跳信号分类一、了解赛题二、数据概况三、预测指标心跳信号分类一、了解赛题比赛要求参赛选手根据给定的数据集,建立模型,预测不同的心跳信号。赛题以预测心电图心跳信号类别为任务,数据集报名后可见并可下载,该该数据来自某平台心电图数据记录,总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为了保证比赛的公平性,将会从中抽取10万条作为训练集,2万条作为测试集A,2万条作为测试集B,同时会对心跳信号类别(label)信息进行脱敏。通过这道赛题来引导大家走

2021-03-16 20:37:23 238

原创 2021-03-15

机器学习导论一、导论二、回归问题三、分类问题四、无监督学习一、导论什么是机器学习?机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xi来表示一个样本,其中i=1,2,3,…,N,共N个样本,每个样本xi=(xi1,xi2,…,xip,yi)共p+1个维度,前p个维度的每个维度我们称为一个特征,最后一个维度yi我们称为因变量(响应变量)。特征用来描述影响因变量的因素,如:我们要探寻身高是否会影响.

2021-03-15 23:43:36 339

原创 task5 高维数据异常检测

高维数据异常检测概述一、Feature Bagging1.1 选择基检测器1.2 分数标准化和组合方法二、Isolation Forests总结练习概述在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维

2021-01-24 21:33:37 176

原创 task4 基于相似度的方法

基于相似度的方法前言一、基于距离的度量1.1 基于单元的方法1.2 基于索引的方法二、 基于密度的度量2.1 k-距离(k-distance(p))2.2 k-邻域(k-distance neighborhood)2.3 可达距离(reachability distance)2.4 局部可达密度(local reachability density):2.5 局部异常因子:前言“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量

2021-01-21 23:03:17 192

原创 task3 线性回归

线性回归引言一、数据可视化二、线性回归基于自变量与因变量的线性回归三、主成分分析归一化问题四、回归分析的局限性五、总结六、练习引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。   一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是线性回归,后者一个典型的例子是主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。

2021-01-18 23:13:25 155

原创 2021-01-15

异常检测task2 基于统计学的方法一、概述二、参数方法2.1 基于正太分布的一元异常点检测2.2 多元异常点检测三、非参数方法四、HBOS五、总结一、概述学习⼀个拟合给定数据集的⽣成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利⽤统计学⽅法建⽴⼀个模型,然后考虑对象有多⼤可能符合该模型二、参数方法假定正常的数据对象被⼀个以为y参数的参数分布产生。该参数分布的概率密度函数f(x,y)给出对象x被该分布产生的概率。该值越小, 越可能是异常点。2.1 基于正太分布的一元异常点检测

2021-01-15 22:04:02 286

原创 task1 异常检测介绍

task1 异常检测介绍一、什么是异常检测异常检测,顾名思义是识别与正常数据不同的数据,与预期⾏为差异⼤的数据。识别如信⽤卡欺诈,⼯业⽣产异常,⽹络流⾥的异常(⽹络侵⼊)等问题,针对的是少数的事件。异常检测的场景有故障检测、物联⽹异常检、测欺诈检测、⼯业异常检测、时间序列异常检测、视频异常检测、⽇志异常检测、医疗⽇常检测、⽹络⼊侵检测等。二、异常检测的类别点异常 :只有少数样本是异常,总体是正常的;上下文异常 :指的是在特定情境下个体实例是异常的,在其他情境下都是正常的;群体异常 :指的是在群

2021-01-12 22:53:50 263

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除