自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Task04-高维数据异常检测

#异常检测——高维数据异常检测主要内容包括:Feature Bagging孤立森林文章目录1、引言2、Feature Bagging3、Isolation Forests4、总结1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(

2021-05-23 23:13:18 188

原创 Task04-基于相似度的方法

主要内容包括:基于距离的度量基于密度的度量文章目录1、概述2、基于距离的度量2.1 基于单元的方法2.2 基于索引的方法3、基于密度的度量3.1 k-距离(k-distance(p)):3.2 k-邻域(k-distance neighborhood):3.3 可达距离(reachability distance):3.4 局部可达密度(local reachability density):3.5 局部异常因子:1、概述  “异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结

2021-05-20 23:26:09 305

原创 Task03-线性模型

#异常检测——线性相关方法主要内容包括:线性回归主成分分析1、引言  真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。  一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。  需要明确的是,这里有两个重要的假设:  

2021-05-18 00:43:03 151

原创 Task02-基于统计学的方法

![在这里插入图片描述](https://img-blog.csdnimg.cn/20210514202450393.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl81MDY3Njc5OA==,size_16,color_FFFFFF,t_70#pic_center)这章主要介绍了基于统计学的方法来进行异常检测,主体思想很简单:

2021-05-14 20:25:01 95

转载 Task01-异常检测介绍

写在开头很开心这次又能参加DataWhale的组队学习,五月不学习,六月徒伤悲~这次参加的是异常检测, 由于我本身是土木工程专业研究生,对动态监测,异常预警这一块比较感兴趣,所以要好好努力争取学到知识~其实我学下来发现异常检测这一块其实对现有算法掌握要求还挺高,很多都是在现成的算法例如PCA、DBSCAN的基础上达到异常检测这一目的,文末会分享一张我自己做的思维导图,帮助大家思考1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大

2021-05-11 10:01:34 150

原创 数据挖掘项目(心电图)Task 5: 模型融合

Task 5: 模型融合听了大佬的直播,收益很多。把部分ppt贴上来大家一起学习此部分为零基础入门数据挖掘之心电图分类的 Task5 建模融合部分,带你来了解各种模型融合方法及策略,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 心电图分类预测项目地址:比赛地址:5.1 学习目标学习融合策略完成相应学习打卡任务5.2 内容介绍https://mlwave.com/kaggle-ensembling-guide/https://github.com/MLWave/K

2021-03-28 21:55:30 173

原创 数据挖掘项目(心电图)Task04 建模与调参

Task4 建模与调参这次的主题是建模与调参,选择不同的模型和参数会导致不同的结果,个人感觉是要多尝试~~4.1 学习目标学习机器学习模型的建模过程与调参流程完成相应学习打卡任务4.2 内容介绍逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于bagging思想的集成模型随机森林模型基于boosting思想的集成模型XGBoost模型LightGBM模型

2021-03-25 23:18:53 235

原创 数据挖掘项目(心电图)Task03特征工程学习打卡

Task3 特征工程此部分为零基础入门数据挖掘-心跳信号分类预测的 Task3 特征工程部分,带你来了解时间序列特征工程以及分析方法,欢迎大家后续多多交流。赛题:零基础入门数据挖掘-心跳信号分类预测项目地址:比赛地址:3.1 学习目标学习时间序列数据的特征预处理方法学习时间序列特征处理工具 Tsfresh(TimeSeries Fresh)的使用3.2 内容介绍数据预处理时间序列数据格式处理加入时间步特征time特征工程时间序列特征构造特征筛选使用 tsfresh

2021-03-22 23:03:35 102

原创 数据挖掘项目(心电图)Task02探索性数据分析(EDA)学习打卡

Task 2 数据分析Tip: 此部分为零基础入门数据挖掘的 Task2 EDA-数据探索性分析 部分,带你来了解数据,熟悉数据,和数据做朋友,欢迎大家后续多多交流。赛题:心电图心跳信号多分类预测2.1 EDA 目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让

2021-03-19 22:23:01 88

转载 数据挖掘项目(心电图)Task01 赛题理解及baseline学习打卡

数据挖掘项目(心电图)Task01 赛题理解及baseline学习打卡心得体会心得体会这是我第二次参加Datawhale的比赛,第一次是目标检测,难度有点大,没坚持下来,希望这次一定~总体来说组队学习的范围还是很不错的,这也是我第一次参加天池的比赛,还是有点小激动,提交了baseline,在jupyter上跑,电脑风扇呼呼的转,最后经过了一点波折终于生成了最后的csv文件,现在已经是45名了 。...

2021-03-16 21:27:50 104

转载 DataWhale_组队目标检测 练死劲儿-网络设计

3.3 锚框 or 先验框3.3.1 关于先验框在众多经典的目标检测模型中,均有先验框的说法,有的paper(如Faster RCNN)中称之为anchor(锚点),有的paper(如SSD)称之为prior bounding box(先验框),实际上是一个概念。那么,为什么要有先验框这个概念呢?按理说我们的图片输入模型,模型给出检测结果就好了,为什么还要有先验框?那么关于它的作用,我们不妨回顾一下前面在2.1节所说的那个目标检测最初的解决方案,我们说,我们要遍历图片上每一个可能的目标框,再对这些框进

2020-12-19 22:46:19 143 1

转载 第一次打卡

第一次打卡3.1目标检测3.1.1 什么是目标检测目标检测是计算机视觉中的一个重要任务,近年来传统目标检测方法已经难以满足人们对目标检测效果的要求,随着深度学习在计算机视觉任务上取得的巨大进展,目前基于深度学习的目标检测算法已经成为主流。相比较于基于深度学习的图像分类任务,目标检测任务更具难度。具体区别如图3-1所示。图像分类:只需要判断输入的图像中是否包含感兴趣物体。目标检测:需要在识别出图片中目标类别的基础上,还要精确定位到目标的具体位置,并用外接矩形框标出。图3-1 分类和目

2020-12-16 21:40:10 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除