自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI

  • 博客(12)
  • 收藏
  • 关注

原创 图神经网络-简单图论

简单图论一、图数据结构根据根据图中数据的对应关系可分为:①「无向图」,即 A 关联 B 时,B 同时关联 A。例:微信中当 A 是 B 好友时,B 一定也是 A 的好友(新版本中已支持双向删除好友)。这种关联是双向的。②「有向图」,即 A 关联 B 时,B 未必关联 A。例:微博中粉丝与博主的关系,粉丝关注了博主,但是博主未必关注了每一个粉丝。这种关联性是单向的。③「带权图」,除了表示 A 与 B 是否关联外还表示这种关联度的权重。例如:QQ 空间的好友亲密度。在基本的关联度上附加了其他属性,表示

2021-06-15 18:29:32 643

原创 异常检测——高维数据异常检测

异常检测——高维数据异常检测一个物体可能有几个被测量的量,这个物体的显著异常行为可能只反映在这些量的一小部分中。 也即,一小部分的测量的数据中可能可以找到异常值,因为数据维度不高,但是当来自测量的数据以全维度表示时,异常数据点将在几乎所有数据视图中显式为正常。即大量正常测量的噪声变化将掩盖异常值。 因此,异常值通常嵌入到局部相关的子空间中。 因此,探索低维子空间以获得感兴趣的偏差是有意义的。这种方法过滤掉了大量维数的加性效应,并导致了更健壮的异常值。在实际场景中,很多数据集都是多维度的。随着维度的增加,

2021-05-23 21:15:03 475

原创 异常检测——基于相似度的方法

异常检测——基于相似度的方法 在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。一、基于距离的度量距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。距离度量的方法主要有:1、欧氏距离最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。2、曼哈顿距离我们可以

2021-05-20 21:16:30 596

原创 异常检测——线性相关方法

异常检测——线性相关方法一、线性回归什么是回归分析呢?这是一个来自统计学的概念。回归分析是指一种预测性的建模技术,主要是研究自变量和因变量的关系。通常使用线/曲线来拟合数据点,然后研究如何使曲线到数据点的距离差异最小。线性回归是回归分析的一种。1、假设目标值(因变量)与特征值(自变量)之间线性相关(即满足一个多元一次方程,如:f(x)=w1x1+…+wnxn+b.)。2、然后构建损失函数。3、最后通过令损失函数最小来确定参数。(最关键的一步)线性回归:有n组数据,自变量x(x1,x2,…,x

2021-05-17 21:22:57 300

原创 异常检测-基于统计学方法

异常检测-基于统计学方法1、概念假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。即,利用统计学方法对数据集建立一个模型,然后考虑数据点有多大概率符合这个模型,低概率区域中的数据点,更可能为异常点。2、方法参数方法:假定数据对象是由一个以 θ 为参数的参数分布产生(即产生的数据符合以 θ为参数的分布)该参数分布的概率密度给出f(x,θ),将数据点x带入到概率密度公式,得出该数据点符合该分布的概率,概率越小,越不符合该分布,是异常点的可能性就越大。非参数方法:不像参数方法那样对数

2021-05-14 18:08:57 285

原创 异常检测

异常检测1、什么是异常异常,字面即为异于常理,在不同邻域有不同的理解,在数据以训练集为核心,判断输入数据是否与训练集中的数据 “类似”。至于什么才是“类似”,它的定义这取决于你所用的方法。给定一个数据集,如果你给的训练集只1,那么0就是“异常”;相反,如果你给的训练集是0,那1就是“异常”。2、异常检测异常检测(Anomaly Detection), 它是机器学习的一个重要分支,实际应用领域广泛,更与我们的生活息息相关。1)异常值霍金斯的定义为:“异常值是一个与其他观察结果有很大差异的观察结果

2021-05-11 21:42:14 171

转载 模型融合

Datawhale 零基础入门数据挖掘-模型融合一、模型融合目标对于多种调参完成的模型进行模型融合。完成对于多种模型的融合,提交融合结果并打卡。二、内容介绍模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。1、简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合2、stacking/blending:构建多层模型,并利用

2021-04-24 22:39:43 275

转载 建模与调参

建模与调参一、学习目标:了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程完成相应学习打卡任务二、内容介绍1、线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;2、模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;3、嵌入式特征选择:Lasso回归;Ridge回归;决策树;4、模型对比:常用线性模型;常用非线性模型;5、模型调参:贪心调参方法;网格调参方法;贝叶斯调参方法6、推荐了一些

2021-04-22 22:40:43 507

原创 天池二手车预测 特征工程

天池二手车预测 特征工程original:Datawhale一、特征工程一般是对数据进一步分析处理,提取需要的数据特征,对数据特征进行分析处理,达到所需要的数据特征目标。特征工程一般包括:特征构造、特征选择、异常值处理、降维等操作。1、特征构造一般从特征领域、交叉特征、多项式特征考虑。统计量特征:计数、求和、比例、标准差等;时间特征:相对时间和绝对时间,节假日,双休日等;空间特征:包括分箱,分布编码等。处理方法:非线性变化、特征组合、特征交叉;核心概念:根据数据洞察和业务理解2、特征

2021-04-19 21:04:57 227 1

原创 天池二手车预测EDA

天池二手车预测EDAoriginal:Datawhale数据探索在机器学习中我们一般称为EDA(Exploratory Data Analysis)是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。数据探索有利于我们发现数据的一些特性,数据之间的关联性,对于后续的特征构建是很有帮助的。对于数据的初步分析(直接查看数据,或.sum(), .mean(),.descirbe()等统计函数)可以

2021-04-16 19:48:58 83

原创 数据分析

首先对于比赛或者去做一个项目,一个基本的步骤流程有:## 数据分析1、数据的分析数据的分析大致包括数据的清洗与数据特征的提取等一系列对数据的分析。数据的清洗一般又包涵数据的标准化、数据的分桶、数据的异常值处理以及数据的缺失值处理等操作。数据特征工程的分析一般包涵特征构造和特征选择等特征的提取方法。2、模型的建立需要从数据的特征以及目标的定位去选取合适的算法模型,也可以多种模型相互结合使最终模型达到最好的效果。3、模型的参数调节模型的参数调节一般包括基本的模型参数调参、模型对比、嵌入式特诊选择

2021-04-12 21:29:22 83

原创 拼图小游戏

一个简单的拼图小游戏1.首先设计视图面板。2.添加所需要的图片按钮。3.最主要的是设计监听事件,添加图片的监听按钮,设定移动空白图片周围的按钮。4.判断是否成功。...

2020-02-03 18:48:06 3032

smime.p7s

smime.p7s

2022-11-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除