机器学习
Y_hero
不破不立,破而后立
展开
-
机器学习超参数优化算法进化史
背景: 由于深度学习和传统机器学习的超参数性质差异较大,二者的超参数优化算法原理和偏向也不同, 以下算法整理更适用于传统机器学习.1.先盲目地搜索网格搜索(Grid Search, GS) 和 随机搜索(Random Search,RS)2.要有继承性地搜索贝叶斯优化算法(Bayesian Optimization,BO)BO算法能很好地吸取之前的超参数的经验,更快更高效地最下一次超参数的组合进行选择。但是BO算法也有它的缺点:强假设条件(避免非凸、异常平滑、高维噪音等情况)因此催生出BO的启原创 2021-01-22 11:39:47 · 832 阅读 · 0 评论 -
NAS简述
Neural architecture search (NAS)名词补充:EA:演化算法RL:强化学习NAS结构三部分:搜索空间:整体结构搜索、cell搜索、分层搜索、网络态射(扩充网络的宽深)架构优化:演化算法、强化学习、代理模型、梯度优化、网格和随机搜索、混合优化模型评估: 看前述的模型实际效果如何,理论上用此模型进行全训练即可,但是性能方面不现实.低保真度、权值共享、代理模型、早停机制2020automl开源框架: NNI、Aotokeras、VEGAAUTOML202翻译 2020-12-21 18:01:44 · 224 阅读 · 0 评论 -
从遗传算法走进TOPT的auto
1.简述遗传算法 元启发式算法(Meta-heuristic algorithms)模拟进化过程,通过选择(Selection)、交叉(Crossover)以及变异(Mutation)等机制,在每次迭代中都保留一组候选个体,重复此过程,种群经过若干代进化后,理想情况下其适应度达到***近似最优***的状态。参考链接:https://www.zhihu.com/question/23293449/answer/1202209742.核心概念将自变量空间编码成染色体,对应的实例称为个体,开始类似于随原创 2020-12-21 17:58:31 · 708 阅读 · 0 评论 -
PCA的劣势分析
PCA原理剖析矩阵的秩 特征向量 特征值是什么?此篇博客主要分析PCA有什么劣势以及产生的原因,对PCA还不清楚的可以结合上面两个博客从多角度深入了解PCA。劣势一,在对数据完全无知的情况下,PCA变换并不能得到较好的保留数据信息。因为PCA需要对数据进行预处理,第一步需要对其进行中心化,如果数据的尺度不统一,还需要标准化。通常的标准化方式是除以标准差。这里可能就出出现一个问题,比如标准差...原创 2019-03-25 16:22:14 · 11043 阅读 · 0 评论 -
深入理解PCA(待补充)
t-sne 参考链接PCA理解第一层境界:最大方差投影正如PCA的名字一样, 你要找到主成分所在方向, 那么这个主成分所在方向是如何来的呢?其实是希望你找到一个垂直的新的坐标系, 然后投影过去, 这里有两个问题。第一问题: 找这个坐标系的标准或者目标是什么?第二个问题, 为什么要垂直的, 如果不是垂直的呢?如果你能理解第一个问题, 那么你就知道为什么PCA主成分是特征值和特征向量了...转载 2019-03-25 22:35:18 · 300 阅读 · 0 评论 -
机器学习杂货铺(记录零碎的概念点)
定理补充描述:1.Mercer定理说,任何满足对称性和正定性的二元函数k(x,y)都能找到 Hilbert space V\mathcal{V}V 和函数ψ\psiψ 使得 k(x,y) = ⟨ψ(x),ψ(y)⟩.\langle \psi(x),\psi(y)\rangle.⟨ψ(x),ψ(y)⟩.2.矩阵的特征值和特征向量3.矩阵的内积和范数4.机器学习之范式规则化L0范数是指向量中...原创 2019-03-23 00:02:37 · 596 阅读 · 0 评论 -
聚类学习
聚类,无监督学习,将无标签样本分为几个簇,两个基本问题,性能度量和距离计算聚类性能度量大致分为2类,外部指标:将聚类结果与某个“参考模型”进行比较;内部指标:直接考察聚类结果但是不利用任何参考模型。外部指标JC/FMI/RI等,值越大性能越好。内部指标DBI/DI等,根据簇内样本的距离值来进行考察。距离计算,距离函数dist(.,.)满足非负性,同一性,对称性,直递性,最常用的是“闵可夫斯基...原创 2019-03-23 15:15:35 · 561 阅读 · 0 评论 -
高斯径向基函数(RBF)神经网络
高斯径向基函数(RBF)神经网络牛顿插值法-知乎泰勒公式径向基函数-wiki径向基网络之bp训练RBF网络逼近能力及其算法线性/非线性,使用”多项式“逼近非线性,通过调节超参数来改善多项式参数进一步拟合真实非线性。径向基函数说径向基网络之前,先聊下径向基函数径向基函数(英语:radial basis function,缩写为RBF)是一个取值仅依赖于到原点距离的实值函数,即 ϕ(x...原创 2019-04-03 00:53:52 · 32075 阅读 · 5 评论 -
KPCA算法浅析
二者都是在PCA和LDA的基础上加入了核函数,从线性变化到非线性变化,因此建议先搞懂什么是PCA、LDA和核函数。KPCA我们先来看一个实际问题,图b是样本在二维空间中的分布,称为本真二维结构,然后以S形曲面嵌入到三维空间中,形成图a的空间结构,如果使用线性降维的方法,会丢失低维结构,得到一个图c这样的二维空间结构。面对上述问题,我们就不能采用传统的线性降维方法了,这时候就要使用我们的核主...转载 2019-04-03 13:45:17 · 6469 阅读 · 1 评论 -
Cross entropy loss function in DNN RNN
我将无我,不负年华1. What is Cross entropy loss function2. How to use Cross entropy in DNN3. How to use Cross entropy in RNN原创 2019-05-22 14:49:20 · 354 阅读 · 0 评论 -
LIBSVM 下载使用及实战
1. LIBSVM 下载libsvm It makes everything automatic–from data scaling to parameter selection.libsvm下载安装后使用libsvm训练模型,出现 gnuplot executable not found此时需要安装gnuplot下载地址安装完成后,更改**gnuplot_exe =**的路径为你gnu...原创 2019-05-29 12:00:07 · 6377 阅读 · 1 评论 -
线性判别分析LDA原理(待补充)
1.线性判别分析概述线性判别分析(LDA)是一种经典的线性学习方法,在二分类问题上最早由Fisher提出,亦称“Fisher判别分析”。LDA在模式识别领域中由非常广泛的应用。LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类阳历的投影点尽可能接近,异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别,LDA...转载 2019-03-13 15:48:08 · 384 阅读 · 0 评论 -
线性模型
1.基本形式线性模型试图学得一个通过属性的线性组合来进行预测数函数,即;一般用向量形式写成本篇介绍几种经典的线性模型,我们先从回归任务开始,然后讨论二分类和多分类任务。2.线性回归线性回归试图学得如何确定w和b呢? 显然,关键在于如何衡量f(x)与y之间的差别。均方误差市回归任务中最常用的性能度量,基于均方误差最小化来进行模型求解的方法称为“最小二乘法”,在线性回归中,最小二乘法...转载 2019-03-13 14:52:52 · 277 阅读 · 0 评论 -
决策树原理详解及sklearn代码实例
1.决策树1.1基本流程决策树(decsioin tree)是一种常见的机器学习方法,例如西瓜书中的二分类任务,判断瓜的好坏。决策树如下:可以看到此使判断西瓜是否好坏,则通过色泽,根蒂,敲声等一些列属性来得出结果。 一般的,一颗决策树包括一个根节点,若干个内部接待你和若干个叶结点;叶节点对应于决策结果,其他结点则对应一个属性测试;从根节点大到每个叶结点的路径对应了一个判定测试序列。决策树...原创 2019-03-10 00:23:49 · 7277 阅读 · 2 评论 -
Bagging与随机森林
前今天整理了决策树的原理实现,顺手再把随机森林的原理整理整理。随机森林(RF) 尽管有剪枝等等方法,一棵树的生成肯定还是不如多棵树,因此就有了随机森林,解决决策树泛化能力弱的缺点。(可以理解成三个臭皮匠顶过诸葛亮),随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力。由于同一批数据,用同样的算法只能产生一棵树,而我们...原创 2019-03-10 11:48:12 · 709 阅读 · 1 评论 -
支持向量机SVM浅析(待补充)
1. 间隔与支持向量 对于用于分类的支持向量机,它是个二分类的分类模型。也就是说,给定一个包含正例和反例(正样本点和负样本点)的样本集合,支持向量机的目的就是基于训练集D在样本空间找到一个划分超平面,将不同类别的样本分开,原则是使正例和反例之间的间隔最大。如下图所示:在样本空间中,划分超平面可通过如下线性方程来描述:其中w=(w1;w2;w3;…wn)为法向量,决定了超平面的方向;b为位...原创 2019-03-14 16:39:17 · 477 阅读 · 0 评论 -
集成学习和Boosting原理总结
接自https://blog.csdn.net/Y_hero/article/details/88376573 bagging与随机森林。1.集成学习 集成学习(ensemble learing)通过构建并结合多个学习器来完成学习任务,有时也被称为多酚类器系统(multi-classifier system),基于委员会的学习(sommittee-baseslearing)等。 以下集成学习...原创 2019-03-10 17:45:58 · 933 阅读 · 0 评论 -
Boosting系列算法之AdaBoost算法
接自https://blog.csdn.net/Y_hero/article/details/88381259 ,由上一篇总结我们已经初步了解了集成学习以及Boosting的基本原理,不过有几个Boosting具体的问题没有详细解释:1)如何计算学习误差率e?2) 如何得到弱学习器权重系数α?3)如何更新样本权重D?4) 使用何种结合策略?只要是boosting大家族的算法,都要解决这...转载 2019-03-11 22:18:47 · 970 阅读 · 0 评论 -
产生式模型和判别式模型区分
近来看到贝叶斯分类器,其中有一个知识点提及产生式模型和判别式模型,查阅了一番资料终于理解透彻了,特此记录。产生式模型和判别式模型区分二者是分类器中常遇到的概念,产生式模型估计它们的联合概率分布P(x,y),判别式模型估计条件概率分布P(y|x)。判别式模型常见的主要有:Logistic RegressionSVMTraditional Neural NetworksNearest N...原创 2019-03-20 20:32:49 · 2661 阅读 · 0 评论 -
最近邻算法(KNN)
1.算法概述 目前,对于文本分类的研究已经取得了巨大的进展,常用的文本分类算法有最近邻算法(KNN),支持向量机,人工神经网络,boosting,随机森林等。而KNN算法既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。基于实例的学习方法:1.只是简单地把训练样例存储起来。等到输入一个新的查询实例时,才分析这个新实例和之前存储的实例之间的关系。**该...原创 2019-03-17 18:00:50 · 4562 阅读 · 0 评论 -
机器学习降维算法对比分析(待补充)
主要的方法有属性(特征)选择,线性映射和非线性映射方法三大类。一、属性(特征)选择缺失值比率:如果数据集的缺失值太多,我们可以用这种方法减少变量数。低方差滤波:这个方法可以从数据集中识别和删除常量变量,方差小的变量对目标变量影响不大,所以可以放心删去。高相关滤波:具有高相关性的一对变量会增加数据集中的多重共线性,所以用这种方法删去其中一个是有必要的。随机森林反向特征消除前向特征选择...原创 2019-03-24 22:54:28 · 815 阅读 · 0 评论 -
机器学习中的kernel是什么?(待补充)
近来看到SVM和核化线性降维KPCA,对其中的核函数难以理解,因此去查阅了众多资料,接下来简单记录总结下对kernel的认识。知乎问题链接参考kernel是什么 ? 首先我们先给出kernel的定义:核函数(kernel function)就是指K(x,y)=<f(x),f(y)>,其中x和y是n维的输入值,f()指的是n维到m维的映射(通常m>>n),<x...原创 2019-03-21 17:08:48 · 9173 阅读 · 0 评论 -
贝叶斯分类器
本博客是基于对周志华教授所著的《机器学习》的“第7章 贝叶斯分类器”部分内容的学习笔记,主要目的不在于讲解理念,而是偏重梳理流程。1. 贝叶斯公式使用贝叶斯分类器,首先我们先阐述下贝叶斯定理:P(C|X)=P(C)P(X∣C)P(X)\frac {P(C)P(X|C) } {P(X)}P(X)P(C)P(X∣C)P(c|x):在x的条件下,随机事件出现c情况的概率。(后验概率)P(C...原创 2019-03-18 15:07:26 · 210 阅读 · 0 评论 -
机器学习模型评估方法与选择
1. 评估方法 通常我们通过一个“测试集”来测试学习器对新样本的判别能力,然后用测试集上的“测试误差”作为泛化误差的近似,依此来评估学习器并作出选择。下面介绍几种常见的作法1.1 留出法 “留出法”(hold-out)直接将数据集D划分为两个互斥的集合,一个为训练集,另一个作为测试集。常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试。1.2 交叉验证法 “交叉验证”(cro...转载 2019-03-14 15:11:59 · 315 阅读 · 0 评论