机器学习具体算法
whitenightwu
这个作者很懒,什么都没留下…
展开
-
NN模型设置--L1/L2正则化
正则化的理解 规则化函数Ω有多重选择,不同的选择效果也不同,不过一般是模型复杂度的单调递增函数——模型越复杂,规则化值越大。 正则化含义中包含了权重的先验知识,是一种对loss的惩罚项(regularization term that penalizes parameters)。 L2正则化是权重符合正态分布的先验;L1则是权重符合拉普拉斯分布的先验(对参数引入 拉普拉斯先验 等价...原创 2018-12-04 10:21:17 · 1166 阅读 · 0 评论 -
关联规则挖掘(Association Rule (AR) algorithms)
关联规则挖掘(Association Rule (AR) algorithms)原创 2018-10-22 13:41:44 · 1304 阅读 · 0 评论 -
岭回归(ridge regression)
岭回归(ridge regression)在处理回归问题时,常遇到的问题 在处理复杂的数据的回归问题时,普通的线性回归会遇到一些问题,主要表现在: 预测精度:这里要处理好这样一对为题,即样本的数量和特征的数量 模型的解释能力:如果模型中的特征之间有相互关系,这样会增加模型的复杂程度,并且对整个模型的解释能力并没有提高,这时,我们就要进行特征选择。岭回归的概念 岭回归(Ridge...原创 2018-10-22 13:40:16 · 3048 阅读 · 0 评论 -
启发式搜索
启发式搜索 一种最优化的算法。 当一个问题是NP难问题时,是无法求解到最优解的,因此,用一种相对好的求解算法,去尽可能逼近最优解,得到一个相对优解,在很多实际情况中也是可以接受的。 群体智能算法就是启发式算法;研究的重点就是如何平衡局部搜索与全局搜索;有效逃离局部最优解;常用的启发算法 蚁群算法、PSO(粒子群算法)、GA(遗传算法)、人工免疫算法、模拟退火算法、禁忌搜索算法等都...原创 2018-10-22 13:34:39 · 5406 阅读 · 0 评论 -
fisher vector
fisher vector 核方法的一种。动作识别相关的工作中fisher vector 参考资料:http://blog.csdn.net/wzmsltw/article/details/52040010"原创 2018-10-22 13:28:59 · 180 阅读 · 0 评论 -
朴素贝叶斯(Naive Bayes)分类和Gaussian naive Bayes
朴素贝叶斯(Naive Bayes) 参考资料:https://www.cnblogs.com/pinard/p/6069267.html 朴素贝叶斯最关键的就是 (强制认为每种指标都是独立的)。 不同于其它分类器,朴素贝叶斯是一种基于概率理论的分类算法;总体上来说,朴素贝叶斯原理和实现都比较简单,学习和预测的效率都很高,是一种经典而常用的分类算法。朴素贝叶斯分类是贝叶斯分类中最简单,...原创 2018-10-22 13:25:38 · 7626 阅读 · 0 评论 -
贝叶斯分类(Bayesian)
贝叶斯分类(Bayesian) 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。贝叶斯方法是在解决归类和回归问题中应用了贝叶斯定理的方法。 参考资料:https://www.cnblogs.com/nxld/p/6607943.html贝叶斯定理条件概率公式:*P(A|B) = P(AB)/P(B) = P(B|A)P(A)/P(B) 从公式中...原创 2018-10-22 11:59:32 · 2576 阅读 · 0 评论 -
PCA(principal Component Analysis)
PAC(Probably Approximately Correct) PCA,即主成分分析,是用来提取特征的一种算法,属于无监督学习。 效果很好,开创了子空间方法。PCA的起源 PAC模型是计算学习理论中常用的模型,是Valiant牛在1984年提出来的,他认为“学习"“是模式明显清晰或模式不存在时仍能获取知识的一种“过程”,并给出了一个从计算角度来获得这种“过程”"的方法。 ...转载 2018-09-30 13:48:05 · 1199 阅读 · 2 评论 -
Ising模型
Ising模型 Ising模型的提出是为了解释铁磁物质的相变,即磁铁在加热到一定临界温度以上会出现磁性消失的现象,而降温到临界温度以下又会表现出磁性。表述简单、内涵丰富、应用广泛这三种优点的模型。 参考资料:http://wiki.swarma.net/index.php/ISING模型详细解释 Ising模型假设铁磁物质是由一堆规则排列的小磁针构成,每个磁针只有上下两个方向(自旋)...原创 2018-09-30 13:40:30 · 2768 阅读 · 0 评论 -
图像金字塔的应用
图像金字塔的应用 主要解决图像分析尺度问题的,许多图像分析任务,包括超分辨、目标检测等等都是一种很重要的手段。 更多的是构造特征时:1、适应尺度变化。2、增加特征维度,构造高维特征。具体应用 sift算法; 在from coarse to fine由粗到精的搜索策略中都可以用金字塔; optical flow光流法; slam当中的姿态估计; 在多分辨率融合算法中也...原创 2018-09-30 13:38:06 · 3618 阅读 · 0 评论 -
二阶迭代法
二阶迭代法 该优化方法基于牛顿法" "其迭代方式如下: x←x−[Hf(x)]−1∇f(x) 这里Hf(x)是Hessian矩阵,它是函数的二阶偏导数的平方矩阵。∇f(x)是梯度向量,这和梯度下降中一样。 直观理解上,Hessian矩阵描述了损失函数的局部曲率,从而使得可以进行更高效的参数更新。具体来说,就是乘以Hessian转置矩阵可以让最优化过程在曲率小的时候大步前进,在曲率大...原创 2018-09-30 13:35:46 · 2658 阅读 · 0 评论 -
领域适应学习(domain adaptation)
领域适应学习(domain adaptation) iid(独立同分布) 为了解决训练集和测试集的数据分布不匹配(即不满足iid条件),在无监督学习中提出了domain adaptation(领域自适应) 。 领域自适应(Domain Adaptation)是迁移学习(Transfer Learning)的一种,思路是将不同领域(如两个不同的数据集)的数据特征映射到同一个特征空间,这样可利...原创 2018-09-30 11:04:24 · 13575 阅读 · 6 评论 -
独立子空间分析(Independent subspace analysis,ISA)
独立子空间分析(Independent subspace analysis,ISA) ISA 一种在ICA(Independent Component Analysis)基础上发展出来的机器学习方法。是一种无监督特征学习方法,可从图像中学习出具有相位不变的特征。 ISA将观察数据的向量分解成相互独立的子空间来表示。从结构上来看,ISA可以被看作是一个两层网络。从神经学角度理解 ICA...原创 2018-09-30 10:59:48 · 2409 阅读 · 0 评论 -
核方法kernel method
核方法kernel method 核方法(kernel method)是将数据映射到更高维的空间实现线性可分,而Kernel Function(核函数)只是一个关于特征向量的函数,本质是变换后的空间中的内积,这个函数的构造和引入的初衷只是为了提高SVM在高维的计算效率。 Kernel 是隐式地将两个向量转换到其他形式然后求内积, 相比显式的转换可以极大的减少计算复杂度, 甚至可以将有限维的...原创 2018-09-30 10:53:18 · 1014 阅读 · 0 评论 -
梯度上升算法(boosting?)
梯度上升(boosting?) 与梯度下降相反,是找最大值。原创 2018-10-22 13:42:45 · 1008 阅读 · 1 评论 -
线性判别分析(Linear Discriminant Analysis, LDA)
线性判别分析(Linear Discriminant Analysis, LDA) 是一种有监督的降维方法。与PCA齐名。公式 直观理解:将两类样本投影到一条直线上,使得投影后的类间散布矩阵与类内散布矩阵的比值最大。...原创 2018-10-22 13:44:29 · 475 阅读 · 0 评论 -
人脸识别评测的标准ROC曲线及其他标准
ROC曲线 1、误识率(False Accept Rate, FAR):这是将其他人误作指定人员的概率 2、拒识率(False Reject Rate, FRR):这是将指定人员误作其它人员的概率。 计算机在判别时采用的阈值不同,这两个指标也不同。一般情况下,误识率FAR 随阈值的减小(放...转载 2018-11-15 09:53:22 · 1273 阅读 · 2 评论 -
马可夫决策过程(MDP)与强化学习
马可夫决策过程(MDP) 强化学习的目标是最大化累积奖赏,这一点与马可夫决策过程(MDP)的目标一致,因此强化学习也常常用MDP来建模。MDP的细节 一个MDP定义为四元组<S, A, T, R>,其中: S表示环境状态的集合;A为“动作”集合,即学习器的输出值域;T为转移函数,定义了环境的根据动作的转移;R为奖赏函数,定义了动作获得的奖赏。 MDP寻找最优动作策略以...转载 2018-11-01 10:52:49 · 2793 阅读 · 0 评论 -
最小二乘的优化算法
最小二乘的优化算法 最小二乘法的目标是“求误差的最小平方和”。最小二乘的概念解释 找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least square,其实英文的字面意思是“平方最小”。这时...原创 2018-10-22 11:47:05 · 16135 阅读 · 1 评论 -
最小二乘法(Least Square)和最大似然估计
最小二乘法(Least Square)线性最小二乘(OLS,online Least Square) 最小二乘,其实就是最小方差。 找到一个(组)估计值,使得实际值与估计值的距离最小。本来用两者差的绝对值汇总并使之最小是最理想的,但绝对值在数学上求最小值比较麻烦,因而替代做法是,找一个(组)估计值,使得实际值与估计值之差的平方加总之后的值最小,称为最小二乘。“二乘”的英文为least s...原创 2018-10-20 13:42:22 · 9004 阅读 · 0 评论 -
吉布斯采样(Gibbs Sampling)
吉布斯采样(Gibbs Sampling) 常用于DBM和DBN,吉布斯采样主要用在像LDA和其它模型参数的推断上。 要完成Gibbs抽样,需要知道条件概率。也就是说,gibbs采样是通过条件分布采样模拟联合分布,再通过模拟的联合分布直接推导出条件分布,以此循环。概念解释 吉布斯采样是特殊的Metropolis-Hastings算法,会用到马尔科夫链。 具体地说, MCMC:...原创 2018-10-20 13:32:57 · 36567 阅读 · 3 评论 -
对数似然函数值/最大近然估计/log likelihood
对数似然函数值/最大近然估计/log likelihood 在参数估计中有一类方法叫做“最大似然估计”,因为涉及到的估计函数往往是是指数型族,取对数后不影响它的单调性但会让计算过程变得简单,所以就采用了似然函数的对数,称“对数似然函数”。 根据涉及的模型不同,对数函数会不尽相同,但是原理是一样的,都是从因变量的密度函数的到来,并涉及到对随机干扰项分布的假设。最大似然估计法的基本思想 ...原创 2018-10-20 13:28:06 · 92568 阅读 · 12 评论 -
模拟退火算法,经典退火算法
模拟退火算法,经典退火算法 经典退火算法是一种加入概率的贪心算法。通常搜索极值的最简单的方法就是将某一点的值与附近的点的值比较,如果我们找到一点它的值比附近的点的值都大或者都小的话那么我们就找到了局部极值。但是这样搜索的话有可能不能得到整体的极值点。经典退火算法对上述过程进行了修正,它以一定的概率使得系统在处于局部极值时可以移动到附近一个不是局部极值的点。为了系统最后能够得到稳定解,随着时间推...原创 2018-10-20 13:22:26 · 1225 阅读 · 0 评论 -
期望最大算法(EM算法)
期望最大算法(EM算法) 是一种以迭代的方式来解决一类特殊最大似然 (Maximum Likelihood) 问题的方法,这类问题通常是无法直接求得最优解。 Expectation-Maximization 算法是统计学中用来给带隐含变量的模型做最大似然(和最大后验概率)的一种方法。EM算法的目标是使包含隐变量的数据集的后验概率或似然函数最大化,进而得到最优的参数估计。 在上述存在隐变...原创 2018-10-20 12:02:49 · 1531 阅读 · 1 评论 -
各种损失函数
合页损失函数、折页损失函数(Hinge loss) 损失函数的一个类型,用于分类模型以寻找距离每个样本的距离最大的决策边界,即最大化样本和边界之间的边缘。KSVMs 使用 hinge 损失函数(或相关的函数,比如平方 hinge 函数)。在二元分类中,hinge 损失函数按以下方式定义: loss=max(0,1−(y′ y))* 其中, y’是分类器模型的列输出:y′=b+w_1x_...原创 2018-10-20 11:59:16 · 2606 阅读 · 0 评论 -
隐马尔科夫模型(Hidden Markov Model,HMM)
隐马尔科夫模型(Hidden Markov Model,HMM) 在神经网络之前,语音识别用的都是Hidden Markov Model(HMM)。原理说明 观测到X1到Xt,y1到yt是隐藏的内部状态。模型有两个假设: 1)第一个假设 Markov property:internal state 只由前一个状态决定,所以只走一步。 2)第二个假设是当前的观测值只由当前的隐藏状态...原创 2018-10-20 11:55:35 · 354 阅读 · 0 评论 -
几种常用的流形学习算法(MDS、t-SNE、KNN图、K-D树)
Multidimensional Scaling (MDS) Isomap 所改造的这个方法叫做 Multidimensional Scaling (MDS) ,MDS 是一种线性降维方法。 它的目的就是使得降维之后的点两两之间的距离尽量不变(也就是和在原是空间中对应的两个点之间的距离要差不多)。只是 MDS 是针对欧氏空间设计的,对于距离的计算也是使用欧氏距离来完成的。如果数据分布在一个...原创 2018-10-20 11:53:16 · 7844 阅读 · 0 评论 -
流形学习(Manifold Learning)
流形学习方法(Manifold Learning) 简称流形学习 (manifold learning) 。 流形学习被认为属于非线性降维的一个分支,现在正大行其道,并且与数据可视化有着密不可分的关系。 自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。基本概念 流形学习涉及微分流行和黎曼几何等数学知识。 假设数据是均匀采样于一个高维...原创 2018-10-20 11:45:42 · 746 阅读 · 0 评论 -
KL散度
KL散度 相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain),KL距离。概念解释 它是描述两个概率分布P和Q差异的非对称性的度量(注意与JS散度区别)。它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。...原创 2018-10-20 11:36:03 · 513 阅读 · 0 评论 -
支持向量机SVM
SVM小样本必备神器-SVM原创 2018-09-29 13:38:20 · 230 阅读 · 0 评论 -
Sparse Filtering稀疏滤波
Sparse Filtering稀疏滤波 它根本上是一个特征提取器,一般来说,大部分的特征学习方法都是试图去建模给定训练数据的真实分布。 SAE的稀疏是对于模型参数的稀疏,即在cost function中加入了权值惩罚项;而SF,首先对特征矩阵的每一行进行正则化,除以其二范数,同样的方式对每一列进行正则化,最后我们最小化特征矩阵各项的绝对值和。 聚焦在非监督学习Unsupervised...原创 2018-09-29 13:34:11 · 3809 阅读 · 5 评论 -
人脸识别中常用的评价指标
人脸识别中常用的评价指标 几个比较重要的定义,用于评估二分类问题的预测结果相关不相关预测到的A(tp)B(fp) 误报没预测到的C(fn)漏报D(tn)参考资料:https://blog.csdn.net/aws3217150/article/details/50479457 1)准确率:(对的对,错的错的比例)(A+D)/(A+B+C+D) ...原创 2018-09-29 11:04:43 · 5236 阅读 · 4 评论 -
随机森林(random forest)
随机森林(random forest)随机森林的构造过程 1. 假如有N个样本,则有放回的随机选择N个样本(每次随机选择一个样本,然后返回继续选择)。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。 2. 当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m << M。然后从这m个属性中采用某种策略(比...原创 2018-09-04 15:14:47 · 474 阅读 · 0 评论 -
决策树 Decision Tree
决策树(Decision Tree) 决策树可以看成为一个 if-then 规则的集合。决策树方法建立了一个根据数据中属性的实际值决策的模型。决策树用来解决分类和回归问题。 机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决...原创 2018-09-04 15:06:37 · 783 阅读 · 0 评论 -
Bootstrapping sample
Bootstrapping bootstrap sample是什么? OOB(out of boostrap)是什么? boostrap sample: 是一种从给定训练集中有返回的均匀抽样, 也就是, 每当选中一个样本, 它等可能地再次被抽中, 并被添加到训练集中。 机器学习中,Bootstrap 方法指的是借助替换的随机采样,它是一个重采样,允许模型或算法更好地理解存在于其...原创 2018-08-31 17:59:27 · 2173 阅读 · 0 评论 -
集成学习之Boosting
Boosting Boosting 指使用加权平均值使弱的学习器变强的一组算法。与 Bagging 不同,每个模型单独运行,最后在不偏向任何模型的前提下聚合输出结果。Boosting 是一项「团队工作」。每个模型决定下一个模型要关注的特征。 Boosting 也需要 Bootstrapping。但是,这里还有一个区别。与 bagging 不同,boosting 为每个数据样本加权。这意...原创 2018-08-31 17:57:31 · 462 阅读 · 0 评论 -
集成学习之Bagging
Bagging 可以看成是一种圆桌会议, 或是投票选举的形式. 通过训练多个模型, 将这些训练好的模型进行加权组合来获得最终的输出结果(分类/回归)。即Bagging predictor 是一种生成多个预测器版本然后生成聚合预测器的方法。一般这类方法的效果, 都会好于单个模型的效果. 在实践中, 在特征一定的情况下, 大家总是使用Bagging的思想去提升效果。 训练时, 使用repl...原创 2018-08-31 17:51:22 · 675 阅读 · 0 评论 -
集成学习(Ensemble Learning)
集成学习(Ensemble Learning) 集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,其哲学思想是“三个臭皮匠赛过诸葛亮”。一般的弱分类器可以由决策树,神经网络,贝叶斯分类器,K-近邻等构成。这些算法可以是不同的算法,也可以是相同的算法。已经有学者理论上证明了集成学习的思想是可以提高分类器的性能的,比如说统计上的原因,计算上的原因以及表示上的原因。 ...原创 2018-08-31 17:30:31 · 4553 阅读 · 0 评论 -
Bayesian Program Learning(贝叶斯程序学习)
Bayesian Program Learning 「贝叶斯程序学习」(BPL,Bayesian Program Learning),能让计算机系统对人类认知进行很好的模拟。但现在有关bayesian的研究放缓。 传统的机器学习方法需要大量的数据来训练,而这种方法只需要一个粗略的模型,然后使用推理算法来分析案例,补充模型的细节。在数据量巨大但较混乱的情况下,深度学习能发挥优势;而在数据...原创 2018-08-31 17:14:48 · 2312 阅读 · 0 评论 -
alpha-GO中的蒙特卡洛方法与信心上限决策方法
围棋中的蒙特卡洛方法 其思想很简单,对于当前棋局,随机地模拟双方走步,直到分出胜负为止。通过多次模拟,计算每个可下棋点的获胜概率,选取获胜概率最大的点走棋。 在围棋程序中实际使用的是一种被称为蒙特卡洛树搜索的方法,边模拟边建立一个搜索树,父节点可以共享子节点的模拟结果,以提高搜索的效率。是二十世纪40年代中期由S.M.乌拉姆和J.冯·诺伊曼提出的一类随机模拟方法的总称,其名称来源于摩纳...原创 2018-08-17 11:55:25 · 1278 阅读 · 0 评论