机器学习
一只tobey
中国,广州,从城中到乡下,再从乡下进城里,保持努力!
展开
-
几种常见的离群点检验方法
离群值检验方法简介设有一组正态样本的观测值,按其大小顺序排列为x1,x2,x3,……,xn。其中最小值x1或最大值xn为离群值(xout)。对于离群值的统计检验,大都是建立在被检测的总体服从正态分布。基于此,在给定的检出水平或显著水平α(通常取值为0.05和0.01)和样本容量n条件下,可查表获得临界值,再通过计算统计量后与临界值比较,若统计量大于临界值就判为异常。临界值表通常给出的是置信度P,对双侧检验而言,P= 1 -α/2;对单侧检验而言,P= 1 -α。标准偏差已知情况采用奈尔...转载 2020-07-29 12:09:41 · 13950 阅读 · 0 评论 -
离群点检测和新奇检测之新奇检测
“噪音”的出现有多种原因,例如业务操作的影响(典型案例如网站广告费用增加10倍,导致流量激增)、数据采集问题(典型案例如数据缺失、不全、溢出、格式匹配等问题)、数据同步问题(异构数据库同步过程中的丢失、连接错误等导致的数据异常),而对离群点进行挖掘分析之前,需要从中区分出真正的“离群数据”,而非“垃圾数据”。数据集中的异常数据通常被成为异常点、离群点或孤立点等,典型特征是这些数据的特征或规则与大多数数据不一致,呈现出“异常”的特点,而检测这些数据的方法被称为异常检测。常用的异常检测方法可分为以下几类转载 2020-07-29 12:00:31 · 884 阅读 · 0 评论 -
最小二乘法解的矩阵形式推导,以及BN(batch normalization)的求导公式
求解下列最小二乘的解: ,其中解法一:由基本的实值函数对向量的求导公式推导解法二:使用线性变换的求导公式解法三:元素法,网上搜索的绝大部分推导过程都是此法下面只对上面两种解法解析,具体如下:求解BN的反向传播公式1.BN算法的计算过程如下:其中m是批的...原创 2019-10-22 13:37:02 · 2155 阅读 · 0 评论 -
deep learning 调参经验
参考:https://mp.weixin.qq.com/s/83snbei8T8p296mBcEjeoQ转载 2019-10-21 00:15:00 · 188 阅读 · 0 评论 -
xgboost
1.XGBoost超详细推导2.数据竞赛利器XGBoost常见面试题集锦等等问答原创 2019-10-18 16:24:43 · 113 阅读 · 1 评论 -
常用的激活函数
参考:常用激活函数(激励函数)理解与总结翻译 2019-10-17 20:44:53 · 101 阅读 · 0 评论 -
平面点坐标旋转公式
点顺时针绕点(a,b)角度k度得到点那么就有:原创 2019-10-11 21:28:40 · 4010 阅读 · 0 评论 -
向量与矩阵的范数(比较1-范数、2-范数、无穷范数、p-范数、L0范数 和 L1范数等)
xcsxxs的服务范围转载 2019-10-09 21:11:37 · 1174 阅读 · 0 评论 -
对偶问题和原问题的关系
在线性规划早期发展中最重要的发现就是对偶问题,即每一个线性规划问题(称为原始问题)都有一个与它对应的对偶线性规划问题(称为对偶问题),下图中最后那个是互补松弛定理。正确的是B,因为一个问题有可行解,对应的另一个问题有两种情况。...原创 2019-10-10 19:08:14 · 23366 阅读 · 0 评论 -
线性分类器的三种最优准则
Fisher 准则 :根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。感知准则函数 :准则函数...原创 2019-10-10 19:19:30 · 1064 阅读 · 0 评论 -
常用激活函数总结
...转载 2019-10-10 19:51:09 · 160 阅读 · 0 评论 -
常用来划分测试集和训练集的划分方法
数据集的划分:在机器学习算法中,我们通常将原始数据集划分为三个部分(划分要尽可能保持数据分布的一致性):(1)Training set(训练集): 训练模型(2)Validation set(验证集): 选择模型(3)Testing set(测试集): 评估模型其中Validation set的作用是用来避免过拟合的。在训练过程中,我们通常用它来确定一些超参数(例:根据Va...原创 2019-10-10 21:49:45 · 8310 阅读 · 0 评论 -
香浓信息量,信息熵,交叉熵,相对熵(KL散度),JS散度,条件熵,信息增益,互信息
香浓信息量:用于刻画消除随机变量X在x处的不确定性所需的信息量的大小计算公式:,但是在深度学习中一般使用的是自然对数其中:如果是连续型随机变量的情况,设p为随机变量X的概率分布,即p(x)为随机变量X在X=x处的概率密度函数值,如果是离散分布,那么p(x)为随机变量X在X=x处的概率值特点:因为p(x)是0-1的值,所以香浓信息量大小总是大于0比特信息熵:用于刻画消除随机变量...原创 2019-03-04 00:19:11 · 1783 阅读 · 0 评论 -
主成分分析(PCA),协方差,特征值分解,奇异值分解(SVD)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-10-07 02:04:35 · 11087 阅读 · 4 评论 -
数据降维和特征选择的区别,特征选择常用算法综述,用于文本分类的特征选择算法
两个容易混淆的概念:数据降维和特征选择的区别用于文本挖掘分类的特征选择算法:参考(1)DF(Document Frequency)文档频率统计特征词出现的文档数量,用来衡量某个特征词的重要性。越高越重要。(2)MI(Mutual Information)互信息法互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法...原创 2019-10-06 18:19:42 · 1077 阅读 · 0 评论 -
隐马模型(HMM)
隐马尔科夫模型的三个基本问题以及相应的算法如下:A、B:前向、后向算法解决的是一个评估问题,即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。C:Baum-Welch算法解决的是一个模型训练问题,即参数估计(学习),是一种无监督的训练方法,主要通过EM迭代实现;D:维特比算法解决的是给定 一个模型和某个特定的输出序列,求最可能产生这个输出的状态序列。如通过海藻变化...原创 2019-10-06 17:29:45 · 435 阅读 · 0 评论 -
图理论的最短路径
非网图:边没有权值,最短路径就是两个顶点之间经过边数最少的路径网图的最短路径:两个顶点之间经过的边上权值之和最小的路径。网图更有实际意义迪杰斯特拉(Dijkstra)算法:一个按照长度递增的次序产生的最短路径的算法。它并不是直接求出源点到终点的最短路径,而是一步步求出他们之间顶点的最短路径,过程中都是基于已经求出最短路径的基础上,求得更远顶点的最短路径,最终得到想要的结果。弗洛伊...原创 2019-09-26 23:31:51 · 188 阅读 · 0 评论 -
时间序列模型
题目:下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测?AR模型MA模型ARMA模型GARCH模型(正确)指数平均法---------------------------------------------------------------------------------------------------------------时间序列中常用预测技...转载 2019-09-26 23:36:48 · 236 阅读 · 0 评论 -
支持度,置信度,提升度的区别和计算
支持度定义(多个的时候是联合概率):support(A,B)同时购买了商品A和商品B的交易次数/总的交易次数。support(A): 即为购买A在所有事务性变量(购物篮)中出现的比例。因此上面的题目:s(e)=8/10=0.8,s(b,d)=2/10=0.2, s(b,d,e)=2/10=0.2;结果选A。置信度定义(就是条件概率):confidence(A-->B)=P(B|A...原创 2019-09-27 00:00:21 · 17065 阅读 · 0 评论 -
题目涉及:SVM对噪声的鲁棒,Adaboost算法的权重更新,bagging和boosting区别
1.SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。所以是有条件的。2.AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时,每个样本对应的权重是相同的,即其中n为样本个数,在此样本分布下训练出一弱分类器。对于分类错误的样本,加大其对应的权重;而对于分类正确的样本,降低...原创 2019-09-27 00:20:58 · 5043 阅读 · 1 评论 -
判别式模型和生成式模型
区别在于:对于输入x,类别标签y:生成式模型估计它们的联合概率分布P(x,y)判别式模型估计条件概率分布P(y|x)生成式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。 判别式模型常见的主要有:Linear Regression(线性回归)Logistic Regression最大熵模型SVM(支持向量机)Traditional Neural Net...原创 2019-09-27 22:06:05 · 177 阅读 · 0 评论 -
SVM和LR的适用情况,SVM中核函数的作用。
在Andrew Ng的机器学习视频中提到SVM和logistic回归的适用情形:m是样本数,n是特征的数目1、如果n相对于m来说很大,则使用logistic回归或者不带核函数的SVM(线性分类)2、如果n很小,m的数量适中(n=1-1000,m=10-10000),使用带核函数的SVM算法3、如果n很小,m很大(n=1-1000,m=50000+),增加更多的特征,然后使用logistic...原创 2019-09-27 22:23:33 · 778 阅读 · 0 评论 -
以下机器学习中,在数据预处理时,不需要考虑归一化处理的是
解析:树模型一般不需要做归一化处理,做归一化处理的目的主要为了使同一特征的取值在同一量纲,降低方差太大带来的影响。树模型并不关心特征的具体取值,只关心特征取值的分布。归一化不是由方法决定的,而是由数据决定的。...原创 2019-10-05 15:39:43 · 5271 阅读 · 0 评论 -
在统计模式识分类问题中,当先验概率未知时,可以使用N-P判决和最小最大损失准则
解析:最小损失准则是要求先验分布为均匀分布,这就是为什么不选A原创 2019-10-05 15:56:13 · 3439 阅读 · 1 评论 -
聚类的定义和2个基本问题
无监督学习中,训练样本的信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。应用最广也是研究最多的是-----聚类聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。聚类过程只能形成簇结构,而簇对应的概念语义需要由使用者来把握和命名。聚类既可以作为一个单独过程用来寻找数据内部的分布结构,也可以作为分类等其他学习任...原创 2019-10-05 18:34:24 · 2082 阅读 · 0 评论 -
聚类算法的种类介绍
一、原型聚类:基于原型的聚类(prototype-based clustering),假设聚类结构能通过一组原型刻画。通常情况下,算法先对原型进行初始化,然后原型进行迭代更新求解。1、k均值聚类算法(k-mean) 给定样本集D=,“k-mean”算法针对聚类所得簇划分C=的最小化平方误差: ...原创 2019-10-05 20:30:29 · 2338 阅读 · 0 评论 -
对高维数据进行降维的算法
解析:维度灾难:在高维情况下出现的数据样本稀疏,距离计算困难等问题。缓解维度灾难的一个重要途径就是降维,通过某种数学变换将原始高维属性空间转变成一个低维子空间,在这个子空间中样本密度大幅提高,距离计算也变得更加容易。降维算法(LASSO、PCA、聚类分析、小波分析、线性判别分析、拉普拉斯特征映射、局部线性嵌入、奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分...原创 2019-10-06 17:02:59 · 9808 阅读 · 0 评论 -
机器学习之朴素贝叶斯分类器
参考:https://blog.csdn.net/qq_32690999/article/details/78737393贝叶斯决策论是概率框架下实施决策的基本方法。想要使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率。然而现实人物中很那直接获得后验概率,从这个角度来看,机器学习所要实现的是基于有限样本尽可能准确估计出后验概率。大体上来说有两种策略:给定x,直接建模P(c|x)来预测c(...原创 2019-03-19 15:03:30 · 742 阅读 · 0 评论