机器学习
糖葫芦君
这个作者很懒,什么都没留下…
展开
-
xgboost使用one-hot编码方式是否合理
one-hot编码方式离散特征为什么要是用one-hot编码方式:类别编码默认特征是有序的,不适用于离散特征特征之间的距离计算方式更加合理编码后每一维的特征都是独立的,可以看做是连续特征无法考虑特征之间的相互关系决策树与类别编码在树模型中,当类别特征为数很高时,one-hot编码并不合适:使用one-hot coding的话,意味着每一个决策节点上只能用one-vs-rest的切分方式,当特征维度高时,每个类别的数据都会比较少,产生的切分不平衡,切分增益也会很小会影响决策数的学习,会原创 2020-10-17 22:33:01 · 3409 阅读 · 0 评论 -
Boosting算法与假设间隔
Boosting算法与假设间隔间隔概念AdaBoost算法AdaBoost 平均间隔参考资料间隔概念间隔是一种几何度量,能够用于度量分类器预测的可信程度。间隔的两种定义:1. 样本间隔: 被预测样本与决策面间的距离。支持向量机( support vector machine,SVM) 算法采用了样本间隔概念; ②假设间隔: 要求对分类器之间的距离进行度量,表示在不改变分类结果的前提下分类器可...原创 2020-04-01 20:10:12 · 555 阅读 · 0 评论 -
维度归约
1.为什么要把降维作为一个单独的预处理步骤?复杂度依赖于输入的维度d和数据样本的规模N,为了减少存储量和计算时间。较简单的模型在小数据集上更为鲁棒,较简单的模型具有较小的方差。当数据能够用较少特征解释时,就能够更好地理解解释数据的过程,使得能够提取知识。当数据能够用少数维表示而不丢失信息时,我们可以对数据绘图,并且可视化地分析它的结构和离群点。降维的主要方法有两个:特征选择和特征提取...原创 2018-11-01 20:42:20 · 1529 阅读 · 0 评论 -
多标签分类算法 MK-KNN: A Lazy Learning approach to Multi-Label Learning
1. 多标签学习多标签学习起源于文本分类问题中遇到的概念歧义的困难,每个文本可能同时属于多个主题。再多标签学习中,训练集由样本同时与多个标签相关,我们的任务是通过分析已知标签集的训练样本来预测未观测样本的标签集。我将在这里介绍一个多标签lazy学习方法–ML-KNN,它是由传统的K-Nearest Neighbor(K最近邻算法)衍生而来。首先,与KNN一样,对于每个未观测样本,找出其训练集中的...原创 2018-11-29 20:08:49 · 3319 阅读 · 1 评论 -
cross entropy 与 square error(square error在神经网络中的梯度消失问题)
在训练神经网时,应该使用哪一个呢?如果是回归问题,用均方误差(MSE).如果是分类问题,一般用交叉熵损失(CE).因为MSE容易发生梯度消失问题,而CE则不会.以分类问题为例,假设我们的类别数量为T,最后一层使用softmax.对一条样本(x,c)而言,其label为c.在神经网络softmax之前的那一层,共有T个神经元:不管是用MSE还是CE,我们都是希望ycy_cyc越大越好,其...原创 2018-12-15 17:01:50 · 2051 阅读 · 0 评论 -
推荐系统:Content-based & Collaborative Filtering
X = set of 顾客S = set of 商品Utility function: X ×\times× S = RR = 打分的集合本文将主要针对以下关键问题进行阐述:(1) 收集矩阵中已知的打分:怎么收集utility matrix中的数据(2) 根据已知的打分推断未知的得分:我们主要关心的是未知的高分项,因为我们只想知道客户喜欢什么而不关心客户不喜欢什么(3) 评估推断方...原创 2019-01-03 19:45:55 · 5755 阅读 · 0 评论 -
训练-测试数据类别不平衡和交叉熵(Quora question pair challenge中的类别不平衡问题)
介绍假设我们想要在一个二分类问题上训练一个机器学习模型, 一个标准的度量模型性能的方法叫做log-loss或binary cross-entropy. 这意味着对于给定的预测标签y的任务, 我们想要得到概率y^\hat{y}y^,而不是仅仅输出一个0/1的预测类别.模型的cross entropy 分数定义为:∑i−yilogyi^−(1−yi)log(1−yi^)\sum_i -y_i l...原创 2018-12-24 19:33:22 · 2948 阅读 · 0 评论 -
多标签分类问题的评价指标
多标签分类的评价指标多标签学习系统中的性能评估与经典的单标签学习问题中不同,在单标签问题中使用的经典度量标准包括准确率,Precision,Recall 和 F-measure.在多标签学习中,评估会更加复杂,对于一个测试集S={(x1,Y1),(x2,Y2),...,(xp,Yp)}S={(x1,Y1),(x2,Y2),...,(xp,Yp)}S=\{(x_{1},Y_1),(x_2,Y_2...原创 2018-09-09 09:39:04 · 17841 阅读 · 5 评论 -
决策树完整总结(ID3,C4.5,CART)
文章目录1.介绍1.1 定义1.2 决策树与条件概率分布1.3 决策树的构建1.3.1 划分准则1.3.2 停止条件:2. 决策树的构建过程2.1 ID3算法2.2 C4.5算法3. 决策树的剪枝算法3.1:树的剪枝算法:3.1 基尼指数5.2 CART剪枝4. 优点1.介绍1.1 定义决策树学习的目标是根据给定的训练数据集合构建一个决策树模型,使它能够对实例进行正确的分类。决策树学习的本质...原创 2019-04-29 23:19:19 · 2932 阅读 · 0 评论 -
交叉熵与KL散度和交叉熵之间的关系
熵的本质是香农信息量log1plog\frac{1}{p}logp1现有关于样本即的2个概率分布p和q,其中p为真是分布,q为非真实分布。按照真实分布p来衡量识别一个样本所需要的编码长度的期望(即平均编码长度)为:H(p)=−∑ip(i)logp(i)H(p)=-\sum_i p(i)log p(i)H(p)=−i∑p(i)logp(i)如果使用错误分布q来表示来自真是分布p的平均编码长度...原创 2019-05-30 22:02:31 · 9747 阅读 · 4 评论 -
样本不权衡&easy和hard样本:Focal loss和Gradient Harmonizing Mechanism
本文主要介绍两个在目标检测中解决正负样本和easy,hard样本不平衡问题的方法,分别是发表在ICCV 2017上的Focal Loss for Dense Object Detection和AAAI 2019上的Gradient Harmonized Single-stage Detector。这两种方法都是通过调整每个样本的loss来解决不平衡问题。这两种方法都是针对目标检测任务提出的,首先...原创 2019-06-15 17:30:35 · 1954 阅读 · 0 评论 -
逻辑回归与最大似然估计推导
目录逻辑回归(对数几率回归)1.广义线性模型2.逻辑回归的假设3. 逻辑回归的代价函数为什么LR中使用交叉熵损失函数而不使用MSE损失函数?3. 极大似然估计4. 利用梯度下降法求解参数w4.1 三种梯度下降方法的选择5.逻辑回归优缺点:参考资料:逻辑回归(对数几率回归)逻辑回归是一种分类算法,不是回归算法,因为它用了和回归类似的思想来解决了分类问题...原创 2018-08-01 16:42:31 · 32439 阅读 · 7 评论 -
ROC及AUC计算方法及原理
1.非均衡分类问题在大多数情况下不同类别的分类代价并不相等,即将样本分类为正例或反例的代价是不能相提并论的。例如在垃圾邮件过滤中,我们希望重要的邮件永远不要被误判为垃圾邮件,还有在癌症检测中,宁愿误判也不漏判。在这种情况下,仅仅使用分类错误率来度量是不充分的,这样的度量错误掩盖了样例如何被错分的事实。所以,在分类中,当某个类别的重要性高于其他类别时,可以使用Precison和Recall多个比...原创 2018-07-30 20:20:31 · 85587 阅读 · 14 评论 -
KNN算法matlab代码实现
clear;clc;K=3;trainData = [1.0,2.0;1.2,0.1;0.1,1.4;0.3,3.5];trainClass = [1,1,2,2];testData = [0.5,2.3];[N,M]=size(trainData);%计算训练数据集与测试数据之间的欧氏距离distdist=zeros(N,1);for i=1:N dist(i,:)=原创 2017-03-13 22:54:22 · 19020 阅读 · 0 评论 -
支持向量机SVM
函数间隔与几何间隔:一般而言,一个点距离超平面的远近可以表示我分类预测的确信或准确程度。 - 在超平面w∗x+n=0w*x+n=0确定的情况下,|w∗x+b||w*x+b|能够相对的表示点xx距离超平面的远近。 - 而w∗x+bw*x+b的符号与类标记yy的符号是否一致表示分类是否正确。 所以,可以使用y∗(w∗x+b)y*(w*x+b)的正负性来判定或表示分类的正确性和确信度。 因此,引出转载 2017-09-23 11:17:36 · 980 阅读 · 0 评论 -
朴素贝叶斯分类器及python实现
一.贝叶斯公式概率论的一些基本知识: 条件概率:P(A|B)P(A|B) 联合概率:P(AB)=P(B)∗P(A|B)=P(A)∗P(B|A)P(AB)=P(B)*P(A|B)=P(A)*P(B|A) 从而导出贝叶斯式:P(A|B)=P(AB)|P(B)=P(A)∗P(B|A)/P(B)P(A|B)=P(AB)|P(B)=P(A)*P(B|A)/P(B) 条件概率的链式法则: P(A1,A原创 2019-04-24 18:41:57 · 9958 阅读 · 4 评论 -
生成式模型与判别式模型
生成式模型与判别式模型的区别生成式模型(Generative Model)与判别式模型(Discriminative Model)是分类器常遇到的问题对于判别式模型来说求得P(Y|X),对未见示例X,根据P(Y|X)可以求得标记Y,即可以直接判别出来,如上图的左边所示,实际是就是直接得到了判别边界,所以传统的、耳熟能详的机器学习算法如线性回归模型、支持向量机SVM等都是判别式模型...原创 2017-03-17 23:20:01 · 2887 阅读 · 0 评论 -
谱聚类Spectral Clustering
1.介绍与传统的算法相比,谱聚类有许多优点;结果通常比传统的方法要好而且应用简单,可以通过标准线性代数方法解决。2.Similarity Graphs相似度图G=(V,E) 图中的每个节点viv_i代表一个数据点,如果数据点xix_i和xjx_j的相似度sijs_{ij}是正的并且比一个确定的threshold值大的话,两个顶点就是连接的,si,js_{i,j}代表边的权重。聚类可以看做是:我们想原创 2017-10-28 10:11:39 · 1567 阅读 · 0 评论 -
机器学习中范数的作用
范数的定义范数的一般化定义:对于实数X,p-norm的定义为: ||X||p=(∑ni=1|xi|p)1p||X||_{p}=(\sum_{i=1}^{n}|x_i|^p)^{\frac{1}{p}}其赋予某个向量空间(或矩阵)中每个元素以长度或大小。直观地说,范数越大,则相应的向量或矩阵也就越大。三种范数在机器学习中的正则化与稀疏编码(Sparse Coding)中有非常有趣的应用。L0L_{0原创 2017-10-15 20:42:07 · 4986 阅读 · 0 评论 -
GMM聚类及Matlab代码实现
算法特点GMM聚类与Keams聚类很相似。K-means是将每个数据点分配到某一个类别中,而GMM则是给出这些数据点被分配到每个类别的概率,又叫做soft assignment。其除了被用在clustering上,还经常被用于density estimation上。 得出一个概率有很多的好处,因为它的信息量比简单的一个结果要多。这个概率可以被看做是得出这个结果的把握。比如说,在诸如疾病诊断时原创 2017-10-14 20:33:25 · 12014 阅读 · 12 评论 -
决策树(ID3,C4.5,CART算法具体过程)
1.介绍1.1 定义决策树模型是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成。其中结点有两种类型:内部结点和叶节点。内部结点表示一个特征或属性,叶节点表示一个类。在分类问题中,就表示基于特征对实例进行分类的过程。用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点。每一个子节点对应着特征的一个取值。如此递归的对实例进行测试分配,...原创 2018-07-16 21:14:44 · 7472 阅读 · 0 评论 -
XGBoost原理介绍
1. Introduction在这篇文章中,我将介绍XGBoost(eXtreme Gradient Boosting),一种tree boosting的可扩展机器学习系统。这个系统可以作为开源的软件包使用。该系统的影响已经在大量的机器学习和数据挖掘挑战中被广泛地认可。这些获胜解决方案包括:商店销售预测; 高能物理事件分类; 网络文本分类; 顾客行为预测; 运动检测; 广告点击率预测; ...原创 2018-07-17 20:10:25 · 73282 阅读 · 3 评论 -
支持向量机
支持向量机是一种二类分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机可以形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题,支持向量机的学习算法是求解凸二次规划的最优化算法。支持向量机包括构建由简至繁的模型:1.线性可分支持向量机:当训练数据是线性可分时,通过硬间隔最大化学习一个线性分类器;2.线性支持向量机:当训练数据近似线性可分时,...原创 2018-07-27 23:11:51 · 11004 阅读 · 0 评论 -
正则化总结
一, 正则化的目的:1. 过拟合现象:如图,在线性回归中。图一中,使用一条直线进行数据的拟合,但是这个模型并没有很好的拟合数据,产生很大的偏差。这种现象称为欠拟合。图二中,使用一个二次函数进行拟合,得到很好的拟合结果。图三中,使用更高阶的多项式进行拟合,这个模型通过了所有的训练数据,使代价函数 约等于0甚至等于0。但是这是一条极度不规律扭曲的曲线,它并不是一个原创 2017-03-13 17:55:26 · 7629 阅读 · 2 评论