机器学习
文章平均质量分 65
UMaker
算法工程师,从事数据挖掘、自然语言处理方面的工作。
展开
-
Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting
这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址,在这里致谢作者的研究。一并列出一些找到的介绍boosting算法的资源:(1)视频讲义,介绍boosting算法,主要介绍AdaBoosing ht转载 2016-07-17 10:04:37 · 593 阅读 · 0 评论 -
XGBoost Plotting API以及GBDT组合特征实践
XGBoost Plotting API以及GBDT组合特征实践写在前面:最近在深入学习一些树模型相关知识点,打算整理一下。刚好昨晚看到余音大神在Github上分享了一波 MachineLearningTrick,赶紧上车学习一波!大神这波节奏分享了xgboost相关的干货,还有一些内容未分享….总之值得关注!我主要看了:Xgboost的叶子节点位置生成新特征封装的函数。之前就看过转载 2017-04-15 12:34:54 · 9630 阅读 · 4 评论 -
FM 模型介绍
(一)简介1.FM(factorization machine)模型是一种基于矩阵分解的机器学习模型,对于稀疏数据具有很好的学习能力;2.FM模型与LR模型的区别在于引进了特征组合;(二)算法1.线性回归模型:没有考虑特征分量之间的关系;2.考虑特征分量之间关系的线性回归模型:若样本特征为高度稀疏,那么不能对wij参数进行估计,绝大部分为0;转载 2017-07-03 14:13:22 · 2642 阅读 · 0 评论 -
深入FM和FFM原理与实践
深入FFM原理与实践目录(?)[-]前言FM原理FM与其他模型的对比FFM原理FFM实现FFM应用后记参考文献 FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,转载 2017-07-13 15:49:48 · 11307 阅读 · 2 评论 -
adaboost和GBDT的区别以及xgboost和GBDT的区别
adaboost和GBDT的区别以及xgboost和GBDT的区别AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而受到后一轮的弱分类器的更大关注,于是,分类问题就被一系列的弱分类器“分而治之”。至于第二个问题,即弱分类器的组合,AdaBoost采取加权多数表决的方法转载 2017-09-06 18:51:35 · 894 阅读 · 0 评论 -
LR与SVM的相同点和不同点
LR与SVM的相同点和不同点版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[-]LR与SVM的相同点LR和SVM的不同一般而言一个点距离超平面的远近可以表示为分类预测的确信或准确程度LR与SVM的相同点:*LR和SVM都是分类算法*如果不考虑核函数,LR和SVM都是线原创 2017-08-29 19:26:22 · 651 阅读 · 0 评论 -
机器学习中的损失函数
机器学习中的损失函数目录(?)[-]一log对数损失函数逻辑回归二平方损失函数最小二乘法 Ordinary Least Squares三指数损失函数Adaboost四Hinge损失函数SVM五其它损失函数损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用转载 2017-08-31 09:45:06 · 354 阅读 · 0 评论 -
机器学习中样本不平衡处理办法
在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路:1、重新采样训练集可以使用原创 2017-12-21 10:06:18 · 14876 阅读 · 1 评论 -
树模型输出新的特征
GBDT原理及利用GBDT构造新的特征-Python实现背景1 Gradient Boosting2 Gradient Boosting Decision Tree3 GBDT应用-回归和分类GBDT构建新的特征思想GBDT与LR融合方案源码内容generate GBDT featuresgenerate原创 2018-05-06 21:03:59 · 2195 阅读 · 1 评论 -
从零开始掌握Python机器学习(附资源)
从零开始掌握Python机器学习(附资源)机器之心 2017-03-14 14:29选自kdnuggets作者:Matthew MayoPython 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0 到 1 掌握 Python 机器学习,至于后面再从 1 到转载 2017-03-14 15:46:49 · 914 阅读 · 0 评论 -
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
在我们日常生活中所用到的推荐系统、智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效。本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点。目录正则化算法(Regularization Algorithms)集成算法(Ensemble Algorithms)翻译 2017-02-22 14:31:34 · 9044 阅读 · 0 评论 -
通俗理解LDA主题模型
0 前言 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档的前序铺垫太长(现在才意识到这些“铺垫”都是深刻理解LDA 的基础,但如果没有人帮助初学者提纲挈领、把握主次、理清思路,则很容易陷入LDA的细枝末节之中),还是因为其中的数学推导细节太多,导致一直没有完整看转载 2017-02-21 22:24:17 · 845 阅读 · 0 评论 -
xgboost
xgboost学习手册day-1 xgboost的全称是eXtreme Gradient Boosting。它是Gradient Boosting Machine的一个c++实现。创建之由为受制于现有库的计算速度和精度,xgboost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。现在xgboost已封装成了python库,转载 2016-06-22 09:09:45 · 1050 阅读 · 0 评论 -
python 编码问题
背景:在实际数据处理中,我们或多或少会接触到中文,如两个dc pack包的diff。使用python对中文数据 处理难免会遇到编码问题。python里面主要考虑三种编码:1、源文件编码:如果我们在源文件中使用中文注释或中文docstring或中文字符串,如不明确指定应使用哪个中文字符集,解 释器将无法处理我们的程序。这是因为解释器默认程序使用的是ASCII或ISO-8859转载 2016-09-04 10:44:57 · 704 阅读 · 0 评论 -
机器学习中防止过拟合的处理方法
目录(?)[-]防止过拟合的处理方法过拟合Early stopping数据集扩增正则化方法Dropout防止过拟合的处理方法过拟合 我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当原创 2016-11-08 21:40:36 · 1182 阅读 · 0 评论 -
在机器学习分类中如何处理训练集中不平衡问题
版权声明:未经许可, 不能转载目录(?)[-]在分类中如何处理训练集中不平衡问题Jason Brownlee的回答什么是类别不均衡问题类别不均衡问题是现实中很常见的问题八大解决方法选择某一种方法并使用它总结Further ReadingSergey Feldman的回答Kripa Chettiar的回答Roar Nyb的回答Dan Levin的回答K转载 2016-11-08 21:44:45 · 7864 阅读 · 0 评论 -
非平衡数据机器学习
【译】非平衡数据机器学习这篇文章翻译至http://www.svds.com/learning-imbalanced-classes/,作者简洁明了地阐述了非平衡数据及解决这类问题的常用方法。其实一些朴素的方法我们自己也能想到,并且也实际使用过一些,比如重采样、调整权值等。然而,我们并没有去做一些归纳。感谢作者帮我们归纳了一些思想朴素但又实际有用的方法。什么是非平衡数据?翻译 2016-11-27 14:46:45 · 7380 阅读 · 0 评论 -
KL散度
今天开始来讲相对熵,我们知道信息熵反应了一个系统的有序化程度,一个系统越是有序,那么它的信息熵就越低,反之就越高。下面是熵的定义 如果一个随机变量的可能取值为,对应的概率为,则随机变量的熵定义为 有了信息熵的定义,接下来开始学习相对熵。 Contents 1. 相对熵的认转载 2016-12-27 15:22:36 · 449 阅读 · 0 评论 -
协同过滤
今天要讲的主要内容是协同过滤,即Collaborative Filtering,简称CF。 Contents 1. 协同过滤的简介 2. 协同过滤的核心 3. 协同过滤的实现 4. 协同过滤的应用 1. 协同过滤的简介 关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一转载 2016-12-27 15:45:57 · 323 阅读 · 0 评论 -
Kaggle债务违约预测冠军经验分享
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[-]引言SWOT分析法优势Strengths利用我们已有的优势弱势weaknesses我们需要提升的领域机会opportunities可以利用的机会及实践得到的经验威胁threats我们需要减轻和控制的危机Agile过程Agile过程是什么为何使用Agile过程试探性数据分析特征工程翻译 2016-12-27 16:05:04 · 6029 阅读 · 1 评论 -
梯度下降、牛顿法、拟牛顿法比较
梯度下降、牛顿法、拟牛顿法 目录(?)[-]梯度下降 牛顿法 拟牛顿法 介绍 在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。更严格的说,从欧几里得空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在判别式模型中,我们往往需要学习参数,从而使得我们的模型f(x)可以逼近实...转载 2017-09-13 17:06:28 · 2992 阅读 · 0 评论