数据挖掘
文章平均质量分 86
UMaker
算法工程师,从事数据挖掘、自然语言处理方面的工作。
展开
-
常见面试之机器学习算法思想简单梳理
常见面试之机器学习算法思想简单梳理 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。 纵观IT行原创 2016-04-25 22:08:20 · 576 阅读 · 0 评论 -
大杀器xgboost指南
目录(?)[-]一xgboost的优点二xgboost的参数 转自httpblogcsdnnetwzmsltwarticledetails50994481General ParametersBooster ParametersParameter for Tree BoosterParameter for Linear BoosterTask Parameters转载 2017-04-14 16:09:58 · 440 阅读 · 0 评论 -
gbdt和xgboost区别
目录(?)[-]一GBDTGBRT二Xgboost gbdt(又称Gradient Boosted Decision Tree/Grdient Boosted Regression Tree),是一种迭代的决策树算法,该算法由多个决策树组成。它最早见于yahoo,后被广泛应用在搜索排序、点击率预估上。 xgboost是陈天奇大牛新开发的Boo转载 2017-04-14 17:21:18 · 17249 阅读 · 0 评论 -
模型融合
参考:台大机器学习技法 http://blog.csdn.NET/lho2010/article/details/42927287 stacking&blending http://heamy.readthedocs.io/en/latest/usage.html1.blending比如数据分成train和test,对于model_i(比如xgbo转载 2017-04-16 16:49:06 · 3021 阅读 · 0 评论 -
Blending and Bagging
Blending and Bagging目录(?)[+]第七讲:Blending and Bagging1、Motivation of Aggregation(融合的动机)恰当的融合可以得到更好的表现2、Uniform Blending(平均融合)转载 2017-04-16 16:50:44 · 418 阅读 · 0 评论 -
Stacking
经典Stacking模型是指将多种分类器组合在一起来取得更好表现的一种集成学习模型。一般情况下,Stacking模型分为两层。第一层中我们训练多个不同的模型,然后再以第一层训练的各个模型的输出作为输入来训练第二层的模型,以得到一个最终的输出。为了更加详细的阐述stacking模型的训练和预测过程,我们用下面的图作为示例。 首先,我们从stacking模型的训练开始阐述。在上图中我们可以看到原创 2017-04-25 09:28:16 · 8728 阅读 · 2 评论 -
关于点击率模型,你知道这三点就够
关于点击率模型,你知道这三点就够说到广告,或者运营,关注的最多的就是点击率了。我们经常能听说某某科学家通过建立更好的点击率预测模型,为公司带来上亿的增量收入。点击率这么简单直接的统计量,为什么要用复杂的数学模型来刻画呢?说到计算广告,或者个性化推荐,甚至一般的互联网产品,无论是运营、产品还是技术,最为关注的指标,就是点击率。业界也经常流传着一些故事,某某科学家通过建立更好的转载 2017-07-03 15:07:49 · 3302 阅读 · 0 评论 -
深入FM和FFM原理与实践
深入FFM原理与实践目录(?)[-]前言FM原理FM与其他模型的对比FFM原理FFM实现FFM应用后记参考文献 FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,转载 2017-07-13 15:49:48 · 11296 阅读 · 2 评论 -
机器学习中样本不平衡处理办法
在机器学习任务中,我们经常会遇到这种困扰:数据不平衡问题。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路:1、重新采样训练集可以使用原创 2017-12-21 10:06:18 · 14860 阅读 · 1 评论 -
连续特征离散化方法介绍
1. 离散化技术分类连续属性的离散化方法也可以被称为分箱法,即将一组连续的值根据一定的规则分别放到其术语的集合中。 离散化技术可以根据如何对数据进行离散化加以分类,可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。 如果离散化过程使用类信息,则称它为监督离散化(superviseddiscretization);否则是非监督的(unsupervised)。 如果原创 2018-01-30 10:48:40 · 10721 阅读 · 1 评论 -
规则提取介绍
算法简介 基于规则的分类器是使用一组"if...then..."规则来对记录进行分类的技术。 模型的规则用析取范式 R =(r1 ∨ r2 ∨ ••• ∨ rk)表示,其中R称作规则集,ri 是分类规则或析取项。 每一个分类规则可以表示为如下形式:ri:(条件i)→yi规则左边成为规则前件或前提。它是属性测试的合取:条件i=(A1 op v1)∧(A1 op原创 2018-04-24 18:45:38 · 6981 阅读 · 1 评论 -
机器学习竞赛技巧
Kaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛,在 2125 个参赛队伍中排名第 98 位(~ 5%)。因为是第一次参赛,所以对这个成绩我已经很满意了。在 Kaggle 上一次比赛的结果除了排名以外,还会显示的就是 Prize Winner,10% 或是 25% 这三档。所以刚刚转载 2017-04-17 18:50:25 · 414 阅读 · 0 评论 -
MIC(最大信息系数)
MIC我在论文使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Information(MI)互信息而言有更高的准确度巴拉巴拉的,按作者的话说总之比其他的方式好。原文参照: Detecting Novel Associations in Large Data Sets相关东西自己看看人家原文,一直觉得人家歪果仁写东西很认真,基础提到,实验充足转载 2017-03-31 15:10:38 · 21637 阅读 · 1 评论 -
机器学习学习课程感悟
前言 最近几周花了点时间学习了下今年暑假龙星计划的机器学习课程,具体的课程资料参考见附录。本课程选讲了写ML中的基本模型,同时还介绍了最近几年比较热门,比较新的算法,另外也将ML理论和实际问题结合了起来,比如将其应用在视觉上,web上的等。总之,虽然课程内容讲得不是特别细(毕竟只有那么几节课),但是内容还算比较新和比较全的。学完这些课后,收获还算不少的,至少了解到了自己哪方面的知识比较弱,下原创 2016-04-25 22:05:12 · 6785 阅读 · 0 评论 -
Bootstraping, bagging, boosting, AdaBoosting, Rand forest 和 gradient boosting
这两天在看关于boosting算法时,看到一篇不错的文章讲bootstrap, jackknife, bagging, boosting, random forest 都有介绍,以下是搜索得到的原文,没找到博客作者的地址,在这里致谢作者的研究。一并列出一些找到的介绍boosting算法的资源:(1)视频讲义,介绍boosting算法,主要介绍AdaBoosing ht转载 2016-07-17 10:04:37 · 592 阅读 · 0 评论 -
数据挖掘十大经典算法
数据挖掘领域十大经典算法初探 参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.==============博主说明:1、原文献非最新文章,只是本人向来对算法比较敏转载 2016-06-21 10:53:29 · 361 阅读 · 0 评论 -
xgboost
xgboost学习手册day-1 xgboost的全称是eXtreme Gradient Boosting。它是Gradient Boosting Machine的一个c++实现。创建之由为受制于现有库的计算速度和精度,xgboost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。现在xgboost已封装成了python库,转载 2016-06-22 09:09:45 · 1049 阅读 · 0 评论 -
决策树 bagging boosting 的区别
凡是在统计分析或机器学习领域从业的朋友们,对决策树这个名词肯定都不陌生吧。决策树是一种解决分类问题的绝好方法,顾名思义,它正像一棵大树一样,由根部不断生长出很多枝叶;它的优点实在太多,比如可以避免缺失值的影响、可以处理混合预测、模型容易展示等。然而,决策树的实际应用也绝不简单,如果树根稍有不稳、或者枝干略有差池,树就可能会彻底长偏啦,我们总是需要仔细挑选单棵决策树、或适当的组合。原创 2016-09-22 20:11:59 · 10625 阅读 · 1 评论 -
几个机器学习算法及应用领域相关的中国大牛
几个机器学习算法及应用领域相关的中国大牛李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性等问题的研究。曾在人大听过一场他的讲座,转载 2016-12-22 21:13:21 · 338 阅读 · 0 评论 -
autoencoder
前几天看到autoencoder的科普博文,里面有C的实现代码,这几天在看python和dl的东西,就有了这个python版的autoencoder。资料参考Andrew Ng的sparse autoencoder,练习中忽略了其中的正则惩罚项。练习代码如下,供参考:import numpy as npimport matplotlib.pyplot原创 2016-04-26 17:15:57 · 588 阅读 · 0 评论 -
通俗理解LDA主题模型
0 前言 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档的前序铺垫太长(现在才意识到这些“铺垫”都是深刻理解LDA 的基础,但如果没有人帮助初学者提纲挈领、把握主次、理清思路,则很容易陷入LDA的细枝末节之中),还是因为其中的数学推导细节太多,导致一直没有完整看转载 2017-02-21 22:24:17 · 838 阅读 · 0 评论 -
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
在我们日常生活中所用到的推荐系统、智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效。本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点。目录正则化算法(Regularization Algorithms)集成算法(Ensemble Algorithms)翻译 2017-02-22 14:31:34 · 9032 阅读 · 0 评论 -
data_basic_stat
basic data exploration for JDatauser datauser data row number: 103616user_id distinct number:103616user age distribution: index user_age user_cnt 0 0 12803 1 1 6 2 2 7999 3转载 2017-03-29 14:29:23 · 401 阅读 · 0 评论 -
梯度下降、牛顿法、拟牛顿法比较
梯度下降、牛顿法、拟牛顿法 目录(?)[-]梯度下降 牛顿法 拟牛顿法 介绍 在向量微积分中,标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。更严格的说,从欧几里得空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在判别式模型中,我们往往需要学习参数,从而使得我们的模型f(x)可以逼近实...转载 2017-09-13 17:06:28 · 2985 阅读 · 0 评论