机器学习
文章平均质量分 84
Catherine_In_Data
这个作者很懒,什么都没留下…
展开
-
pmml模型文件解析与自定义
0. 背景实际业务场景中, 模型训练完成后,但需要对模型进行一些微调,或者加一些人工的规则到模型中, 此时,需要了解pmml文件结构,以及 如何基于pmml文件人工计算预测得分,同时如何对pmml文件进行修改。1. 了解pmml文件结构http://dmg.org/pmml/v4-1/MultipleModels.html ---pmml4.1结构文件参考文档需关注的几个元素:(1)MiningBuildTask: 模型文件描述(2)DataDictionary:数据字典, 特征类型说明,原创 2021-09-06 20:30:11 · 3584 阅读 · 0 评论 -
正则化范式L0,L1,L2理解
L1,L2,L0区别,为什么可以防止过拟合Arya鑫关注0.9012017.09.01 08:52:10字数 1,983阅读 9,355引入监督学习的过程可以概括为:最小化误差的同时规则化参数。最小化误差是为了让模型拟合训练数据,规则化参数是为了防止过拟合。参数过多会导致模型复杂度上升,产生过拟合,即训练误差很小,但测试误差很大,这和监督学习的目标是相违背的。所以需要采取措施,保证模型尽量简单的基...转载 2020-03-30 16:38:05 · 1363 阅读 · 0 评论 -
Boosting算法总结
Adaboosting:通过前向分步法,优化损失函数,为指数损失函数,然后梯度上升树。可以 任意分类器作为弱分类器。优化步长,与迭代次数。GBDT回归问题:1) 拟合残差2)CART树3)拟合负梯度分类问题:1)改变拟合Loss, 比如: 逻辑回归,对数损失, Adaboost 指数损失。2)训练更精准3)没法并行处理调参GBDTn_estimator...原创 2020-03-30 16:22:32 · 675 阅读 · 0 评论 -
几个常用的机器学习训练数据集(最全格式)
iris dataset...转载 2020-01-15 18:21:45 · 4535 阅读 · 0 评论 -
机器学习(一): python三种特征选择方法
phython中实现特征选择的三种方法:过滤型:选择与目标变量相关性较强的特征。缺点:忽略了特征之间的关联性。包裹型:基于线性模型相关系数以及模型结果AUC逐步剔除特征。如果剔除相关系数绝对值较小特征后,AUC无大的变化,或降低,则可剔除嵌入型:利用模型提取特征,一般基于线性模型与正则化(正则化取L1),取权重非0的特征。(特征纬度特别高,特别稀疏,用svd,pca算不动) python 实原创 2017-03-25 17:54:05 · 22110 阅读 · 3 评论 -
机器学习--EM算法
转载:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jens转载 2017-09-27 17:51:45 · 346 阅读 · 0 评论 -
机器学习----混合高斯模型
转载:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html 这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是转载 2017-09-27 17:54:28 · 284 阅读 · 0 评论 -
机器学习---斯坦福机器学习笔记:模型优化与问题诊断
好的模型定义: 1) 训练误差小。 2) 训练误差接近测试误差高偏差&高方差 1)偏差: 训练模型预测结果期望与实际值的偏差的期望。 2)方差:训练模型预测结果的方差(预测值-预测值期望)的平方期望。 3)偏差与方差与模型复杂度关系 高偏差(high bias): 模型预测值与实际值偏离较大,即模型欠拟合(增加更多特征,改变特征)。 高方差(high variance):过拟合(原创 2017-09-15 11:00:07 · 467 阅读 · 0 评论 -
机器学习---模型的稳定性
参考: https://zhuanlan.zhihu.com/p/27787096 针对原文内容进行了抽取,加深自身的印象,详细参考原文。 1. 计算的稳定性(Computational Stability)计算稳定性特指模型运算性能的鲁棒性(Robustness)。1.1 下溢和上溢:位数超出了计算机可承载范围,下溢: 例如,x个小数相乘,则小数位可能失去精度。上溢:例如,x个整数相乘,正数原创 2017-10-13 17:39:39 · 14283 阅读 · 0 评论 -
mingw安装lightGBM安
安装环境说明 win7,64位 python 2.7 mingw32 cmake 3.6.1 git安装步骤 lightGBM安装工具与xgboost比较相似. 1) 安装cmake cmake下载官网:https://cmake.org/download/ 版本:cmake-3.6.1-win64-x64.msi, 双击安装 大坑: 安装cmake时选择了原创 2019-03-28 19:37:39 · 269 阅读 · 0 评论 -
python学习--模型过拟合查看learning curve
参考:http://blog.csdn.net/han_xiaoyang/article/details/49797143功能说明:查看模型是否过拟合,一般过拟合:训练集上得分比较高,交叉验证集上得分较大,中间gab较大。参数说明:rain_sizes, train_scores, test_scores = learning_curve(输入: (estimator : 你用的分类器。原创 2017-03-23 19:52:29 · 9198 阅读 · 2 评论 -
机器学习----XGBOOST参数说明
原文:http://www.2cto.com/kf/201607/528771.html 译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中一部分特征做的,具体数值跟文章中不一样,反而可以帮助理解文章。所以大家其实也可以小小修改一下代码,不一定要完全跟着教程做~ ^0^ 需要提前安装好的库:nu转载 2017-08-18 16:57:53 · 1100 阅读 · 0 评论 -
机器学习----lightGBM安装
win7+python2.7 1. install from pip (1)首先需要安装 VC runtime(可编译C++的小程序): http://download.csdn.net/download/zhouwenyuan1015/9944566 VC_redist.x64.exe (2)安装 pip install lightgbmins原创 2017-08-22 11:52:53 · 8920 阅读 · 0 评论 -
kaggle案例--Instacart Market Basket Analysis
注: 测试代码主要参考kaggle中Kernels提供的脚本。1.背景kaggle比赛题, 预测Instacart零售公司,用户二次购买产品。 https://www.kaggle.com/c/instacart-market-basket-analysis2. 数据理解1. 数据说明 数据共有300 0000orders, 20 0000users, 50原创 2017-08-22 15:37:49 · 10512 阅读 · 5 评论 -
机器学习---分类模型评估ROC
1.假设如下:2.两个指标(1)ROC曲线 TPR(ture-pos-rt)=TP/(TP+FN) #正样本召回率,也是正类分对的概率 FPR(false-pos-rt)=FP/(FP+TN) #负样本分错的比例,即,将实际负样本预测为正样本占整个负样本的比例, 所谓的假阳例。 两个指标的值均在0,1之间 横纵:负样本被分错的比例(实际负样本中),FNR 纵轴:正样本被分错的比例(原创 2017-03-28 20:24:33 · 789 阅读 · 0 评论 -
机器学习---推荐系统效果评估NDCG
参考连接:http://www.cnblogs.com/supersteven/archive/2012/09/01/2666565.html 首先非常感谢作者不辞辛苦整理与分享。根据作者描述以及提供的代码和数据我主要做了一下事情: (1)进行本地测试运行,同时记录下代码每个大的模块主要逻辑。 (2)特别利用作者提供的NDCG效果评估代码,仔细研究了下如何对排序效果进行测评。1、原创 2017-03-29 20:15:01 · 12606 阅读 · 3 评论 -
机器学习笔记---特征工程概述
1、询问一下大家对特征工程的理解?1)特征工程是做什么? 利用专业背景提取一些对结果预测有用的信息。 2)特征工程的意义是什么? 1)好的特征意味着更强的灵活度,(也许我组合几个规则就ok了) 2)以为着简单的模型就会有好的结果(LR+正则化就够了) 3)以为这更好的结果(特征刻画目标全面)2、互联网公司数据挖掘工程师做什么?猜想:1)原创 2017-03-30 10:32:16 · 461 阅读 · 0 评论 -
梯度提升树GBDT原理
原文:http://blog.csdn.net/a819825294/article/details/51188740 1.模型提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉决策树。提升树模型可以表示为决策树的加法模型: 其中,表示决策树;为决策树的转载 2017-07-04 20:03:54 · 445 阅读 · 0 评论 -
GBDT理论知识总结
原文:http://www.cnblogs.com/bentuwuying/p/6667267.html一. GBDT的经典paper:《Greedy Function Approximation:A Gradient Boosting Machine》AbstractFunction approximation是从function space方面进行numerical optimizatio转载 2017-07-05 20:14:05 · 819 阅读 · 0 评论 -
Boosting和Bagging
原文:http://www.cnblogs.com/bentuwuying/p/6659479.html集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务。集成学习通过将多个学习器进行结合,常可以获得比单一学习器显著优越的泛化性能。这对“弱学习器”尤为明显,因此集成学习的很多理论研究都是针对弱学习器进行的。要获得好的集成,个体学习器应该“好而不同”,即个体学习器要转载 2017-07-05 20:15:14 · 517 阅读 · 0 评论 -
机器学习----xgboost学习笔记
1、利用xgboost做特征组合 1)XGBModel.apply(self, X, ntree_limit=0) return the predicted leaf every tree for each sample X: 训练集特征,features matrix ntree_limit: 预测时数的个数, Limit原创 2017-07-13 19:56:45 · 674 阅读 · 0 评论 -
xgboost安装:win7+git+mingw64+python
1. 软件说明操作系统:win7,64位python: 2.7,64位mingw: 64位2. 主要步骤1)安装git(目的是获取xgoost包)2)安装mingw64(编译c++包)3)安装python 默认安装scipy, numpy(默认已安装)4)git,mingw64安装成功后,编译xgboost5) 安装xgboost6) 测试xgboost3. 详细步骤安装git下原创 2017-06-27 11:47:06 · 1220 阅读 · 0 评论 -
机器学习---xgboost与lightgbm效果比较(2)
背景 根据“kaggle案例–Instacart Market Basket Analysis(1) ”生成的数据,对xgboost与lightGBM进行效果比较。效果比较 数据量: (847466, 20) xgboost训练时间41s, 精度0.27 lightgbm 训练时间9s, 精度0.28 可以发现, lightgbm训练速度确实比xgboost快很多,且精度损失不大。代码原创 2017-08-22 15:47:57 · 8203 阅读 · 0 评论 -
机器学习---GBDT、xgboost与Light GBM优缺点比较(1)
作者:柯国霖 链接:https://www.zhihu.com/question/51644470/answer/130946285 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。GBDT 虽然是个强力的模型,但却有着一个致命的缺陷,不能用类似 mini batch 的方式来训练,需要对数据进行无数次的遍历。如果想要速度,就需要把数据都预加载在内存中,但这样数转载 2017-08-18 16:54:49 · 7086 阅读 · 0 评论 -
Monty Hall(娱乐节目抽奖游戏)蒙特卡洛模拟:
Monty Hall(娱乐节目抽奖游戏)蒙特卡洛模拟:模拟背景描述:1)有3个门,某个门后面有奖,剩余的门后是骆驼。 2)嘉宾选择一个门。 3)主持人打开剩下的2个门中的一个,但只能打开无奖的门。 4)此时,主持人问嘉宾要不要换门?还是坚持首次选择? 问题: 嘉宾应不应该换?程序分三部:1) 设定奖(即奖分布随机的情况下,嘉宾赢不赢改换) 2)嘉宾选择门号 3)主持人选择门号(不能原创 2017-03-11 21:14:08 · 1646 阅读 · 0 评论