![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 55
AI强仔
人工智能爱好者、机器人爱好者
展开
-
GridSearchCV与lightGBM、CatBoost
GridSearchCV与lightGBM、CatBoost原创 2022-03-20 22:15:16 · 948 阅读 · 0 评论 -
模型融合Boosting、Bagging、Stacking、Blending等
模型融合Boosting、Bagging、Stacking、Blending等转载 2022-03-17 14:00:43 · 474 阅读 · 0 评论 -
多分类损失函数和评价指标(objectives and metrics)
多分类损失函数和评价指标(objectives and metrics)原创 2022-03-15 22:20:40 · 2019 阅读 · 0 评论 -
catboost自定义损失函数和metric
catboost自定义损失函数和eval_metric原创 2022-03-15 18:46:53 · 2682 阅读 · 1 评论 -
ADASYN: Adaptive Synthetic--不平衡数据采样方法
ADASYN不仅可以减少原始不平衡数据分布导致的学习偏见,而且可以自适应偏移决策边界,使其聚焦于那些较难学习的样本上。翻译 2022-03-15 15:04:43 · 6980 阅读 · 0 评论 -
CAN(Classification with Alternating Normalization)提升分类性能
CAN用先验分布来校正低置信度的预测结果,使得新的预测结果的分布更接近先验分布。多数情况下能提升多分类问题的效果,而且几乎没有增加预测成本,因为它仅仅是对预测结果的简单重新归一化操作类别数目越多,效果提升越明显,如果类别数目比较少,那么可能提升比较微弱甚至会下降(当然就算下降也是微弱的)参考https://kexue.fm/archives/8728...转载 2021-12-22 23:06:39 · 129 阅读 · 0 评论 -
Dropout的3种用法
1.加在每一层的输出中2.加在模型参数上3.加到梯度上原创 2021-12-11 19:59:18 · 1838 阅读 · 1 评论 -
监督学习、非监督学习、半监督学习
一、监督学习有标注数据的学习1.迁移学习(Transfer learning)迁移学习(Transfer learning) 顾名思义就是把已训练好的模型(预训练模型)参数迁移到新的模型来帮助新模型训练。是把一个领域(即源领域)的知识,迁移到另外一个领域(即目标领域),使得目标领域能够取得更好的学习效果。通常,源领域数据量充足,而目标领域数据量较小。二、非监督学习无标注数据的学习三、半监督学习既有标注数据、又有非标注数据的学习。1.预训练pretraining在NLP领域,比如BERT,原创 2021-08-12 17:47:08 · 2074 阅读 · 0 评论 -
SHAP论文--统一的解释模型预测的方法
##1. 简介SHAP (SHapley Additive exPlanations).。本文主要是根据《A Unified Approach to Interpreting Model Predictions》翻译总结。模型的准确率和可解释性同等重要,但是现在模型越复杂准确率越高,但其可解释下越差,面临着准确率和可解释性的矛盾。本文我们提出了一个新颖的统一的方法(SHAP)来解释模型的预测。1)我们定义了additive feature attribution方法,统一了以前的6种方法,包括LI翻译 2021-01-14 15:33:57 · 5392 阅读 · 0 评论 -
K折交叉验证K-CV与StratifiedKFold
1. K折交叉验证K-fold Cross Validation,记为K-CVKFold 将所有的样例划分为 k 个组,称为折叠 (fold) ,每组数据都具有相同的大小。每一次分割会将其中的 K-1 组作为训练数据,剩下的一组用作测试数据,一共会分割K次.比如训练样本有4000个,假设K=4. 那么模型会训练4次,生成4个模型结果。每次训练的数据是3000(即3个4000/4,3=K-1),验证数据是1000(1个4000/4))。如果是lightGBM,那么可以将这4个模型的结果取平均,即为最终结原创 2021-01-11 22:40:53 · 1127 阅读 · 0 评论 -
lightGBM自定义损失函数loss和metric
def self_loss(labels, preds):preds = preds.get_label()k = labels - preds# 对labels求导grad = np.where(k>0, 2*np.abs(preds)/(np.power(np.abs(labels)+np.abs(preds), 2)+0.1), -2*np.abs(preds)/(np.power(np.abs(labels)+np.abs(preds), 2)+0.1))hess = np.转载 2021-01-09 23:21:01 · 5108 阅读 · 1 评论 -
SHAP分析lightGBM
SHAP (SHapley Additive exPlanations) is a game theoretic approach to explain the output of any machine learning model. It connects optimal credit allocation with local explanations using the classic Shapley values from game theory and their related extensi原创 2021-01-02 12:25:55 · 4259 阅读 · 1 评论 -
多分类:categorical_crossentropy和sparse_categorical_crossentropy计算softmax交叉熵
1.sparse_categorical_crossentropylabel数组中的数据全为0-9,表示十种分类。model = tf.keras.Sequential()model.add(tf.keras.layers.Flatten(input_shape=(28,28)))model.add(tf.keras.layers.Dense(128, activation=‘relu’))model.add(tf.keras.layers.Dense(10, activation=‘softma原创 2020-12-31 15:21:13 · 4036 阅读 · 0 评论 -
Factorization Machines 因子分解机FM
1 简介本文是根据2010年 Steffen Rendle的《Factorization Machines》翻译总结的。Factorization Machines简称FM,因子分解机。FM结合了因子分解的优点和支持向量机SVM的优点。FM用因子参数构建了所有变量间的交互。这些交互通常是存在很大的稀疏性,FM的优点就是处理这些稀疏性。而且是线性的计算时间。可以直接进行优化计算的。另外,像其他因子模型,比如matrix factorization、parallel factor analysis,以及翻译 2020-12-05 13:34:02 · 696 阅读 · 0 评论 -
WOE-weights of evidence
WOE的全称是“Weight of Evidence”,及证据权重,WOE是对原始自变量的一种编码形式从上述公式中看出,WOE表示的实际上是“ 当前分组中响应客户占所有响应客户的比例”和“ 当前分组中没有响应的客户占所有没有响应的客户的比例”的差异将公式进行变换可以看出,WOE可以这么理解,当前 这个组中响应的客户和未响应的比值,和所 有样本中这个比值的差异。将这两个比值在做比值,再取对数来表示。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小from repo原创 2020-12-01 21:45:55 · 748 阅读 · 0 评论 -
XGBoost vs lightGBM vs CatBoost
1 简介本文比较了XGBoost、LightGBM 、 Catboost。本文基于2019年1月《Benchmarking and Optimization of Gradient Boosting Decision Tree Algorithms》翻译总结。GBDT算法的基准和优化。总体结论是这三个算法,没有一个是具有领先地位的,或者说都在伯仲之间。XGBoost在GPU上可以更快的训练,在多分类任务上准确率也高,但在部分大数据任务上会因使用内存太大,不能运行。而lightGBM虽然运行慢,但在单分翻译 2020-11-29 16:58:33 · 722 阅读 · 0 评论 -
CatBoost论文笔记
1 简介CatBoost ( “Categorical Boosting”)。2017年就有了,不过本文是根据2019年的《CatBoost: unbiased boosting with categorical features》翻译总结的。文中主要是将CatBoost与XGBoost和lightGBM比较。运行时间比XGBoost快,和lightGBM差不多,但准确率CatBoost比XGBoost和lightGBM高。我自己在实验中,感觉没那么容易获得更高的准确率,还得参数调优吧。CatBoo翻译 2020-11-28 23:29:02 · 821 阅读 · 0 评论 -
lightGBM等GBDT进行特征工程技巧
文章来源:https://www.kaggle.com/c/ieee-fraud-detection/discussion/108575NAN 处理If you give np.nan to LGBM, then at each tree node split, it will split the non-NAN values and then send all the NANs to either the left child or right child depending on what’s be转载 2020-11-21 22:37:02 · 1738 阅读 · 0 评论 -
TabNet论文笔记
1.简介本文根据2020年《TabNet: Attentive Interpretable Tabular Learning》翻译总结的。TabNet,一个注意力的可解释的表格学习方法。XGBoost和LightGBM近几年在表格数据处理上占据了统治地位,是基于梯度提升决策树(GBDT)的,不是DNN(deep neutral network)。DNN在处理表格数据方面一直没有较大的进展。TabNet使用了DNN,实验结果超过了XGBoost和LightGBM。首先说决策树为什么会占据表格数据处理的翻译 2020-11-01 17:40:59 · 5052 阅读 · 1 评论 -
GBDT 残差与负梯度
如下图,残差是梯度的相反数,即残差是负梯度。原创 2020-10-26 21:34:59 · 484 阅读 · 0 评论 -
GBDT、XGBoost、LightGBM比较
1.GBDTGBDT (Gradient Boosting Decision Tree) 梯度提升决策树。DT-Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型在前几年深度学习还没有大行其道之前,GBDT在各种竞赛是大放异彩。一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。Boosting共有的缺点为训练是按顺序的,难以并行,这样在大规模数据上可能导致速度过原创 2020-10-23 16:31:22 · 806 阅读 · 0 评论 -
《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》论文笔记
1 简介本文根据2017年microsoft研究所等人写的论文《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》翻译总结。Gradient Boosting Decision Tree (GBDT)已是一个流行的机器学习方法,也存在一些实施,例如XGBoost和pGBRT。可以进行多类别分类、点击率预测、学习排名等应用场景。但他们的效率和可扩展性还是不太满意,尤其是针对高维度数据和大数据时。其中一个主要原因是:对于每个特征,他们需原创 2020-10-23 15:55:58 · 1909 阅读 · 0 评论 -
XGBoost论文笔记
1.简介XGBoost在2015年到2017年间kaggle比赛中大放异彩。本文依据2016年论文《XGBoost: A Scalable Tree Boosting System》翻译总结。处理的问题包括:库存销售预测、高能量物理事件分类、web text 分类、客户行为预测、运动检测、广告点击率预测、产品分类、风险预测等。XGBoost成功的最主要因素是其可扩展性。比大部分算法快10倍,可以扩展支持几十亿的样本数据。XGBoost支持hadoop、Flink、Spark。阿里天池云平台也集成了X翻译 2020-10-21 22:57:27 · 343 阅读 · 0 评论 -
《SLIQ:A fast scalable classifier for data mining》论文笔记
1 简介本文根据1996年《SLIQ:A fast scalable classifier for data mining》翻译总结的,即一个快速的可扩展的数据挖掘分类器。看了论文,论文中没找到SLIQ的缩写,还不清楚为什么这么叫。SLIQ之前的算法都是基于内存的,无法应用于大量数据,SLIQ可以,基于内存和硬盘。主要使用了两个技术:pre-sorting、宽度优先(breadth-first)树增长策略。SLIQ采用决策树分类,决策树分类相对于其他分类方法更加快速。比如神经网络需要非常长的训练时间翻译 2020-10-19 21:33:45 · 362 阅读 · 2 评论 -
Cascade R-CNN论文笔记
1 简介本文依据《Cascade R-CNN: Delving into High Quality Object Detection》翻译总结。Cascade R-CNN探究高质量物体检测。物体检测有两种方法,一种是单步的,像YOLO、SSD是单步物体识别模型。还有一种是两步的,如R-CNN系列。对于R-CNN物体检测方法,分为两步,第一步是proposal检测者(detector),产生假设(hypothesis)/box,第二步是region-wise检测者(detector)/分类器。其中,I翻译 2020-08-02 16:32:07 · 494 阅读 · 0 评论 -
从机器学习到深度学习
摘自:https://www.bilibili.com/video/BV1Tt411s7fK?t=3转载 2020-07-05 14:44:18 · 193 阅读 · 0 评论 -
概率图模型概览
摘自:https://www.bilibili.com/video/BV1dt411U7ad?p=4包括:朴素贝叶斯NB、高斯混合模型GMM、隐马尔可夫模型HMM、卡曼滤波、最大熵马尔可夫模型MEMM、条件随机场CRF、玻尔兹曼机BM、受限玻尔兹曼机RBM。...转载 2020-07-03 22:40:01 · 167 阅读 · 0 评论 -
机器学习算法分类与汇总
1机器学习简介机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式, 并将现有内容进行知识结构划分来有效提高学习效率。目前看来主要是通过各种数学模型,对数据进行处理,包括分类和预测。分类,比如据一堆属性,识别是猫是狗;预测,比如给你一个人一些体检数据,预测该人健康程度甚至患癌概率等等。2机器学习算法分类2.1监督与非监督在机器学习中,无监督学习主要就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起原创 2020-06-06 11:03:15 · 1268 阅读 · 0 评论 -
机器学习/人工智能竞赛
1.1 Kaggle-国外https://www.kaggle.com/。Kaggle是由联合创始人、首席执行官安东尼•高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注,这些用户资源或许正是吸引谷歌的主要因素。Kaggle上的竞赛有各种分类,例如奖金极高竞争激烈的的 “Featured”,相对平民化的 “Research”等等。但他们整体的项目模式是一样的,原创 2020-06-03 10:23:05 · 482 阅读 · 0 评论 -
GBDT学习总结(Boosting、决策树)
1 GBDT简介GBDT (Gradient Boosting Decision Tree) 梯度提升决策树。DT-Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型在前几年深度学习还没有大行其道之前,GBDT在各种竞赛是大放异彩。一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征2 集成学习集成学习就是将多个弱的学习器结合起来组成一个强的学习器。这就涉及到,原创 2020-05-28 17:26:01 · 2515 阅读 · 0 评论