![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
QueenieK
这个作者很懒,什么都没留下…
展开
-
FM模型简介
FM模型FM模型表达式FM模型的推导二阶交叉项复杂度可以从O(kd2)优化到O(kd)FM的优点1. 适用于大规模稀疏矩阵为什么?因为涉及到二阶交叉项,越稀疏越容易训练。本身FM模型的训练就消耗资源,稀疏矩阵可降低劣势、发挥其更大优势。2.泛化能力强为什么?训练时未有的特征组和在预测时依然可以计算出交叉特征的权重。(看交叉项推导便可知)参考:https://zhuanlan.zhihu.com/p/58160982赞https://www.biaodianfu.com/ctr-fm原创 2021-08-01 18:19:37 · 941 阅读 · 0 评论 -
LightGBM
LightGBMLightGBM原理及实现LigthGBM是boosting集合模型中的新进成员,它和xgboost一样是对GBDT的高效实现,很多方面会比xgboost表现的更为优秀。原理上它和GBDT及xgboot类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。LightGBM vs xGBoostxgBoost算法的优点:XGB利用了二阶梯度来对节点进行划分,相对其他GBM来说,精度更高。利用局部近似算法对分裂节点的贪心算法优化,取适当的eps时,可以保持算法的转载 2020-05-30 21:16:46 · 371 阅读 · 0 评论 -
梯度下降(Gradient Descent)
梯度下降梯度下降梯度下降的思想过程几个问题梯度下降的思想梯度下降是求得函数最小值的算法。在逻辑回归中,梯度下降用来求得损失函数(或代价函数)的最小值J(θ)J(θ)J(θ)。 梯度下降的思想:初始随机选择参数组合(θ0,θ1,...,θn)(θ0,θ1,...,θn)(θ_0,θ_1,...,θ_n),计算损失函数(或代价函数),然后寻找下一个能让损失函数(或...原创 2018-03-22 09:39:05 · 371 阅读 · 0 评论 -
随机森林与GBDT
一、随机森林随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。假设样本总数为n,每个样本的特征数为a,则随机森林的生成过程如下:从原始样本中采用有放回抽样的方法选取n个样本; 对n个样本选取a个特征中的随机k个,用建立决策树的方法获得最佳分割点;重复m次,获得m个决策...转载 2018-03-26 16:39:05 · 349 阅读 · 0 评论 -
GBDT工作过程
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下:GBDT(Gradient;Boosting;Decision;Tree);又叫;MART(Multiple; Additive; Regression; Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization...转载 2018-03-28 15:40:24 · 2035 阅读 · 1 评论 -
集成学习方法Boosting和Bagging
集成学习一、什么是集成学习(ensemble learning)? 集成学习就是通过构建多个基分类器并将多个基分类器通过一个的规则结合起来共同完成学习任务的学习方法。 目前集成学习方法包含两类:个体学习器间存在依赖关系、必须串行生成的序列化方法。(代表:Boosting)个体学习器间不存在强依赖关系、可同时生成的并行化方法。(代表:Bagging)Boosting定义...原创 2018-03-28 16:16:16 · 679 阅读 · 0 评论 -
随机森林
一、定义 随机森林是Bagging的一个扩展体。传统决策树在选择划分属性时在当前结点的属性集合(假设有d个属性)中选择一个最优的属性;而随机森林中的决策树的每个结点,先从该节点的属性集合中随机选择一个包含k的属性子集,然后再从这个子集中选择最优的属性划分,一般k=log2dk=log2dk=log_2d.二、优点 随机森林简单、容易实现、计算开销小。三、随机森林的随机性训练样本的...原创 2018-03-28 20:06:40 · 285 阅读 · 0 评论 -
方差与偏差
公式定义:对测试样本 xxx ,yDyDy_D 表示在 xxx 数据集上的标记, yyy 为 xxx 的真实标记, f(x;D)f(x;D)f(x;D) 为训练集D上学得模型 fff 在 xxx 上的预测输出。以回归为例: 算法的期望预测: f−(x)=ED[f(x;D)]f−(x)=ED[f(x;D)]f^-(x) = E_D[f(x;D)] 使用样本数相同的不同训练集产生的方差为:...原创 2018-04-19 12:04:34 · 697 阅读 · 0 评论 -
word2vec理论基础
自然语言处理中,采用词向量表示文本。 用例子来说明 语料库:Today is a good day.Mona is a beautiful girl.词典:{"Today":1, "is":2, "a":3, "good":4, "day":5, "Mona":6, "beautiful":7, "girl":8}原创 2018-04-23 20:23:11 · 738 阅读 · 0 评论 -
随机森林,GBDT,XGBoost的对比
随机森林,GBDT,XGBoost的对比 随机森林 RF RandomForest 随机森林的集成学习方法是bagging ,但是和bagging 不同的是bagging只使用bootstrap有放回的采样样本,但随机森林即随机采样样本,也随机选择特征,...原创 2018-05-05 22:07:45 · 52924 阅读 · 4 评论 -
xgboost原理
xgboost 已然火爆机器学习圈,相信不少朋友都使用过。要想彻底掌握xgboost,就必须搞懂其内部的模型原理。这样才能将各个参数对应到模型内部,进而理解参数的含义,根据需要进行调参。本文的目的就是让大家尽可能轻松地理解其内部原理。主要参考文献是陈天奇的这篇文章introduction to xgboost。在我看来,这篇文章是介绍xgboost...转载 2018-04-29 15:52:33 · 507 阅读 · 0 评论 -
SVM面试常见问题
转载:blog.csdn.net/szlcw1SVM的原理是什么?SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最大是它有别于感知机)(1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;(2)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;(3)当训...转载 2018-04-29 21:06:28 · 320 阅读 · 0 评论 -
word2vec如何得到词向量
前言word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库你可能需要大小写转换检查拼写错误等操作,如果是中文日语语料库你需要增加分词处理。这个过程其他的答案已经梳理过了不再赘述。得到你想要的processed corpus之后,将他们的one-hot向量作为word2ve...转载 2018-05-08 00:47:34 · 3239 阅读 · 3 评论 -
模型评价指标
模型评价指标KSKolmogorov_Smimov,评估模型风险区分能力。KS用来衡量好坏样本累计分布之间的差值。好坏样本差异越大,KS指标越大,则模型风险区分能力越强。 KS计算步骤: 1.计算每个评分的好坏用户数 2.计算每个评分区间累计好用户数占总好用户数比列(good%),计算每个评分区间累计坏用户数占总坏用户数的比例(bad%) 3.计算每个评分区间累计好用户占比与累...原创 2020-08-02 19:39:21 · 452 阅读 · 0 评论 -
神经网络
大脑中的神经网络神经元是构成神经网络的基本单位,每个神经元包含一个神经核/处理单元(Nucleus/processing unit),多个树突/输入(Dendrite/input),一个轴突/输出(output/Axon).神经网络是大量的这样的神经元相互连接并通过电波信号进行交流的一个网络。神经元示意图如下图: 神经元模型神经元模型是一个一个的学习模型,逻辑回归作为神经元的示例...原创 2018-03-31 17:05:36 · 368 阅读 · 0 评论 -
支持向量机(SVM)
首先说明支持向量机模型由简至繁:线性可分支持向量机、线性支持向量机、非线性支持向量机。 1. 支持向量机与感知机关系: 在感知机分类中,利用误分类最小的策略来求得分离超平面,但是感知机求得的超平面有无数多个。 线性可分支持向量机为利用间隔最大化求最优分离超平面,来使得解具有唯一性。 2.几种支持向量机:线性可分支持向量机-最大间隔法为使得感知机的解具有唯一性。加入最大间隔法,...原创 2018-03-26 09:53:34 · 815 阅读 · 1 评论 -
sklearn中Random Forest参数调优
转自:http://www.cnblogs.com/pinard/p/6160412.html在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结。本文就从实践的角度对RF做一个总结。重点讲述scikit-learn中RF的调参注意事项,以及和GBDT调参的异同点。scikit-learn随机森林类库概述 在sci...转载 2018-02-25 15:22:30 · 19878 阅读 · 1 评论 -
统计学一些基础
1.回归、分类、标注1)回归问题:输入变量和输出变量均为连续变量的预测问题称为回归问题 2)输出变量为有限个离散变量的预测问题称为分类问题 3)输入变量与输出变量均为变量序列的预测问题称为标注问题2.损失函数、风险函数、经验函数1)损失函数:度量模型一次预测的好坏。损失函数值越小,模型越好 2)风险函数:风险函数是损失函数的期望 3)经验风险:训练数据集上的平均损失称为经验...原创 2018-03-12 14:55:14 · 279 阅读 · 0 评论 -
损失函数与风险函数
1、损失函数:度量一次模型的好坏统计学习中常用的损失函数有如下几种: 1. 0-1损失函数(0-1 loss function) 预测正确,损失函数为0;预测错误,损失函数为1;该函数不考虑预测差别多少。 2. 平方损失函数: &nbs...转载 2018-03-12 15:19:08 · 8064 阅读 · 0 评论 -
L1正则表达式与L2正则表达式
转自:http://blog.csdn.net/fisherming/article/details/79492602 一、 奥卡姆剃刀(Occam’s razor)原理: 在所有可能选择的模型中,我们应选择能够很好的解释数据,并且十分简单的模型。从贝叶斯的角度来看,正则项对应于模型的先验概率。可...转载 2018-03-12 20:32:02 · 5194 阅读 · 1 评论 -
k近邻法(KNN)算法理解
一、如何理解KNN?给定一个训练数据集,对新的输入样本,根据已知的训练数据集中找到与该样本最邻近的k个样本,在这k个样本中,样本类别最多的那个类即为新的输入样本的类别。二、KNN三个基本要素(1)距离度量 假设特征向量有n维,xi与xj的Lp距离定义为: 当p=2时,称为欧氏距离(Euclidean distance),实际应用中通常采用欧氏距离 当p=1时,称为曼哈顿距...原创 2018-03-13 15:08:20 · 822 阅读 · 0 评论 -
朴素贝叶斯
本文参考了该博客的实例,但该博客中的朴素贝叶斯公式计算错误,评论中的也不对,所以,重新写一篇。一. 朴素贝叶斯 朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。 首先给出贝叶斯公式: 换成分类任务的表...转载 2018-03-13 16:28:20 · 366 阅读 · 0 评论 -
XGBoost&GBDT
XGBoost与GBDT的区别:传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑回归(分类问题)或者线性回归(回归问题)。(在分类树的生成,CART是树类型的)传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。xgboost工具支持自定义代价函数,只要函数...原创 2018-03-29 19:48:59 · 224 阅读 · 0 评论 -
决策树
决策树决策树决策树模型特征选择准则信息增益(information gain)信息增益比基尼指数决策树的剪枝决策树模型决策树算法包括三个部分:特征选择、树的生成和树的剪枝。常用的算法有ID3、C4.5、CART.构成决策树中内部节点表示特征或者属性,叶节点表示一个类。特征选择准则特征选择准则有信息增益(ID3)、信息增益比(C4.5...原创 2018-03-23 19:02:24 · 221 阅读 · 0 评论 -
感知机
感知机感知机模型感知机解决的问题: 感知机(perceptron)是解决二分类问题的线性分类模型。根据正负样本找出一个分离超平面,分离超平面的确定由求得损失函数极小值确定。感知机是神经网络与支持向量机的基础。感知机模型函数: f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b) www和bbb为参数,www为权值或者权重向量。sign为符...原创 2018-03-24 15:35:19 · 376 阅读 · 0 评论 -
聚类算法
聚类聚类是一种无监督学习任务。 聚类的结果应该满足:“簇内相似度”高且“簇间相似度”低。 聚类的算法:原型聚类(基于原型的聚类):kkk均值算法(k-means)、学习向量量化化算法(LVQ)、高斯混合聚类算法. 原型聚类算法假设聚类结构能够通过一组原型刻画,是最为常用的方法.此类算法首先初始化原型,然后对原型进行迭代更新求解。密度聚类(基于密度的聚类):DBSCAN(Densi...原创 2018-03-24 16:13:16 · 1692 阅读 · 0 评论 -
深入理解逻辑回归(logisitc regression)
逻辑回归(logisitc regression)逻辑回归(logisitc regression)1.逻辑分布2.逻辑回归模型概念3.极大似然估计4.代价函数与损失函数5.对数几率(log odds)6.梯度下降7.LR如何处理过拟合问题?8.多分类问题9.总结1.逻辑分布定义:连续变量X服从逻辑分布,分布函数表示为: F(x)=11+e−(θ...原创 2018-03-20 20:56:06 · 7921 阅读 · 1 评论 -
python实现RF,并计算特征重要性
随机森林模型的训练以及特征重要性import xlrdimport csvimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom scipy.interpolate import spline #设置路径path='/Users/kqq/Documents/postgraduate/烟叶原始...原创 2018-02-24 20:42:55 · 7757 阅读 · 5 评论