机器学习基础
zhong_ddbb
这个作者很懒,什么都没留下…
展开
-
FM系列—FM+FFM详解
文章目录FM基本思想模型学习FM vs SVMFFM基本思想模型学习FFM应用预估CTR/CVR,业界常用的方法有人工特征工程 + LR(Logistic Regression)、GBDT(Gradient Boosting Decision Tree) + LR、FM(Factorization Machine)和FFM(Field-aware Factorization Machine)模型。本文先介绍FM,然后介绍FM的改进FFM。FM基本思想FM(Factorization Machine)原创 2020-07-22 21:47:26 · 2728 阅读 · 0 评论 -
模型融合—GBDT + LR 理解与实践(附数据 + 代码)
本文转载:广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码)转载 2020-07-16 18:25:37 · 487 阅读 · 0 评论 -
推荐系统算法—隐语义模型(LFM)详解
文章目录基本思想数学原理协同过滤算法主要包括基于用户的协同过滤(User-Based CF)、基于物品的协同过滤(Item-Based CF)、隐语义模型(Latent Factor Model)等。LFM(latent factor model)隐语义模型从诞生到今天产生了很多著名的模型和方法。其实该算法最早在文本挖掘领域被提出,用于找到文本的隐含语义。相关的算法有LSI、pLSA、LDA和Topic Model。推荐系统的用户行为分为显性反馈和隐性反馈。LFM在显性反馈数据(也就是评分数据)上解决评分原创 2020-07-16 15:13:52 · 3355 阅读 · 0 评论 -
机器学习(分类回归问题)常用评估指标
文章目录分类常用指标基于混淆矩阵的评价指标AUC回归模型常用评价指标均误差方(MSE)平均绝对误差(MAE)平均绝对比例误差(MAPE)R方分类常用指标基于混淆矩阵的评价指标以二分类为例,由于模型预测存在误差,真实值和预测值之间存在差异,于是有以下四种情况:真实值是positive,模型预测为positive(True Positive=TP)真实值是positive,模型预测为negative(False Negative=FN)真实值是negative,模型预测为positive(Fals原创 2020-07-15 15:21:11 · 2046 阅读 · 0 评论 -
softmax回归详解
文章目录基本模型损失函数求解最优参数基本模型Softmax 回归是logistic回归是用的一般形式,它将logistic 激活函数推广到C类(C是神经网络模型的输出),而不仅仅是两类,是一种多分类器,如果C = 2,那么Softmax实际上变回了 logistic 回归。逻辑回归使用的是sigmoid函数,将wx+b\mathbf wx+bwx+b 的值映射到(0, 1)的区间,输出的结果为样本标签等于1的概率值;而softmax回归采用的是softmax函数,将wx+b\mathbf wx+bw原创 2020-05-27 17:24:13 · 1003 阅读 · 0 评论 -
潜在狄利克雷分配(LDA)基础
文章目录狄利克雷分布LDA模型基本想法模型定义LDA 与 PLSA 异同潜在狄利克雷分配(latnet Dirichlet allocation, LDA)模型是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示,特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布。狄利克雷分布1、多项分布假设重复进行nnn次独立随机试验,每次试验可能出现的结果有kkk种,第iii种结果出现的概率为pip_ipi,第iii种结果出现的原创 2020-05-25 20:42:46 · 1161 阅读 · 0 评论 -
概率潜在语义分析( PLSA)详解
文章目录生成模型共现模型模型性质模型参数与LSA关系PLSA实现算法概率潜在语义分析(probabilistic latent semantic analysis, PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督方法。模型最大的特点是用隐变量表示话题,整个模型表示文本生成话题,话题生成单词,从而得到单词—文本共现数据的过程。 假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。潜在语义分析基于非概率模型,概率潜在语义分析基于概率模型。生成模型假设有M个单词集合W={w1,w2.原创 2020-05-24 16:43:15 · 2623 阅读 · 0 评论 -
潜在语义分析(LSA)详解
文章目录单词向量空间话题向量空间算法实现矩阵奇异值(SVD)分解算法非负矩阵(NMF)分解算法基本思想损失函数(1)平方损失(2)散度损失函数算法(1)平方损失函数更新法则(2)散度损失函数的更新法则算法实现潜在语义分析(latent semantic analysis, LSA)是一种无监督方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。潜在语义分析是非概率的话题分析方法,将文本集合表示为单词-文本矩阵,对该矩阵进行进行奇异值分解,从而得到话题向量空间和文本在话原创 2020-05-24 10:21:55 · 4862 阅读 · 0 评论 -
主成分分析(PCA)详解
文章目录实现方式与几何解释定义线性变换的协方差(相关)矩阵定义相关矩阵的特征值分解算法主成分分析(PCA)是一种常用的无监督学习方法,利用正交变换把由线性相关变量表示的观测数据转换为几个由线性无关变量表示的数据。线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数,所以PCA是一种降维算法。实现方式与几何解释主成分分析步骤如下:(1)对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1。(2)对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换变成由若干个线性无关的新变量原创 2020-05-22 10:15:09 · 3957 阅读 · 0 评论 -
奇异值分解(SVD)详解
文章目录奇异值分解的主要思想奇异值分解形式几何解释主要性质计算过程奇异值分解的主要思想奇异值(singular value decomposition, SVD)是一种矩阵因子分解方法。其主要思想是:任意一个m×nm\times nm×n 矩阵都可以表示为三个矩阵的乘积(因子分解)形式,即:A=UΣVTA=U\Sigma V^\mathrm TA=UΣVT其中 UUU 是mmm 阶正交矩阵,VVV 是 nnn 阶正交矩阵, Σ\SigmaΣ 是由降序排序的非负的对角线元素组成的m×nm\tim原创 2020-05-21 17:56:27 · 3468 阅读 · 0 评论 -
LightGBM详解
文章目录XGBoost不足之处直方图算法单边梯度抽样算法(GOSS)互斥特征捆绑算法(EFB)带深度限制的 Leaf-wise 算法LightGBM的工程优化直接支持类别特征特征并行数据并行投票并行Cache命中率优化LightGBM的优缺点LightGBM是轻量级(Light)的梯度提升机器(GBM),是GBDT模型的另一个进化版本。它延续了XGBoost 的那一套集成学习的方式,相对于xgboost, 具有训练速度快和内存占用率低的特点。XGBoost不足之处XGBoost的核心思想: xgbo原创 2020-05-20 21:03:00 · 36885 阅读 · 9 评论 -
提升树—回归提升树
文章目录提升树模型提升树算法提升树(boosting tree)是以分类树或回归树为基本分类器的提升方法。提升树模型提升方法是采用加法模型与前向分步算法。以决策树为基函数的提升方法称为提升树。先来回顾一下加法模型算法:输入:训练数据集T=(x1,y1),(x2,y2),...,(xN,yN),xi∈X⊆Rn,yi∈{−1,1}T={(x_1,y_1),(x_2,y_2),...,(x_N, y_N)}, x_i \in \mathcal X \sube R^n, y_i\in \{-1, 1\}T原创 2020-05-15 22:12:22 · 1985 阅读 · 0 评论 -
梯度提升树GBDT详解
文章目录梯度提升树(GBDT)回归梯度提升算法分类梯度提升算法二分类GBDT算法多分类GBDT算法GBDT正则化优缺点优点缺点梯度提升树(Gradient Boosting Decison Tree, GBDT)是Boosting(提升)中的一种重要算法。Adaboost算法利用前一轮迭代弱学习器的误差率来更新训练集的权重,训练得到新的基模型。在GBDT的迭代中,假设前一轮迭代得到的强学习器是ft−1(x)f_{t-1}(x)ft−1(x), 损失函数是L(y,ft−1(x))L(y, f_{t-1}原创 2020-05-15 22:11:05 · 1036 阅读 · 0 评论 -
AdaBoost详解
文章目录AdaBoost算法AdaBoost算法解释前向分步算法前向分步算法与AdaBoost AdaBoost(“Adaptive Boosting”(自适应增强))算法是提升算法(boosting)的一种。提升方法是从弱学习器出发,反复学习得到一系列若分类器,然后组合弱分类器。 对提升方法来说,有两个问题需要回答:一是在每一 轮如何改变训练数据的权值或概率分布;二是如何将弱分类器组合成-一个强分类器。关于第1个问题,AdaBoost的做法是,提高那些被前一轮弱分类器错误分类样本的权值,而降低原创 2020-05-15 22:09:48 · 576 阅读 · 0 评论 -
XGBoost详解
文章目录背景目标函数最优切分点算法Shrinkage(收缩过程)缺失值处理优缺点背景在看Xgboost之前,先看看笔者写的AdaBoost和GBDT。AdaBoost 关注的是哪些错误分类的样本,每次加大误分类样本的权重,训练新的分类器。GBDT关注的是分类器的残差,每一次训练分类器都是为了不断减小这个残差。Xgboost可以说是GBDT算法在工程上的一种实现。如下图所示:假定这是一家人中每个人想玩游戏的意愿。小男孩玩游戏的意愿是3,爷爷玩游戏的意愿是-3。xgboost 解决这个问题的思路是原创 2020-05-15 22:07:46 · 1274 阅读 · 0 评论 -
决策树算法详解(下)
文章目录CART生成回归树的生成分类树的生成CART剪枝分类回归树(classification and regression tree,CART)也是由特征选择、树的生成、剪枝组成的。既可以用于回归,也可以用于分类。CART算法主要由以下两个步骤组成:(1)基于训练集生成决策树(2)用验证数据集对已生成的树进行剪枝并选择最优子树,用损失函数最小作为剪枝的标准。CART生成回归树的生成构建回归树有两个问题:(1) 如何得到预测结果?(2) 如何对输入空间进行划分?一颗回归树是输入空间的一个原创 2020-05-12 21:22:55 · 584 阅读 · 0 评论 -
决策树算法详解(上)
文章目录基本概念ID3 算法C4.5 算法决策树的剪枝决策树是一种基本的分类与回归方法。决策树的学习包含三个步骤:特征选择、决策树的生成、决策树的修剪。决策树根据不同的特征选择原则分为ID3算法、C4.5算法、CART算法。基本概念在介绍决策树之前先来了解一些基本相关概念。1、熵熵是随机变量不确定性的度量。设X是一个有限取值的离散随机变量,其概率分布为:P(X=xi)=pi,i=1,2,…nP(X=x_i) = p_i,\quad i=1,2,\ldots nP(X=xi)=pi,i=原创 2020-05-11 21:37:00 · 832 阅读 · 0 评论 -
k近邻法详解
k 近邻法(k-nearest neighbor k-NN) 是一种基本分类与回归方法。KNN模型的主要任务是基于距离度量,找出与被测样本距离最近的k个点。KNN的三个基本要素:k值的选择,距离度量以及分类决策规则。KNN算法三要素距离的度量特征空间中的两个实例点的距离是两个实例点相似程度的反映。距离越近(数值越小), 相似度越大。假设xi,xj∈Rnx_i,x_j \in \mathca...原创 2020-05-07 16:01:02 · 1100 阅读 · 0 评论 -
逻辑斯蒂回归详解
逻辑斯蒂分布定义:设XXX 是连续随机变量,XXX 服从逻辑斯蒂分布是指XXX 具有下列分布函数:F(x)=P(X⩽x)=11+e(−(x−μ)/γ)f(x)=dF(x)dx=e(−(x−μ)/γ)γ(1+e(−(x−μ)/γ))2F(x)=P(X\leqslant x)=\frac{1}{1+e^{(-(x-\mu)/\gamma)}}\\f(x) = \frac{\mathrm{d}F...原创 2020-05-06 20:10:40 · 1240 阅读 · 4 评论 -
最大熵模型详解
文章目录熵与条件熵最大熵的原理最大熵模型的定义最大熵模型的学习拉格朗日乘子法极大似然法优化算法—拟牛顿法熵与条件熵熵是事物不确定性的度量。熵越大,不确定性越大。具体定义如下:H(P)=−∑x∈XP(x)logP(x){H(P)} = {- \sum_{x \in X}P(x) \log P(x)}H(P)=−x∈X∑P(x)logP(x)熵满足如下不等式:0≤H(P)≤log∣X...原创 2020-05-06 15:27:43 · 735 阅读 · 0 评论 -
支持向量机—总述
支持向量机(support vector machines,SVM) 是一种二分类模型。他与感知机的区别在于:SVM是定义在特征空间上的间隔最大的线性分类器。对于线性可分的数据,感知机找到的超平面个数是不唯一的,如下图a。而满足SVM的超平面有且只有一个,如下图b。SVM引入核函数,使得他可以解决非线性可分的问题。而感知机只能解决线性可分问题。SVM可以理解为是升级版的感知机。SVM主要有以...原创 2020-05-05 20:29:29 · 176 阅读 · 0 评论 -
支持向量机—SMO算法
文章目录背景两个变量二次规划的求解方法选择变量的启发式方法SMO算法背景SVM 的学习问题可以形式化为如下凸二次规划的对偶问题:minα 12∑i=1N∑j=1NαiαjyiyjK(xi,xj)−∑i=1Nαis.t. ∑i=1Nαiyi=00≤αi≤C\min\limits_{\alpha} \;\; \frac{1}{2}\sum\limits_{i=1}^{N}\sum\l...原创 2020-05-05 20:16:15 · 364 阅读 · 0 评论 -
支持向量机—核函数详解
文章目录背景引入核函数的SVM常用核函数非线性SVM算法流程背景支持向量机可以解决线性可分数据的分类问题,对于非线性可分的数据分类问题,SVM通过引入核函数实现。如下图所示:左图数据是线性不可分的,SVM无法直接进行分类。通过某种变换将数据转为右图所示的数据分布情况,这样数据就变成了线性可分了。就可以通过SVM算法轻松的实现分类。设原始特征空间为:X⊂R2,x=(x(1),x(2))T...原创 2020-05-03 14:08:52 · 3928 阅读 · 0 评论 -
支持向量机的软间隔最大化
文章目录背景软间隔最大化学习的对偶算法学习算法软间隔最大化的支持向量背景在 线性可分支持向量机 的基础上,我们考虑以下图这个情况:图中有两个超平面红色线和黑色线。红色的超平面使得模型有更好的泛化效果。但是由于蓝色A异常点的存在,使得SVM模型学到的是黑色的超平面,这会影响到模型的预测效果。更极端的情况是假设在B处有一蓝色的异常点,就会使得数据变成线性不可分。为了解决这个问题,SVM引入...原创 2020-05-02 17:43:19 · 383 阅读 · 0 评论 -
线性可分支持向量机
文章目录背景间隔最大化学习的对偶算法线性可分SVM的算法流程局限性背景回顾 感知机 处理二分类问题。先给定一个特征空间上的训练集:T={(x1,y1),(x2,y2),…,(xN,yN)}xi∈X=Rn,yi∈Y={−1,+1},i=1,2,…,N; 0<η⩽1T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} \\ x_i\in...原创 2020-05-01 20:14:25 · 596 阅读 · 0 评论 -
感知机模型详解
感知机是二分类的线性分类器,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机将特征空间中的实例划分为正负两类,属于判别模型。感知机模型模型输入空间:X⊆Rn\mathcal X\sube \bf R^nX⊆Rn输出空间:Y={+1,−1}\mathcal Y=\{+1,-1\}Y={+1,−1}决策函数:f(x)=sign(w⋅x+b)f(x)=sign (w\cdot...原创 2020-04-30 16:39:39 · 2739 阅读 · 0 评论 -
条件随机场(CRF)详解
文章目录形式与定义什么是条件随机场简化形式矩阵形式学习算法概率计算前向后向概率概述前向后向概率计算期望计算预测算法—维特比算法维特比算法流程LR & CRF & HMM形式与定义什么是条件随机场条件随机场(conditional random field) 是给定随机变量X的条件下,随机变量Y 的马尔可夫随机场。常用于标注、实体识别等问题。接下来我们通过命名实体识别来介绍c...原创 2020-04-29 22:26:05 · 6705 阅读 · 9 评论 -
EM应用—K均值聚类与混合高斯分布
文章目录K均值聚类模型策略算法流程算法特性K均值与EM算法K均值聚类的缺陷高斯混合模型(GMM)GMM概率图模型GMM模型GMM的EM算法期望最大化(expectation-maximization,E-M)是一种非常强大的算法,应用于数据科学的很多场景中。k-means 是EM算法的一个非常简单并且易于理解的应用,本文先从K均值聚类讲起,然后引出K均值的缺陷,提出了混合高斯模型对K均值聚类进行...原创 2020-04-27 11:03:50 · 817 阅读 · 1 评论 -
EM算法详解
文章目录从最大似然到EM算法Jensen不等式EM算法算法流程EM算法的证明EM算法的收敛性三硬币模型的EM解答从最大似然到EM算法思考这样一个问题:假设我们要调查学校男生女生的体重分布,常见的作法是,在校园里抽样调查100个男生和100个女生的身高,这些男生身高(或女生身高)之间相互独立且都服从高斯分布:f(x)=1σ2πe−(x−μ)22σ2f(x) = \frac{1}{\sigma...原创 2020-04-25 21:12:31 · 454 阅读 · 0 评论 -
朴素贝叶斯详解
文章目录朴素贝叶斯基本原理为什么后验概率在最大化实例—学习一个贝叶斯分类器拉普拉斯修正优缺点朴素贝叶斯基本原理朴素贝叶斯(navie Bayes) 是基于贝叶斯定理与特征条件独立假设的分类方法。先来了解一下这两个基本概念。(1)贝叶斯定理:P(yi∣x)=P(x,yi)P(x)=P(yi)P(x∣yi)P(x)=P(yi)P(x∣yi)∑j=1kP(yj)P(x∣yj)P(y_i|x)...原创 2020-04-22 20:28:00 · 541 阅读 · 0 评论 -
线性回归的详解
文章目录1、线性回归的基本形式2、误差函数3、如何求得最优解3.1 最小二乘法3.2 梯度下降法4、引入正则项的回归5、为什么是均方误差1、线性回归的基本形式给定数据集D={(x⃗1,y1),(x⃗2,y2),…,(x⃗m,ym)}\mathcal{D} = \left\{ (\vec x_1,y_1),(\vec x_2,y_2),…,(\vec x_m,y_m) \right\}D={(x...原创 2020-04-21 22:17:48 · 857 阅读 · 0 评论