机器学习
文章平均质量分 72
小葵向前冲
这个作者很懒,什么都没留下…
展开
-
LR逻辑回归算法---介绍、说明、相关问题
LRLR作用?回归和分类的区别?逻辑回归函数?逻辑回归损失函数?LR的推导?LR和线性回归的区别逻辑回归怎么实现多分类?One-Vs-AllOne-Vs-OneSoftmaxLR, Logistic Regression,逻辑回归之前笔记:逻辑回归推荐视频链接:逻辑回归逻辑回归LR作用?常用的处理二分类问题的线性模型二分类:分类目标只有两种判断是猪吗-----是、不是回归和分类的区别?回归模型的输出是连续的分类模型的输出是离散的逻辑回归函数?逻辑回归=线性回归+s原创 2022-05-09 16:54:15 · 157 阅读 · 0 评论 -
LightGBM算法---介绍、说明、python代码
提示:这些是自己整理 可以借鉴 也可能存在错误 欢迎指正LightGBM细节技术1. 直方图优化XGBoost缺点LightGBM改进2. 深度限制的节点展开方法3. 直方图做差优化4. 支持类别特征5. 支持并行学习python 实现小结细节技术1. 直方图优化XGBoost缺点XGBoost是基于预排序方法的决策树算法。这种构建决策树的算法基本思想是:1. 首先,对所有特征都按照特征的数值进行预排序。2. 其次,在遍历分割点的时候用O(#data)的代价找到一个特征上的最好分割点。3.原创 2022-05-09 16:22:49 · 1600 阅读 · 0 评论 -
XGBoot算法---介绍、说明、python代码
提示:这些是自己整理 可以借鉴 也可能存在错误 欢迎指正XGBoot一、是什么?集成算法思想XGBoost基本思想二、使用步骤算法流程小结一、是什么?xgboot的全称为eXtreme Gradient Boosting集成算法思想引出:在使用决策树时,一颗树的效果不太好,用两棵树呢?同理,在做分类或者回归任务的时候,需要想一想一旦选择用一个分类器可能表达效果并不是很好,那么就要考虑用这样一个集成的思想。上面的图例只是举了两个分类器,其实还可以有更多更复杂的弱分类器,一起组合成一个强分类.原创 2022-04-28 20:04:43 · 3293 阅读 · 1 评论 -
集成学习(bagging、boosting)
提示:这些是自己整理 可以借鉴 也可能存在错误 欢迎指正集成学习---AdaBoost集成学习1. Bagging类方法1.1 Bagging(Bootstrap Aggregating)1.2 随机森林(Random Forest)2. Boosting 类方法2.1 AdaBoost 算法集成学习“三个臭皮匠赛过诸葛亮”引入:概念:集成学习(Ensemble Learning)就是通过某种策略将多个模型集成起来,通过群体决策来提高决策准确率.困难点:如何集成多个模型—直接平.原创 2022-04-26 21:05:50 · 1209 阅读 · 0 评论 -
PCA主成分分析---介绍、说明
提示:这些是自己整理 可以借鉴 也可能存在错误 欢迎指正PCA一、是什么?二、优化小结一、是什么?主成分分析(Principal Component Analysis,PCA)是一种最常用的数据降维方法,使得在转换后的空间中数据的方差最大。上图中,如果将这些数据投影到一维空间中,选择数据方差最大的方向进行投影,才能最大化数据的差异性,保留更多的原始数据信息。二、优化小结主成分分析是一种无监督学习方法,可以作为监督学习的数据预处理方法,用来去除噪声并减少特征之间的相关性,但是它并不能保证.原创 2022-04-26 20:40:15 · 360 阅读 · 0 评论 -
support vector regression(SVR)支持向量回归
支持向量机、回归、机器学习SVR---“宽容的回归模型”引出:请你说说回归问题可以设置支持向量机吗线性回归SVR---“宽容的回归模型”模型函数原理SVR的两个松弛变量主问题数学描述引出:请你说说回归问题可以设置支持向量机吗支持向量分类方法可以推广到解决回归问题。这种方法称为支持向量回归,即support vector regression(SVR)线性回归线性回归:在向量空间里用线性函数去拟合样本。该模型以所有样本实际位置到该线性函数的综合距离为损失,通过最小化损失来求取线性函数的参数。严格原创 2022-04-26 20:10:44 · 1807 阅读 · 0 评论 -
聚类算法---引言
提示:这些是自己整理 可以借鉴 也可能存在错误 欢迎指正K均值@[TOC](K均值)前言一、是什么?二、使用步骤算法流程小结前言一、是什么?思想:数据之间的相似度与它们之间的欧式距离成反比,根据数据之间的欧式距离将数据分成k类二、使用步骤算法流程小结优点:原理简单(靠近中心点) ,实现容易聚类效果中上(依赖K的选择)空间复杂度o(N)时间复杂度o(IKN) (N为样本点个数,K为中心点个数,I为迭代次数)缺点:对离群点, 噪声敏感 (中心点易偏移)很难发现大小差别.原创 2022-04-08 16:43:37 · 703 阅读 · 0 评论 -
聚类算法---Kmeans算法、K均值算法
提示:这些是自己整理 可以借鉴 也可能存在错误 欢迎指正K均值前言一、K均值是什么?二、使用步骤算法流程小结前言k-means算法是非监督聚类最常用的一种方法,因其算法简单和很好的适用于大样本数据,广泛应用于不同领域,本文详细总结了k-means聚类算法原理。聚类算法:是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是:聚类算法是无监督的学习算法分类算法属于监督的学习在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的.原创 2022-04-08 14:43:26 · 2350 阅读 · 0 评论 -
机器学习中的损失函数(Loss Function)介绍、说明
损失函数损失函数介绍常见的损失函数1.对数损失函数(Logloss)2. hinge loss 合页损失函数3. exp-loss 指数损失函数4. cross-entropy loss 交叉熵损失函数5. quadratic loss 平方误差损失函数6. absolution loss (绝对值损失函数)7. 0-1 loss (0-1损失函数)损失函数介绍解决一个机器学习问题主要有两部分:数据和算法。算法又有三个部分组成:假设函数、损失函数、算法优化。损失函数: 用于计算损失的函数。在机器原创 2022-04-08 11:05:29 · 9295 阅读 · 0 评论 -
机器学习----EM算法
最大期望算法(Expectation-maximization algorithm)—EM算法定义概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。计算步骤第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。总的来说,E步估计,M步最大,反复迭代;适用于适合具有隐变量和混合模型的参数估计。原创 2022-04-08 10:10:34 · 798 阅读 · 0 评论 -
线性回归(介绍、推导)
线性回归线性回归(Linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记线性回归试图学得:如何确定w和b呢?显然,关键在于如何衡量f(x)与y之间的差别。均方误差是回归任务中最常见的性能度量,使用均方误差最小化,即均方误差也称之平方误差,对应了常用的欧几里得距离。基于均方误差最小化来进行模型求解的方法称为最小二乘法。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离距离之和最小继续求解参数:求解:...原创 2022-04-07 20:45:55 · 351 阅读 · 0 评论 -
机器学习、正则化(L1正则化、L2正则化)
正则化正则化1. 正则化介绍2. 常见正则化方法2.1 0范数2.2 L1范数2.3 L2范数2.4 q-范数小结正则化1. 正则化介绍正则化 (Regularization)正则化是什么?正则化(Regularization)是一类通过限制模型复杂度,从而避免过拟合,提高泛化能力的方法PS(传统的机器学习中,提高泛化能力的方法主要是限制模型复杂度,比如采用ℓ1 和ℓ2 正则化等方式.在训练深度神经网络时,特别是在过度参数化(Over-Parameterization)时,ℓ1 和ℓ原创 2022-04-07 20:31:30 · 954 阅读 · 0 评论 -
决策树(ID3,C4.5和CART)介绍、说明、联系和区别
决策树决策树1. 决策树介绍2. 决策树构建过程2.1 属性选择熵条件熵信息增益信息增益比3. 决策树生成和修建4. 决策树常见算法ID3C4.5CART(基尼指数)5.总结决策树1. 决策树介绍决策树又称为判定树,是运用于分类的一种树结构。决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征原创 2022-04-07 19:23:59 · 5916 阅读 · 3 评论 -
逻辑回归、LR算法、LR优缺点、LR推导、LR损失函数
逻辑回归LR–逻辑回归LR作用?回归和分类的区别?逻辑回归函数?逻辑回归损失函数?LR的推导?LR和线性回归的区别逻辑回归怎么实现多分类?One-Vs-AllOne-Vs-OneSoftmax优缺点LR–逻辑回归LR, Logistic Regression,逻辑回归之前笔记:逻辑回归推荐视频链接:逻辑回归逻辑回归LR作用?常用的处理二分类问题的线性模型二分类:分类目标只有两种判断是猪吗-----是、不是回归和分类的区别?回归模型的输出是连续的分类模型的输出是离散的原创 2022-04-07 11:13:15 · 1597 阅读 · 0 评论 -
分类算法列一下有多少种?应用场景?分类算法介绍、常见分类算法优缺点、如何选择分类算法、分类算法评估
分类算法分类算法介绍概念分类算法常见分类算法NBSLRSVM算法ID3算法C4.5 算法C5.0算法KNN 算法ANN 算法选择分类算法分类算法性能评估分类算法介绍概念数据挖掘任务通常分为两大类:预测任务,根据其他属性的值,预测特定属性的值。描述任务,概括数据中潜在联系的模式(相关性,趋势,聚类,轨迹和异常)分类属于预测任务,就是通过已有数据集(训练集)的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的(若y为连续的,则属于回归算法)。分类流程:原创 2022-04-07 11:02:15 · 15287 阅读 · 0 评论 -
常见概率抽样方法及其适用场景总结(简单随机抽样、分层抽样、整群抽样、系统抽样)
常见概率抽样抽样一般分为概率抽样和非概率抽样两大类,本文主要讨论概率抽样。所谓概率抽样,是指按照一定的概率从构成总体的所有单元中随机选择一部分单元进入样本的抽样方法。主要介绍简单随机抽样 、分层抽样 、整群抽样 、系统抽样 以及多级抽样这五种概率抽样方法。1. 简单随机抽样> 简单随机抽样(simple random sampling ,SRS)是最简单的概率抽样方 法 ,也是其他抽样方法的基础 。方法:从一个单元数为 N 的总体中逐个抽取单元并且无放回 ,每次都在所有尚未进入样本的原创 2022-04-06 19:57:36 · 31291 阅读 · 1 评论 -
朴素贝叶斯基本原理和预测过程、先验概率、后验概率、似然概率概念
贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯原理建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。举例:一个袋子里有10个球,其中6个黑球,4个白球;那么随机抓一个黑球的概率是0.6!(已知黑球白球数量—了解事情再判断)如果我们事先不知道袋子里面黑球和白球的比例,而是通过我们摸出来的球的颜色,能判断出袋子里面黑白球的比例么?(未知事情全貌—还能判断吗?)三个概率:先验概率:通过经验来判断事情发生的概率。一般都是单独事件.原创 2022-04-06 19:44:07 · 8894 阅读 · 0 评论 -
机器学习中的距离计算方法
机器学习中的距离计算方法?参考博文在做很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。1. 欧式距离欧氏距离是一个通常采用的距离定义,指两个点之间的真实距离二维:三维:n维:2. 曼哈顿距离我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离,也就是:在欧几里德空间的固定直角坐标系上两点所形成的线原创 2022-04-06 15:13:02 · 978 阅读 · 0 评论 -
SVM 支持向量机
SVM支持向量机SVM1. SVM分类:2. Hand-Margin SVM3.Soft-margin SVM4. Kernel-Margin SVM4.1 核方法5.其他关于SVM?SVM对偶?SVM核技巧?SVM的物理意义是什么?SVM和全部数据有关还是和局部数据有关?SVM与LR的区别?SVMSVM;Support Vector Machine;支持向量机1. SVM分类:hand-margin SVM 硬间隔Soft-Margin SVM 软间隔Kernel-Margin SVM原创 2022-03-30 14:32:09 · 2679 阅读 · 0 评论 -
Sigmoid函数
常用的Sigmoid型函数有Logistic 函数和Tanh 函数.特性:“挤压”函数,把一个实数域的输入“挤压”到一定范围内(Logistics—(0,1);Tanh—(-1,1))当输入值在0 附近时,Sigmoid 型函数近似为线性函数;当输入值靠近两端时,对输入进行抑制。输入越小,越接近于0;输入越大,越接近于1。(Logistics为例)...原创 2022-03-28 18:37:01 · 578 阅读 · 0 评论 -
各种范式,F范式,l0范式,l1范式,l2范式
L0范式L0范数是指向量中非0的元素的个数。L1范式L1范数是指向量中各个元素绝对值之和。对于向量:矩阵:L2范式L2范数是指向量各元素的平方和然后求平方根。矩阵:F范式Frobenius 范数,简称F-范数,是一种矩阵范数,记为||·||F。矩阵A的Frobenius范数定义为矩阵A各项元素的绝对值平方的总和开根,即...原创 2021-10-06 20:19:30 · 5527 阅读 · 3 评论 -
新手操作Matlab的一些快捷键
Matlab的一些快捷键clc、clear、clear all、clf、close、close all矩阵操作clc、clear、clear all、clf、close、close all操作命令清除Workspace中的所有变量、函数,和MEX文件clear all清除Command Window中所有命令clc清除工作空间的所有变量clear清除当前的Figureclf关闭当前的Figure窗口close关闭所有的Figure窗口clos原创 2021-09-23 15:35:10 · 412 阅读 · 0 评论 -
identifiability可识别性
关于因果推断中的可识别性问题:定义: identifiability(可识别性),即如果一个因果量可以通过纯统计量计算得到,则该因果量为可识别的,这意味着我们可以从观测数据中求得因果效应。在观察性研究中,借助什么样的数据可以推出可靠的因果效应呢?具体来说,假如我们对每个用户有一系列干预前的指标(pre-treatment variables)????、有干预 ????、有观察结果 ????我们能不能推断出 T 对 Y 的因果效应?这个问题就是因果推断中的可识别性问题。可识别性依赖于几个假设,这些假原创 2021-09-09 16:17:03 · 1612 阅读 · 0 评论 -
机器学习------结构因果机制(SCM)、因果关系、因果推断
结构因果机制1. 什么是因果机制2. 为什么研究因果关系1. 什么是因果机制2. 为什么研究因果关系参考:因果关系的必要性机器学习基本上可以算是统计机器学习问题,也就是通过大量的数据学习到一些隐藏的patterns,从而得到数据与数据之前的相关关系,进而进行目标检测、追踪、知识问答等处理。很自然的一个问题就是,既然机器学习当前主流是以统计规律得到的相关关系为主,那么我们为什么要研究因果关系呢?Yule-Simpson’s Paradox (辛普森悖论):变量X和Y在边缘上存在正相关,但是给定另原创 2021-09-07 20:16:41 · 19435 阅读 · 2 评论