![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ML
whime_sakura
分享记录一些学习笔记,写的很不好的请见谅。
展开
-
线性回归
线性模型基本形式 线性回归 我们将数据集的数据量记为m,向量x的维数即数据的属性数目记为k,试图学得:线性回归就是要找到向量w和b,使得我们的预测值和实际样本的值y的均方误差最小。 求导过程如下:最后我们可以求得w,b的值。 更一般的情况下,我们将b吸收进向量w中,并在每一行属性值的后面增加元素1。如:那么可以得到西瓜...原创 2018-10-17 23:24:13 · 164 阅读 · 0 评论 -
贝叶斯网
贝叶斯网借助有向无环图(Directed Acyclic Graph ,简称 DAG)来刻画属性之间的依赖关系,并使用条件概率表(Conditiona Probability Table 简称 CPT)来描述属性的联合概率分布。结构贝叶斯网有效的表达了属性间的条件独立性。它假设每一个节点与和该节点“没有亲缘关系”的节点独立。定义联合概率分布接下来的道德图根据图论中的...原创 2018-10-20 09:13:49 · 429 阅读 · 0 评论 -
EM算法
贴一个讲解EM的链接https://www.cnblogs.com/bigmoyan/p/4550375.html 现实应用中有些数据集会不完整,比如样本属性变量的值未被观测到。 EM算法先给定一个模型参数,通过这个参数建立的模型推断隐变量z的期望。这是E步。之后进行M步,找到能使上一步产生的似然期望最大化的参数值,再将参数值用于E步,如此重...原创 2018-10-21 08:40:43 · 98 阅读 · 0 评论 -
决策树基本流程
决策树学习是基于样本,对各个属性一次判断,最终得出判断结果,产生一棵泛化能力强的,能处理未见示例的树。 递归返回的三种情形: ...原创 2018-10-20 09:11:16 · 6069 阅读 · 0 评论 -
划分选择
决策树学习的关键在于选择最优划分属性。随着划分的进行,我们希望每个结点包含的样本尽可能属于同一类别,我们称之为“纯度”,越高越好。信息增益我们定义信息熵的概念。对于一个离散属性a,若它有V个可能的取值,我们对样本集进行划分的时候将会产生V个结点。根据包含的样本数的不同,我们给予每个样本一个权重。这样可得出使用属性a对样本D进行划分所获得的”信息增益“。 增...原创 2018-10-20 09:10:54 · 493 阅读 · 0 评论 -
剪枝处理
剪枝是决策树处理“过拟合”的主要手段,基本策略有”预剪枝“和“后剪枝“。 预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树, 然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。...原创 2018-10-20 09:10:31 · 309 阅读 · 0 评论 -
连续值与缺失值
连续值处理 之前讨论的决策树是属性的取值都是有限个数,都是离散的,对于连续值,需要使用离散化技术,最简单的就是使用二分法。 缺失值处理我们可能会遇到样本的某些属性值缺失的情况,这时候我们需要对不完整样本进行处理。 这三个数值用来在信息增益中作为权重。 ...原创 2018-10-20 09:10:13 · 794 阅读 · 0 评论 -
多变量决策树
但在学习任务的真实分类边界比较复杂时,必须使用很多段划分才能获得较好的近似。多变量决策树使用斜的划分边界,在此类决策树中,非叶结点不再是仅对某个属性,而是对属性的线性组合进行测试。 ...原创 2018-10-20 09:09:45 · 6655 阅读 · 2 评论 -
机器学习相关参考
特征工程相关特征选择特证工程学习笔记Feature-Engineering中文版缺失值填充方法机器学习_数据处理及模型评估相关资料训练模型填充空值(fill null)的几种方法范数0范数,1范数,2范数的几何意义矩阵Matrix calculus(矩阵微积分)关于矩阵求导如何理解相似矩阵矩阵求导术(上)矩阵求导术(下)孟岩的理解矩阵(一)(二)(三)(辅...原创 2020-01-04 15:02:08 · 127 阅读 · 0 评论 -
核方法
一系列基于核函数的学习方法,统称为核方法。通过"核化" (即引入核函数)来将线性学习器拓展为非线性学习器.下面我们以线性判别分析为例来演示如何通过核化来对其进行非线性拓展从而得到"核线性判别分析" (Kernelized Linear Discriminant Analysis ,简称 KLDA)。KLDA的学习目标是类间散度矩阵和类内散度矩阵为 ...原创 2018-10-22 09:02:35 · 937 阅读 · 0 评论 -
半朴素贝叶斯分类器
朴素贝叶斯的“属性条件独立性假设"在现实生活中往往很难成立。由此有了半朴素贝叶斯分类器,适当考虑一部分属性之间的相互依赖关系。"独依赖估计" (One-Dependent Estimator ,简称 ODE)是半朴素贝叶斯分类器最常用的一种策略。"独依赖"就是假设每个属性在类别之外最多仅依赖于一个其他属性,即 问题转化为确定每个属性的父属性。 假设有一个“超父...原创 2018-10-20 09:13:18 · 2091 阅读 · 0 评论 -
朴素贝叶斯分类器
朴素贝叶斯分类器假设样本各个属性之间相互独立,这样子就可以得到所有属性的联合概率,即类条件概率P(x|c)。如果有充足的独立同分布样本,我们可以这样子来求先验概率讲到这里,觉得之前使用极大似然法估计类条件概率(或后验概率)现在只是换了一个方式:我们想要得到类条件概率,即一个样本对于一个类c的概率,或者说这个样本在这个类中的概率P(x|c),可以通过假设...原创 2018-10-20 09:12:56 · 212 阅读 · 0 评论 -
贝叶斯决策论
这里的概率P不是误判概率,而是样本本身是Cj类别的概率。在样本x上分类为Ci的风险是从其它类别误分类过来的。 我们的任务就是找到一个判定准则h,最小化总体风险,使得对于每一个样本x,将其误判为一个错误类别h(x)所产生的损失的期望降到最低。很明显的,我们只需保证每一个样本产生的条件风险最小,则总体的条件风险必然最小。问题转化为了找到每一个样本上使条件风险R(c I x...原创 2018-10-20 09:11:49 · 191 阅读 · 0 评论 -
对数几率回归
线性回归模型讨论的是回归问题,对于分类问题,只需找一个单调可做函数将分类任务的真实标记y与线性回归模型的预测值联系起来。最理想的应该是单位阶跃函数,其中z为预测值。但是由于阶跃函数不连续,不可微,所以我们使用了一个替代函数:图像如下:将预测值代入,可得对数几率函数:其中y可视为样本x取得正例的可能性,1-y为取得反例的可能性,两者的比值y/(1-y)称...原创 2018-10-17 23:30:33 · 2131 阅读 · 0 评论 -
线性判别分析((Linear Discriminant Analysis,LDA)
LDA用于分类问题上,在给定一个样本的情况下,将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离。那么对于一个新的样本,只要将其投影到这条直线上再根据投影点的位置即可完成分类。给定一些定义:在分类问题上,我们要让同类样例尽可能集中,异类样例尽可能远离。那么可以让同类样例点的投影的协方差尽可能小,使不同样例的中心尽可能远离(注意我们可以...原创 2018-10-18 13:47:27 · 1404 阅读 · 0 评论 -
多分类学习
多分类问题主要使用拆解法,即如何通过将问题拆分成多个二分类问题和将各个分类器的分类结果进行集成得到最终的多分类结果。经典的拆分策略有三种:OvO,即一对一,即将训练集的N个类别两两分类得到N(N-1)个二分类器,测试的时候将样本都交给分类器,预测的类别最多的作为结果。OvR,是每一次将一个类的样例作为正例,其他类的样例作为反例训练分类器,会产生N个分类器。测试的时候若仅有...原创 2018-10-18 13:48:32 · 1088 阅读 · 0 评论 -
类别不平衡问题
类别不平衡(cla imbalance) 就是指分类任务中不同类别的训练样例数目差别很大的情况。在线性回归中我们使用y表示样本x判定为正例的可能性,1-y表示作为反例的可能性,分类器会这样子决策:但是实际上对于我们观测的样本来说,可能是类别不平衡的。无偏采样意味着真实样本总体的类别比例在训练集中得以保持。所以我们只要使得3.48的左值在分类时大于一就可以判断为正例。...原创 2018-10-22 09:05:25 · 722 阅读 · 0 评论 -
间隔与支持向量
给定一个训练样本集我们想要得到一个划分超平面,将不同类别的样本分开来。 如图,我们应尽可能地使两个类别的样本都尽可能地远离超平面,换句话说,就是使得训练集之外的未见示例在该超平面的作用下也能正确分类,所以,超平面应该尽可能“正中间”划分训练集。 划分超平面可用以下线性方程表示:样本中任意点x到超平面的距离可以表示为:证明如下:若能正...原创 2018-10-22 09:05:53 · 1508 阅读 · 3 评论 -
对偶问题
接上一节,我们要做的就是得到模型并且f(x)小于等于-1或者大于等于1。由以上三式可以得式6.6的对偶问题由于式6.6有不等式约束,根据附录拉格朗日乘子法,需满足KKT条件关于该式的推导和说明(补上两个提到的链接)http://www.csc.kth.se/utbildning/kth/kurser/DD3364/Lectures/Duali...原创 2018-10-22 09:04:24 · 1127 阅读 · 0 评论 -
核函数
之前我们的超平面都是假设训练样本都是线性可分的,但是这样的假设不成立的话呢,也就是对于当前训练集,找不到一个线性可分的超平面。 对于这种情况,我们都是题将样本从原始映射到一个更高维的特征空间,使得样本在这个特征空间内 线性可分。并且,如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分。 由于很难去计算样本 Xi ,Xj 映...原创 2018-10-22 09:03:44 · 855 阅读 · 0 评论 -
软间隔与正则化
实际上,在现实任务中很难找到合适的核函数使得训练样本在特征空间中线性可分。即使恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的。为此我们引入软间隔的概念,软间隔允许某些样本不满足约束在最大化间隔的同时,不满足约束的样本应尽可能小,优化目标可以写为这里的关键在于C,由于min的作用,当C取无穷大时,要求所有样本...原创 2018-10-22 09:03:20 · 990 阅读 · 0 评论 -
支持向量回归
引用一下网上的解释 使用同样的方法将偏导置零可以得到对偶问题KKT条件引用: 求解b引用: 最终可以得到下面的模型 ...原创 2018-10-22 09:02:54 · 719 阅读 · 0 评论 -
Softmax回归
转载:http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92ps:softmax回归模型,该文写的已经很详细了,直接转载过来,多看几遍肯定能看懂。简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 可以取两个以上的值。 Softmax回...转载 2018-10-21 08:40:08 · 118 阅读 · 0 评论