机器学习
文章平均质量分 94
机器学习
weixin_46002351
软件工程
展开
-
机器学习——第十四章 概率图模型
MRF使用势函数来定义多个变量的概率分布函数,其中每个(极大)团对应一个势函数,一般团中的变量关系也体现在它所对应的极大团中,因此常常基于极大团来定义变量的联合概率分布函数。HMM中的变量分为两组:状态变量与观测变量,其中状态变量一般是未知的,因此又称为“隐变量”,观测变量则是已知的输出值。对于MRF中的势函数,势函数主要用于描述团中变量之间的相关关系,且要求为非负函数,直观来看:势函数需要在偏好的变量取值上函数值较大,例如:若x1与x2成正相关,则需要将这种关系反映在势函数的函数值中。原创 2024-08-16 14:07:59 · 423 阅读 · 0 评论 -
机器学习——第十二章 计算学习理论
计算学习理论(computational learning theory)研究的是关于通过"计算"来进行"学习"的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。假设给定训练集D,其中所有的训练样本都服从一个未知的分布\(\mathcal{D}\),且它们都是在总体分布D中独立采样得到,即。原创 2024-08-15 16:10:33 · 273 阅读 · 0 评论 -
机器学习——第十一章 特征选择与稀疏学习
对一个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些属性则可能没什么用.我们将属性称为"特征" (feature) ,对当前学习任务有用的属性称为"相关特征" (relevant feature) 、没什么用的属性称为"无关特征" (irrelevant feature). 从给远的特征集合中选择出相关特征于集的过程,称为"特征选择" (feature selection)。我们不能直接用排列组合进行遍历所有可能子集,这样会遭遇组合爆炸。所以我们选择。原创 2024-08-13 10:26:48 · 729 阅读 · 0 评论 -
机器学习——第十章 降维与度量学习
流形学习有很多应用,例如数据可视化,数据压缩,数据生成,特征提取等。\(\text{令 }\mathbf{Z}=(\boldsymbol{z}_{1},\boldsymbol{z}_{2},\ldots,\boldsymbol{z}_{m})\in\mathbb{R}^{d^{\prime}\times m}, (\mathbf{W})_{ij}=w_{ij}\\\mathbf{M}=(\mathbf{I}-\mathbf{W})^{\mathrm{T}}(\mathbf{I}-\mathbf{W})\)原创 2024-08-08 20:24:08 · 325 阅读 · 0 评论 -
机器学习——第九章 聚类
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”,通过这样的划分,每个簇可能对应于一些潜在的概念(类别),这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。聚类既能作为一个单独过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。原创 2024-08-08 11:19:09 · 534 阅读 · 0 评论 -
机器学习——第八章 集成学习
Boosting是一种可将弱学习器提升为强学习器的算法:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本的分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;在一般经验中,如果把好坏不等的个体学习器掺到一起,那么通常结果会是比最坏的要好一些,比最好的要坏一些,要获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”,并且要有“多样性”,也就意味着学习器间具有差异,如下所示。其中,E是集成的泛化误差,原创 2024-08-03 14:51:11 · 1127 阅读 · 0 评论 -
机器学习——第七章 贝叶斯分类器
对于贝叶斯网学习而言,模型就是一个贝叶斯网,同时,每个贝叶斯网描述了一个在训练数据上的概率分布,自有一套编码机制能使那些经常出现的样本有更短编码,所以我们应该选择那个综合编码长度最短的贝叶斯网,这就是“最小描述长度”准则。推断指的是通过已知变量观测值来推测待查询变量的过程,最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率,但这是一个N P NPNP难问题,在现实应用中,贝叶斯网的近似推断常用吉布斯采样来完成,这是一种随机采样办法,如下所示。在“顺序”结构中,给定x的值,则y与z条件独立;原创 2024-07-29 22:45:07 · 927 阅读 · 0 评论 -
机器学习——第六章 支持向量机
与此不同,支持向量回归假设我们能容忍f ( x ) 与y之间最多有ε的偏差,即仅当f ( x )与y之间的差别绝对值大于ε时才计算损失,如下图所示,相当于以f ( x )为中心,构建了一个宽度为2 ε 的间隔带,若训练样本落入此间隔带,则认为是被预测正确的。SVM的目的是求出与支持向量有最大距离的超平面,以每个样本为圆心,该距离为半径作圆,可以近似认为圆内所有的点都与该样本属于相同分类,若圆内出现了噪声,那么该噪声所造成的错误分类也将最大化,因此SVM对噪声是敏感的。为法向量,决定了超平面的方向;原创 2024-07-29 21:56:40 · 844 阅读 · 0 评论 -
机器学习——第五章 神经网络
基于梯度的搜索时使用最为广泛的参数寻优方法,梯度下降法是沿着负梯度方向搜索最优解,因为负梯度方向是函数在当前点的方向导数最小的方向,方向导数是函数沿着某个方向的变化率,它与函数的梯度和该方向的单位向量的点积相等,当两个向量的夹角为180度时,点积最小,也就是说,当单位向量与梯度的反方向一致时,方向导数最小。Elman网络是最常用的递归神经网络之一,如下所示,它的结构与多层前馈网络很相似,但隐层神经元的输出被反馈回来,与下一时刻输入层神经元提供的信号一起,作为隐层神经元在下一时刻的输入。原创 2024-08-04 19:00:14 · 1154 阅读 · 0 评论 -
机器学习——第四章 决策树
postpruning则是先从训练集生成一个完整的决策树,然后自底向上的对非叶子结点进行考察,如果将该结点对应的子树替换为叶子结点能够带来决策树泛化性能的提升,则将该子树替换为叶子结点。prepruning预剪枝指在决策树生成过程中,对每个结点在划分前进行估计,若当前结点的划分不能带来决策树泛化能力的提升,则停止划分,并将当前结点标记为叶子结点。决策树学习的关键在于如何选择最优划分属性,随着树的不断划分,树的结点包含的样本尽可能属于同一类型最好,即结点的纯度(purity)越来越高。原创 2024-07-28 20:43:14 · 553 阅读 · 0 评论 -
机器学习——第三章 线性模型
假设,d表示x的维度(属性),表示x在第i个属性上的值。线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即:向量形式为:其中,w和b学得之后,模型就确定了。w直观的表达了各个属性在预测中的重要性,因此线性模型具有很好的可解释性(comprehensibility)。原创 2024-07-28 19:13:33 · 700 阅读 · 0 评论 -
机器学习——第二章 模型评估与选择
将分类错误的样本数占样本总数的比例称为错误率,即在m个样本中有a个样本分类错误,则错误率E=a/m。1-a/m称为精度。更一般的,将机器学习器的实际预测输出与样本的真实输出之间的差异称为误差。学习器在训练集上的误差称为“训练误差”or“经验误差(empirical error)”,在新样本上的误差称为泛化误差(generalization error)。由于不知道新样本的特征,实际能做的只是尽力使经验误差最小化。但很多时候虽然能在训练集上做到分类错误率为0,但多数情况这种分类器的性能并不好。原创 2024-07-28 15:35:33 · 832 阅读 · 0 评论 -
机器学习——第一章 绪论
机器学习致力于研究如何通过计算的手段,利用经验来玫善系统自身的性能在计算机系统中,"经验"通常以"数据"形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型" (model) 的算法,即"学习算法" (learning algorithm)。给定基于某种归纳偏好的算法产生的模型A和基于另一种归纳偏好的算法产生的模型B,有时我们会注意到,A和B在不同的样本集上的表现各有好坏,有时候A的效果更好,有时候B的效果更好。,前者是基于某种领域知识而产生的,后者则是基于对训练样本的分析进行的。原创 2024-07-26 19:53:26 · 966 阅读 · 0 评论