机器学习
文章平均质量分 89
z3wood_
这个作者很懒,什么都没留下…
展开
-
支持向量机
支持向量机几何间隔与硬间隔最大化支持向量机(Support vector machine, 简称SVM)最初是用于解决二分类问题的。给定训练样本集D={(x1,y1),(x2,y2),…,(xN,yN)},yi∈{−1,+1}D=\left\{\left(\boldsymbol{x}_{1}, y_{1}\right),\left(\boldsymbol{x}_{2}, y_{2}\right), \ldots,\left(\boldsymbol{x}_{N}, y_{N}\right)\right\}原创 2021-04-26 14:21:32 · 231 阅读 · 0 评论 -
指数分布族与广义线性模型
指数分布族与广义线性模型指数分布族定义连续型分布的概率密度函数(离散型分布的分布律)可以写成如下形式的分布均属于指数分布族f(y;θ)=s(y)t(θ)ea(y)b(θ)f(y ; \theta)=s(y) t(\theta) e^{a(y) b(\theta)}f(y;θ)=s(y)t(θ)ea(y)b(θ)也即可以写成如下形式f(y;θ)=exp[a(y)b(θ)+c(θ)+d(y)]f(y ; \theta)=\exp [a(y) b(\theta)+c(\theta)+d(y)]原创 2021-04-24 23:22:36 · 416 阅读 · 0 评论 -
K近邻法
K近邻法KNN算法流程K近邻法思想非常简单:给定测试样本?基于某种距离度量找出训练集中与其最靠近的k 个训练样本,然后基于这k 个" 邻居"的信息来进行预测. 通常, 在分类任务中可使用"投票法" 即选择这k 个样本中出现最多的类别标记作为预测结果;在回归任务中时使用"平均法" ,即将这k 个样本的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大这里直接给出其算法流程:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z3原创 2021-04-24 00:02:47 · 184 阅读 · 1 评论 -
聚类分析
聚类分析在"无监督学习" (unsupervised learning) 中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是"聚类"(clustering)聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个"簇" (cluster)。通过这样的划分,每个簇可能对应于一些潜在的概念(类别)。需说明的是,这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念原创 2021-04-23 00:23:08 · 206 阅读 · 0 评论 -
树相关模型与集成学习
树相关模型与集成学习决策树决策树基本概念决策树是一种基本的分类与回归方法,它可以看作if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布决策树学习本质上是从训练数据集中归纳出一组分类规则,从所有可能的决策树中选取最优决策树是NP完全问题,所以通常采用启发式方法,近似求解这一最优化问题决策树学习基本算法[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gf4TXxtj-1619061741452)(imgs/decisiontree.png)]原创 2021-04-22 11:22:53 · 121 阅读 · 0 评论 -
机器学习入门系列(1) - 快速了解机器学习
机器学习入门系列(1) - 快速了解机器学习绪论引言机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来玫善系统自身的性能。在计算机系统中,“经验"通常以"数据"形式存在,因此机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型"的算法,即"学习算法” (learning algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型,在面对新的情况时模型会给我们提供相应的判断基本术语数据准备相关:数据集(训练集、测试集、验证集)、样本、特征(属性原创 2021-04-08 01:29:43 · 129 阅读 · 0 评论