![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
李大宝652
这个作者很懒,什么都没留下…
展开
-
特征工程
对于一个机器学习,数据和特征决定了结果的上限,而模型、算法的选择及优化则是在逐步接近这个上限。 特征工程 是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上说,特征工程是一个表示和展现数据的过程。 在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。 特征归一化 目的 1、为了消除数据特征之间的量纲影响,需要对...原创 2020-03-26 20:08:46 · 425 阅读 · 0 评论 -
支持向量机
SVM有三宝:间隔,对偶,核技巧 间隔与支持向量 给定训练集样本,分类学习最基本的想法就是基于训练集D在样本空间找到一个划分超平面,将不同类别的样本分开。但能将训练样本分开的超平面可能有很多,如何确定哪一个是最优的? 在样本空间中,划分超平面可通过如下线性方程来描述: 划分超平面可被法向量w和位移b确定。 样本空间中任意点x到超平面(w,b)的距离为: 假如超平面(w,b)能将训练样本正确分类...原创 2020-03-24 13:23:56 · 431 阅读 · 0 评论 -
方差与偏差和集成学习
集成学习分类 boosting 特点 串行,各个基分类器之间有依赖 作用 boosting:提升,作用是每一次训练的时候都对上一次的训练进行改进提升,在训练的过程中,这K个“专家”之间是有依赖性的,当引入第K个专家(第K个分类器)的时候,实际上是对前K-1个专家的优化。 基本思路 将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权...原创 2020-03-21 20:52:48 · 843 阅读 · 0 评论 -
高斯混合模型
所属类别:聚类算法 高斯混合模型假设每个簇的数据都是符合高斯分布(又叫正态分布)的,原创 2020-03-21 15:14:33 · 1341 阅读 · 0 评论 -
逻辑回归
逻辑回归和线性回归的异同 1.处理问题不同 逻辑回归处理的是分类问题 线性回归处理的是回归问题 逻辑回归中因变量取值是一个二元分布,模型学习得出的是表示给定自变量和超参数后,得到因变量的期望,并基于此期望来处理预测分类的问题。 线性回归中实际上求解的是是对假设的真实关系的一个近似,使用这个近似项来处理回归问题。 2.因变量 逻辑回归中因变量是离散的,线性回归中因变量是连续的 相同之处 都是使用极...原创 2020-03-19 18:31:49 · 462 阅读 · 0 评论 -
决策树
特点:自上而下,有监督学习,常被用于分类和回归 作用:对样本数据进行树形分类的过程 构成:结点和有向边。结点:内部结点和叶结点,内部结点:一个特征或属性;叶结点:类别。 过程:从顶部根结点开始,所有样本聚在一起,经过根结点的划分,样本被分到不同的子结点中,再根据子结点的特征进一步划分,直至所有样本都被归到某一个类别(即叶结点)中。 决策树的生成包含:特征选择、树的构造、树的剪枝三个过程 完全生长...原创 2020-03-14 18:33:39 · 318 阅读 · 0 评论 -
K-means和KNN
K-means 属于非监督学习 非监督学习 特点:输入数据没有标签信息,需要通过算法模型来挖掘数据内在的结构和模式 主要包括:数据聚类和特征变量关联 数据聚类:通过多次迭代来找到数据的最优分割 特征变量关联:利用各种相关性分析方法来找到变量之间的关系 分类问题(如支持向量机、逻辑回归、决策树等)属于监督学习,而聚类是非监督学习 K均值聚类(K-Means) 最基本和最常用的聚类算法 基本思想...原创 2020-03-13 18:05:48 · 334 阅读 · 0 评论