机器学习算法
Yu_xiaoji
这个作者很懒,什么都没留下…
展开
-
SVM的理解
一、SVM算法理解 首先SVM(支持向量机)是一个用于分类、回归、异常值检测的监督学习方法,给定训练数据,通过找到一个分离超平面,对数据进行划分,超平面两侧即为两类不同类型。对于线性可分的训练数据集来说,能将数据分类的超平面有很多个,找到既可将训练数据分类,可信度又高的超平面,依赖于位于分割超平面上的训练数据,或距离超平面较近的数据,因此我们要找到的超平面是训练数据距离超平面的距离最远...原创 2018-04-23 14:01:18 · 679 阅读 · 0 评论 -
逻辑斯特回归
首先假设得到正样本的概率为服从形如逻辑斯特分布函数,根据已知的训练结果及数据,构造联合概率密度函数,而根据极大似然估计,已经发生的事情为概率最大的事情,所以求对数似然函数的最大,即对数似然函数的负数最小,用梯度下降和拟牛顿法求解,从而得到概率函数的系数,规定概率大于0.5即为正样本,反之为负样本。事件的几率为线性函数1.为什么假设训练数据的概率为逻辑斯特回归函数?2.训练数据样本是否均衡,样本权重...原创 2018-05-09 11:24:26 · 411 阅读 · 0 评论 -
决策树
分类算法决策树,为有监督学习模型,已知训练数据集,每个训练数据都有n个特征,选择训练数据的不同特征组合来构建决策树,根据选择不同的选择特征方法有不同的生成决策树的方式。1.根据信息增益生成树(ID3),(信息熵表示随机变量不确定性的度量,条件熵表示已知随机变量X的条件下随机变量Y的不确定性,信息增益表示得知特征X的信息,而使得类Y的信息不确定性减少的程度。对于每个特征,计算出相应的信...原创 2018-05-09 11:26:15 · 250 阅读 · 0 评论 -
整理
1、最小二乘法,对每个参数求偏导另其为0,需要求矩阵的逆,可能矩阵的逆不存在,超过10000个特征建议用迭代,拟合函数不是线性的,无法使用最小二乘法 2、梯度下降,选择初始值,步长,求梯度方向, 交叉验证:样本小于10000条,应用交叉验证 简单交叉验证:随机将样本分为测试集合验证集,再将样本打乱,再随机重新构建测试集合验证集 s-折交叉验证:将样本随机分成s份,每次选择s-1份进行训练,...原创 2019-06-11 23:00:52 · 110 阅读 · 0 评论