机器学习
文章平均质量分 87
Rebirth-LSS
度过了一段自己都能感动的日子,才能遇见那个最好的自己
展开
-
CART回归树--决策树
决策树的关键问题这么多特征,使用哪个特征先进行子表划分?CART回归树原始数据集S,此时树的深度depth=0;针对集合S,遍历每一个特征的每一个value,用该value将原数据集S分裂成2个集合:左集合left(<=value的样本)、右集合right(>value的样本),分别计算这2个集合的mse,找到使(left_mse+right_mse))最小的那个value,记录下此时的特征名称和value,这个就是最佳分割特征以及最佳分割值;找到最佳分割特征以及最佳分割valu原创 2022-01-28 23:20:18 · 1494 阅读 · 0 评论 -
ML(十)
聚类问题1. 概述聚类分析(cluster analysis ) 是一种常用的无监督学习算法,它试图将一组不带标签的样本(或变量)根据彼此至今的相似度划分成若干个类,使得相似的样本归到一个小的分类单元中,不相似的样本归到一个大的分类单元中,知道所有的样本都分类完毕,由于这些样本并不带标签,因此,对于各个类的含义需要使用者结合业务知识进行解读和定义。聚类分析既能作为一个单独的过程,用来寻找一组不带标签的数据的内在结构和规律,也可以作为其他分类算法的前期工作,例如:我们可以先用聚类算法对一批产品的原创 2021-10-28 01:00:00 · 607 阅读 · 0 评论 -
ML(九)
一、模型评估与优化1. 模型评估方法1)偏差与方差分析偏差(Bias)指模型预测值与真实值之间的差异,反映了预测结果是否准确,取决于模型学习的程度;方差(Variance)指预测结果在均值附近的偏离幅度,反映了模型预测结果的稳定程度,以及对训练集上数据波动的敏感程度.,这个训练集上数据波动的敏感程度可以这样理解,当大部分的数据样本都是比较集中存在的时候,然后,可能有些个别数据会因为一些细微的因素的影响会导致这个数据产生影响。方差不仅仅表达了样本偏离均值的程度,更是揭示了样本内部彼此波动的程度(偏差原创 2021-10-24 10:37:55 · 105 阅读 · 0 评论 -
ML(八)
一、朴素贝叶斯贝叶斯定理的概述朴素贝叶斯算法是统计学的一种分类方法,它利用概率统计知识进行分类。朴素贝叶斯以贝叶斯定理为基础,故称为贝叶斯分类,之所以有"朴素"两字,是因为该算法假设特征之间相互独立,而这个假设看上去又有点过头(因为绝大多数实际问题中不太可能存在完全的独立性),因此加上了朴素。朴素贝叶斯是多用途分类器,能在很多不同的情景下找到它的应用,例如垃圾邮件过滤、自然语言处理等.1. 概率1)定义概率是反映随机事件出现的可能性大小. 随机事件是指在相同条件下,可能出现也可能不出现的事件原创 2021-10-23 11:05:51 · 65 阅读 · 0 评论 -
ML(七)
支持向量机(support vector machine,SVM)SVM是一个有监督学习算法,最常用于二分类任务,对线性分类和非线性分类都支持。主要用于解决数据分类问题,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化(即数据集的边缘点到分界线的距离d最大,如下图),通常SVM用于二元分类问题,对于多元分类可将其分解为多个二元分类问题,再进行分类。所谓“支持向量”,就是下图中虚线穿过的边缘点。支持向量机就对应着能将数据正确划分并且间隔最大的直线(下图中红色直线)。什么才是最优分类原创 2021-10-22 18:14:10 · 102 阅读 · 0 评论 -
ML(六)
逻辑回归逻辑回归(Logistic Regression)是一种可以用于分类的回归算法,多用于二分类的任务。简单来说,任何需要预测“二选一”事件的可能性都可以用逻辑回归来预测,区别于一般的线性回归,逻辑回归计算每个样本介于(0~1)的概率值,我们可以选择一个阈值,来进行分类。例如一次考试,根据成绩可以分为及格、不及格两个类别逻辑函数逻辑回归是一种广义的线性回归,其原理是利用线性模型根据输入计算输出(线性模型输出值为连续),并在逻辑函数作用下,将连续值转换为两个离散值(0或1),其表达式如下:y=h(原创 2021-10-22 15:09:55 · 58 阅读 · 0 评论 -
ML(三)
多项式回归1. 多项式模型定义线性回归适用于数据呈线性分布,如果数据样本呈非线性分布,那么之前提到的线性模型就不再适用了。即采用多项式回归为好。2. 多项式模型定义与线性模型相比,多项式模型引入了高次项,自变量的指数大于1,例如一元二次方程:y=w0+w1x+w2x2y = w_0 + w_1x + w_2x^2y=w0+w1x+w2x2一元三次方程:y=w0+w1x+w2x2+w3x3y = w_0 + w_1x + w_2x^2 + w_3x ^ 3y=w0+w1x+w原创 2021-10-21 22:27:21 · 155 阅读 · 0 评论 -
ML(五)
集成学习与随机森林1、集成学习集成学习(ensemble learning)通过构建并合并多个模型来完成学习任务,从而获得比单一学习模型更显著优越的泛化性能,简言之,集成学习就是利用模型的“集体智慧”,提升预测的准确率. 根据单个模型方式,集成学习可以分为两大类:按照模型与模型之间的关系分为两类个体间存在强依赖关系,必须串行生成的序列化方法,其代表为Boosting算法;前个模型的输出作为下个模型的输入,依次循环个体之间不存在强依赖关系,可同时生成的并行化方法,代表是Bagging和随机森林算法原创 2021-10-20 23:26:04 · 74 阅读 · 0 评论 -
ML(一)
人工智能概述:人工智能是计算机科学的一个分支学科,主要研究用计算机模拟人的思考方式和形式,从而在某些领域代替人进行工作。人工智能与传统软件的区别:传统软件,执行人的指令和想法,在执行之前已经有了解决方案,无法超越人的思想和认识范围,人工智能,尝试突破人的思想和认识的范围,让计算机学习到新的能力,尝试解决传统软件的难题机器学习机器学习是一门能够让编程计算机从数据中学习的计算机学科。讲义:一个计算程序在完成一个任务之后,获得经验E,其表现效果为P,任务T的性能得以显现,也就是用以衡量的P,随着E的.原创 2021-10-12 11:04:51 · 133 阅读 · 0 评论 -
ML(二)
线性模型线性模型是最简单的模型之一,它描述了一个(或多个)自变量对另一个因变量的影响是呈简单的比例,线性关系输入(x)输出(y)0.55.00.65.50.86.01.16.81.46.8根据一组输入和输出(这叫做样本),寻找一个线性模型,这个线性模型能最优化的去拟合这些样本的数值分布。线性模型在二维空间内表现为一条直线,再三维空间内表现为一个平面,更高维度下的线性模型是很难用几何图形来表示的(称为超平面),这个主要是有线性模型中的自变量的原创 2021-10-13 10:36:00 · 97 阅读 · 0 评论 -
ML(四)
决策树决策树是一种常见的机器学习的方法,其核心思想是相同(或相似)的输入产生相同(或相似)的输出,通过树状结构来进行决策,其目的是通过对样本的不同的属性的判断决策,将有共同属性的样本划分到一个叶子节点下,从而实现分类或回归。在上述示例模型中,通过对西瓜一系列特征(色泽、根蒂、敲声等)的判断,最终我们得出结论:这是否为一个好瓜. 决策过程中提出的每个判定问题都是对某个属性的“测试”,例如“色泽=?”,“根蒂=?”. 每个测试的结果可能得到最终结论,也可能需要进行下一步判断,其考虑问题的范围是在上次决策原创 2021-10-20 14:12:52 · 102 阅读 · 0 评论