机器学习
青玄叶鹤
流水不争先,争的是滔滔不绝
展开
-
结果评估
机器学习之结果评估先回顾一下过程1.数据预处理:数据清洗,数据采样,数据集拆分2.特征工程:特征编码,特征选择,特征降维,规范化3.数据建模:回归问题,分类问题,聚类问题,其他问题,开源框架4.结果评估:拟合度量,查准率,查全率,F1值,PR曲线,ROC曲线泛化误差:在“未来”样本上的误差经验误差:在训练集上的误差训练数据经过训练得到f(x),f(x)应用到未知测试数据性能评价指...原创 2020-02-26 23:29:56 · 992 阅读 · 0 评论 -
LDA主题模型,生成模型VS判别模型
LDA主题模型LDA主题模型是一种文档主题生成模型,是一种非监督机器学习技术,通过模拟文档生成过程,可以用于识别大规模文档集或语料库中潜藏的主题信息。生成模型VS判别模型监督学习方法可分为两大类,即生成方法与判别方法,它们所学到的模型称为生成模型与判别模型生成模型的特点1.从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度2.生成方法的学习收敛速度更快,即当样本容量增加的时...原创 2020-02-15 18:08:39 · 978 阅读 · 1 评论 -
隐马尔可夫模型,CRF条件随机场
隐马尔可夫模型隐马尔可夫模型是一个关于时序的概率模型,描述由马尔可夫链随机生成规则序列的过程,属于生成模型,隐马尔可夫模型在语音识别,自然语言处理,生物信息等领域有着广泛的应用隐马尔可夫模型的两个假设1.齐次马尔可夫性假设,即使假设隐藏的马尔可夫链在任意时刻 t 的状态只依赖于其前一时刻的状态,与其他时刻的状态及观测无关,也与时刻 t 无关2.观测独立性实验,即使设任意时刻的观测只依赖于该...原创 2020-02-12 22:30:14 · 636 阅读 · 0 评论 -
聚类问题(下)
聚类问题(下)密度聚类密度聚类算法假设聚类结构能够通过样本分布的紧密程度确定,从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类。DBSCAN算法流程1.DBSCAN通过检查数据集中每个点的EPS邻域来搜索簇,如果点P 的EPS邻域包含的点多于MinPts个,则创建一个以P为核心对象的簇2.然后DBSCAN迭代地聚集从这些核心对象直接密度可达的对象,...原创 2020-02-08 22:15:47 · 382 阅读 · 0 评论 -
聚类问题(上)
聚类问题(上)聚类问题是无监督学习的问题,算法的思想就是“物以类聚,人以群分”,聚类算法感知样本间的相似度,进行归类归纳,对新的输入进行输出预测,输出变量取有限个离散值。可以作为一个单独过程,用于寻找数据内在的分布结构可以作为分类,稀疏表示其他学习任务的前驱任务K-meansK-means(又称为K-均值或K-平均)聚类算法,算法思想就是首先随机确定K个中心点作为聚类中心,然后把每个数据...原创 2020-02-05 21:25:31 · 3212 阅读 · 0 评论 -
回归问题
回归问题回归分析用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是输入变量的值发生变化时,输出变量随之发生变化,直观来说回归问题等价于函数拟合,选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。回归分析按照自变量个数可分为一元回归分析和多元回归分析,按照自变量与因变量关系可分为线性回归分析和非线性回归分析,按照因变量个数可分为简单回归分析和多重回归分析典型且最简单:...原创 2020-02-02 23:45:56 · 298 阅读 · 0 评论 -
集成学习
集成学习通过将多个弱分类器集成在一起,使它们共同完成学习任务,构建一个强分类器。理论基础在PAC学习框架中,一个概念,如果存在一个多项式的学习算法能够学习它,学习的正确率略好,那么就称这个概念是弱可学习的。Schapire证明强可学习和弱可学习是等价的,也就是说,在PAC学习框架下,一个概念强可学习的充分必要条件是这个概念是弱可学习的。两类集成方法Bagging(bootstrap a...原创 2020-01-29 18:06:24 · 192 阅读 · 0 评论 -
SVM分类 与 逻辑回归
SVM分类支持向量机(Support vector Machine)是一种有监督学习方法,主要思想是建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的举例最大化,从而对分类问题提供良好的泛化能力1.线性可分支持向量机与硬间隔最大化2.线性可分支持向量机与软间隔最大化非线性支持向量机与核函数常用核函数:线性核函数;多项式核函数;高斯核函数;混合核SVM的优点:相对于其...原创 2020-01-27 16:53:59 · 769 阅读 · 0 评论 -
贝叶斯分类
贝叶斯分类贝叶斯分类是基于贝叶斯定理和属性特征条件独立性的分类方法。贝叶斯分类:1.计算先验概率2.为每个属性计算条件概率3.计算后验概率贝叶斯公式:p(c|x) = p(x,c)/p(x) = p©p(x|c) / p(x)p(类别 | 特征) = p(特征 | 类别)p(类别) / p(特征)拉普拉斯修正(防止分子中有概率为零的)先验概率拉普拉斯修正条件概率拉普拉斯修正...原创 2020-01-22 16:23:45 · 682 阅读 · 0 评论 -
分类问题(部分)
分类问题(部分)分类问题:是监督学习的一个核心问题,它从数据中学习一个分类决策函数或分类模型(分类器(classifier))对新的输入进行输入预测,输出变量取有限个离散值。(监督学习就像是先做模拟试卷(带答案),再做测试试题,查看测试实体的完成程度)分类:1.二分类(是与不是)2.多分类(分成很多类)决策树(decision tree)是一个树结构,每个非叶节点表示一个特征属性,...原创 2020-01-19 22:41:15 · 346 阅读 · 0 评论 -
机器学习入门
机器学习机器学习概念:机器学习是从人工智能中产生的一个重要科学分支,是实现智能化的关键,专门研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能重新组织已有的知识结构使之不断改善自身的性能。机器学习的一般过程:f(x):模型(对问题的假设)策略(评价标准)算法(求参数)机器学习的历程推理期,知识期,学科形成,繁荣期(统计学习方法,神经网络)机器如何学习(流程)数...原创 2020-01-15 18:10:27 · 307 阅读 · 0 评论