机器学习
文章平均质量分 69
黑小板
纸上得来终觉浅
展开
-
sklearn机器学习(八)
Task08本次学习参照Datawhale开源学习:https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn内容安排如下,主要是一些代码实现和部分原理介绍。8. 可视化机器学习可视化有助于我们分析模型效果、理解模型原理、对比模型优劣。本章将介个不同的机器学习任务分别对回归、分类、聚类给出可视化实例。8.1 回归直接用matplotlib画出线性回归直线:import numpy原创 2022-01-05 23:24:38 · 1083 阅读 · 0 评论 -
sklearn机器学习(七)
Task07本次学习参照Datawhale开源学习:https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn内容安排如下,主要是一些代码实现和部分原理介绍。7. 集成学习上一章中我们谈到维度灾难照成模型效果下降问题,处理这样的高维问题除了使用降维方法,还有一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一,它将多个在子空间表现较好的算法或基检测器的输出结合起来。集成学习通过构原创 2022-01-03 01:33:04 · 911 阅读 · 0 评论 -
sklearn机器学习(六)
Task06本次学习参照Datawhale开源学习:https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn内容安排如下,主要是一些代码实现和部分原理介绍。6. 主成分分析6.1. 维数灾难假设训练样本采样密度足够大,任意测试样本xxx附件任意小的距离δ\deltaδ范围内总能找到一个训练样本。但是这个假设在现实任务中通常很难满足,例如若δ=0.001\delta=0.001δ=0.原创 2021-12-30 22:09:50 · 1173 阅读 · 0 评论 -
sklearn机器学习(五)
Task05本次学习参照Datawhale开源学习:https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn内容安排如下,主要是一些代码实现和部分原理介绍。5. k均值聚类无监督学习训练样本的标签信息是未知的,目标是通过对无标签训练样本的学习来揭示数据的内在性质及规律,此类学习应用最广的是聚类。聚类试图将数据集中的样本划分为若干个通常不相交的子集,每个子集称为一个“簇”。5.1. 性原创 2021-12-27 20:27:39 · 824 阅读 · 0 评论 -
sklearn机器学习(四)
Task04本次学习参照Datawhale开源学习:https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn内容安排如下,主要是一些代码实现和部分原理介绍。4. 决策树决策树是一种基本的分类与回归方法。在分类问题中,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。学习时,利用训练数据根据损失函数最小化原则建立决策树模型。预测时,对新的数据利用决原创 2021-12-24 17:23:24 · 961 阅读 · 0 评论 -
sklearn机器学习(三)
Task03本次学习参照Datawhale开源学习:https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn内容安排如下,主要是一些代码实现和部分原理介绍。3. 贝叶斯分类器3.1. 贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法。对于分类任务,贝叶斯决策论在所有相关概率都已知的理想情形下考虑如何基于这些概率和误判损失来选择最优的类别标记。假设有N种可能科类别标记,即y=c1原创 2021-12-21 23:48:57 · 639 阅读 · 0 评论 -
sklearn机器学习(二)
Task02本次学习参照Datawhale开源学习:https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn内容安排如下,主要是一些代码实现和部分原理介绍。2. 支持向量机支持向量机(Support Vector Machine, SVM)是监督学习方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距原创 2021-12-18 21:52:53 · 1381 阅读 · 0 评论 -
sklearn机器学习(一)
Task01本次学习参照Datawhale开源学习:https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearn内容安排如下,主要是一些代码实现和部分原理介绍。个人总结:一、1. 线性回归和Logistic回归回归就是研究自变量X对于因变量Y的影响。回归有多种分类方式,根据因变量的不同,分成几种回归:连续:多重线性回归二项分布:logistic回归poisson分布:poisso原创 2021-12-15 19:14:18 · 2055 阅读 · 0 评论 -
机器学习—西瓜书(五)
Task05 第六章本次学习基于周志华老师《机器学习》,以思维导图形式记录,不含公式推导。公式推导推荐南瓜书:https://github.com/datawhalechina/pumpkin-book个人小结:一、支持向量机的三个重要特点:间隔、对偶、核技巧。二、支持向量模型就是要找到最优的划分平面,离支持向量距离最大的超平面就是该最优平面,因此可以表示为有不等式约束的极值问题。三、使用拉格朗日乘子法将目标函数转换为拉格朗日函数,将问题变成对偶问题的求解。四、对非线性可分问题,可采用核函数将样本从原始原创 2021-10-31 23:42:01 · 245 阅读 · 1 评论 -
机器学习—西瓜书(四)
Task04 第五章本次学习基于周志华老师《机器学习》,以思维导图形式记录,不含公式推导。公式推导推荐南瓜书:https://github.com/datawhalechina/pumpkin-book个人小结:一、神经网络通过参数和激活函数来表示输入与输出间的关系,阶跃函数具有不连续、不光滑等不太好的性质,因此实际常用Sigmoid函数作为激活函数。二、感知机是一种单层的神经网络结构,只能处理与、或、非线性可分问题,不能处理亦或这样的非线性可分问题。处理非线性需要多层感知机或其它神经网络结构。三、BP原创 2021-10-28 00:27:58 · 308 阅读 · 0 评论 -
机器学习—西瓜书(三)
Task03 第四章本次学习基于周志华老师《机器学习》,以思维导图形式记录,不含公式推导。公式推导推荐南瓜书:https://github.com/datawhalechina/pumpkin-book个人小结:一、决策树的基本原理就是分而治之,不断划分;二、决策树的关键是怎样选择最优划分属性,常见的划分方法有信息增益、增益率、基尼系数等;三、剪枝可以防止过拟合,包括预剪枝、后剪枝两种方法;四、对每个样本赋予权重可以处理缺失属性问题,这样不浪费属性不完整的样本;五、对每个属性赋予权重可以处理划分太复杂问原创 2021-10-24 23:13:48 · 227 阅读 · 0 评论 -
机器学习—西瓜书(二)
Task02 第三章本次学习基于周志华老师《机器学习》,以思维导图形式记录,不含公式推导。公式推导推荐南瓜书:https://github.com/datawhalechina/pumpkin-book个人小结:一、机器学习分为模型、策略、算法三个部分。对于线性模型,策略可以为均方误差最小化,算法可以为最小二乘法。二、对数几率回归是用一个SIGMOD函数将分类任务的真实标记y与线性回归模型预测值联系起来以达到分类目的。三、线性判别分析给定训练样例集,设法将样例投影到一条直线上, 使得同类样例的投影点尽可原创 2021-10-19 00:12:41 · 120 阅读 · 0 评论 -
机器学习—西瓜书(一)
Task01 第一章、第二章本次学习基于周志华老师《机器学习》,以思维导图形式记录,不含公式推导。公式推导推荐南瓜书:https://github.com/datawhalechina/pumpkin-book个人小结:一、第一章主要介绍了机器学习的基础概念、基本术语和发展历程,本书中的机器学习大多是归纳学习的思想。二、第二章主要介绍了如何评估、选择模型。评估方法有留出法、交叉验证法、自助法等;性能度量对于回归有均方误差等,对于分类有查准率、查全率、F1、ROC、AUC、代价敏感等。三、通过测试错误率来原创 2021-10-13 00:25:29 · 453 阅读 · 0 评论