机器学习入门算法
懒猪小阳
这个作者很懒,什么都没留下…
展开
-
聚类算法K-means简介(八)
1.聚类算法原理聚类算法在生活中常见到,比如在一堆含有黄豆、黑豆、白豆的豆子里,我们将按照豆子的颜色进行分类,分出黄豆、黑豆、白豆三类豆子,这个过程其实就是聚类的过程,但是对于机器学习中的聚类算法,属于无监督学习。在给出的训练样本中,标记信息是未知的,聚类算法就是要通过无标记训练的学习来揭示数据的内在性质及规律,将训练样本进行分类,试图将数据集中的样本划分为若干个通常是不想交的子集,每个子集称...原创 2019-12-29 15:40:16 · 545 阅读 · 0 评论 -
决策树简介(七)
1.决策树决策树(Decision Tree)是类似数据结构中的二叉树,是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。本次主要讲的是决策树的分类问题,我们生活中其实很多场景都用到过决策树的方法。比如生活中常见的校园招聘过程,对各项条件是否满足进行判断。如下图所示:由上图可得到从根节点到叶子节点的过程就...原创 2019-12-22 22:10:28 · 503 阅读 · 0 评论 -
逻辑回归算法原理简介(六)
1.逻辑回归原理逻辑回归算法(Logistic Regression)是解决分类问题,是将样本的特征和样本发生的概率联系起来,而概率是一个数,所以2.逻辑回归算法推导3.基于Python的代码实现...原创 2019-12-15 23:07:35 · 2414 阅读 · 0 评论 -
梯度下降法(五)
1.梯度下降法2.线下回归下降法原创 2019-12-08 19:07:36 · 229 阅读 · 0 评论 -
简单的线性回归及最小二乘法(四)
1.简单的线性回归之前讲的KNN算法是分类,分类的目标变量是标称型数据,回归的目的是预测数值型的目标值。两者的区别是,回归用于预测连续型的数据,分类用于离散型数据。一般说的回归都是线性回归,就是评估自变量X与因变量Y之间的一种线性关系。当只有一个自变量的时候,称为一元线性回归,即简单线性回归;当具有多个自变量的时候, 称为多元线性回归。一元线性回归就是输入的数据集:能够找到一组参数a、b,...原创 2019-12-01 16:23:40 · 311 阅读 · 0 评论 -
数据预处理之无量纲化、缺失值处理(三)
1.无量纲化无量纲化以我个人的理解,就是指在两个特征的单位不一样,其数值在大小上不是一个数量级,但是不能只凭数值的大小来决定两个特征谁的影响大,需要将两个特征归一到同一可比的范围内,来决定谁的影响范围。常见的无量纲化有 min-max归一化和z-score标准化(1)min-max归一化min-max归一化是指对原始数据进行线性变换,将其映射到[0,1]之间,该方法也被称为离差标准化,与z...原创 2019-11-23 23:52:54 · 2099 阅读 · 0 评论 -
机器学习入门之数据拆分、评价分类结果(二)
1.数据拆分在上篇文章《机器学习入门算法之KNN》中,提到了训练数据和测试数据,即数据拆分的两个子集。训练集 - 用于训练模型的子集;测试集 -需要测试分类的数据。为什么需要将数据拆分呢,比如我们在建立一个模型后,能够得到一个预测结果,如何来判断这个模型预测的结果是准确的呢?因此,一般会将一组原始数据拆分为训练数据和测试数据两个子集,训练数据用于训练模型,而测试数据用于测试模型的准确度。...原创 2019-11-17 00:35:31 · 465 阅读 · 0 评论 -
机器学习入门算法之KNN(一)
机器学习入门算法之KNN1.概念K近邻(k-Nearest Neighbor,简称kNN)是一种常用的监督学习方法,是机器学习中入门的算法。KNN即在给定的测试样本中,基于某种距离来确定训练集中与其最靠近的k个训练样本,然后根据这k个邻居的情况来对未知样本进行预测和分类。有点类似我们所说的“近朱者赤,近墨者黑”的意思,一般用于分类,比如常见的用来辨别红酒的品种、花瓣的种类、电影的分类、肿瘤是...原创 2019-11-08 23:22:22 · 167 阅读 · 0 评论