监督学习基础算法-python
文章平均质量分 95
最近在学习python的数据挖掘和机器学习,打算一边学习,一边找一些实际数据来去做,特开此专栏,予以记录,并且希望可以和广大网友进行交流
yb705
一个初出茅庐的数据分析员
展开
-
分类器不确定度估计,监督学习算法小结及学习分享
python 分类器不确定度估计及监督学习算法小结序我们之前用到的所有机器学习的算法均来自于scikit—learn库,但是这个接口还有另一个用处,就是能够给出分类器预测结果的不确定性估计。有的时候,我们不仅要关心一个测试数据点究竟属于哪个类别,还要考虑这个预测的置信区间。譬如,在最近新冠疫情中出现的无症状感染,如果是假阳性预测,那么可能只会让患者接受额外的测试,但是如果是假阴性感染却有可能导致患者没有得到治疗。(机器学习的大部分算法均是建立在概率统计的基础上的,而概率等于99.9%却并不意味着事件一定原创 2021-06-02 16:06:55 · 440 阅读 · 1 评论 -
神经网络(深度学习)算法之分类实操
python 神经网络(深度学习)算法之分类实操序我想接触过机器学习的人应该都听过一个高大上,但是又非常陌生的算法,就是“神经网络”。尤其是最近两年,这类被称为神经网络的算法以“深度学习”的名字再度流行。虽然深度学习在许多机器学习应用中都有非常大的潜力,但深度学习算法往往经过精确调整,只适用于特定的使用场景。接下来,我们只讨论一些相对简单的方法,即用于分类和回归的多层感知机(MLP),它可以作为研究更复杂的深度学习方法的起点。MLP也被称为(普通)前馈神经网络,有时也简称为神经网络。算法简介神经网络原创 2021-05-25 15:29:32 · 5312 阅读 · 1 评论 -
支持向量机(SVM)算法之补充说明
python 支持向量机(SVM)算法之补充说明序之前我有写过一篇关于svm的使用流程和基本概念讲解——支持向量机(SVM)算法之分类实操。不过最近又接触了一些关于svm的基础概念和预处理数据的使用,所以在这里做一下简单地补充。在接触本篇文章之前,建议先去看完支持向量机(SVM)算法之分类实操,一些我之前讲过的东西,这里就不在赘述了。核技巧首先需要声明的一点是,向数据表示中添加非线性特征,可以让线性模型变得更强大。但是,通常来说我们并不知道要添加哪些特征,而添加许多特征(比如100维特征空间所有可能原创 2021-05-12 16:41:54 · 649 阅读 · 1 评论 -
决策树集成-梯度提升回归树之分类实操
python 决策树集成-梯度提升回归树之分类实操基础概念集成集成是合并多个机器学习模型来构建更强大模型的方法。在机器学习算法中有许多模型属于这一类,但已证明有两种集成模型对大量分类和回归的数据集都是有效的,二者都以决策树为基础,分别是随机森林(random forest)和梯度提升决策树(gradiet boosted decision tree)。之前已经讲解过了随机森林(决策树集成-随机森林之分类实操),这次讲解梯度提升决策树。在了解梯度提升决策树之前,建议先去看一下我的另外两篇讲解决策树的文原创 2021-05-08 12:57:48 · 1101 阅读 · 1 评论 -
决策树集成-随机森林之分类实操
python 决策树集成-随机森林算法之分类实操基础概念集成集成是合并多个机器学习模型来构建更强大模型的方法。在机器学习算法中有许多模型属于这一类,但已证明有两种集成模型对大量分类和回归的数据集都是有效的,二者都以决策树为基础,分别是随机森林(random forest)和梯度提升决策树决策(gradiet boosted decision tree)。本片文章先讲解一下随机森林。在了解随机森林之前建议先去看一下我的另外两篇讲解决策树的文章决策树算法之讲解实操(上)和决策树算法之讲解实操(下),重复原创 2021-04-28 15:18:22 · 985 阅读 · 2 评论 -
决策树算法之讲解实操(下)
python 决策树算法之讲解实操(下)序在上篇的文章决策树算法之讲解实操(上)当中,我们主要了解了决策树的算法原理,实际应用,以及简单介绍了下决策树的复杂度参数。而这篇我们主要讲解决策树的分析可视化,特征值重要程度,以及讨论回归决策树。决策树的分析与可视化树的可视化有助于深入理解算法是如何进行预测的,也是易于向非专家解释的机器学习算法的优秀示例。我们可以利用tree模块的export_graphviz函数来将树可视化。这个函数会生成一个.dot格式的文件,这是一种用于保存图形的文本文件格式。我们设原创 2021-04-21 13:24:31 · 962 阅读 · 1 评论 -
决策树算法之讲解实操(上)
python 决策树算法之讲解实操(上)序这次讲解机器学习里面非常经典的一个算法模型——分类树。由于篇幅比较长,所以特分为上下两篇讲解。本篇主要讲解决策树的原理,实际应用以及参数。算法介绍1.分类树原理决策树是广泛应用于分类和回归任务的模型。本质上,它从一层层的if/else问题中进行学习,并得出结论。想像一下,你想要区分下面四种动物:熊,鹰,企鹅和海豚。你的目标是通过提出尽可能少的if/else问题来得到正确答案。而这个提问过程可以表示为一棵决策树,如下图所示:在这张图中,树的每个结点代表一原创 2021-04-14 15:34:07 · 1029 阅读 · 3 评论 -
朴素贝叶斯分类器之分类实操
python 朴素贝叶斯分类器之分类实操基本概念鲁棒性Huber从稳健统计的角度系统地给出了鲁棒性3个层面的概念:1.是模型具有较高的精度或有效性,这也是对于机器学习中所有学习模型的基本要求;2.是对于模型假设出现的较小偏差,只能对算法性能产生较小的影响,如噪声;3.是对于模型假设出现的较大偏差,不可对算法性能产生“灾难性”的影响,如离群点。PS:上面的解释是从网上抄来的定义:对于聚类(分类)算法而言,鲁棒性意味着聚类结果不应受到模型中存在的数据扰动、噪声及离群点的太大影响。算法简介朴素原创 2021-04-09 13:30:09 · 1294 阅读 · 5 评论 -
支持向量机(SVM)算法之分类实操
python 支持向量机(SVM)算法之分类实操算法简介SVM之前我们用了很多线性算法来做预测模型,像是逻辑算法(LogisticRegression),lasso,岭回归。但现实生活中,很多事情不是线性可分的(即画一条直线就能分类的),而SVM就是专治线性不可分,把分类问题转化为平面分类问题。这个算法中,我们将每一个数据项作为一个点,而在n维空间中(其中n是你拥有的特征数)作为一个点,每一个特征值都是一个特定坐标的值。然后,我们通过查找区分这两个类的超平面来进行分类。我们用一张图形来说明这一点:原创 2021-03-31 16:16:39 · 3246 阅读 · 1 评论 -
LogisticRegression算法之分类实操
python k相邻近算法之回归实操基本概念先简单介绍一下机器学习里面的两个概念1.分类与回归分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。一般来说,回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。回归是对真实值的一种逼近预测。分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗。分类并没有逼近的概念,最终正确结果只有一个,错误原创 2021-03-26 17:29:40 · 1466 阅读 · 2 评论 -
lasso回归-回归实操
python lasso回归算法之回归实操基本概念正则化正则化是指对模型做显式约束,以避免过拟合。本文用到的lasso回归就是L1正则化。(从数学的观点来看,lasso惩罚了系数向量的L1范数,换句话说,就是系数的绝对值之和。)正则化的具体原理就不在这里多叙述了,感兴趣的朋友可以看一下这篇文章:机器学习中正则化项L1和L2的直观理解。算法简介lasso回归在了解lasso回归之前,建议朋友们先对普通最小二乘法和岭回归做一些了解,可以参考这两篇文章:最小二乘法-回归实操,岭回归-回归实操。除了原创 2021-01-22 14:48:24 · 7799 阅读 · 3 评论 -
岭回归-回归实操
python 岭回归算法之回归实操基本概念正则化正则化是指对模型做显式约束,以避免过拟合。本文用到的岭回归就是L2正则化。(从数学的观点来看,岭回归惩罚了系数的L2范数或w的欧式长度)正则化的具体原理就不在这里多叙述了,感兴趣的朋友可以看一下这篇文章:机器学习中正则化项L1和L2的直观理解。算法简介岭回归岭回归也是一种用于回归的线性模型,因此它的模型公式与最小二乘法的相同,如下式所示:y=w[0]*x[0]+w[1]*x[1]+w[2]x[2]+…+w[p]x[p]+b但在岭回归中,对原创 2021-01-21 15:06:37 · 5371 阅读 · 1 评论 -
最小二乘法-回归实操
python 最小二乘算法之回归实操基本概念线性回归模型对于不同的数据集,数据挖掘或者说机器学习的过程,就是建立数据模型的过程。对于回归类问题,线性模型预测的一般公式如下:**y=w[0]*x[0]+w[1]*x[1]+w[2]x[2]+…+w[p]x[p]+b这里x[0]到x[p]表示耽搁数据点的特征(本例中特征个数为p+1),w和b是学习模型的参数,y是预测结果,对于单一特征的数据集,公式如下:*y=w[0]x[0]+b大家可以看出来,这个很像高中数学里的直线方程。其中w[0]就是原创 2021-01-06 15:06:14 · 2541 阅读 · 1 评论 -
k邻近算法-回归实操
python k相邻近算法之回归实操算法简介1.分类与回归分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。一般来说,回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。回归是对真实值的一种逼近预测。分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。简言原创 2020-12-31 16:14:55 · 1185 阅读 · 1 评论 -
k邻近算法-分类实操
python 算法简单实操之k相邻近算法序最近开始学习一些关于数据挖掘的算法,但我不喜欢照着书上的代码原封不动地敲下来,所以我打算依照学习进度,自己找一些数据源来去建模,做一些分析,其中主要的数据来源是Kaggle。仅以此篇博客来做为记录的开始。下面是我的主要联系方式,希望可以遇到一些朋友来一起学习交流数据分析与数据挖掘。Github:https://github.com/yb705WeChat(微信):Raymonbin算法简介k邻近算法是最简单的算法之一,该算法的思路是:在特征空间中,如果原创 2020-12-24 15:06:09 · 804 阅读 · 3 评论