算法
乐无异kop
这个作者很懒,什么都没留下…
展开
-
线性回归——简单线性回归、多元线性回归
回归分析是用来评估变量之间关系的统计过程。用来解释自变量X与因变量Y的关系。即当自变量X发生改变时,因变量Y会如何发生改变。线性回归是回归分析的一种,评估的自变量X与因变量Y之间是一种线性关系。当只有一个自变量时,称为简单线性回归,当具有多个自变量时,称为多元线性回归。线性关系的理解:画出来的图像是直的。每个自变量的最高次项为1。拟合是指构建一种算法,使得该算法能够符合真实的数据。从...原创 2020-04-30 22:13:37 · 30726 阅读 · 4 评论 -
假设检验——Z检验、t检验
假设检验,也称为显著性检验,通过样本的统计量来判断与总体参数之间是否存在差异(差异是否显著)。即我们对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0与备择假设H1。然后根据样本信息进行分析判断,是选择接受原假设还是拒绝原假设。假设检验基于“反证法”。首先,我们假设原假设为真,如果在此基础上,...原创 2020-04-29 11:30:16 · 46224 阅读 · 2 评论 -
K-Means++算法与Mini Batch K-Mwans算法
K-Means++算法算法步骤K-Means算法对初始质心是敏感的,不同的初始质心,可能会导致不同的聚类效果(SSE)与收敛速度。虽然随机初始化多组质心,可以缓解这一问题,但是,这通常限于聚类数量(簇)较少的情况,如果聚类数量较多,随机初始化多组质心的方式可能就不会有效了。鉴于此,我们完全可以在选择初始质心上进行优化,这就是K-Means++算法。K-Means++与K-Means的区别在...原创 2020-04-28 19:46:13 · 596 阅读 · 0 评论 -
K-Means算法
K-Means算法算法步骤K-Means算法,即K均值算法,是最常见的一种聚类算法。顾名思义,该算法会将数据集分为K个簇,每个簇使用簇内所有样本的均值来表示,我们将该均值成为‘质心’。具体步骤如下:从样本中选择K个点作为初始质心计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中。计算每个簇内所有样本的均值,并使用该均值更新簇的质心。重复步骤2与3,直到达到以下条件之...原创 2020-04-28 09:18:38 · 1125 阅读 · 0 评论 -
三种常用的朴素贝叶斯实现算法——高斯朴素贝叶斯、伯努利朴素贝叶斯、多项式朴素贝叶斯
在sklearn中,提供了若干种朴素贝叶斯的实现算法,不同的朴素贝叶斯算法,主要是对P(xi|y)的分布假设不同,进而采用不同的参数估计方式。我们能够发现,朴素贝叶斯算法,主要就是计算P(xi|y),一旦P(xi|y)确定,最终属于每个类别的概率,自然也就迎刃而解了。常用的三种朴素贝叶斯为:高斯朴素贝叶斯伯努利朴素贝叶斯多项式朴素贝叶斯高斯朴素贝叶斯适用于连续变量,其假定各个特征x...原创 2020-04-24 11:44:38 · 9575 阅读 · 1 评论 -
朴素贝叶斯算法
概率基础随机事件指可能发生,也可能不发生的事件,例如:当我们抛硬币时,设出现正面为事件A,则事件A可能发生,也可能不发生。样本空间即我们进行随机试验时,所有可能结果构成的集合。通常使用S表示。概率用来反映一个随机事件出现的可能性大小,通常使用P(A)来表示事件A的概率。也可以从面积角度表示:联合概率指多个事件同时发生的概率,例如:P(AB)表示事件A与事件B的联合概率。条...原创 2020-04-24 11:08:02 · 485 阅读 · 0 评论 -
sklearn模块pipeline类——流水线
当数据预处理的工作较多时,可能会涉及更多的步骤,此时分别执行每个步骤会显得过于繁琐。流水线(Pipeline类)可以将每个评估器视为一个步骤,然后将多个步骤作为一个整体而依次执行,这样,我们就无需分别执行每个步骤。流水线具有最后一个评估器的所有方法。当通过流水线对象调用方法£时,会执行这样的过程(假设流水线具有n个评估器):如果£是fit方法,则会首先对前n-1个评估器依次调用fit_tr...原创 2020-04-23 15:56:13 · 549 阅读 · 0 评论 -
KNN算法——基本原理、分类、回归
算法原理KNN算法的核心思维:相似度较高的样本,映射到n维空间后,其距离回避相似度较低的样本在距离上更加接近。KNN,即K近邻算法,K近邻就是K个最近的邻居,当需要预测一个未知样本的时候,就由与该样本最接近的K个邻居来决定。KNN既可以用于分类问题,也可以用于回归问题。当进行分类预测时,使用K个邻居中,类别数量最多(或加权最多)者,作为预测结果;当进行回归预测时,使用K个邻居的均值(或加权均值...原创 2020-04-23 15:33:53 · 15885 阅读 · 0 评论 -
分类模型评估——混淆矩阵、评估指标、ROC与AUC
混淆矩阵混淆矩阵,可以用来评估模型分类的正确性。该矩阵是一个方阵,矩阵的数值用来表示分类器预测的结果,包括真正例(True Positive),假正例(False Positive),真负例(True Negative),假负例(False Negative)。import numpy as npfrom sklearn.datasets import load_irisfrom skl...原创 2020-04-18 13:38:50 · 1572 阅读 · 0 评论