机器学习笔记
文章平均质量分 96
机器学习模型、算法、实战干货分享
Python数据科学
这个作者很懒,什么都没留下…
展开
-
【机器学习笔记】:一文让你彻底理解准确率,精准率,召回率,真正率,假正率,ROC/AUC
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析非经作者允许,禁止任何商业转载。ROC/AUC作为机器学习的评估指标非常重要,也是面试中经常出现的问题(80%都会问到)。其实,理解它并不是非常难,但是好多朋友都遇到了一个相同的问题,那就是:每次看书的时候都很明白,但回过头就忘了,经常容易将概念弄混。还有的朋友面试之前背下来了,但是一紧张大脑一片空白全...原创 2018-10-14 12:27:38 · 20794 阅读 · 16 评论 -
一文读懂异常检测 LOF 算法(Python代码)
大家好,我是东哥。本篇介绍一个经典的异常检测算法:局部离群因子(Local Outlier Factor),简称LOF算法。一、背景Local Outlier Factor(LOF)是基于密度的经典算法(Breuning et. al. 2000), 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一些聚类算法用于异常点的识别(比如 ,DBSCAN,OPTICS)。这些方法都有一些不完美的地方:基于统计的方法原创 2021-12-21 23:55:18 · 5072 阅读 · 1 评论 -
一文读懂层次聚类(Python代码)
大家好,我是东哥。本篇想和大家介绍下层次聚类,先通过一个简单的例子介绍它的基本理论,然后再用一个实战案例Python代码实现聚类效果。首先要说,聚类属于机器学习的无监督学习,而且也分很多种方法,比如大家熟知的有K-means。层次聚类也是聚类中的一种,也很常用。下面我先简单回顾一下K-means的基本原理,然后慢慢引出层次聚类的定义和分层步骤,这样更有助于大家理解。层次聚类和K-means有什么不同?K-means 工作原理可以简要概述为:决定簇数(k)从数据中随机选取 k 个点作为质心将所原创 2021-11-21 21:24:54 · 13329 阅读 · 3 评论 -
LightGBM+OPTUNA超参数自动调优教程(附代码框架)
大家好,我是帅东哥。原创系列持续更新,欢迎微信搜一搜「 Python数据科学」阅读机器学习系列文章。最近在kaggle上有一个调参神器非常热门,在top方案中频频出现,它就是OPTUNA。知道很多小伙伴苦恼于漫长的调参时间里,这次结合一些自己的经验,给大家带来一个LGBM模型+OPTUNA调参的使用教程,这对可谓是非常实用且容易上分的神器组合了,实际工作中也可使用。关于LightGBM不多说了,之前分享过很多文章,它是在XGBoost基础上对效率提升的优化版本,由微软发布的,运行效率极高,且准确度不降原创 2021-09-12 13:51:55 · 5954 阅读 · 5 评论 -
【机器学习笔记】:大话逻辑回归(一)原理、公式推导、总结
大家好,我是东哥。本篇介绍逻辑回归。前言逻辑回归是一个非常经典,也是很常用的模型。关于逻辑回归,可以用一句话来总结:逻辑回归假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。本篇我们就开始逻辑回归的介绍。sigmoid函数首先我们了解一个函数:sigmoid,逻辑回归就是基于这个函数构建的模型。sigmod函数公式如下:h(x)=11+e−xh(x)=\frac{1}{1+e^{-x}} h(x)=1+e−x1使用Python的numpy原创 2021-04-06 13:13:17 · 891 阅读 · 0 评论 -
【机器学习笔记】:大话线性回归(三)多重共线性和强影响点分析
大家好,我是东哥。接着前两篇继续介绍本篇,前两篇链接如下:【机器学习笔记】:大话线性回归(一)【机器学习笔记】:大话线性回归(二)本篇介绍线性回归诊断的余下部分:多重共线性分析强影响点分析一、多重共线性检验1. 多重共线性产生的问题当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性,也就是说共线性的自变量提供了重复的信息。那么这种多重共线性会有什么不好的影响吗?答案是会的,而且影响非常不好。总结一下就是:会造成回归系数,截距系数的估计非常不稳定,即整个模型是不原创 2021-01-07 11:58:43 · 5401 阅读 · 1 评论 -
【机器学习笔记】:大话线性回归(二)拟合优度和假设检验
大家好,我是东哥。前一篇文章给大家介绍了线性回归的模型假设,损失函数,参数估计,和简单的预测。具体内容请看下面链接:【机器学习笔记】:大话线性回归(一)但其实还有很多问题需要我们解决:这个模型的效果如何?如何评判这个效果?开始线性模型的假设成立吗?如何验证这些假设?还会有其它问题会影响模型效果吗?带着这些问题我们开始本篇的内容。线性回归拟合优度线性回归假设检验线性回归诊断线性回归拟合优度1. 判定系数回归直线与各观测点的接近程度成为回归直线对数据的拟合优度。而评判直线拟合优度原创 2021-01-03 02:24:35 · 9176 阅读 · 2 评论 -
【机器学习笔记】:大话线性回归(一)定义、损失函数和参数估计
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析线性回归作为监督学习中经典的回归模型之一,是初学者入门非常好的开始。宏观上考虑理解性的概念,我想我们在初中可能就接触过,y=ax,x为自变量,y为因变量,a为系数也是斜率。如果我们知道了a系数,那么给我一个x,我就能得到一个y,由此可以很好地为未知的x值预测相应的y值。这很符合我们正常逻辑,不难理解。那统计学中...原创 2019-01-03 15:28:53 · 2520 阅读 · 1 评论 -
入门Python数据分析最好的实战项目(一)分析篇
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析非经作者允许,禁止任何商业转载。目的:本篇给大家介绍一个数据分析的初级项目,目的是通过项目了解如何使用Python进行简单的数据分析。数据源:博主通过爬虫采集的链家全网北京二手房数据(公众号后台回复 二手房数据 便可获取)。目录数据初探数据可视化分析总结数据初探首先导入要使用...原创 2018-12-24 14:51:15 · 19982 阅读 · 18 评论 -
入门Python数据分析最好的实战项目(二)建模篇
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析上一篇和大家分享了一个入门数据分析的一个小项目 北京二手房房价分析,链接如下:数据分析实战—北京二手房房价分析文章在sf发布之后看到有不少感兴趣的朋友给我点了赞,感谢大家的支持了。本篇将继续上一篇数据分析之后进行数据挖掘建模预测,这两部分构成了一个简单的完整项目。结合两篇文章通过数据分析和挖掘的方...原创 2018-12-25 16:24:33 · 9179 阅读 · 8 评论 -
数据探索很麻烦?推荐一款史上最强大的特征分析可视化工具:yellowbrick
作者:xiaoyu微信公众号:Python数据科学知乎:python数据分析师前言玩过建模的朋友都知道,在建立模型之前有很长的一段特征工程工作要做,而在特征工程的过程中,探索性数据分析又是必不可少的一部分,因为如果我们要对各个特征进行细致的分析,那么必然会进行一些可视化以辅助我们来做选择和判断。可视化的工具有很多,但是能够针对特征探索性分析而进行专门可...原创 2019-08-13 13:48:19 · 4307 阅读 · 0 评论 -
太赞了!分享一个数据科学利器 PyCaret,几行代码搞定从数据处理到模型部署
作者:xiaoyu,数据爱好者Python数据科学出品学习数据科学很久了,从数据探索、数据预处理、数据模型搭建和部署这些过程一直有些重复性的工作比较浪费时间,尤其当你有个新的想法想要快速尝试下效果的时候,效率很低。东哥最近发现一个开源的Python机器学习库,名字叫PyCaret,这个轮子正好可以为了解决我刚才所描述的困扰,它的特点是以low-code低代码量来快速解决从数据预处理到模型部署的整个流程。用了一下感觉确实有点香,因此也和大家分享一下。PyCaret是什么?PyCaret是一个.原创 2020-06-07 20:27:55 · 2698 阅读 · 6 评论