![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 57
黄星 .
这个作者很懒,什么都没留下…
展开
-
【学习笔记】线性回归:Lasso和Ridge的区别
老会记不住这两个的区别Lasso:在常规的loss function后面加一个L1范式。惩罚项越大意味着模型越简单,越来越多的特征系数被压缩到0,当惩罚项无限大的时候,只剩一个常数项,此时bias大variance小;惩罚项越小意味着模型越复杂,当惩罚项为0时,Lasso和OLS是一样的。Lasson即可以做特征选择,也可以做压缩。当两个或多个特征相关时,Lasso会选把其余的特征都压缩为0,只剩一个特征,所以lasso是可以解决多元共线性的问题(ridge也可以)Ridge:只能做压缩。因为Ri原创 2021-04-23 16:23:51 · 2565 阅读 · 0 评论 -
超详细 Sklearn中逻辑回归的参数说明(Logistic Regression)
先看看有那些参数:penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='lbfgs',max_iter=100,multi_class='auto',verbose=0,warm_start=False,n_jobs=None,l1_ratio=None,penalty:‘l1’原创 2021-03-19 14:59:10 · 4418 阅读 · 0 评论 -
[机器学习]概率模型的可靠性曲线及校准
1.什么是可靠性曲线?可靠性曲线是一个概率类模型的评估指标,适用于朴素贝叶斯,SVM,逻辑回归等概率类算法。是以y预测值为横坐标,y真实值为纵坐标的曲线。因此当我们画出的可靠性曲线越接近对角线时,我们认为这个学习器的性能越好。2. 代码展示sklearn的可靠性曲线和学习曲线相同都是不能直接画图而是返回画图所需要的值,因此下面代码是根据calibration_curve返回的值对三个算法的可靠性曲线的探索。from sklearn.datasets import make_classificati原创 2021-02-04 13:18:04 · 3355 阅读 · 2 评论 -
机器学习之探索学习曲线learning curve
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.naive_bayes import GaussianNBfrom sklearn.svm import SVCfrom sklearn.ensemble import RandomForestClassifier as RFCfrom sklearn.tree import DecisionTreeClassifier as DTCfrom sklearn.dataset原创 2021-01-31 16:40:48 · 409 阅读 · 2 评论 -
【学习笔记】西瓜书机器学习之第六章:支持向量机及代码实现和调参
前言支持向量机下文简称SVM,是目前学习的所有算法中最难(数学上)的一个算法。但是他同样也是目前学习的算法中用途最广泛,最流行的明星算法。他可以用来分类,用来回归,用来进行检测异常。1.什么是硬间隔SVM?在二维空间中划分正反例的就是一条直线,在多维空间中我们可以想象有一个超平面能够帮助我们完成分类任务。硬间隔支持向量机有两个目的:1是完美划分正反例 ,2 是尽可能使超平面远离最近的正反例(下图红圈圈出的一正一反的向量,也叫支持向量),或者叫寻找最大间隔(两条虚线之间的距离)。 目的1是所有分类器都原创 2021-01-30 20:04:34 · 1732 阅读 · 3 评论 -
【学习笔记】西瓜书机器学习之第三章:逻辑回归 南非男性心脏病分类预测(二)
(手写推导的公式传了好几次都传不上来)以下是南非男性心脏病的一个逻辑回归例子:传统的逻辑回归的代码应该将偏置加入到X中,再在weights的首位加个1,方便矩阵运算。我这里是分开算得import pandas as pdimport numpy as npimport randomimport matplotlib.pyplot as plt"""强烈建议一步一步来,每一步看看输出的结果是不是自己想要的。"""#载入数据南非男性心脏病数据SAHeart_df = pd.read_cs原创 2021-01-29 12:11:18 · 925 阅读 · 0 评论 -
【学习笔记】西瓜书机器学习之第四章:决策树
1.什么是决策树?决策树是一种常见的机器学习方法,以二分类为例,根据一系列的子决策来判断出样本是否为正例。 决策的过程是选择一个属性,来进行判断。以西瓜问题为例,假设已经训练好了一个模型。我们有一个西瓜,先看它的色泽,色泽为青绿色,然后一步一步往下走,最后得到这个西瓜是否为正例(好瓜)2. 三种选择最优化分属性的方法现在我们知道了决策树是如何工作的,但是该如何选择每个子决策所对应的属性呢?“纯度”将帮助我们解决这一问题,我们当然希望决策树分支节点所包含的样本尽可能属于同一类别,因此纯度越高越好。2原创 2021-01-22 14:19:40 · 853 阅读 · 0 评论 -
【学习笔记】西瓜书机器学习之第三章:一元线性回归公式推导(一)
都在图里了下章多元线性推导原创 2021-01-19 14:42:52 · 232 阅读 · 0 评论 -
【学习笔记】西瓜书机器学习之第三章:梯度下降和牛顿拉弗森法下的逻辑回归(一)
前言:本章将讨论尽可能简单的白话的逻辑回归(尽量降低数学要求)。我自己琢磨了好多天,也没有琢磨透彻,只能记录一下自己的理解和思路。1.什么是分类任务?以西瓜书中的西瓜问题为例,我们走到水果店想要买一个西瓜。我们只能通过一些外部特征来挑选西瓜,比如颜色,根蒂,拍击声。假设我们已经买了一万个西瓜,记录他们的颜色,根蒂,拍击声,再切开它们记录瓜瓤的颜色和味道。将西瓜分为两类:甜的瓜为好瓜(记为1),不甜的坏瓜(记为0)。并将这些数据丢进学习器进行学习,当我们下一次去水果店买西瓜的时候的时候,通过外部特征我们原创 2021-01-14 13:45:34 · 739 阅读 · 0 评论 -
【学习笔记】西瓜书机器学习之第二章模型评估与选择及统计假设检验基础
1.评估方法为了对学习器的泛化误差进行评估,需要采用一个测试集(不在训练集里)来测试模型的能力。这时我们会将数据集D进行适当的处理,从D中获取训练集S和测试集T。不仅如此,有时在D中还需要有一个验证集(Validation)用于比较不同模型的结果。1.1 留出法(Hold-Out)直接讲数据集分为两个互斥的集合。比如把数据集按照37分,7分作为训练集,3分作为测试集。一般会采用若干次随机划分,重复进行实验评估后取平均值作为留出法的结果。需要注意的是划分比例,因为:S 太多 -----T 太少 ---原创 2021-01-10 19:44:22 · 846 阅读 · 3 评论 -
【学习笔记】西瓜书机器学习之第一章绪论
写博客的初衷是记录和分享学习的过程。本人小白,欢迎各位同学,大佬指教!1.西瓜书学习三步骤step1:学习周志华的西瓜书一章,并对课后作业进行思考。step2: 因为西瓜书多是理论知识,进行python代码实现。...原创 2021-01-06 15:11:30 · 463 阅读 · 0 评论