![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习笔记
文章平均质量分 79
个人机器学习笔记
好好学习的星熊
这个作者很懒,什么都没留下…
展开
-
【机器学习】如何理解AdaBoost,及相关参数使用?
本章内容如何理解AdaBoost基本原理?(理论)如何使用sklearn.ensemble.AdaBoostRegressor/AdaBoostClassifier参数?(案例:手写数据集)如何理解Adaboost回归的数学求解流程?(附:流程示意图)1 AdaBoost的基本参数与损失函数1.1 (理论)AdaBoost基本原理、代码📖 Adaboost原理在全样本上建立一棵决策树;根据该决策树预测的结果和损失函数值,增加被预测错误的样本在数据集中的样本权重;让加权后的数据集被.原创 2022-03-10 22:15:00 · 3882 阅读 · 0 评论 -
【集成学习】如何理解Bagging和Boosting的差异,以及Boosting算法基本原理?
本章内容:Bagging和Boosting的对比区别;Boosting算法的3要素和原理;sklearn中常见的Boosting算法类(仅罗列)1 Bagging pk Boosting☑️ Bagging和Boosting对比装袋法 Bagging提升法 Boosting弱评估器相互独立,并行构建相互关联,按顺序依次构建先建弱分类器的预测效果影响后续模型的建立集成的结果回归平均分类众数每个算法具有自己独特的规则,一般来说: (1) 表现为某种分数的加.原创 2022-03-09 21:30:00 · 963 阅读 · 0 评论 -
【机器学习】如何使用Bayes_opt、HyperOpt、Optuna优化网格搜索?如何使用贝叶斯搜索调参?
本章内容:如何使用Bayes_opt实现参数优化,及案例?如何使用HyperOpt实现参数优化,及案例?如何使用Optuna实现参数优化,及案例?HPO库优劣评价推荐指数bayes_opt✅实现基于高斯过程的贝叶斯优化 ✅当参数空间由大量连续型参数构成时⛔包含大量离散型参数时避免使用⛔算力/时间稀缺时避免使用⭐⭐hyperopt✅实现基于TPE的贝叶斯优化✅支持各类提效工具✅进度条清晰,展示美观,较少怪异警告或报错✅可推广/拓展至深度学习领域⛔不支持基于高斯.原创 2022-03-08 20:45:00 · 8564 阅读 · 23 评论 -
如何根据样本估计总体的均值、比例与方差?如何进行参数估计及选择对应公式?
7.1 参数估计的基本原理7.1.1 估计量与估计值_名词解释📌 参数估计用样本统计量去估计总体的参数。📌 估计量用来估计总体参数的统计量称为估计量,用θ^\hat{\theta}θ^表示。样本均值、样本比例、样本方差都可以是一个估计量。📌 估计值根据一个具体的样本计算出来的估计量的数值,称为估计值。比如用样本量计算出来的平均值作为总体的平均值,那么这个平均值在这时就称为估计值。7.1.2 点估计与区间估计💡 excel中计算指定概率对应的面积公式:=normsinv(指定的概率)例:原创 2022-03-07 22:30:00 · 11990 阅读 · 0 评论 -
【机器学习】如何使用对半网格搜索,以缩短网格搜索速度?
本章内容:对半网格搜索的原理、运行流程(理论说明)sklearn中HalvingGridSearchCV参数说明🤷♀️案例:对半网格搜索_房价数据集_python索引🔣 函数及参数🗣 案例🤷♀️ 案例📖 摘抄1(理论)对半网格搜索的原理与流程📖 对半网格搜索主要解决数据量较大导致的运算时间长的问题📖 对半网格搜索原理通过每次抽取部分数据集,达到减少每次建模使用的数据量,从而减少计算量。需要注意的是,为了保证减少的数据量能有效反映整体的数据情况,故抽取的少量数据集分.原创 2022-03-03 21:45:00 · 1574 阅读 · 0 评论 -
【统计学笔记】如何判断变量间相关关系,并建立一元线性回归模型?
书籍:《统计学(第六版)》书籍作者:贾俊平内容思维导图索引📌 专业名词🔑 公式记忆📖 摘抄☑️ 有序事项11.1 变量间是否有相关关系,且关系强度如何?11.1.2 相关关系的描述与测量📌 相关关系:变量之间存在的不确定的数量关系,称为相关关系。📖 相关分析就是对两个变量之间线性关系的描述与度量,要解决的问题如下:变量之间是否存在关系? 如果存在关系,它们之间是什么关系? 变量之间的关系强度如何? 样本反映的变量之间的关系能否代表总体变量之间的关系? 进行相关分析时,.原创 2022-03-02 21:15:00 · 12713 阅读 · 0 评论 -
【机器学习】如何使用随机网格搜索,以缩短网格搜索速度?
> 随机网格搜索RandomSearchCV学习笔记,内容包括:> 1. 随机网格搜索的基本原理> 2. 随机网格搜索的skelarn应用(案例:房价数据集_python)> 3. 随机网格搜索中连续型分布的应用(案例:房价数据集_python)原创 2022-03-01 20:00:00 · 2104 阅读 · 0 评论 -
【统计学笔记】第6章 统计量及其抽样分布
统计量及其抽样分布原创 2022-02-23 20:00:00 · 804 阅读 · 0 评论 -
【统计学笔记】第12章 多元线性回归
书籍:《统计学(第六版)》书籍作者:贾俊平索引 ???? **专业名词:方便查找,解释说明** ???? **专业名词** ???? 公式推导:解释说明 ???? **公式记忆:方便查找** ???? 摘抄 ???? 案例 12.1 多元线性回归模型12.1.1 多元回归模型与回归方程 ???? **多元回归模型**设因变量为y,k个自变量分别为x1,x2,…,xk,x_1,x_2原创 2022-02-22 20:00:00 · 1774 阅读 · 0 评论 -
如何理解线性回归的多重共线性、岭回归和Lasso(案例:波士顿房价数据集)
前言:本文主要介绍多重共线性、岭回归和Lasso的概念、公式推导及sklearn应用,使用的数据集为波士顿房价数据集、加利福尼亚房价数据集。目录如何从行列式理解多重共线性?如何理解使用岭回归解决多重共线性?如何在sklearn中使用linear_model.Ridge岭回归?(案例:波士顿房价数据集)如何使用岭迹图选择最佳正则化参数?(案例:希尔伯特矩阵)如何在sklearn中使用linear_model.RidgeCV,带交叉验证的岭回归?(案例:波士顿房价数据集)如何理解.原创 2021-11-18 14:07:39 · 3296 阅读 · 0 评论 -
如何使用MSE、R平方对线性回归模型进行评估?(案例:加利福尼亚数据集)
如何查看均方误差判断预测结果是否正确?(案例:线性回归、随机森林_加利福尼亚房价数据集)为什么要使用均方误差,之前的准确率不行吗?因为回归类模型结果是连续型变量,无法直接使用正确或错误来判断。但可以用预测值与真实值之间的差异来判断模型的优劣,差异越小,说明模型越好。这种衡量差异的公式可以写为:其中m表示特征数量,i表示样本数量,表示预测值;这个公式称为均方误差,在sklearn的metrics模块中为mean_squared_error;cross_val_score为scorin...原创 2021-11-16 22:21:30 · 5604 阅读 · 0 评论 -
如何推导最小二乘法,求解多元线性回归参数?
本文主要内容:1. 最小二乘法损失函数求解推导;2. sklearn中linear_model.LinearRegression参数介绍+案例最小二乘法损失函数求解推导最小二乘法的思路:对损失函数求导,令其为0,求得损失函数最小值时的参数,但前提条件:导数为凸函数。多元线性回归参数求解是一个矩阵求导的过程,所以需要知道一些矩阵运算、求导运算的公式:然后对多元线性回归的损失函数进行求导,公式如下:(其中w、y、X都是矩阵)令其为0:其中倒数最后一步...原创 2021-11-14 17:21:19 · 6105 阅读 · 0 评论 -
如何理解混淆矩阵,以及预测少数类的评估指标?
前言:本文介绍混淆矩阵,以及召回率、精确率和F1-score。主要解决:混淆矩阵记忆不方便记忆,指标容易混淆2个问题。为什么要使用混淆矩阵来评估模型?通常模型会使用准确率来评估模型,但要注意准确率失效问题当数据集中99个标签为0,1个标签为1,模型全部判断为0,准确率也达到了99%。如果建模的目的是为了捕捉为少数类,在样本极度不平衡的情况下,准确率则会失效。另一种情况,模型A认为样本90%的可能性为1,模型B认为样本60%的可能性为1。如果将对标签的判断概率定为50%,那么模型A和模型B都.原创 2021-11-12 15:44:13 · 1354 阅读 · 0 评论 -
如何使用决策边界评估逻辑回归?
前言:本文主要为简单介绍决策边界,以及使用自定义函数绘制决策边界,不涉及决策边际的深度探讨。内容分为两个模块:1. 介绍什么是决策边界;2. 如何通过自定义函数绘制逻辑回归的决策边界。如何理解决策边界?定义:在二维空间中,通过一条线将二分类的标签划分为两个部分,这条线称为决策边界。特点: 不同的模型决策边界的形态不一样;比如KNN的决策边界可能是曲线; 可以直观体现模型效果;比如是否过拟合,如果边界两侧融合的数据较多,那么模型可能存在过拟合; 可视化只适用..原创 2021-11-10 22:05:29 · 1659 阅读 · 0 评论 -
如何求解逻辑函数的损失函数,及代码实现?
前言:本文使用的损失函数为KL离散构建的损失函数,无公式推导部分;代码部分为自定义函数,非sklearn。逻辑回归KL离散构建的损失函数为:其中m表示样本数量;p_1表示标签为1的概率;y^{(i)}表示第i条样本的真实值;x^{(i)}表示第i条样本数据(包含多个特征,即一行数据;最后一个值为1)。损失函数求导(梯度表达式)为:公式推导思路:BCE可以拆解为对和分别对w、b求导; 将上述结果带入、逻辑回归自定义函数:def logit_gd(X,w,y)...原创 2021-11-09 23:06:29 · 1053 阅读 · 0 评论 -
如何通过梯度下降的方法求解损失函数?
如何通过梯度下降的方法求解损失函数? 求解损失函数的方式有:最小二乘法(即对参数求偏导,令其为0后联立方程组求解),但只适用于损失函数为凸函数的情况。 当损失函数不是凸函数的时候如何求解呢? 可以采用梯度下降的方法;其思路为:随机选择初始参数值,带入损失函数进行计算,然后梯度下降这个参数值,迭代一定次数,使其逼近最优解参数。 如何梯度下降?如何确定迭代次数?为什么能保证这样的结果能够逼近最优解? 通过人为设定学习率,作用于初始参数,使其按照一定的方向移动一定的距..原创 2021-11-08 22:27:47 · 2154 阅读 · 0 评论 -
如何通过极大似然估计方法衡量逻辑回归损失函数?
如何通过极大似然估计方法衡量逻辑回归损失函数? 逻辑回归模型: 线性模型只能拟合模型的线性关系,为了能够拟合更多关系,通过添加联系函数的方式,将线性模型拓展为广义线性模型。当对数几率作为联系函数时,这样的广义线性模型称为逻辑回归模型。 逻辑回归公式: 为什么要求解逻辑回归的参数? 如果数据能够通过逻辑回归模型拟合模型关系,那么只要解出逻辑回归的参数,就能得到x与y之间的关系,从而对新数据推测出对应的y。 如何求解模型参数? 通过损失函原创 2021-11-08 22:21:23 · 636 阅读 · 0 评论 -
有哪些多分类学习方法,其拆分集成策略分别是什么?
OvO 拆分策略:将多个标签拆分两两成对的基评估器。 集成策略:将新数据代入,计算在二分类的基评估器下,模型更倾向对哪个标签进行投票,汇总所有基评估器的结果,投票数量最多的为最终标签。 基评估器数量:需要的基评估器数量为 OvR 拆分策略:将多个标签分为01标签,得到标签数量个基评估器。 集成策略:将新数据带入基评估器,最终得到1的基评估器对应的标签为预测结果。如果有多个标签为1的基评估器,则根据基评估器本身的准确率来判断。 基评估器数量...原创 2021-11-08 22:15:14 · 465 阅读 · 0 评论 -
查看RandomForestClassifier源码方法
1. 查看sklearn代码的路径输入以下代码,会得到一个路径(每台电脑的路径不一样)import sklearnsklearn.__file__2. 在上一步的路径下,找到ensemble文件夹,打开_forest3. 打开_forest,搜索RandomForestClassifier,这个classs开头下面的部分就是了。这个类里面还调用了其他的模块,需要根据提示一步步倒回去找。比如这一条需要找到DecisionTreeClassifier(),继续在...原创 2021-09-08 10:59:00 · 462 阅读 · 0 评论