
机器学习
文章平均质量分 74
以实战为基础的机器学习
阿龙的代码在报错
在校大专生,慢慢沉淀做自己的大佬
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
无监督学习-聚类算法(k-means)
无监督学习-聚类算法的k-means原创 2024-01-02 07:18:29 · 2047 阅读 · 1 评论 -
LFW人脸数据库的简介
LFW (Labled Faces in the Wild)人脸数据集:是目前人脸识别的常用测试集,其中提供的人脸图片均来源于生活中的自然场景,因此识别难度会增大,尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。并且有些照片中可能不止一个人脸出现,对这些多人脸图像仅选择中心坐标的人脸作为目标,其他区域的视为背景干扰。LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。原创 2023-12-31 22:01:27 · 2832 阅读 · 0 评论 -
逻辑斯蒂回归-建模概率计算(鸢尾花)
本文章为本人学习笔记,如有请侵权联系,本人会立即删除侵权文章。鸢尾花数据集中每个样本包含有四个特种(花萼长度、花萼宽度、花瓣长度,花瓣宽度),用于对鸢尾花的分类。因为气候不同,造就性不同,统计鸢尾花的关键特征数据:花萼长度、花萼宽度、花瓣长度,花瓣宽度。virginica(中文名:弗吉尼亚鸢尾)和上面的预测数据进行对比结果一致。setosa(中文名:山鸢尾)原创 2023-12-22 12:00:13 · 657 阅读 · 0 评论 -
中国人寿保费(EDA数据探索、特征工程、特征升维)
EDA 数据探索EDA(Exploratory Data Analysis,数据探索分析)是数据分析的第一步,它旨在了解数据的特征、结构和潜在规律,为进一步分析和建模提供基础。性别对保费影响(从当前的数据呈现的分布来看用于数据分析的意义不大所以进行舍弃)地区对保费的影响(从当前的数据呈现的分布来看用于数据分析的意义不大所以进行舍弃)是否抽烟对数据保费的影响孩子数量对保费的影响在以上代码中可能出现的问题上面的代码写法是老版本的写法了,新版本的写法是需要传入 DataFra原创 2023-12-20 00:33:46 · 989 阅读 · 2 评论 -
天猫双十实战
【代码】天猫双十实战。原创 2023-12-19 09:32:06 · 420 阅读 · 0 评论 -
多项式回归
在做升维的时候,最常见的手段就是将已知维度进行相乘(或者自乘)来构建新的维度,如下图所示。普通线性方程,无法拟合规律,必须是多项式,才可以完美拟合曲线规律,图中是二次多项式。升维的目的是为了去解决欠拟合的问题的,也就是为了提高模型的准确率为目的的,因为当维度不够时,说白了就是对于预测结果考虑的因素少的话,肯定不能准确的计算出模型。对于多项式回归来说主要是为了扩展线性回归算法来适应更广泛的数据集,比如我们数据集有两个维度。经过多项式回归推导的线性回归的图像和基本和真实的图形重合。原创 2023-12-18 17:10:28 · 1257 阅读 · 0 评论 -
正则化实战( Lasso 套索回归,Ridge 岭回归)
正则化实战( Lasso 套索回归,Ridge 岭回归)原创 2023-12-15 01:25:15 · 1525 阅读 · 0 评论 -
机器学习--归一化处理
归一化的一个目的是,使得梯度下降在不同维度θ参数(不同数量级)上,可以步调一致协同的进行梯度下降。这就好比社会主义,一小部分人先富裕起来了,先富带后富,这需要一定的时间,先富的这批人等待其他的人富裕起来;但是,更好途经是实现共同富裕,最后每个人都不能落下, 优化的步伐是一致的。原创 2023-12-14 12:06:33 · 1971 阅读 · 0 评论 -
梯度下降实战(优化)
数据不可能达到百分之百正确,只要模型堪用就可以。scikit_learn中的SGD算法。获取数据的loss的数值。图形的方式查看训练的效果。原创 2023-12-13 22:14:25 · 537 阅读 · 0 评论 -
BGD 实战
梯度下降分三类:批量梯度下降BGD()、小批量梯度下降MBGD()、随机梯度下降SGD(三种梯度下降有什么不同呢?我们从梯度下降步骤开始讲起,梯度下降步骤分一下四步:1、随机赋值,Random 随机数生成θ,随机一组数值w0w1……wn2、求梯度 g ,梯度代表曲线某点上的切线的斜率,沿着切线往下就相当于沿着坡度最陡峭的方向下降θ变大,if g > 0,θ变小4、判断是否收敛 convergence,如果收敛跳出迭代,如果没有达到收敛,回第 2 步再次执行2~4步。原创 2023-12-12 10:07:35 · 1218 阅读 · 0 评论 -
使用代码模拟梯度下降
if np.abs((f(x_)) - f(last_x_)) / np.abs(f(last_x_)) < precision: # 利用损失函数进行判断是不是已经达到了最优。if np.abs(x_ - last_x_) < precision: 通过对x_和last_x_进行对比查看学习率的变化判断是不是已经达到了最优。if np.abs(g(x_)) < precision: 通过公式判断导数是不是趋于0 进行判断是不是达到最优。原创 2023-12-11 00:32:03 · 436 阅读 · 0 评论 -
线性回归算法-实战-房价预测
本次使用线性回归的算法和knn算法进行对比。原创 2023-12-09 12:35:08 · 1236 阅读 · 0 评论 -
scikit-learn实现线性回归
要学习scikit-learn,我们必须要到scikit-clearn的官网中去查看公式和原理进入官网一以后我们找到回归,然后再有监督学习中找到线性模型。原创 2023-12-08 19:11:17 · 1550 阅读 · 0 评论 -
线性回归实战
一元一次方程,在机器学习中一元表示一个特征,b表示截距,y表示目标值。原创 2023-12-08 14:25:55 · 1357 阅读 · 1 评论 -
多元线性回归(一)
线性回归时机器学习中监督学习下的一种算法。回归问题主要关注是(需要预测的值,可以是一个也可以是多个)和一个或多个值型的(预测变量)之间的关系。需要预测的值:即目标变量,target,y,连续值预测变量影响目标变量的因素:X1……Xn,可以是连续值也可以是离散值。因变量和自变量之间的关系:即模型,model,是我们要求解的。原创 2023-12-06 22:54:18 · 2269 阅读 · 0 评论 -
人力资源【实战案例】
该数据集由多个特征(包括年龄、教育程度、婚姻状况、职业等)组成,其中一些特征是连续值,另一些类别值。该数据集基于1994年美国人口普查的数据,包含来自美国人口普查局的个人收入数据,旨在预测一个人的收入是否。数据集是一个经典的机器学习数据集,用于。模型调优后的模型评分。原创 2023-12-06 10:23:34 · 474 阅读 · 0 评论 -
KNN算法实战-健康医疗
以上的方法获取的模型分数是一样。数据拆分建模并且进行训练。其中,x表示数据集的均值。表示数据集中的标准差。原创 2023-12-04 20:31:05 · 1080 阅读 · 0 评论 -
KNN实战-图像识别
是在循环0-9的数字一直循环100次所得到的数据,然后以手写照片的形式存在。原创 2023-12-01 23:42:16 · 1323 阅读 · 0 评论 -
KNN回归-GridSearchCV模型调优(波士顿房价)
波士顿房价数据集(Boston Housing Dataset) 是一个经典的用于回归分析的数据集。它包含了波士顿地区506个街区的房价信息以及与房价相关的13个特征。这个数据集的目标是根据这些特征来预测波士顿地区房屋的中位数价格(以千美元为单位)原创 2023-12-01 13:31:38 · 736 阅读 · 0 评论 -
(分类)KNN算法- 参数调优
是一种在机器学习中广泛使用的和方法。在训练模型时,我们通常将和,其中训练集用于训练模型,测试集用于评估模型的性能,但是这种方法可能会受到数据集的影响,导致苹果结果的。通过对数据集进行划分和评估,可以的评估模型的性能。交叉验证的常见方法是步骤如下:1、将数据集随机分成k个互不重叠的自己每个子集称为一个‘折’。2、对于每个折,执行以下操作:a.将当前折作为验证集,其余的折作为训练集b.使用训练集训练模型c.使用验证集评估模型性能(如计算分类准确率,均方误差等指标)原创 2023-12-01 09:48:33 · 1919 阅读 · 0 评论 -
KNN算法案例-鸢尾花分类
y : 存储的是鸢尾花的分类:- setosa(中文名:山鸢尾),versicolor(中文名:杂色鸢尾),virginica(中文名:弗吉尼亚鸢尾)X :存储的是鸢尾花的四个特征值(花萼长度、花萼宽度、花瓣长度,花瓣宽度)对预测的值和真实的值进行对比。原创 2023-11-30 09:18:10 · 969 阅读 · 0 评论