自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(197)
  • 收藏
  • 关注

原创 Kafka集群搭建

进入Kafka安装目录的config目录修改server.properties配置文件,将“broker.id”改为“0”,“log.dirs”改为“/opt/logs/kafka-logs”,“zookeeper.connect”改为“master:2181,slave1:2181,slave2:2181”再将master节点配置好的/etc/profile文件远程发送至slave1、slave2节点,同样使配置文件立即生效。

2024-04-26 17:12:44 401 3

原创 flume配置

删除Flume安装目录的lib目录下的guava-11.0.2.jar包,之后查看/etc/profile文件中的Hadoop安装目录,将Hadoop安装目录的/share/hadoop/common/lib/目录中的guava-27.0-jre.jar复制至Flume安装目录的lib目录。进入Flume安装目录的conf目录,将flume-env.sh.template重命名为flume-env.sh,Java安装目录添加至flume-env.sh文件末尾。个人笔记:仅供参考如有错误望指正。

2024-04-26 17:10:13 338

原创 ZooKeeper集群的搭建

在master节点切换至ZooKeeper安装目录的conf目录下,将zoo_sample.cfg重命名为zoo.cfg,并按照下表修改或添加zoo.cfg文件中参数。在master、slave1、slave2节点的“dataDir”目录下新建“myid”文件,三个节点的文件内容依次为1、2、3。将master节点配置好的ZooKeeper文件远程发送至slave1、slave2节点相同目录下。

2024-04-26 17:00:14 523 3

原创 关于浏览器360导航无法更改

每个人情况不同,情况也不同,这个方法对我有用希望对你也有用,明天更新开始页面的如何调整,(●’◡’●)

2024-04-26 00:48:24 574

原创 python-轮廓检测

File “D:\gitee代码托管\opencv\轮廓检测学习.py”, line 16, in。再Opencv中,背景必须是黑色的,对象必须是白色的。对象是二值图像所以需要进行阈值分割。因为子自动从黑色中找白色的轮廓。mode:轮廓的检索方式。为什么要对图像进行复制。

2024-04-19 16:36:15 397 2

原创 jupyter notebook的使用

1.1新增单元格:使用在选中单元格的上方创建新的单元格使用>在选中单元个的下方创建新的单元格删除cell删除单元格删除选用的单元格>剪切(有时候剪切也可以代替删除)复制cell> 复制选中的单元格粘贴粘贴已经复制的cell的下方转换为markdown选中单元格转换为markdown 格式转为code 模式选中单元格转为 Code 模式转为Raw NBConvert 模式​转为Raw NBConvert 模式撤销单元格撤销单元格前提:单元格一定要在被选中的状态。

2024-04-16 15:59:37 570

原创 再写-全景拼接

再写-全景拼接

2024-04-14 02:03:01 342

原创 python-面向对象编程

_init__封装,将方法或者数据封装到对象中,以便后面进行使用继承,将类中的公共方法提升到基类中多态,python默认支持多态(这种被称为鸭子类型),最简单的记住下面这段代码即可v1 = arg.copy() # 浅拷贝print(v1)# func("阿龙的代码在爆粗")int("发消息")v1.send()v2.send()在程序设计中,这种情况被称为鸭子类型,是一种动态类型的一种风格,在鸭子类型中关注点在于对象的行为,能在什么;

2024-04-08 15:00:02 869

原创 global关键字

global关键字

2024-04-07 14:30:11 216

原创 python opencv 直线检测

在进行检测直线之前需要进行边缘检测。

2024-03-31 00:37:53 354

原创 重新下学习python day02 快速上手

计算机中所有的数据本质都是0和1 组合来存储在计算机会将中文内存转换成01010101101010110…最终存储到硬盘上。注意事项:在计算中要以某种编码保存的文件,就要以这种编码去打开这个文件。否则就会出现乱码。!!!!以后文件出现乱码的情况基本上都是文件编码不正确!!!!!!

2024-03-30 11:59:52 849

原创 无监督学习-聚类算法(k-means)

无监督学习-聚类算法的k-means

2024-01-02 07:18:29 1596 1

原创 LFW人脸数据库的简介

​ LFW (Labled Faces in the Wild)人脸数据集:是目前人脸识别的常用测试集,其中提供的人脸图片均来源于生活中的自然场景,因此识别难度会增大,尤其由于多姿态、光照、表情、年龄、遮挡等因素影响导致即使同一人的照片差别也很大。并且有些照片中可能不止一个人脸出现,对这些多人脸图像仅选择中心坐标的人脸作为目标,其他区域的视为背景干扰。LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。

2023-12-31 22:01:27 809

原创 逻辑斯蒂回归-建模概率计算(鸢尾花)

本文章为本人学习笔记,如有请侵权联系,本人会立即删除侵权文章。鸢尾花数据集中每个样本包含有四个特种(花萼长度、花萼宽度、花瓣长度,花瓣宽度),用于对鸢尾花的分类。因为气候不同,造就性不同,统计鸢尾花的关键特征数据:花萼长度、花萼宽度、花瓣长度,花瓣宽度。virginica(中文名:弗吉尼亚鸢尾)和上面的预测数据进行对比结果一致。setosa(中文名:山鸢尾)

2023-12-22 12:00:13 457

原创 图像的简单操作(gui)

本文章为本人学习笔记,如有请侵权联系,本人会立即删除侵权文章。再图像化界面中显示照片的变化。设置键入平移的距离和旋转按钮。设置键入旋转的度数和旋转按钮。设置沿着不同轴进行翻转。

2023-12-20 15:20:20 388

原创 中国人寿保费(EDA数据探索、特征工程、特征升维)

EDA 数据探索EDA(Exploratory Data Analysis,数据探索分析)是数据分析的第一步,它旨在了解数据的特征、结构和潜在规律,为进一步分析和建模提供基础。性别对保费影响(从当前的数据呈现的分布来看用于数据分析的意义不大所以进行舍弃)地区对保费的影响(从当前的数据呈现的分布来看用于数据分析的意义不大所以进行舍弃)是否抽烟对数据保费的影响孩子数量对保费的影响在以上代码中可能出现的问题上面的代码写法是老版本的写法了,新版本的写法是需要传入 DataFra

2023-12-20 00:33:46 708 1

原创 天猫双十实战

【代码】天猫双十实战。

2023-12-19 09:32:06 353

原创 多项式回归

在做升维的时候,最常见的手段就是将已知维度进行相乘(或者自乘)来构建新的维度,如下图所示。普通线性方程,无法拟合规律,必须是多项式,才可以完美拟合曲线规律,图中是二次多项式。升维的目的是为了去解决欠拟合的问题的,也就是为了提高模型的准确率为目的的,因为当维度不够时,说白了就是对于预测结果考虑的因素少的话,肯定不能准确的计算出模型。对于多项式回归来说主要是为了扩展线性回归算法来适应更广泛的数据集,比如我们数据集有两个维度。经过多项式回归推导的线性回归的图像和基本和真实的图形重合。

2023-12-18 17:10:28 1096

原创 弹性网络优化算法

弹性网络是一种使用 L1, L2 范数作为先验正则项训练的线性回归模型。这种组合允许学习到一个只有少量参数是非零稀疏的模型,就像 Lasso 一样,但是它仍然保持一些像 Ridge 的正则性质。这是scikit-learn官网给出的弹性网络回归的,损失函数公式,注意,它用的矩阵表示,里面用到范数运算。Lasso 很可能只随机考虑这些特征中的一个,而弹性网络更倾向于选择两个。在实践中,Lasso 和 Ridge 之间权衡的一个优势是它允许在迭代过程中继承 Ridge 的稳定性。创建数据并获取到原方程的系数。

2023-12-18 09:04:02 1020

原创 正则化实战( Lasso 套索回归,Ridge 岭回归)

正则化实战( Lasso 套索回归,Ridge 岭回归)

2023-12-15 01:25:15 1354

原创 机器学习--归一化处理

归一化的一个目的是,使得梯度下降在不同维度θ参数(不同数量级)上,可以步调一致协同的进行梯度下降。这就好比社会主义,一小部分人先富裕起来了,先富带后富,这需要一定的时间,先富的这批人等待其他的人富裕起来;但是,更好途经是实现共同富裕,最后每个人都不能落下, 优化的步伐是一致的。

2023-12-14 12:06:33 1608

原创 梯度下降实战(优化)

数据不可能达到百分之百正确,只要模型堪用就可以。scikit_learn中的SGD算法。获取数据的loss的数值。图形的方式查看训练的效果。

2023-12-13 22:14:25 448

原创 BGD 实战

梯度下降分三类:批量梯度下降BGD()、小批量梯度下降MBGD()、随机梯度下降SGD(三种梯度下降有什么不同呢?我们从梯度下降步骤开始讲起,梯度下降步骤分一下四步:1、随机赋值,Random 随机数生成θ,随机一组数值w0​w1​……wn​2、求梯度 g ,梯度代表曲线某点上的切线的斜率,沿着切线往下就相当于沿着坡度最陡峭的方向下降θ变大,if g > 0,θ变小4、判断是否收敛 convergence,如果收敛跳出迭代,如果没有达到收敛,回第 2 步再次执行2~4步。

2023-12-12 10:07:35 789

原创 使用代码模拟梯度下降

if np.abs((f(x_)) - f(last_x_)) / np.abs(f(last_x_)) < precision: # 利用损失函数进行判断是不是已经达到了最优。if np.abs(x_ - last_x_) < precision: 通过对x_和last_x_进行对比查看学习率的变化判断是不是已经达到了最优。if np.abs(g(x_)) < precision: 通过公式判断导数是不是趋于0 进行判断是不是达到最优。

2023-12-11 00:32:03 369

原创 线性回归算法-实战-房价预测

本次使用线性回归的算法和knn算法进行对比。

2023-12-09 12:35:08 1020

原创 scikit-learn实现线性回归

要学习scikit-learn,我们必须要到scikit-clearn的官网中去查看公式和原理进入官网一以后我们找到回归,然后再有监督学习中找到线性模型。

2023-12-08 19:11:17 1237

原创 线性回归实战

一元一次方程,在机器学习中一元表示一个特征,b表示截距,y表示目标值。

2023-12-08 14:25:55 1270 1

原创 多元线性回归(一)

线性回归时机器学习中监督学习下的一种算法。回归问题主要关注是(需要预测的值,可以是一个也可以是多个)和一个或多个值型的(预测变量)之间的关系。需要预测的值:即目标变量,target,y,连续值预测变量影响目标变量的因素:X1……Xn,可以是连续值也可以是离散值。因变量和自变量之间的关系:即模型,model,是我们要求解的。

2023-12-06 22:54:18 1294

原创 计算机视觉技术及应用

【代码】计算机视觉技术及应用。

2023-12-06 10:45:30 389

原创 人力资源【实战案例】

该数据集由多个特征(包括年龄、教育程度、婚姻状况、职业等)组成,其中一些特征是连续值,另一些类别值。该数据集基于1994年美国人口普查的数据,包含来自美国人口普查局的个人收入数据,旨在预测一个人的收入是否。数据集是一个经典的机器学习数据集,用于。模型调优后的模型评分。

2023-12-06 10:23:34 343

原创 KNN算法实战-健康医疗

以上的方法获取的模型分数是一样。数据拆分建模并且进行训练。其中,x表示数据集的均值。表示数据集中的标准差。

2023-12-04 20:31:05 963

原创 用户帐户限制(例如,时间限制)会阳止你登录。请与系统管理员或技术支持联系以获取帮助

用户帐户限制(例如,时间限制)会阳止你登录。请与系统管理员或技术支持联系以获取帮助。

2023-12-04 10:40:10 570

原创 KNN实战-图像识别

是在循环0-9的数字一直循环100次所得到的数据,然后以手写照片的形式存在。

2023-12-01 23:42:16 1100

原创 KNN回归-GridSearchCV模型调优(波士顿房价)

波士顿房价数据集(Boston Housing Dataset) 是一个经典的用于回归分析的数据集。它包含了波士顿地区506个街区的房价信息以及与房价相关的13个特征。这个数据集的目标是根据这些特征来预测波士顿地区房屋的中位数价格(以千美元为单位)

2023-12-01 13:31:38 457

原创 (分类)KNN算法- 参数调优

是一种在机器学习中广泛使用的和方法。在训练模型时,我们通常将和,其中训练集用于训练模型,测试集用于评估模型的性能,但是这种方法可能会受到数据集的影响,导致苹果结果的。通过对数据集进行划分和评估,可以的评估模型的性能。交叉验证的常见方法是步骤如下:1、将数据集随机分成k个互不重叠的自己每个子集称为一个‘折’。2、对于每个折,执行以下操作:a.将当前折作为验证集,其余的折作为训练集b.使用训练集训练模型c.使用验证集评估模型性能(如计算分类准确率,均方误差等指标)

2023-12-01 09:48:33 1106

原创 KNN算法案例-鸢尾花分类

y : 存储的是鸢尾花的分类:- setosa(中文名:山鸢尾),versicolor(中文名:杂色鸢尾),virginica(中文名:弗吉尼亚鸢尾)X :存储的是鸢尾花的四个特征值(花萼长度、花萼宽度、花瓣长度,花瓣宽度)对预测的值和真实的值进行对比。

2023-11-30 09:18:10 518

原创 数据分析-numpy

numpy是一个基于python的扩展库

2023-11-10 20:01:59 1239

原创 河北省技能大赛-大数据赛项环境搭建

映射(在每个节点操作)设置免密。

2023-11-10 09:17:18 264

原创 MySQL数据库的简单的面试题

采用行级锁,支持事务,例如只对a列索引,如果update …在初始版mysql默认中默认使用的myism存储引擎,因为他的性能比较优秀,可以快速的读取大量数据,但是他不支持事务处理和行级锁,所以在高并发应用中可能出现严重的安全性问题。不同锁机制对性能的影响也是不同的,选择合适的锁机制可以提升数据库的性能和并发处理能力同时也需要根据具体业务场景和需求来选择合适的锁机制,避免锁竞争和死锁等问题。:间隙锁是MySQL中一种特殊的锁机制,它用于在事务中保护索引的键值,间隙锁的作用 是保证索引值的唯一性和一致性。

2023-11-08 17:25:43 66

原创 pandas读取文件的时候出现‘OSError: Initializing from file failed’

pandas.read_csv() 报错 OSError: Initializing from file failed,一般由两种情况引起:一种是函数参数为路径而非文件名称,另一种是函数参数带有中文。将原来的代码修改为以下内容。

2023-10-02 13:56:31 411

达梦数据库的下载压缩包解压压缩包双击EXE文件即可下载

达梦数据库的下载压缩包解压压缩包双击EXE文件即可下载

2022-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除