自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 机器学习原理之 -- 支持向量机分类:由来及原理详解

SVM的基础源自于统计学习理论中的结构风险最小化原则(Structural Risk Minimization, SRM),旨在通过优化模型复杂度和经验风险的平衡,达到最优的泛化能力。支持向量机作为一种强大的分类算法,通过引入结构风险最小化原则,在高维空间中寻找最优超平面,实现了高效的分类性能和良好的泛化能力。对于线性可分的数据集,支持向量机通过找到一个最佳的超平面,将不同类别的数据点分开。该超平面最大化了两类数据点之间的间隔,从而提高分类的鲁棒性和泛化能力。间隔定义为超平面到最近数据点的距离。

2024-07-03 00:26:07 609

原创 机器学习原理之 -- 随机森林分类:由来及原理详解

随机森林通过引入随机性,在构建多棵决策树的过程中,减少了单棵决策树容易出现的过拟合问题,同时提高了模型的稳定性和精度。随机森林分类器作为一种强大的集成学习方法,通过构建多棵决策树并结合其结果,提高了分类器的精度和稳定性。本文将详细介绍随机森林分类器的由来、基本原理、构建过程及其优缺点。其基本思想是通过集成学习(Ensemble Learning)的方法,结合多个弱分类器(决策树)的结果,形成一个强分类器。随机森林算法的核心是通过随机采样和特征子集选择,构建多棵决策树,并将这些决策树的结果进行集成。

2024-07-02 00:13:14 403

原创 机器学习原理之 -- 决策树分类:由来及原理详解

决策树分类器作为一种强大的机器学习算法,通过树形结构对数据进行递归分割,形成直观的决策路径。由于决策树模型具有直观性和易解释性,它在20世纪80年代开始成为机器学习和人工智能研究的重点。本文将详细介绍决策树分类器的由来、基本原理、构建过程及其优缺点。常用的决策树算法包括ID3(Iterative Dichotomiser 3)、C4.5和CART(Classification and Regression Tree)。决策树分类器广泛应用于各种领域,包括医疗诊断、金融风险评估、市场营销分析和生物信息学等。

2024-07-01 00:31:59 422

原创 机器学习原理之 -- 朴素贝叶斯分类器:由来及原理详解

朴素贝叶斯(Naive Bayes)分类器是一类基于贝叶斯定理(Bayes' Theorem)的简单而有效的概率分类算法。由于其假设特征之间的条件独立性,因此被称为“朴素”贝叶斯分类器。尽管这种独立性假设在现实中很少完全成立,但朴素贝叶斯分类器在许多实际应用中仍然表现出色,尤其是在文本分类和垃圾邮件过滤等任务中。

2024-06-30 09:47:15 1076

原创 神经网络回归原理详解及Python代码示例

在前向传播过程中,输入数据依次通过每一层的神经元进行计算,经过激活函数处理后传递到下一层,最终输出预测值。计算过程涉及输入与权重的加权和,再通过激活函数进行非线性变换。神经网络回归的损失函数用于衡量预测值与真实值之间的差异,常用的损失函数是均方误差(MSE),它计算预测值与真实值之间差的平方和的平均值。它通过计算损失函数相对于每个权重的梯度,并按照梯度下降的方法调整权重,以最小化损失函数。常用的优化算法包括随机梯度下降(SGD)、Adam等,这些算法通过不断调整权重来优化神经网络的性能。

2024-06-29 00:01:15 976

原创 K近邻回归原理详解及Python代码示例

K近邻回归(K-Nearest Neighbors Regression, KNN)是一种基于实例的学习算法,用于解决回归问题。它通过找到输入数据点在特征空间中最相似的K个邻居(即最近的K个数据点),并使用这些邻居的平均值来预测目标值。KNN回归的基本思想是“相似的数据点具有相似的目标值”。KNN回归在许多实际应用中表现良好,适用于回归、分类以及其他需要基于相似性进行预测的问题,如推荐系统、模式识别等。以下是一个完整的Python代码示例,用于实现K近邻回归。库来构建和评估模型。

2024-06-28 00:24:12 724

原创 支持向量回归原理详解及Python代码示例

支持向量回归(Support Vector Regression, SVR)是支持向量机(SVM)的一种扩展,用于回归问题。SVR通过寻找一个最佳的回归超平面,使得尽可能多的数据点落在超平面附近的ε-管内,从而达到预测连续值的目的。SVR的核心思想是通过对输入空间进行映射,并在高维空间中寻找一个最优的回归超平面。常用的核函数有线性核、多项式核、高斯核(RBF)等。SVR的目标是找到一个函数 f(x)=w⋅x+b ,使得所有数据点 (xi,yi)的预测误差在ε以内,同时最小化 ∥w∥2。

2024-06-27 20:34:20 608

原创 随机森林回归原理详解及Python代码示例

随机森林回归(Random Forest Regression)是一种集成学习方法,通过构建多个决策树并将它们的预测结果进行平均,来提高模型的稳定性和预测准确性。它通过引入随机性来增强模型的泛化能力,有效减轻了单棵决策树容易过拟合的问题。以下是一个完整的Python代码示例,用于实现随机森林回归。1. 随机森林回归的基本概念。2. 随机森林回归的优缺点。库来构建和评估模型。

2024-06-27 00:24:54 710

原创 决策树回归原理详解及Python代码示例

决策树回归(Decision Tree Regression)是一种非参数监督学习方法,它使用树形结构来对目标变量进行预测。与线性回归模型不同,决策树回归不需要预先假设数据的分布形式,因此能够很好地处理非线性和高维数据。决策树回归通过递归地将数据集划分为更小的子集,并在每个子集上构建简单的预测模型。树中的每个节点表示一个特征,节点的分裂则是根据该特征的某个阈值将数据集分成两部分。树的叶子节点包含目标变量的预测值。1. 决策树回归的基本概念。3. 决策树回归的优缺点。2. 决策树的构建过程。

2024-06-26 00:28:52 542

原创 多项式回归(Linear Regression)原理详解及Python代码示例

多项式回归(Polynomial Regression)是线性回归(Linear Regression)的一种扩展形式。虽然多项式回归本质上还是线性模型,但它允许模型在输入特征的多项式基础上进行线性拟合,从而捕捉复杂的非线性关系。:选择合适的多项式阶数 n 是模型拟合的关键。,βn是模型的参数,n 是多项式的阶数,ϵ是误差项。以下是一个完整的Python代码示例,用于实现多项式回归。:将输入特征扩展为多项式特征。例如,对于一个一维特征 x,构建的特征矩阵为。:使用线性回归方法在多项式特征上进行拟合。

2024-06-25 00:07:24 529

原创 线性回归(Linear Regression)原理详解及Python代码示例

线性回归是一种基本的统计方法,用于预测因变量(目标变量)与一个或多个自变量(特征变量)之间的线性关系。线性回归模型通过拟合一条直线(在多变量情况下是一条超平面)来最小化预测值与真实值之间的误差。线性回归通过最小二乘法来估计模型参数,即最小化所有预测误差的平方和。对于给定的训练数据集 (xi,yi),目标是找到使得误差平方和最小的 β值。其中 m是样本数量,yi^​ 是第 i个样本的预测值,通过最小化这个损失函数,可以得到最优的模型参数 β。下面是使用Python实现线性回归的代码示例。

2024-06-24 07:50:22 747

原创 机器学习回归预测方法介绍:优缺点及适用情况

线性回归是一种基础的回归方法,用于建立自变量与因变量之间的线性关系。通过最小化误差平方和来确定最佳拟合直线。

2024-06-23 21:22:32 1148

原创 ython机器学习分类算法(六)-- 逻辑回归(Logistic Regression)

逻辑回归虽然名为“回归”,但实际上是一种用于处理二分类或多分类问题的分类算法。其核心思想是,利用线性回归模型的预测结果逼近真实标记的对数几率(log odds),因此得名“逻辑回归”。具体来说,逻辑回归通过引入sigmoid函数(或称为逻辑函数),将线性回归模型的输出值映射到0和1之间,从而可以将其解释为某个类别发生的概率。

2024-06-22 00:03:56 770

原创 Python机器学习分类算法(五)-- 最近邻算法(k-Nearest Neighbors,KNN)

k-最近邻(k-Nearest Neighbors,KNN)算法是一种基本的机器学习分类和回归算法。在分类问题中,KNN通过测量不同特征值之间的距离来进行分类。它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签

2024-06-21 00:06:43 600

原创 Python机器学习分类算法(四)-- 支持向量机(Support Vector Machine,SVM)

支持向量机(SVM)是一种基于统计学习理论和结构风险最小原理的有监督学习方法,主要用于数据分类问题。其原理是寻找一个能够将不同类别的样本划分开来的超平面(在二维空间为直线,三维空间为平面,高维空间为超平面),同时要求这个超平面到各个类别样本集的最近点的距离最大化,也就是使得间隔(margin)最大。在这个例子中,我们使用了线性核('linear' kernel)和默认的C值(C=1.0)来训练SVM分类器,然后,我们使用训练好的模型对测试集进行预测,并计算了预测的准确率。

2024-06-20 00:24:19 442

原创 Python机器学习分类算法(三)-- 随机森林(Random Forest)

随机森林(Random Forest)原理基于集成学习思想,通过构建多棵决策树并集成它们的预测结果来提高模型的准确性和稳定性。具体来说,随机森林首先通过自助法(bootstrap)从原始数据集中随机抽取多个样本子集,并在每个样本子集上随机选择特征子集来构建决策树。这种随机性确保了每棵决策树都是基于不同的数据和特征进行训练的,从而减少了它们之间的相关性。在预测时,随机森林将多棵决策树的预测结果进行投票或平均,得到最终的预测结果。这种方法通过集成多个相对独立的决策树,有效降低了模型的偏差和方差,提高了预测准确性

2024-06-19 00:54:28 907

原创 Python机器学习分类算法(二)-- 决策树(Decision Tree)

决策树是一种直观的决策分析方法,通过构成树形结构来求取净现值的期望值大于等于零的概率,评价项目风险,并判断其可行性。在机器学习中,决策树是一个预测模型,它表示对象属性与对象值之间的一种映射关系。

2024-06-18 09:19:45 781

原创 Python机器学习分类算法(一)-- 朴素贝叶斯分类(Naive Bayes Classifier)

朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类方法。它假定每个特征与其他特征都不相关,然后利用贝叶斯定理来计算给定样本属于各个类别的概率,选择概率最大的类别作为预测结果

2024-06-18 00:17:36 707

原创 决策树与支持向量机做预测--血友病计数数据

决策树回归预测+支持向量机回归预测。

2024-06-17 19:28:57 85

原创 XGBoost预测及调参过程(+变量重要性)--血友病计数数据

XGBoost做预测,以及调参过程,并给出变量重要性分析。

2024-06-16 11:08:27 566

原创 随机森林算法进行预测(+调参+变量重要性)--血友病计数数据

包括对于计数数据的数据预处理,随机森林进行预测,以及随机森林调参,并输出变量重要性。

2024-06-15 10:08:27 1007

原创 Python实现逻辑回归与判别分析--西瓜数据集

逻辑回归与判别分析解决二分类问题。

2024-06-14 22:06:52 612 2

原创 Python模块Pandas数据切片 -- 详解loc和iloc区别

在Pandas库中,`iloc`和`loc`是用于选择DataFrame或Series中数据的两种主要方法。尽管它们的目的相似,但它们的用法和基于的索引类型有着显著的区别。

2024-06-13 17:43:48 325

原创 Python模块Pandas数据切片 -- loc详解及代码示例

在Pandas库中,`loc`是基于标签的索引方法,它允许用户根据行标签和列标签来选择数据。这与`iloc`方法不同,后者是基于整数位置的索引。在处理数据时,尤其是当数据具有描述性标签时,`loc`方法非常有用。

2024-06-13 00:34:35 533

原创 Python模块pandas数据切片 -- iloc用法详解

在Pandas库中,`iloc`(基于整数位置的索引)是一个强大的工具,它允许根据整数位置选择数据,即基于行的位置和列的位置来选择数据。这与`loc`(基于标签的索引)不同,后者是基于行标签和列标签来选择数据的。

2024-06-12 00:20:50 821

原创 Python数据框的合并(二) -- concat函数

在Python模块Pandas中,concat函数是一个常用的函数,用于将多个pandas对象(如Series、DataFrame)沿着一条轴进行连接,下面是对Pandasconcat函数的详细解释以及代码示例。

2024-06-11 20:05:56 454

原创 Python数据框操作 -- 删除数据(去除空值或者特定值)

数据框空值处理和删除数据

2024-06-10 19:54:46 278

原创 Python数据框的合并(一) -- merge函数

d.在pandas中,可以使用 merge(left, right, on='key', how='left') 来实现左连接,其中 'key' 是两个DataFrame中用于匹配的列名。d.在pandas中,虽然 how='right' 是理论上存在的选项,但更常见的做法是先进行左连接,然后交换两个DataFrame的顺序再进行左连接,以达到右连接的效果。c.如果左DataFrame中没有匹配的行,则结果中的相应列将包含缺失值(NaN)。b. 如果左DataFrame中有匹配的行,则合并这些行的值。

2024-06-09 09:19:03 766

原创 Python字符串操作 -- 拆分字符串(对一列数据批量操作)

【代码】Python字符串操作 -- 拆分字符串(对一列数据批量操作)

2024-06-08 17:57:37 230

原创 Python基础操作之模块 -- pandas之groupby函数

groupby函数是pandas中用于数据分组和聚合的强大工具。通过它,你可以根据一个或多个列的值将数据划分为不同的组,并对每个组执行各种聚合操作,从而获取有关数据的深入见解。

2024-06-08 13:30:11 930

原创 Python字符串操作 -- 删去括号中的内容(对一列数据批量操作)

对字符串删去字符串中括号内的内容。

2024-06-07 10:11:39 145

原创 Python数据框操作 -- DataFrame列名和索引设置

【代码】Python数据框操作 -- DataFrame列名和索引设置。

2024-06-06 17:49:32 592

原创 Python数据框/列表生成一列多个同样的值

Python生成多个重复的元素

2024-06-05 19:32:19 183

原创 Python数据框操作 -- 提取数据

【代码】Python数据框操作 -- 提取数据。

2024-06-04 19:56:26 690

原创 Python模块之Pandas(三)-- DataFrame 查看形状和部分数据

【代码】Python模块之Pandas(三)-- DataFrame 查看形状和部分数据。

2024-06-03 18:02:13 200

原创 Python模块之Pandas(二)-- DataFrame常用属性(获取数据框的元素、索引、列名和类型)

【代码】Python模块之Pandas(二)-- DataFrame常用属性(获取数据框的元素、索引、列名和类型)

2024-06-02 23:33:43 200

原创 2023年亚太杯A题:果园采摘机器人的图像识别,一二题

2023亚太杯数学建模竞赛(亚太赛A题12题完整代码与结果)

2024-06-01 10:46:33 2262

原创 SQL常用语句--模糊查询REGEXP

如果你想要确保在e前要有g或者i两者之一, 这时需要用到方括号[],在括号里加上多个字母, 比如g,I,m,对应了任何姓氏里有ge或者ie或者me的顾客.REGEXP 是正则表达式(regular expression) 的缩写 . 正则表达式在搜索字符串时非常强大. 它允许我们搜索更复杂的模式。表示查询以field开头的姓氏或者姓氏中含有mac或者姓氏中含有rose。2)我们可以用 ‘^’ 表示字符串的开头,3)我们还用美元符号 $ 代表字符串末尾,

2024-05-31 12:42:57 501

原创 SQL常用语句--模糊查询LIKE

4)查询名字中第二个字为心的学生信息。5)查询名字中第三个字为心的学生信息。1)查询名字中含有张的学生信息。2)查询名字以张开头的学生信息。3)查询名字以人结尾的学生信息。

2024-05-30 22:19:39 387

原创 SQL常用语句(三)-- Now()返回当前本地日期和时间的日期/时间函数,以及时间的加减

【代码】SQL常用语句(三)-- Now()返回当前本地日期和时间的日期/时间函数,以及时间的加减。

2024-05-29 18:43:03 392

白葡萄酒数据(whitewines.csv)

白葡萄酒数据(whitewines.csv)包含了4898个葡萄酒案例的l l种化学特性的信息。对于每种葡萄酒,实验室分析测量的特性包括酸性、含糖量、氯化物含量、硫的含量、酒精度、pH值和密度等。然后,这些样本会由不少于3名鉴定者组成的小组以盲品的方式进行评级,质量尺度从0(很差)到10(极好)。

2024-05-01

美国国家癌症研究所血友病数据集

数据为血友病数据,该数据由美国国家癌症研究所资助的多中心血友病队列研究获得的,研究从1978年1月1日到1995年12月31日在16个治疗中心跟踪了超过1600位血友病人,数据一共有2144个观测值及6个变量。 变量名 描述 性质 hiv 患者的HIV状况(1=阴性,2-阳性) 哑元型分类变量 Factor 使用凝血因子制剂的5种剂量 哑元型分类变量 Year 日历年 整数(也可作分类变量) Age 年龄(按5岁递增的组) 整数/定序/分类 Py 人年:该年改组参加研究的时间总量 数量变量 deaths 该组死亡人数 整数

2024-04-28

2023年亚太杯A题附件一,苹果图像数据集

2023年亚太杯A题附件一,苹果图像数据集

2024-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除