- 博客(66)
- 收藏
- 关注
原创 机器学习原理之 -- 支持向量机分类:由来及原理详解
SVM的基础源自于统计学习理论中的结构风险最小化原则(Structural Risk Minimization, SRM),旨在通过优化模型复杂度和经验风险的平衡,达到最优的泛化能力。支持向量机作为一种强大的分类算法,通过引入结构风险最小化原则,在高维空间中寻找最优超平面,实现了高效的分类性能和良好的泛化能力。对于线性可分的数据集,支持向量机通过找到一个最佳的超平面,将不同类别的数据点分开。该超平面最大化了两类数据点之间的间隔,从而提高分类的鲁棒性和泛化能力。间隔定义为超平面到最近数据点的距离。
2024-07-03 00:26:07
609
原创 机器学习原理之 -- 随机森林分类:由来及原理详解
随机森林通过引入随机性,在构建多棵决策树的过程中,减少了单棵决策树容易出现的过拟合问题,同时提高了模型的稳定性和精度。随机森林分类器作为一种强大的集成学习方法,通过构建多棵决策树并结合其结果,提高了分类器的精度和稳定性。本文将详细介绍随机森林分类器的由来、基本原理、构建过程及其优缺点。其基本思想是通过集成学习(Ensemble Learning)的方法,结合多个弱分类器(决策树)的结果,形成一个强分类器。随机森林算法的核心是通过随机采样和特征子集选择,构建多棵决策树,并将这些决策树的结果进行集成。
2024-07-02 00:13:14
403
原创 机器学习原理之 -- 决策树分类:由来及原理详解
决策树分类器作为一种强大的机器学习算法,通过树形结构对数据进行递归分割,形成直观的决策路径。由于决策树模型具有直观性和易解释性,它在20世纪80年代开始成为机器学习和人工智能研究的重点。本文将详细介绍决策树分类器的由来、基本原理、构建过程及其优缺点。常用的决策树算法包括ID3(Iterative Dichotomiser 3)、C4.5和CART(Classification and Regression Tree)。决策树分类器广泛应用于各种领域,包括医疗诊断、金融风险评估、市场营销分析和生物信息学等。
2024-07-01 00:31:59
422
原创 机器学习原理之 -- 朴素贝叶斯分类器:由来及原理详解
朴素贝叶斯(Naive Bayes)分类器是一类基于贝叶斯定理(Bayes' Theorem)的简单而有效的概率分类算法。由于其假设特征之间的条件独立性,因此被称为“朴素”贝叶斯分类器。尽管这种独立性假设在现实中很少完全成立,但朴素贝叶斯分类器在许多实际应用中仍然表现出色,尤其是在文本分类和垃圾邮件过滤等任务中。
2024-06-30 09:47:15
1076
原创 神经网络回归原理详解及Python代码示例
在前向传播过程中,输入数据依次通过每一层的神经元进行计算,经过激活函数处理后传递到下一层,最终输出预测值。计算过程涉及输入与权重的加权和,再通过激活函数进行非线性变换。神经网络回归的损失函数用于衡量预测值与真实值之间的差异,常用的损失函数是均方误差(MSE),它计算预测值与真实值之间差的平方和的平均值。它通过计算损失函数相对于每个权重的梯度,并按照梯度下降的方法调整权重,以最小化损失函数。常用的优化算法包括随机梯度下降(SGD)、Adam等,这些算法通过不断调整权重来优化神经网络的性能。
2024-06-29 00:01:15
976
原创 K近邻回归原理详解及Python代码示例
K近邻回归(K-Nearest Neighbors Regression, KNN)是一种基于实例的学习算法,用于解决回归问题。它通过找到输入数据点在特征空间中最相似的K个邻居(即最近的K个数据点),并使用这些邻居的平均值来预测目标值。KNN回归的基本思想是“相似的数据点具有相似的目标值”。KNN回归在许多实际应用中表现良好,适用于回归、分类以及其他需要基于相似性进行预测的问题,如推荐系统、模式识别等。以下是一个完整的Python代码示例,用于实现K近邻回归。库来构建和评估模型。
2024-06-28 00:24:12
724
原创 支持向量回归原理详解及Python代码示例
支持向量回归(Support Vector Regression, SVR)是支持向量机(SVM)的一种扩展,用于回归问题。SVR通过寻找一个最佳的回归超平面,使得尽可能多的数据点落在超平面附近的ε-管内,从而达到预测连续值的目的。SVR的核心思想是通过对输入空间进行映射,并在高维空间中寻找一个最优的回归超平面。常用的核函数有线性核、多项式核、高斯核(RBF)等。SVR的目标是找到一个函数 f(x)=w⋅x+b ,使得所有数据点 (xi,yi)的预测误差在ε以内,同时最小化 ∥w∥2。
2024-06-27 20:34:20
608
原创 随机森林回归原理详解及Python代码示例
随机森林回归(Random Forest Regression)是一种集成学习方法,通过构建多个决策树并将它们的预测结果进行平均,来提高模型的稳定性和预测准确性。它通过引入随机性来增强模型的泛化能力,有效减轻了单棵决策树容易过拟合的问题。以下是一个完整的Python代码示例,用于实现随机森林回归。1. 随机森林回归的基本概念。2. 随机森林回归的优缺点。库来构建和评估模型。
2024-06-27 00:24:54
710
原创 决策树回归原理详解及Python代码示例
决策树回归(Decision Tree Regression)是一种非参数监督学习方法,它使用树形结构来对目标变量进行预测。与线性回归模型不同,决策树回归不需要预先假设数据的分布形式,因此能够很好地处理非线性和高维数据。决策树回归通过递归地将数据集划分为更小的子集,并在每个子集上构建简单的预测模型。树中的每个节点表示一个特征,节点的分裂则是根据该特征的某个阈值将数据集分成两部分。树的叶子节点包含目标变量的预测值。1. 决策树回归的基本概念。3. 决策树回归的优缺点。2. 决策树的构建过程。
2024-06-26 00:28:52
542
原创 多项式回归(Linear Regression)原理详解及Python代码示例
多项式回归(Polynomial Regression)是线性回归(Linear Regression)的一种扩展形式。虽然多项式回归本质上还是线性模型,但它允许模型在输入特征的多项式基础上进行线性拟合,从而捕捉复杂的非线性关系。:选择合适的多项式阶数 n 是模型拟合的关键。,βn是模型的参数,n 是多项式的阶数,ϵ是误差项。以下是一个完整的Python代码示例,用于实现多项式回归。:将输入特征扩展为多项式特征。例如,对于一个一维特征 x,构建的特征矩阵为。:使用线性回归方法在多项式特征上进行拟合。
2024-06-25 00:07:24
529
原创 线性回归(Linear Regression)原理详解及Python代码示例
线性回归是一种基本的统计方法,用于预测因变量(目标变量)与一个或多个自变量(特征变量)之间的线性关系。线性回归模型通过拟合一条直线(在多变量情况下是一条超平面)来最小化预测值与真实值之间的误差。线性回归通过最小二乘法来估计模型参数,即最小化所有预测误差的平方和。对于给定的训练数据集 (xi,yi),目标是找到使得误差平方和最小的 β值。其中 m是样本数量,yi^ 是第 i个样本的预测值,通过最小化这个损失函数,可以得到最优的模型参数 β。下面是使用Python实现线性回归的代码示例。
2024-06-24 07:50:22
747
原创 机器学习回归预测方法介绍:优缺点及适用情况
线性回归是一种基础的回归方法,用于建立自变量与因变量之间的线性关系。通过最小化误差平方和来确定最佳拟合直线。
2024-06-23 21:22:32
1148
原创 ython机器学习分类算法(六)-- 逻辑回归(Logistic Regression)
逻辑回归虽然名为“回归”,但实际上是一种用于处理二分类或多分类问题的分类算法。其核心思想是,利用线性回归模型的预测结果逼近真实标记的对数几率(log odds),因此得名“逻辑回归”。具体来说,逻辑回归通过引入sigmoid函数(或称为逻辑函数),将线性回归模型的输出值映射到0和1之间,从而可以将其解释为某个类别发生的概率。
2024-06-22 00:03:56
770
原创 Python机器学习分类算法(五)-- 最近邻算法(k-Nearest Neighbors,KNN)
k-最近邻(k-Nearest Neighbors,KNN)算法是一种基本的机器学习分类和回归算法。在分类问题中,KNN通过测量不同特征值之间的距离来进行分类。它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签
2024-06-21 00:06:43
600
原创 Python机器学习分类算法(四)-- 支持向量机(Support Vector Machine,SVM)
支持向量机(SVM)是一种基于统计学习理论和结构风险最小原理的有监督学习方法,主要用于数据分类问题。其原理是寻找一个能够将不同类别的样本划分开来的超平面(在二维空间为直线,三维空间为平面,高维空间为超平面),同时要求这个超平面到各个类别样本集的最近点的距离最大化,也就是使得间隔(margin)最大。在这个例子中,我们使用了线性核('linear' kernel)和默认的C值(C=1.0)来训练SVM分类器,然后,我们使用训练好的模型对测试集进行预测,并计算了预测的准确率。
2024-06-20 00:24:19
442
原创 Python机器学习分类算法(三)-- 随机森林(Random Forest)
随机森林(Random Forest)原理基于集成学习思想,通过构建多棵决策树并集成它们的预测结果来提高模型的准确性和稳定性。具体来说,随机森林首先通过自助法(bootstrap)从原始数据集中随机抽取多个样本子集,并在每个样本子集上随机选择特征子集来构建决策树。这种随机性确保了每棵决策树都是基于不同的数据和特征进行训练的,从而减少了它们之间的相关性。在预测时,随机森林将多棵决策树的预测结果进行投票或平均,得到最终的预测结果。这种方法通过集成多个相对独立的决策树,有效降低了模型的偏差和方差,提高了预测准确性
2024-06-19 00:54:28
907
原创 Python机器学习分类算法(二)-- 决策树(Decision Tree)
决策树是一种直观的决策分析方法,通过构成树形结构来求取净现值的期望值大于等于零的概率,评价项目风险,并判断其可行性。在机器学习中,决策树是一个预测模型,它表示对象属性与对象值之间的一种映射关系。
2024-06-18 09:19:45
781
原创 Python机器学习分类算法(一)-- 朴素贝叶斯分类(Naive Bayes Classifier)
朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类方法。它假定每个特征与其他特征都不相关,然后利用贝叶斯定理来计算给定样本属于各个类别的概率,选择概率最大的类别作为预测结果
2024-06-18 00:17:36
707
原创 随机森林算法进行预测(+调参+变量重要性)--血友病计数数据
包括对于计数数据的数据预处理,随机森林进行预测,以及随机森林调参,并输出变量重要性。
2024-06-15 10:08:27
1007
原创 Python模块Pandas数据切片 -- 详解loc和iloc区别
在Pandas库中,`iloc`和`loc`是用于选择DataFrame或Series中数据的两种主要方法。尽管它们的目的相似,但它们的用法和基于的索引类型有着显著的区别。
2024-06-13 17:43:48
325
原创 Python模块Pandas数据切片 -- loc详解及代码示例
在Pandas库中,`loc`是基于标签的索引方法,它允许用户根据行标签和列标签来选择数据。这与`iloc`方法不同,后者是基于整数位置的索引。在处理数据时,尤其是当数据具有描述性标签时,`loc`方法非常有用。
2024-06-13 00:34:35
533
原创 Python模块pandas数据切片 -- iloc用法详解
在Pandas库中,`iloc`(基于整数位置的索引)是一个强大的工具,它允许根据整数位置选择数据,即基于行的位置和列的位置来选择数据。这与`loc`(基于标签的索引)不同,后者是基于行标签和列标签来选择数据的。
2024-06-12 00:20:50
821
原创 Python数据框的合并(二) -- concat函数
在Python模块Pandas中,concat函数是一个常用的函数,用于将多个pandas对象(如Series、DataFrame)沿着一条轴进行连接,下面是对Pandasconcat函数的详细解释以及代码示例。
2024-06-11 20:05:56
454
原创 Python数据框的合并(一) -- merge函数
d.在pandas中,可以使用 merge(left, right, on='key', how='left') 来实现左连接,其中 'key' 是两个DataFrame中用于匹配的列名。d.在pandas中,虽然 how='right' 是理论上存在的选项,但更常见的做法是先进行左连接,然后交换两个DataFrame的顺序再进行左连接,以达到右连接的效果。c.如果左DataFrame中没有匹配的行,则结果中的相应列将包含缺失值(NaN)。b. 如果左DataFrame中有匹配的行,则合并这些行的值。
2024-06-09 09:19:03
766
原创 Python基础操作之模块 -- pandas之groupby函数
groupby函数是pandas中用于数据分组和聚合的强大工具。通过它,你可以根据一个或多个列的值将数据划分为不同的组,并对每个组执行各种聚合操作,从而获取有关数据的深入见解。
2024-06-08 13:30:11
930
原创 Python模块之Pandas(三)-- DataFrame 查看形状和部分数据
【代码】Python模块之Pandas(三)-- DataFrame 查看形状和部分数据。
2024-06-03 18:02:13
200
原创 Python模块之Pandas(二)-- DataFrame常用属性(获取数据框的元素、索引、列名和类型)
【代码】Python模块之Pandas(二)-- DataFrame常用属性(获取数据框的元素、索引、列名和类型)
2024-06-02 23:33:43
200
原创 SQL常用语句--模糊查询REGEXP
如果你想要确保在e前要有g或者i两者之一, 这时需要用到方括号[],在括号里加上多个字母, 比如g,I,m,对应了任何姓氏里有ge或者ie或者me的顾客.REGEXP 是正则表达式(regular expression) 的缩写 . 正则表达式在搜索字符串时非常强大. 它允许我们搜索更复杂的模式。表示查询以field开头的姓氏或者姓氏中含有mac或者姓氏中含有rose。2)我们可以用 ‘^’ 表示字符串的开头,3)我们还用美元符号 $ 代表字符串末尾,
2024-05-31 12:42:57
501
原创 SQL常用语句--模糊查询LIKE
4)查询名字中第二个字为心的学生信息。5)查询名字中第三个字为心的学生信息。1)查询名字中含有张的学生信息。2)查询名字以张开头的学生信息。3)查询名字以人结尾的学生信息。
2024-05-30 22:19:39
387
原创 SQL常用语句(三)-- Now()返回当前本地日期和时间的日期/时间函数,以及时间的加减
【代码】SQL常用语句(三)-- Now()返回当前本地日期和时间的日期/时间函数,以及时间的加减。
2024-05-29 18:43:03
392
白葡萄酒数据(whitewines.csv)
2024-05-01
美国国家癌症研究所血友病数据集
2024-04-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人