机器学习
文章平均质量分 94
Bioinfo Guy
药物研发生信工程师,多线程核糖体运营者|R语言、Python、AIGC|生信累积解惑1000余人,累积完整分析项目超100个,暂不接全篇分析,欢迎学术交流
展开
-
机器学习实战:Python基于FP-growth进行关联规则预测(十七)
FP-growth()是一种用于在数据库中高效地发现频繁项集的算法。它采用了一种叫做FP树()的树结构来压缩数据集,这棵树只记录了项集的频繁模式。然后,算法使用一种分而治之的策略,将大数据库分解为条件数据库(每个都是一棵FP树),并在这些较小的数据库上递归地发现频繁项集。这种方法大大减少了需要考虑的组合数量,并避免了Apriori算法中的重复数据扫描,因此在处理大规模数据集时更加高效。FP-growth(频繁模式增长)算法是一种用于挖掘数据集中频繁项集的有效方法。优点效率高。原创 2024-02-28 14:38:32 · 1758 阅读 · 1 评论 -
机器学习实战:Python基于KDE核密度估计进行分布估计(十六)
核密度估计(,简称KDE)是用于估计连续随机变量概率密度函数的非参数方法。它的工作原理是在每个数据点周围放置一个“核”(通常是某种平滑的、对称的函数),然后将这些核加起来,形成一个整体的估计。这可以被视为对直方图的平滑,使得得到的密度函数更连续、更平滑。KDE的主要组件是核函数和带宽。核函数确定了每个数据点对估计的贡献的形状,而带宽决定了核的宽度,影响估计的平滑程度。正确选择这两个组件对于获得有意义的估计至关重要。优点。原创 2023-08-15 15:28:28 · 4104 阅读 · 5 评论 -
机器学习实战:Python基于EM期望最大化进行参数估计(十五)
EM)是一种迭代式的优化算法,主要用于解决含有隐变量的概率模型的参数估计问题。它的目标是在给定观测数据和未观测数据(隐变量)的情况下,估计概率模型的参数,使得模型能够最好地拟合观测数据。EM算法的基本思想是通过交替进行两个步骤来优化模型参数:E步骤()和M步骤(E步骤():在E步骤中,我们根据当前的参数估计值,计算出每个观测数据属于每个隐变量状态的概率,即计算出每个观测数据的后验概率。这些后验概率称为期望,因为它们代表了在当前参数下观测数据所“期望”的隐变量状态。原创 2023-07-31 09:22:50 · 869 阅读 · 1 评论 -
机器学习实战:Python基于GBM梯度提升机进行预测(十四)
梯度提升机(,简称GBM)是一种强大的机器学习算法,它是集成学习的一种形式。GBM在解决分类和回归问题上表现优异,是数据科学领域中常用的算法之一。GBM通过组合多个弱学习器(通常是决策树)来构建一个强大的预测模型。训练过程采用梯度提升技术,逐步改进模型的预测能力。每一轮迭代中,新的弱学习器被训练来纠正前一轮模型的错误,以尽可能减少模型对数据的残差。最终,所有弱学习器的结果加权融合,得到最终的预测结果。优点高预测准确性:GBM在许多数据集上表现出色,通常可以获得较高的预测准确性。原创 2023-07-25 17:42:42 · 1755 阅读 · 1 评论 -
机器学习实战:Python基于Ridge岭回归进行正则化(十三)
岭回归()是一种常用的线性回归方法,用于处理具有共线性()问题的数据集。在普通最小二乘线性回归中,如果自变量之间存在高度相关性,会导致估计的回归系数不稳定,甚至无法准确估计。岭回归通过引入一个正则化项来解决这个问题。岭回归的关键思想是在最小二乘目标函数中添加一个L2正则化项,该项对回归系数进行惩罚。这个正则化项是通过对回归系数的平方和进行惩罚,乘以一个调节参数alpha。当alpha为0时,岭回归等效于普通最小二乘回归;而当alpha趋近于无穷大时,回归系数趋近于0。因此,岭回归通过控制alpha。原创 2023-07-18 13:45:33 · 1555 阅读 · 0 评论 -
机器学习实战:Python基于LASSO回归进行正则化(十二)
LASSO)是一种用于线性回归和特征选择的正则化方法。它的基本原理是在损失函数中引入L1正则化项,通过最小化数据拟合误差和正则化项的和来实现模型参数的稀疏化和特征选择。这种正则化项以模型参数的绝对值之和乘以一个调节参数alpha的形式出现,促使模型选择少量重要的特征,并将其他特征的系数缩减为零。通过调节alpha的值,我们可以控制模型的复杂度和特征选择的程度。LASSO的优势在于它能够自动进行特征选择,并产生更简洁和解释性强的模型。原创 2023-07-14 09:10:43 · 2515 阅读 · 1 评论 -
机器学习实战:Python基于NN神经网络进行分类(十一)
神经网络()机器学习是一种基于人工神经网络的机器学习方法,它模拟了人类神经系统的工作原理。神经网络是由多个人工神经元组成的网络结构,每个神经元都接收输入信号、进行计算并生成输出信号。首先了解一下神经元和层神经元Neuron是神经网络的基本单元,模拟了生物神经系统中的神经元的功能。每个神经元接收来自其他神经元的输入信号,并通过计算生成输出信号。神经元具有权重weights和偏置bias,它们用于调节输入信号的影响力。层Layer是神经网络中神经元的组织方式。原创 2023-07-06 14:42:15 · 2191 阅读 · 1 评论 -
机器学习实战:Python基于LR线性回归进行预测(十)
注意这里的LR指的是,线性回归。而非逻辑回归,虽然二者简称都是LR,但是后者我们还是俗称Logistic多点线性回归(Linear Regression)是一种用于建立自变量与连续因变量之间线性关系模型的统计学和机器学习方法。它是最简单、最常见的回归分析方法之一。线性回归的目标是通过拟合最优的直线(一元线性回归)或超平面(多元线性回归)来描述自变量与因变量之间的关系。它假设自变量和因变量之间存在线性关系,即因变量可以被自变量的线性组合所解释。原创 2023-07-04 14:38:10 · 3647 阅读 · 1 评论 -
机器学习实战:Python基于K均值K-means进行聚类(九)
K均值(K-means)是一种基于距离度量的聚类算法,其主要思想是将数据集划分为k个不同的簇,每个簇代表一个相似度较高的数据组。该算法通过迭代优化来最小化所有数据点与其所属簇的欧氏距离之和,从而找到最佳的簇划分。需要区分一下,K-means和KNN是两种不同的机器学习算法,K-means和KNN都是基于距离度量的算法,但前者用于聚类问题,而后者用于分类问题K-means是一种聚类算法,它旨在将数据集分成k个不同的簇,每个簇代表一个相似度较高的数据组。原创 2023-05-08 18:16:30 · 4354 阅读 · 2 评论 -
【修改版】用ChatGPT开发一个书籍推荐微信小程序(三)
万变不离其宗,还是相当于与ChatGPT交互问答,然后映射到小程序中数据库建模首先,需要建立一个数据库来存储图书信息和用户信息。每本书的信息可能包括书名、作者、出版社、ISBN号、出版日期、价格等。用户信息可能包括用户名、密码、邮箱、收货地址等。数据采集和处理为了让推荐系统更准确,我们需要收集用户的阅读历史、购买记录甚至是搜索记录等。同时也需要对新的书籍进行分类标签的归纳和整理。然后根据用户的历史行为和兴趣爱好,使用推荐算法来生成个性化的书籍推荐列表。原创 2023-05-06 10:31:50 · 301 阅读 · 0 评论 -
R语言:鉴于计算10亿以内训练模型记录for循环的加速
笔者主力机是MBAM1芯片(8+256),某个下午巩固循环突然思考到个问题,小循环很快就能run出来,中循环还勉勉强强,稍微上点强度就运行的很慢。虽然是CPU占用100%,8颗核心好像是偷着懒跑的,但是丢给我那台4核心8线程黑苹果,是跑满的,说明ARM在多线程的时候,有点东西下图是计算一个10亿内训练模型时的top。原创 2023-05-05 20:04:33 · 1597 阅读 · 0 评论 -
【R语言】鉴于计算10亿以内训练模型记录for循环的加速
笔者主力机是MBAM1芯片(8+256),某个下午巩固循环突然思考到个问题,小循环很快就能run出来,中循环还勉勉强强,稍微上点强度就运行的很慢。虽然是CPU占用100%,8颗核心好像是偷着懒跑的,但是丢给我那台4核心8线程黑苹果,是跑满的,说明ARM在多线程的时候,有点东西下图是计算一个10亿内训练模型时的top。原创 2023-05-05 16:05:44 · 436 阅读 · 0 评论 -
机器学习实战:Python基于SVD奇异值分解进行矩阵分解(八)
奇异值分解()是一种重要的矩阵分解技术,它可以将一个矩阵分解为三个矩阵的乘积,分别为左奇异矩阵、奇异值矩阵和右奇异矩阵。SVD 的原理可以描述如下:对于任意m×nm \times nm×n的矩阵AAAVTV^TVT其中 A 是待分解的矩阵,U 是一个正交矩阵,$\sigma $ 是一个对角矩阵VTV^TVT是V 的转置。这个公式表示将 A 分解为三个矩阵的乘积,其中 U 和VTV^TVT。原创 2023-04-23 17:56:17 · 4339 阅读 · 0 评论 -
机器学习实战:Python基于PCA主成分分析进行降维分类(七)
主成分分析()是一种常用的数据降维技术,通过线性变换将高维数据映射到低维空间中。其原理是寻找最能代表原始数据的几个主成分,并保留大部分的数据方差。PCA的目的是通过线性变换将原始数据转化为一组新的变量,这些新变量是原始变量的线性组合,且互相独立。这些新变量称为主成分,第一个主成分方差最大,第二个主成分方差次大,以此类推。通过PCA,我们可以将高维数据转化为低维数据,从而实现数据的降维处理。数据降维:PCA可以将高维数据转化为低维数据,从而减少了数据的维度,使得数据更容易分析和处理。原创 2023-04-23 09:58:22 · 1971 阅读 · 0 评论 -
机器学习实战:Python基于DT决策树模型进行分类预测(六)
决策树(Decision Tree,DT)是一种类似流程图的树形结构,其中内部节点表示特征或属性,分支表示决策规则,每个叶节点表示结果。在决策树中,最上方的节点称为根节点。它学习基于属性值进行分区。它以递归方式进行分区,称为递归分区。这种类似流程图的结构有助于决策制定。它的可视化类似于流程图,可以很容易地模拟人类的思维过程。这就是为什么决策树易于理解和解释的原因。决策树的时间复杂度是给定数据中记录和属性数量的函数。决策树是一种无分布或非参数方法,不依赖于概率分布假设。决策树可以很好地处理高维数据。原创 2023-04-20 15:44:46 · 1592 阅读 · 0 评论 -
机器学习实战:Python基于DT决策树模型进行分类预测(六)
决策树(Decision Tree,DT)是一种类似流程图的树形结构,其中内部节点表示特征或属性,分支表示决策规则,每个叶节点表示结果。在决策树中,最上方的节点称为根节点。它学习基于属性值进行分区。它以递归方式进行分区,称为递归分区。这种类似流程图的结构有助于决策制定。它的可视化类似于流程图,可以很容易地模拟人类的思维过程。这就是为什么决策树易于理解和解释的原因。决策树的时间复杂度是给定数据中记录和属性数量的函数。决策树是一种无分布或非参数方法,不依赖于概率分布假设。决策树可以很好地处理高维数据。原创 2023-04-20 14:33:38 · 1371 阅读 · 1 评论 -
机器学习实战:Python基于LDA线性判别模型进行分类预测(五)
线性判别模型()是一种经典的监督学习算法,它旨在通过学习输入特征和它们所属类别之间的线性关系来进行分类任务。线性判别模型通常可以被看作是一种分类器,可以用于二元分类和多元分类问题。线性判别模型的主要思想是将输入特征空间中的样本投影到一条直线或者一个超平面上,从而实现对样本的分类。这个超平面的选择是通过最小化类内距离和最大化类间距离来完成的。类内距离指的是同一类别样本之间的距离,类间距离则指不同类别样本之间的距离。通过最小化类内距离和最大化类间距离,线性判别模型能够更好地区分不同类别的样本。原创 2023-04-19 10:30:50 · 1899 阅读 · 0 评论 -
机器学习实战:Python基于K近邻KNN进行分类预测(四)
K近邻()是一种基本的分类与回归算法。其基本思想是将新的数据样本与已知类别的数据样本进行比较,根据K个最相似的已知样本的类别进行预测。具体来说,KNN算法通过计算待分类样本与已知样本之间的距离(欧式距离曼哈顿距离等),选取距离待分类样本最近的K个已知样本,再通过对这K个已知样本的类别进行投票、取平均等方式确定待分类样本的类别。KNN算法中,K的取值是一个重要的超参数,不同的取值可能会影响算法的性能。简单易懂:KNN算法的原理简单,易于理解和实现。原创 2023-04-10 14:52:20 · 2926 阅读 · 0 评论 -
机器学习实战:Python基于支持向量机SVM-RFE进行分类预测(三)
支持向量机()是一种监督学习的分类算法。它的基本思想是找到一个能够最好地将不同类别的数据分开的超平面,同时最大化分类器的边际(margin)。SVM的训练目标是最大化间隔(margin),即支持向量到超平面的距离。具体地,对于给定的训练集,SVM会找到一个最优的分离超平面,使得距离该超平面最近的样本点(即支持向量)到该超平面的距离最大化。SVM是一种二分类算法,但可以通过多次调用SVM实现多分类问题的解决。SVM的优化问题可以通过凸优化来求解,其中使用拉格朗日乘子法将约束优化问题转化为无约束优化问题。原创 2023-04-10 12:16:26 · 5113 阅读 · 0 评论 -
机器学习实战:Python基于朴素贝叶斯Bayes进行分类预测(二)
朴素贝叶斯()是一种基于贝叶斯定理的分类算法,它假设各个特征之间相互独立,因此可以通过计算每个特征的条件概率来预测类别。该算法通常用于文本分类和垃圾邮件过滤等任务。朴素贝叶斯模型易于实现,计算速度快。即使特征之间存在一定的相关性,朴素贝叶斯模型仍然可以处理。适用于高维数据集,并且在小数据集上也能表现良好。朴素贝叶斯模型假设特征之间相互独立,这在实际情况下很少成立。朴素贝叶斯模型对输入数据的准确性要求较高,如果输入数据有误差,则会导致错误的预测。朴素贝叶斯模型通常需要更多的数据才能获得更好的分类效果。原创 2023-04-06 17:52:05 · 3848 阅读 · 0 评论 -
机器学习实战:Python基于Logistic逻辑回归进行分类预测(一)
Logistic回归计算量小,训练速度快。输出结果易于理解。Logistic回归的输出结果是概率,易于解释。容易扩展。可用于多分类问题和不平衡数据集。只适用于线性可分的问题。原创 2023-04-06 11:43:22 · 8429 阅读 · 6 评论