机器学习模型
文章平均质量分 97
机器学习模型
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
KAN:科尔莫戈洛夫-阿诺德网络 KAN: Kolmogorov-Arnold Networks
论文链接:https://arxiv.org/pdf/2404.19756代码:https://github.com/KindXiaoming/pykan受科尔莫戈洛夫-阿诺德表示定理的启发,我们提出了科尔莫戈洛夫-阿诺德网络(KANs)作为多层感知器(MLPs)的有希望的替代方案。虽然MLPs在节点(“神经元”)上有固定的激活函数,但KANs在边缘(“权重”)上有可学习的激活函数。KANs根本没有线性权重 - 每个权重参数都被替换为参数化为样条的单变量函数。我们展示了这个看似简单的改变使得KANs在准确性原创 2024-05-03 17:45:17 · 1561 阅读 · 0 评论 -
编写自己的 Transformers 完全指南
如果您已经听说过 ChatGPT 或 Gemini,那么您已经遇到过 Transformer。实际上,ChatGPT 中的 “T” 就代表 Transformer。这种架构最早在 2017 年由 Google 的研究人员在论文《Attention is All you need》中提出。原创 2024-02-29 07:47:14 · 765 阅读 · 0 评论 -
理解变分自编码器(VAEs) 逐步构建导致VAEs的推理过程
在机器学习中,降维是指减少描述某些数据的特征数量的过程。这种减少可以通过选择(仅保留一些现有特征)或提取(基于旧特征创建一组较少的新特征)来完成,并且在许多需要低维数据的情况下非常有用(数据可视化、数据存储、大量计算等)。尽管存在许多不同的降维方法,但我们可以建立一个大致的框架,大多数(如果不是全部!)这些方法都符合。首先,让我们称为编码器从“旧特征”表示中生成“新特征”表示(通过选择或提取),并称为解码器的逆过程。然后,降维可以被解释为数据压缩,其中编码器将数据压缩(从初始空间到编码空间,也称为。原创 2024-02-26 23:10:40 · 841 阅读 · 0 评论 -
一个全面的实践指南:深度学习中的迁移学习及其在现实世界中的应用
人类具有跨任务传递知识的固有能力。我们在学习一个任务时所获得的知识,我们可以以同样的方式利用来解决相关的任务。任务之间的关联程度越高,我们就越容易进行知识的传递或交叉利用。一些简单的例子包括:知道如何骑摩托车 ⮫ 学会如何开车知道如何弹奏古典钢琴 ⮫ 学会如何弹奏爵士钢琴知道数学和统计学 ⮫ 学习机器学习在上述每个场景中,当我们尝试学习新的方面或主题时,并不是从头开始学习所有内容。我们将我们过去学到的知识转移和利用起来!迄今为止,传统的机器学习和深度学习算法一直被设计成独立工作。原创 2024-02-23 18:14:41 · 949 阅读 · 0 评论 -
机器学习模型系列:岭回归、套索回归和弹性网络回归
正则化项惩罚系数的绝对值。将无关的值设为0。可能会在模型中删除太多特征。原创 2024-01-31 10:04:11 · 1023 阅读 · 0 评论 -
朴素贝叶斯算法和K近邻算法
例如,我们可以使用贝叶斯定理来通过考虑任何给定个体患病的可能性和测试的整体准确性来定义医学测试结果的准确性。K最近邻算法,也称为KNN或k-NN,是一种非参数的有监督学习分类器,它利用接近性来对个体数据点的分组进行分类或预测。假设我们想要预测一个位于类别-1标记的异常值和类别-2标记的训练点之间的点。K是一个超参数),代表我们的最近点。在一个社区中,90%的儿童因流感而生病,10%的儿童因麻疹而生病,没有其他疾病。如果我们需要计算一个新数据点的输出,我们找到最近的K个点,然后计算它们的平均值来得到输出值。原创 2024-01-30 09:22:31 · 724 阅读 · 0 评论 -
K-Means聚类和层次聚类
时,我们通常会先对数据集进行聚类。这涉及将聚类算法应用于将数据分组为两个或三个独立的群组。一旦我们有了这些群组,我们就可以对每个群组应用。原创 2024-01-30 09:20:15 · 1214 阅读 · 0 评论 -
机器学习模型系列:决策树算法原理
由此产生的类似流程图的结构是一个优秀的决策工具,因为它模拟了人类的思维方式。当你选择下一个特征为有风时,如果Outlook是晴天,选择下一个特征为湿度,如果Outlook是雨天,你将得到一个像这样的适当的决策树,具有纯分割和最小分割。但是你应该计算所有可能的路径上的信息增益值,并且确定给出最大信息增益值的特征。— 在步骤1中,我们计算了排序后X的前2个数字的平均值,分割数据集并计算预测值。以这种方式选择根节点,并将向左子节点和右子节点的数据点进一步递归地暴露给相同的算法以进行进一步分割。原创 2024-01-29 09:35:24 · 1061 阅读 · 0 评论 -
机器学习模型系列:随机森林的原理和示例介绍
让我们总结一下与其他监督式机器学习模型相比,随机森林的优缺点。优点在许多真实数据集上已知能提供高度准确的模型。通过结合多个决策树的预测,可以捕捉数据集中的复杂交互和模式。通过自动选择相关特征,可以有效处理高维数据集。与单个决策树相比,不容易过拟合。自助采样和每个节点的随机特征选择有助于减少过拟合并改善泛化能力。可以处理包括数值和分类特征在内的异构数据类型。可以处理缺失值而不需要填充。提供特征重要性的度量。集成中的树可以并行训练,因为每个决策树可以独立构建。模型的泛化误差具有理论上的界限。原创 2024-01-29 09:03:55 · 1688 阅读 · 0 评论