机器学习模型
文章平均质量分 96
机器学习模型
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
2024表格数据深度学习模型综述
论文地址:https://arxiv.org/abs/2410.12034表格数据在医疗、金融和交通等行业广泛使用,由于其异质性和缺乏空间结构,给深度学习带来了独特的挑战。本调查回顾了针对表格数据的深度学习模型的发展,从早期的全连接网络(FCNs)到先进的架构如TabNet、SAINT、TabTranSELU和MambaNet。这些模型结合了注意力机制、特征嵌入和混合架构,以应对表格数据的复杂性。原创 2024-11-06 09:11:07 · 691 阅读 · 0 评论 -
TABM: 通过参数高效集成推进表格深度学习
用于表格数据监督学习的深度学习架构从简单的多层感知器(MLP)到复杂的变换器和检索增强方法不等。本研究强调了一个重要但迄今为止被忽视的机会,以显著改善表格MLP:即参数高效集成——一种将多个模型作为一个模型生成多个预测的集成实现范式。我们首先开发了TabM——一个基于MLP的简单模型以及我们对BatchEnsemble(现有技术)的变体。然后,我们在公共基准上对表格深度学习架构进行大规模评估,考虑任务性能和效率,从而以新的视角呈现表格深度学习的全貌。原创 2024-11-05 17:29:38 · 377 阅读 · 0 评论 -
深入探讨深度学习
另一方面,是由Gilmer, Schoenholz和Riley(2020年)在Prodigy: Weight Averaging for Improved Generalization中提出的一种自适应优化器,该文献构建于这些思想之上,通过结合过去的梯度和当前的梯度趋势,更有效地调整学习率。](https://arxiv.org/abs/1706.03762), exemplifies这一转变,为像BERT和GPT这样的规模较大的模型铺平了道路,这些模型在从语言翻译到文本生成等任务中设定了新的基准。原创 2024-09-03 07:43:54 · 632 阅读 · 0 评论 -
伯努利朴素贝叶斯详解:初学者的可视化指南与代码示例
朴素贝叶斯是一种使用概率对数据进行分类的机器学习算法。它基于贝叶斯定理,这是一个计算条件概率的公式。“朴素”部分指的是它的关键假设:它将所有特征视为相互独立,即使在现实中它们可能并不是。虽然这种简化通常不现实,但它大大降低了计算复杂性,并在许多实际场景中表现良好。朴素贝叶斯方法是机器学习中使用概率作为基础的简单算法。原创 2024-09-01 07:56:43 · 1118 阅读 · 0 评论 -
【表格数据建模】Mambular: 一种用于表格深度学习的序列模型
表格数据的分析传统上由梯度增强决策树(GBDTs)主导,因其在处理混合类别和数值特征方面的高效性而闻名。然而,最近的深度学习创新正在挑战这种主导地位。我们介绍Mambular,这是针对表格数据优化的Mamba架构的一个适应版本。我们对Mambular与包括神经网络和基于树的方法在内的最先进模型进行了广泛基准测试,并展示了其在各种数据集中的竞争性能。此外,我们探索了Mambular的不同适应性,以理解其对表格数据的有效性。我们研究了不同的池化策略、特征交互机制和双向处理。原创 2024-08-14 23:42:55 · 831 阅读 · 0 评论 -
xLSTM:扩展长短期记忆网络的综合指南
二十多年来, Sepp Hochreiter 开创性的 长短期记忆 (LSTM) 架构在众多深度学习的突破和实际应用中起到了重要作用。从生成自然语言到支持语音识别系统,LSTM 一直是推动 AI 革命的核心力量。然而,即使是 LSTM 的创造者也认可其无法充分发挥全部潜力的固有局限性。这些局限性包括无法修正存储的信息、有限的存储能力以及缺乏并行处理功能,这些因素为变压器模型及其他模型的崛起铺平了道路,使其在更复杂的语言任务中超越了 LSTM。原创 2024-05-18 21:06:57 · 6485 阅读 · 1 评论 -
KAN:科尔莫戈洛夫-阿诺德网络 KAN: Kolmogorov-Arnold Networks
论文链接:https://arxiv.org/pdf/2404.19756代码:https://github.com/KindXiaoming/pykan受科尔莫戈洛夫-阿诺德表示定理的启发,我们提出了科尔莫戈洛夫-阿诺德网络(KANs)作为多层感知器(MLPs)的有希望的替代方案。虽然MLPs在节点(“神经元”)上有固定的激活函数,但KANs在边缘(“权重”)上有可学习的激活函数。KANs根本没有线性权重 - 每个权重参数都被替换为参数化为样条的单变量函数。我们展示了这个看似简单的改变使得KANs在准确性原创 2024-05-03 17:45:17 · 8288 阅读 · 2 评论 -
编写自己的 Transformers 完全指南
如果您已经听说过 ChatGPT 或 Gemini,那么您已经遇到过 Transformer。实际上,ChatGPT 中的 “T” 就代表 Transformer。这种架构最早在 2017 年由 Google 的研究人员在论文《Attention is All you need》中提出。原创 2024-02-29 07:47:14 · 941 阅读 · 0 评论 -
理解变分自编码器(VAEs) 逐步构建导致VAEs的推理过程
在机器学习中,降维是指减少描述某些数据的特征数量的过程。这种减少可以通过选择(仅保留一些现有特征)或提取(基于旧特征创建一组较少的新特征)来完成,并且在许多需要低维数据的情况下非常有用(数据可视化、数据存储、大量计算等)。尽管存在许多不同的降维方法,但我们可以建立一个大致的框架,大多数(如果不是全部!)这些方法都符合。首先,让我们称为编码器从“旧特征”表示中生成“新特征”表示(通过选择或提取),并称为解码器的逆过程。然后,降维可以被解释为数据压缩,其中编码器将数据压缩(从初始空间到编码空间,也称为。原创 2024-02-26 23:10:40 · 891 阅读 · 0 评论 -
一个全面的实践指南:深度学习中的迁移学习及其在现实世界中的应用
人类具有跨任务传递知识的固有能力。我们在学习一个任务时所获得的知识,我们可以以同样的方式利用来解决相关的任务。任务之间的关联程度越高,我们就越容易进行知识的传递或交叉利用。一些简单的例子包括:知道如何骑摩托车 ⮫ 学会如何开车知道如何弹奏古典钢琴 ⮫ 学会如何弹奏爵士钢琴知道数学和统计学 ⮫ 学习机器学习在上述每个场景中,当我们尝试学习新的方面或主题时,并不是从头开始学习所有内容。我们将我们过去学到的知识转移和利用起来!迄今为止,传统的机器学习和深度学习算法一直被设计成独立工作。原创 2024-02-23 18:14:41 · 1096 阅读 · 0 评论 -
机器学习模型系列:岭回归、套索回归和弹性网络回归
正则化项惩罚系数的绝对值。将无关的值设为0。可能会在模型中删除太多特征。原创 2024-01-31 10:04:11 · 1948 阅读 · 0 评论 -
朴素贝叶斯算法和K近邻算法
例如,我们可以使用贝叶斯定理来通过考虑任何给定个体患病的可能性和测试的整体准确性来定义医学测试结果的准确性。K最近邻算法,也称为KNN或k-NN,是一种非参数的有监督学习分类器,它利用接近性来对个体数据点的分组进行分类或预测。假设我们想要预测一个位于类别-1标记的异常值和类别-2标记的训练点之间的点。K是一个超参数),代表我们的最近点。在一个社区中,90%的儿童因流感而生病,10%的儿童因麻疹而生病,没有其他疾病。如果我们需要计算一个新数据点的输出,我们找到最近的K个点,然后计算它们的平均值来得到输出值。原创 2024-01-30 09:22:31 · 882 阅读 · 0 评论 -
K-Means聚类和层次聚类
时,我们通常会先对数据集进行聚类。这涉及将聚类算法应用于将数据分组为两个或三个独立的群组。一旦我们有了这些群组,我们就可以对每个群组应用。原创 2024-01-30 09:20:15 · 2695 阅读 · 0 评论 -
机器学习模型系列:决策树算法原理
由此产生的类似流程图的结构是一个优秀的决策工具,因为它模拟了人类的思维方式。当你选择下一个特征为有风时,如果Outlook是晴天,选择下一个特征为湿度,如果Outlook是雨天,你将得到一个像这样的适当的决策树,具有纯分割和最小分割。但是你应该计算所有可能的路径上的信息增益值,并且确定给出最大信息增益值的特征。— 在步骤1中,我们计算了排序后X的前2个数字的平均值,分割数据集并计算预测值。以这种方式选择根节点,并将向左子节点和右子节点的数据点进一步递归地暴露给相同的算法以进行进一步分割。原创 2024-01-29 09:35:24 · 1110 阅读 · 0 评论 -
机器学习模型系列:随机森林的原理和示例介绍
让我们总结一下与其他监督式机器学习模型相比,随机森林的优缺点。优点在许多真实数据集上已知能提供高度准确的模型。通过结合多个决策树的预测,可以捕捉数据集中的复杂交互和模式。通过自动选择相关特征,可以有效处理高维数据集。与单个决策树相比,不容易过拟合。自助采样和每个节点的随机特征选择有助于减少过拟合并改善泛化能力。可以处理包括数值和分类特征在内的异构数据类型。可以处理缺失值而不需要填充。提供特征重要性的度量。集成中的树可以并行训练,因为每个决策树可以独立构建。模型的泛化误差具有理论上的界限。原创 2024-01-29 09:03:55 · 5323 阅读 · 2 评论