经典论文概览
文章平均质量分 94
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
论文高质量翻译:The Claude 3 Model Family: Opus, Sonnet, Haiku Claude 3 模型系列:Opus、Sonnet、Haiku 超越GPT4
我们介绍了 Claude 3,一个新的大型多模态模型系列——,我们最具能力的产品,,提供了技能和速度的结合,以及,我们速度最快、价格最实惠的模型。所有新模型都具有视觉能力,使其能够处理和分析图像数据。Claude 3 系列在基准评估中表现出色,并在推理、数学和编码等方面树立了新的标准。Claude 3 Opus 在 GPQA[1]、MMLU[2]、MMMU[3] 等评估中取得了最先进的结果。原创 2024-03-05 13:10:53 · 3335 阅读 · 0 评论 -
论文高质量中文翻译:Genie: Generative Interactive Environments Genie: 生成交互环境
关键词:生成人工智能,基础模型,世界模型,视频模型,开放性。原创 2024-02-26 23:55:45 · 1160 阅读 · 0 评论 -
论文高质量中文翻译:Scalable Diffusion Models with Transformers 可扩展的Transformer扩散模型
我们探索了一种基于Transformer架构的新型扩散模型。我们训练了基于图像的潜在扩散模型,将常用的U-Net骨干替换为在潜在补丁上操作的Transformer。我们通过Gflops衡量的前向传递复杂性的角度分析了我们的扩散Transformer(DiTs)的可扩展性。我们发现,具有更高Gflops的DiTs(通过增加Transformer的深度/宽度或增加输入令牌的数量)始终具有较低的FID。原创 2024-02-26 23:05:50 · 1077 阅读 · 0 评论 -
论文高质量中文翻译:YOLOv9: 使用可编程梯度信息学习您想要学习的内容
YOLOv9是一种使用可编程梯度信息(PGI)学习的目标检测系统。PGI包括主分支、辅助可逆分支和多级辅助信息。辅助可逆分支用于生成可靠的梯度并更新网络参数,以解决深度学习中的信息瓶颈问题。多级辅助信息用于聚合不同预测分支的梯度信息,以缓解深度监督中的信息丢失问题。此外,YOLOv9还使用了通用高效层聚合网络(GELAN)架构,结合了CSPNet和ELAN的设计,以实现轻量级、推理速度和准确性的平衡。实验结果表明,YOLOv9在各个方面都取得了优于现有方法的性能。原创 2024-02-26 19:11:25 · 1124 阅读 · 0 评论 -
论文高质量中文翻译:Learning a Decision Tree Algorithm with Transformers 使用Transformer学习决策树算法
决策树以其可解释性和高预测性能而闻名,尤其在表格数据上。传统上,决策树是通过递归算法构建的,在树的每个节点上对数据进行分割。然而,确定最佳分割是具有挑战性的,因为针对局部段优化的决策树可能无法带来全局泛化。为了解决这个问题,我们引入了MetaTree,它通过对经典算法的输出进行过滤来训练基于Transformer的模型,以生成强大的分类决策树。具体而言,我们在大量数据集上拟合贪婪决策树和优化决策树。然后,我们训练MetaTree生成达到强大泛化性能的决策树。原创 2024-02-24 18:03:02 · 1164 阅读 · 0 评论 -
高质量论文中文翻译:Lag-Llama: 朝向基础模型的概率时间序列预测 Lag-Llama: Towards Foundation Models for Probabilistic Time S
arXiv:2310.08278v3 [cs.LG] 2024年2月8日原始论文链接:https://arxiv.org/pdf/2310.08278在过去的几年中,基础模型由于其前所未有的零样本和少样本泛化能力,在机器学习领域引起了一场范式转变。然而,尽管基础模型在自然语言处理和计算机视觉等领域取得了成功,但是在时间序列预测方面,基础模型的发展却滞后了。我们提出了Lag-Llama,一种通用的基础模型,用于基于解码器的变压器架构的单变量概率时间序列预测,该模型使用滞后作为协变量。原创 2024-02-22 15:22:39 · 1828 阅读 · 0 评论 -
论文中文解析: Gemma: 基于 Gemini 研究和技术的开放模型 Gemma: Open Models Based on Gemini Research and Technology
**本研究介绍了 Gemma,一系列基于 Gemini 模型的轻量级、最先进的开放模型。Gemma 模型在语言理解、推理和安全性等学术基准上表现出色。我们发布了两个规模的模型(20亿和70亿参数),并提供了预训练和微调的检查点。Gemma 在18个基于文本的任务中有11个超过了类似规模的开放模型,并且我们对模型的安全性和责任性进行了全面评估,同时详细描述了模型的开发过程。我们认为负责任地发布语言模型对于提高前沿模型的安全性、推动下一波语言模型创新至关重要。**原创 2024-02-22 12:35:27 · 1930 阅读 · 0 评论 -
经典论文概览:大模型系列论文_BloombergGPT
继Brown等人(2020)之后,我们希望我们所有的训练 训练序列的长度完全相同,在我们的例子中是2,048个标记,以最大化GPU的利用率。每篇新闻都带有以下标签的一个子集:"价格或不"、"价格上涨"、"价格下跌"、"价格 稳定"、"过去的价格"、"未来的价格"、"过去的一般"、"未来的一般"、"资产比较"。为了训练BLOOMBERGGPT,我们构建了 "FINPILE",这是一个全面的数据集,由一系列英 文金融文件组成,包括新闻、文件、新闻稿、网络抓取的金融文件,以及从彭博档案中提取 的社交媒体。原创 2023-04-20 13:49:24 · 670 阅读 · 0 评论