前沿论文解读
文章平均质量分 94
以深度学习、深度学习论文为主
yumuing blog
学习中
展开
-
AI Scientist:不到15,自动写完毕业论文,强大的论文写作工具
几十年来,每次AI取得重大进展后,研究人员经常开玩笑说:“是时候研究让AI帮我们写论文了”。现在,这个想法终于从玩笑变成现实。不到 15 美元,你就可以拥有一篇高质量的毕业论文。这不再是遥不可及的梦想,而是切实可行的现实。这是最近开源的“AI Scientist”系统所能带来的独特魅力,称得上AI论文工厂。而且,这公司搞的事情不只是做出了一位AI科学家,还额外搞出了个AI审稿人。原创 2024-08-24 17:39:38 · 902 阅读 · 0 评论 -
解码 WayveScenes101 数据集:自动驾驶独角兽Wayve背后的超级引擎
自动驾驶独角兽Wayve 开源 WayveScenes101 数据集啦!101 个高度多样化的真实动态驾驶场景,包含丰富路况与细粒度模型评估的场景级属性,它会成为自动驾驶的神奇魔法棒,加速自动驾驶的普及,准备好和它一起出发了吗?最近,武汉的萝卜快跑可成了热门话题!你知道吗,萝卜快跑是一款自动驾驶出行服务平台,它在武汉的道路上穿梭,为人们提供着便捷的出行体验。但是,自动驾驶可没那么简单,其中一个关键技术就是新颖视角合成。WayveScenes101数据集助推了该领域的快速发展。原创 2024-07-12 22:23:57 · 1027 阅读 · 0 评论 -
【论文解读】AGENTLESS:揭开LLM软件工程助手的神秘面纱,重塑软件工程自动化新基线
大型语言模型(LLM)的最新进展显著推进了软件开发任务的自动化,包括代码合成、程序修复和测试生成。据此提出一种自动解决软件开发问题的无代理方法:更简化且无需复杂工具设计或自主决策规划的高性能方案,将有助于重置自治软件代理的基线、起点和视野,并激发未来朝着这一关键方向开展工作。原创 2024-07-06 22:06:13 · 1236 阅读 · 0 评论 -
LivePortrait:让人脸动起来的魔法秀|可灵(快手)
想让人脸动起来吗?LivePortrait来啦!它能把静态肖像变成生动动画,速度超快,质量超高!还有特别模块,让你轻松控制效果。快来体验,让你的个人照焕发神奇魅力!原创 2024-07-06 21:32:20 · 1400 阅读 · 0 评论 -
TextGrad:即插即用 LLM 自动优化框架,提高各专业文本领域零样本准确率
TEXTGRAD成功地展示了通过文本反馈进行复合AI系统优化的能力,不仅提升了模型性能,还降低了运行成本。它为复杂AI系统的自动化优化提供了一种新的、有效的途径,证明了自然语言作为优化媒介的有效性和潜力。原创 2024-06-29 20:58:38 · 1213 阅读 · 0 评论 -
LangGPT:高质量提示词框架
研究团队开发了一种名为LangGPT的框架,旨在为大型语言模型(LLMs)提供结构化且可重用的提示设计方法。LangGPT的设计灵感来源于编程语言的结构化特性,以解决非AI专家在为LLMs设计高效指令时面临的挑战。该框架通过定义一套标准模块和基本元素,以及扩展模块和自定义元素,提升了提示设计的通用性和复用性。原创 2024-06-28 21:16:31 · 1371 阅读 · 0 评论 -
ExVideo: 提升5倍性能-用于视频合成模型的新型后调谐方法
该研究的核心在于开发了一种创新的后调优方法——ExVideo,它致力于克服当前视频扩散模型在生成长时间视频方面的限制。ExVideo的设计目标是增强现有模型的功能,使之在不大幅增加训练成本的前提下,能够输出更长的视频序列。原创 2024-06-28 20:57:03 · 1099 阅读 · 0 评论 -
Depth Anything V2:抖音开源高性能任何单目图像深度估计V2版本,并开放具有精确注释和多样化场景的多功能评估基准
实现了一种名为“深度任意物V2”的单目深度估计算法,旨在通过三个关键实践:使用合成图像代替真实标记图、增加教师模型容量以及通过大规模伪标记的真实图像教授学生模型等方法,提高深度预测精度和鲁棒性。与基于Stable Diffusion的最新模型相比,该算法更加高效(比其快10倍以上)且准确度更高。原创 2024-06-22 16:49:42 · 1911 阅读 · 0 评论 -
MCT Self-Refine:创新集成蒙特卡洛树搜索 (MCTS)提高复杂数学推理任务的性能,超GPT4,使用 LLaMa-3 8B 进行自我优化
本文介绍了一种名为MCTSelf-Refine(MCTSr)的新算法,它将大型语言模型(LLMs)与蒙特卡罗树搜索(MCTS)相结合,旨在提高复杂数学推理任务的表现。该算法通过选择、自我修正、自我评估和反向传播等迭代过程构建一个蒙特卡罗搜索树,并利用改进后的上置信界公式优化探索和开发之间的平衡。原创 2024-06-22 10:04:29 · 1405 阅读 · 0 评论 -
自回归模型胜过扩散模型:用于可扩展图像生成的 Llama
将大型语言模型(LLMs)的“下一个令牌预测”范式应用于视觉生成领域。LlamaGen探索了是否未经视觉信号归纳偏置调整的原始自回归模型,如Llama,通过适当扩展后能实现顶尖的图像生成性能。研究重新审视了图像分块器的设计空间、图像生成模型的可扩展性属性以及训练数据质量。原创 2024-06-21 16:02:51 · 997 阅读 · 0 评论 -
X-LoRA:高效微调 LoRA 系列,实现不同领域知识专家混合模型
X-LoRA框架的提出是一个重大的创新,它为大型语言模型的适应性和扩展性开辟了新的路径。其能够动态混合不同领域的专家知识,为解决复杂、跨学科问题提供了强大的工具。原创 2024-06-21 13:25:32 · 1396 阅读 · 0 评论 -
Samba:用于高效无限上下文语言建模的简单混合状态空间模型
研究成功地开发了一种在理论上和实践中都表现出色的混合模型,SAMBA通过巧妙结合不同的建模方法,解决了无限上下文建模的效率与能力问题。其在处理超长序列时的性能提升尤为引人注目,同时也展示了在不同任务上的广泛适用性和优越性。然而,对于替代组件表现不佳的原因以及如何进一步优化混合架构的内部平衡,仍有待深入探究。未来工作可考虑如何更好地整合不同模块,比如理解SC为何在某些情况下导致负面效果,并探索如何最大化利用每个组件的优势。原创 2024-06-20 12:02:13 · 1240 阅读 · 0 评论 -
MeshAnything:艺术家级别的自回归3D网格生成
MeshAnything是一项突破性的研究,它通过创新地将网格提取视为一个生成问题,成功地缩小了自动生产与手工创建3D资产之间的差距。该模型不仅提升了网格的拓扑效率,降低了存储和处理成本,还通过灵活的兼容性为3D行业带来了广泛的应用潜力。尽管存在一些局限性,如对复杂对象处理的局限和稳定性问题,但MeshAnything无疑为3D内容创造开辟了新的可能,有望在游戏、电影及元宇宙等领域引发生产效率的革命。未来的研究可进一步探索提高模型稳定性和扩大适用范围的方法。原创 2024-06-20 10:33:07 · 1560 阅读 · 0 评论 -
LLaVA UHD:一种可感知任意纵横比和高分辨率图像的LMM
(1)一种图像模块化策略,将原生分辨率图像划分为更小的可变大小切片,以实现高效和可扩展的编码,(2)一个压缩模块,进一步压缩来自视觉编码器的图像标记,以及(3)一个空间模式,用于组织LLM的切片标记。 综合实验表明,LLaVA-UHD的性能优于已建立的LMM,在9个基准测试中训练了2-3个数量级的数据。原创 2024-05-23 15:20:34 · 1148 阅读 · 0 评论