人工智能_人工智能大模型讲师培训咨询叶梓的博客-CSDN博客

人工智能

关注

文章平均质量分 91

分享人工智能前沿知识

关注数：文章数：146 文章阅读量：154439 文章收藏量：2708

作者: 人工智能大模型讲师培训咨询叶梓

叶梓老师，长期负责城市信息化智能平台的建设工作，牵头多个省级、市级智能化信息系统的建设，主持设计并搭建多个行业省级、市级大数据平台。人工智能相关的培训和咨询qq526346584

展开

探索大型多模态智能代理的前沿进展

人工智能咨询培训老师叶梓转载标明出处在人工智能领域，代理被定义为能够感知环境并基于这些感知做出决策以实现特定目标的系统。尽管早期的代理在特定领域表现出了专业性，但它们通常缺乏适应性和泛化能力，现实世界的场景往往涉及超出文本的多种信息模态，特别是视觉信息。为了使这些代理能够处理更复杂和微妙的任务，研究者们开始将这些基于LLM的代理扩展到多模态领域。

原创 2024-07-23 19:30:00 · 560 阅读 · 0 评论
AgentMD：通过大规模临床工具学习提升语言代理的风险预测能力

临床计算器在医疗保健中扮演着至关重要的角色，它们通过提供准确的基于证据的预测来辅助临床医生进行诊断和预后评估。然而，由于可用性挑战、传播不畅和功能受限，这些工具的广泛应用常常受限。为了克服这些障碍并提高工作效率，来自美国国立卫生研究院（NIH）、马里兰大学、耶鲁大学和佛罗里达州立大学的研究团队提出了AgentMD，这是一种新型语言代理，能够跨不同临床情境整理和应用临床计算器。

原创 2024-07-23 12:45:00 · 564 阅读 · 0 评论
ReadAgent，一款具有要点记忆的人工智能阅读代理

ReadAgent的工作流程，包括分页、主旨压缩和交互式查找Figure 1展示了 ReadAgent 的工作流程，这是一个模仿人类阅读习惯设计的系统，旨在有效处理和理解长文本。分页（Episode Pagination）：系统将长文本分解为一系列较小的、逻辑上连贯的文本块，即“剧集”，类似于将一本书分成多个章节。要点压缩（Gisting）：对每个文本块进行压缩，提取其核心要点，形成简洁的要点记忆，这有助于快速把握文本的主旨。交互式查找（Interactive Look-Up）

原创 2024-07-22 14:34:25 · 875 阅读 · 0 评论
交互式智能代理基础模型：迈向通用人工智能的新途径

传统的AI系统主要集中在收集有用的感官信息上，而新一代的通用AI系统不仅要能够理解环境，还要能够以有意义的方式与之交互。交互式智能代理基础模型代表了开发具有跨任务和数据模态单一神经模型训练能力的通用AI系统的重要一步，这种方法在数据、计算和模型参数方面具有高度的可扩展性。

原创 2024-07-21 13:15:00 · 596 阅读 · 0 评论
POK´ELLMON：在宝可梦战斗中实现人类水平的人工智能

最近，由美国乔治亚理工学院的Sihao Hu、Tiansheng Huang和Ling Liu发表的论文介绍了POK´ELLMON，这是一个开创性的基于大模型（LLM）的具身智能体，它在战术战斗游戏中，特别是宝可梦战斗中，实现了与人类相媲美的表现。这标志着人工智能在与虚拟环境互动方面的能力有了显著提升，这种互动方式与人类行为非常相似。

原创 2024-07-20 17:45:00 · 568 阅读 · 0 评论
SwarmBrain: 通过大模型玩实时战略游戏《星际争霸II》

人工智能咨询培训老师叶梓转载标明出处实时战略（RTS）游戏如《星际争霸II》一直被视为测试和提升AI能力的绝佳平台。尽管基于强化学习（RL）的AI代理在《星际争霸II》中取得了显著进展，但它们在处理复杂环境时仍面临挑战。LLMs以其高层次的抽象能力和对复杂情境的理解能力，为AI代理提供了更全面的战场视角，从而可能提高其在复杂场景中的表现和适应性。最近，来自宝马诚迈公司的研究团队在各种探索性任务中取得了显著成就，甚至超越了传统基于强化学习的方法。

原创 2024-07-20 11:15:00 · 892 阅读 · 0 评论
Formal-LLM：使LLM代理的计划生成过程更可控

由于LLM生成内容的过程难以控制，导致生成的计划经常无效或无法执行，这不仅影响了计划的性能，还损害了用户对LLM代理的信任。为了提高代理的性能和用户信任度，控制LLM文本生成的尝试不断涌现，例如引入硬约束和软约束。然而，这些方法在控制LLM代理时更注重计划的有效性和工具使用，而不是纯粹的文本生成。来自罗格斯大学的研究团队提出了一个名为“Formal-LLM”的新框架，通过整合自然语言的表达力和形式语言的精确性，使LLM代理的计划生成过程更加可控。

原创 2024-07-19 19:45:00 · 981 阅读 · 0 评论
ReplaceAnything3D: 文本引导的3D场景编辑技术

人工智能咨询培训老师叶梓转载标明出处尽管在3D重建和生成方面取得了显著进展，但3D编辑仍然是一个较少研究的领域。来自伦敦大学学院、Alan Turing 研究所和 Meta 的研究团队提出了一种名为ReplaceAnything3D（RAM3D）的新型文本引导的3D场景编辑方法，该方法能够实现场景中特定对象的替换。RAM3D模型通过自然语言提示从用户那里替换场景中当前的对象为新内容。比如戴上VR头盔并尝试重新设计自己的客厅。

原创 2024-07-19 12:45:00 · 882 阅读 · 0 评论
3D生成技术的最新进展综述

自动生成3D模型一直是计算机视觉和图形学中的一个重要任务。随着神经表示和生成模型的进步，3D内容生成领域迅速发展，能够创建出越来越高质量的多样化3D模型。本文综述了3D生成技术的最新进展，涵盖了3D表示、生成方法、数据集以及相关应用。通过对这些技术的系统性总结，本文旨在为读者提供一个全面的3D生成框架和其基本原理的快速理解，并帮助研究人员在特定领域快速识别相关工作，促进3D内容生成领域的进一步发展。

原创 2024-07-18 19:45:00 · 658 阅读 · 0 评论
探索生成式人工智能辅助编程：GPT-4与GLM-4的比较研究

人工智能咨询培训老师叶梓转载标明出处生成式人工智能（GenAI）在软件开发领域的应用标志着自动化和创新的新时代。自2022年11月ChatGPT 3.5和2023年3月GPT-4的发布以来，GenAI的基础模型能力和应用领域都取得了显著进步。然而，将GenAI整合到编程实践中并非没有挑战。来自悉尼大学、深兰科技（上海）、中国创造学会和上海交通大学的研究团队通过比较GPT-4和GLM-4，旨在探索利用GenAI作为编程工具的最佳实践。

原创 2024-07-18 12:45:00 · 851 阅读 · 0 评论
RoboCodeX：机器人行为合成的多模态代码生成

尽管在应用大型语言模型进行高层次理解方面取得了成功，但将这些概念性理解转化为详细的机器人动作，同时在不同场景中实现泛化，仍然是一个挑战。本文提出了一个名为RoboCodeX的树状结构多模态代码生成框架，旨在通过代码生成引入跨不同机器人平台的泛化能力。RoboCodeX框架由香港大学、上海AI实验室和其他几个学术机构共同开发。该框架的核心是将高级人类指令分解为以对象为中心的多个操作单元，每个单元都包含物理偏好和安全约束。

原创 2024-07-17 19:45:00 · 918 阅读 · 0 评论
Debatrix：基于大型语言模型的多角度辩论评审系统

在辩论比赛中，评判辩论并非易事，它涉及到对长篇文本的理解、复杂论证关系的把握以及多维度的评估。然而，现有的研究多集中于短对话，鲜少关注对整个辩论过程的评价。本文提出了一个名为Debatrix的系统，它利用大型语言模型（LLMs）进行多轮辩论的分析和评估，以更好地符合多数人的偏好。

原创 2024-07-17 12:45:00 · 781 阅读 · 0 评论
SongComposer：让大模型像人类一样具有音乐创作力

大模型在翻译、复杂语言环境中的推理等任务中展现出了人类级别的能力。这引发了一个问题：这些模型能否在更具情感、抽象性以及需要专业技能的领域中，如音乐创作，展现出人类的创造力呢？香港中文大学、北京航空航天大学和上海人工智能实验室的研究团队的最新研究 "SongComposer" 给出了肯定的答案，这是一个专为歌曲创作设计的创新性大型语言模型，它能够理解并生成旋律和歌词，为音乐产业带来新的变革。

原创 2024-07-16 18:02:17 · 775 阅读 · 0 评论
【YOLO性能对比试验】YOLOv9c/v8n/v6n/v5n的训练结果对比及结论参考

通过整合 PGI 和多功能 GELAN 架构，YOLOv9 不仅增强了模型的学习能力，还确保了在整个检测过程中保留关键信息，从而实现了卓越的准确性和性能。本文主要是针对YOLOv9c/v8n/v6n/v5n这4种模型，在自己的某烟雾目标检测数据集上进行了训练对比实验，并得出了一些参考性的结论，供小伙伴们参考学习。注：本文训练结果得出的试验结论仅供参考，并不能一概而论，不同数据集的训练结果也可能会不一样。注：本文训练结果得出的试验结论仅供参考，并不能一概而论，不同数据集的训练结果可能也会不一样。

转载 2024-07-16 14:44:58 · 300 阅读 · 0 评论
Github2.1万星！开发者的“瑞士军刀” 开源！

DevToys 是一个专为开发者设计的实用工具集，它集合了多种开发中常用的功能，如JSON格式化、文本比较、正则表达式测试等，旨在帮助开发者提高编程效率。它汇集了许多有用的工具和功能，这些工具和功能在软件开发和编程中经常被使用。1. 集成工具箱：DevToys 提供了一系列集成工具，包括编码助手、格式转换器、文本处理工具等，这些工具在软件开发的不同阶段都非常有用。DevToys 是一个旨在简化开发人员工作的工具集，通过提供一系列实用的工具和功能，帮助开发者提高效率，减少重复性工作。

转载 2024-07-15 22:03:11 · 299 阅读 · 0 评论
Snap Video：用于文本到视频合成的扩展时空变换器

图像生成模型的质量和多功能性的显著提升，研究界开始将其应用于视频生成领域。但是视频内容高度冗余，直接将图像模型技术应用于视频生成可能会降低运动的保真度和视觉质量，并影响可扩展性。来自 Snap 的研究团队及其合作者提出了 "Snap Video"，这是一个以视频为中心的模型，系统地解决了这些挑战。它扩展了EDM（Energetic Diffusion Model）框架，以考虑空间和时间冗余像素，并自然支持视频生成。另外，由于U-Net在生成视频时扩展性差，需要显著的计算开销。

原创 2024-07-13 11:00:00 · 985 阅读 · 0 评论
Customize-A-Video：文生视频自由定制

视频领域，尤其是文本到视频（T2V）扩散模型中的动作定制，尚未得到充分研究。来自马里兰大学、Adobe Research 和延世大学的研究团队提出了一种名为“Customize-A-Video”的新方法，本方法通过单一参考视频对动作进行建模，并将其适应到具有空间和时间变化的新主体和场景中。本方法利用时间注意力层上的低秩适应（LoRA）技术，定制预训练的T2V扩散模型，以实现特定动作的建模。

原创 2024-07-12 19:45:00 · 1050 阅读 · 0 评论
InteractiveVideo：以用户为中心的可控视频生成技术

视频生成技术逐渐成为研究的热点。最近，一项名为“InteractiveVideo”的新技术框架由香港中文大学多媒体实验室、北京理工大学以及腾讯AI实验室的研究人员共同开发，旨在通过多模态指令实现用户中心的可控视频生成。与传统的视频生成方法不同，它不是单纯依赖用户提供的图像或文本，而是允许用户在视频生成过程中通过直观的机制（如文本和图像提示、绘画、拖放等）与生成模型进行动态交互。这种设计使用户能够通过精确有效的指令进行迭代和细粒度的生成结果优化，从而满足用户对视频内容的特定要求。

原创 2024-07-12 12:45:00 · 804 阅读 · 0 评论
Direct-a-Video：用户导向的定制化视频生成技术

传统的文本到图像（Text-to-Image, T2I）扩散模型在图像生成和编辑方面展现出了惊人的质量和多样性。随着技术的发展，文本到视频（T2V）扩散模型应运而生，它们通常通过在预训练的T2I模型基础上增加时间层来实现视频的生成和编辑。然而，现有方法在支持用户定义的摄像机运动和对象运动控制方面存在不足，限制了视频运动控制的灵活性。本文介绍了“Direct-a-Video”，这是一套全新的文本到视频生成框架，它允许用户独立指定一个或多个对象的运动和/或摄像机运动，实现了仿佛在导演视频般的个性化视频创作体验。

原创 2024-07-11 19:45:00 · 931 阅读 · 0 评论
AnimateLCM：高效生成连贯真实的视频

视频扩散模型因其能够生成连贯且高保真的视频而日益受到关注。然而，迭代去噪过程使得这类模型计算密集且耗时，限制了其应用范围。香港中文大学 MMLab、Avolution AI、上海人工智能实验室和商汤科技公司的研究团队提出了AnimateLCM，这是一种允许在最少步骤内生成高保真视频的方法。AnimateLCM采用了一种解耦的一致性学习策略，将图像生成先验和运动生成先验的蒸馏分开处理，从而提高训练效率并增强生成的视觉质量。

原创 2024-07-10 19:45:00 · 901 阅读 · 0 评论
Sora模型：释放创意产业文本到视频AI的潜力

随着人工智能技术的飞速发展，大型视觉模型（Large Vision Models, LVMs）在模拟现实世界和创造性内容生成方面展现出巨大潜力。本文综述了由OpenAI于2024年2月发布的文本到视频生成AI模型——Sora的技术背景、相关技术、应用领域、现存挑战和未来发展机遇。

原创 2024-07-10 12:45:00 · 1107 阅读 · 0 评论
Gen4Gen：多概念个性化图像生成的数据驱动革新

个性化文本到图像生成模型在用户控制生成过程方面取得了重要进展。这些模型能够通过少量训练样本学习并合成包含新颖个性化概念的图像，例如用户的宠物或特定物品。然而，现有技术在处理多概念个性化时存在局限性，尤其是在生成包含多个相似概念的复杂场景时。来自加州大学戴维斯分校的研究团队及其合作者提出了Gen4Gen，一个半自动化的数据集创建管道，它利用生成模型将个性化概念组合成具有复杂构成的真实场景，并配以详细的文本描述，形成了MyCanvas数据集。

原创 2024-07-09 19:45:00 · 1593 阅读 · 0 评论
Phospho：LLM应用的文本分析利器

今天向大家介绍phospho文本分析平台，专门为大型语言模型（LLM）应用程序设计。它可以帮助开发者从用户或应用程序的文本消息中检测问题、提取洞见、收集用户反馈，并衡量成功。作为一个开源项目，phospho允许开发者查看和修改源代码，以满足特定的需求。

原创 2024-07-09 16:45:00 · 620 阅读 · 0 评论
文本到图像的革新：自动化Prompt优化的UF-FGTG框架

在文本到图像合成领域，已经能够由文本描述直接生成图像。然而，尽管这一技术带来了无限的可能性，它仍然面临着一个关键挑战：如何设计出能够引导模型生成高质量图像的提示（prompts）。尤其是对于初学者而言，他们可能缺乏必要的经验和对关键词的熟悉度，难以手动输入能够满足模型要求的提示，而且用户输入的提示和模型训练时使用的提示之间存在差异。这种用户输入的提示与模型偏好的提示之间存在的差异，常常导致生成的图像与预期效果有所偏差。

原创 2024-07-08 21:30:00 · 1022 阅读 · 0 评论
知识图谱驱动的深度推理：ToG算法的创新与应用

LLMs通过预训练技术在大量文本语料库上生成连贯且符合上下文的响应。然而，面对需要复杂知识推理的任务时，它们存在明显的局限性。这些问题包括对超出预训练阶段的专业知识的准确回答失败，以及缺乏责任性、可解释性和透明度。为了解决这些问题，研究者们提出了将外部知识图谱（KG）引入LLM推理的新范式。本论文提出了一种名为“Think-on-Graph”（ToG）的新方法，该方法将LLM视为在知识图谱上交互探索相关实体和关系的代理，并基于检索到的知识执行推理。

原创 2024-07-08 13:36:00 · 983 阅读 · 0 评论
MuLan：模仿人类画家的多对象图像生成

在图像生成领域，处理包含多个对象及其空间关系、相对大小、重叠和属性绑定的复杂提示时，现有的文本到图像模型仍面临挑战：当文本提示中包含多个对象，并且这些对象之间存在特定的空间关系时，现有模型往往难以准确地捕捉和表现这些复杂的场景。例如，假设有一个文本提示是“一个橙色的南瓜放在黑色的门的右边”。对于这样的提示，现有的文本到图像（T2I）模型可能无法正确地将南瓜和门的相对位置以及属性（如颜色）表现出来。

原创 2024-07-07 19:45:00 · 890 阅读 · 0 评论
从文本到安全图像：自动提示优化防止不当内容生成

T2I生成技术已经得到了广泛关注，并见证了如GLIDE、Imagen、DALL-E 2、Stable Diffusion等大型生成模型的发展。尽管这些模型能够根据文本描述生成高质量的图像，促进了书籍插图、品牌标识设计、游戏场景创作等多种实际应用，但它们也被恶意用户用于生成不安全内容。尽管在开发阶段通过过滤训练数据或鲁棒学习等方法使T2I模型能够生成安全内容，但最近的研究表明，T2I模型仍然容易受到提示扰动的影响，从而生成不适当的内容。

原创 2024-07-06 19:45:00 · 893 阅读 · 0 评论
SPIN-Diffusion：自我博弈微调提升文本到图像扩散模型性能

扩散模型作为生成AI的关键实体，已经在多个领域展现出了卓越的能力。然而，现有的扩散模型，如Stable Diffusion和SDXL，通常在预训练阶段后需要进行微调以更好地符合人类偏好。最近，研究者们开始尝试使用强化学习（RL）来微调扩散模型，但这通常需要每个文本提示至少有两个图像（“胜者”和“败者”）。为了解决这一问题，来自加州大学洛杉矶分校的研究团队提出了一种扩散模型自我博弈微调（SPIN-Diffusion），允许扩散模型与其早期版本进行竞争，从而实现自我迭代改进。

原创 2024-07-06 13:15:00 · 899 阅读 · 0 评论
Motion Guidance: 扩散模型实现图像精确编辑的创新方法

在深度学习领域，扩散模型（diffusion models）因其能够根据文本描述生成高质量图像而备受关注。然而，这些模型在精确编辑图像中对象的布局、位置、姿态和形状方面仍存在挑战。本文提出了一种名为“运动引导”（motion guidance）的零样本技术，允许用户指定密集的复杂运动场，以指示图像中每个像素的移动方向。通过结合现成的光流网络，运动引导通过梯度引导扩散采样过程，实现对图像的精确编辑。

原创 2024-07-05 19:15:00 · 652 阅读 · 0 评论
SEELE框架：图像中主体重定位的创新方法

现有的图像编辑工具多集中于静态调整，如替换图像中的特定区域或改变整体风格，对于动态调整——特别是图像中主体的位置变化则显得力不从心。这种局限性激发了对更加先进和灵活的图像编辑技术的探索。复旦大学数据科学学院的研究团队提出了一种名为SEELE的框架，用于实现图像中主体的动态重定位。SEELE框架通过统一的提示引导修复过程，使用单一的扩散模型有效处理主体移除、完成和协调等子任务，为图像编辑带来了新的可能性。

原创 2024-07-05 12:45:00 · 965 阅读 · 0 评论
ConsiStory：无需训练的一致性文本到图像生成技术

随着大规模文本到图像（T2I）扩散模型的发展，用户可以更自由地通过文本指导图像生成过程。然而，要在不同的提示中保持同一主题的视觉一致性仍然是一个挑战。现有的方法通常需要对模型进行微调或预训练，以教授新词汇来描述特定用户提供的主题，这不仅耗时耗力，而且在生成图像与文本提示的对齐以及描绘多个主题时存在困难。本文提出了一种无需训练的方法ConsiStory，它通过共享预训练模型的内部激活来实现一致性主题生成，不涉及任何优化或预训练步骤。

原创 2024-07-04 19:15:00 · 677 阅读 · 0 评论
MobileDiffusion：移动设备上亚秒级文本到图像生成

文本到图像扩散模型在生成高质量图像方面具有卓越的能力，这些模型是多种应用的基础，包括图像编辑、控制生成、个性化内容生成、视频合成和低级视觉任务等。然而，这些大规模模型通常需要在具有强大神经计算单元的服务器上运行，在移动设备上部署大规模文本到图像扩散模型受到模型尺寸大和推理速度慢的限制。为了克服这些限制，谷歌的研究者团队提出了MobileDiffusion，这是一种经过全面架构和采样技术优化的高效率文本到图像扩散模型。

原创 2024-07-04 12:45:00 · 906 阅读 · 0 评论
多模态图像生成的突破：Image Anything一种无需训练的智能框架

多模态图像生成是内容创作领域的热点技术，尤其在媒体、艺术和元宇宙等领域。该技术旨在模拟人类的想象力，将视觉、文本和音频等多种模态属性相关联，以生成图像。早期的方法主要侧重于单一模态输入的图像生成，例如基于图像、文本或音频的生成。这些方法在处理现实世界中更复杂的模态输入时受到限制。香港科技大学（广州）的研究团队提出了一种名为ImgAny的新型多模态图像生成框架。这一框架无需训练，能够从语言、音频到视觉等多种模态中生成高质量图像，包括图像、点云、热成像、深度和事件数据等。

原创 2024-07-03 19:15:00 · 1165 阅读 · 0 评论
OpenELM：开启开放训练和推理框架的高效语言模型家族

随着大模型模型规模的增长，这些强大工具的透明度、可复现性和对数据偏见的敏感性也引起了人们的关注。这些问题不仅关系到研究的开放性和公平性，也关系到模型输出的可信度和安全性。为了应对这些挑战，Apple的研究团队发布了名为OpenELM的新一代开放语言模型。OpenELM采用了层级缩放策略，优化了变换器模型中每层的参数分配，从而提升了模型的准确性。例如，在大约十亿参数的预算下，OpenELM在准确性上比现有的开放语言模型OLMo提高了2.36%，同时所需的预训练数据减少了一倍。

原创 2024-07-03 12:45:00 · 1616 阅读 · 0 评论
Tele-FLM：开源多语言大型语言模型技术报告

随着模型规模的不断扩大，如何高效地训练并优化这些拥有超过500亿参数的庞大模型，同时降低试错成本和计算资源消耗，成为了一个亟待解决的问题。北京智源人工智能研究院、中国电信的研究团队及其合作者提出Tele-FLM模型：一个52亿参数的开源多语言大型语言模型，它不仅在技术上实现了这一规模模型的稳定和高效预训练，还在事实判断能力上进行了增强。更重要的是，Tele-FLM展示了在多语言环境下的卓越性能，为解决上述问题提供了一种创新的解决方案。

原创 2024-07-02 12:45:00 · 1001 阅读 · 0 评论
解析 Ferret-UI：多模态大模型在移动用户界面理解中的应用

移动应用的爆炸性增长，用户界面（UI）的设计越来越复杂，功能也越来越丰富。但现有的多模态大模型（MLLMs）在理解用户界面时存在局限，尤其是在处理具有特定分辨率和包含众多小型对象（如图标、文本）的移动 UI 屏幕时。这些模型通常难以准确识别和操作界面上的特定元素，也难以执行基于自然语言指令的复杂任务。苹果团队提出的Ferret-UI，正是为了解决这一问题而设计的。它是一款专门针对移动 UI 屏幕理解而优化的 MLLM，具备强大的引用、定位和推理能力。

原创 2024-07-01 19:30:00 · 1495 阅读 · 2 评论
自动驾驶新篇章：基于大模型的协作驾驶与终身学习框架

自动驾驶技术受到了学术界和工业界的广泛关注，但当前的自动驾驶系统大多基于数据驱动的方法，存在可解释性、泛化能力和持续学习能力方面的显著不足。而且单车自动驾驶系统缺乏与其他车辆协作和协商的能力，这对于提高驾驶安全性和效率至关重要。为了有效解决这些问题，本研究利用大型语言模型（LLMs）开发了一种新的框架——AGENTSCODRIVER，相较于传统依赖数据驱动的方法，AGENTSCODRIVER能够实现多车之间的协同驾驶，通过车辆间的沟通与协作，提高交通效率和安全性。

原创 2024-07-01 13:15:00 · 1062 阅读 · 0 评论
引入基于图的增强框架实现大模型的可控文本生成

尽管LLMs能够生成丰富多样的文本，但它们在生成特定属性文本时仍面临挑战。例如，如何确保生成的文本不仅语言流畅、语义准确，同时还具有所需的情感色彩或避免包含不当内容，是一个亟待解决的问题。传统的可控文本生成（CTG）方法通常通过小型语言模型来影响大型模型的解码过程，以实现对文本属性的控制。但这种方法存在局限性，它可能会损害大型模型的生成质量和文本的多样性。而且过度依赖小型模型进行控制可能会削弱大型模型在推理和解码阶段的原始性能，限制了其作为复杂生成模型的潜力。

原创 2024-06-27 12:07:36 · 1092 阅读 · 0 评论
多模态语言模型的新突破：Reka Core、Flash和Edge系列

人工智能领域的每一次技术革新都可能引领一场行业的变革，特别是在自然语言处理（NLP）领域，多模态语言模型（MLMs）正逐渐成为推动智能系统发展的核心力量。Reka团队最新推出的Reka Core、Flash和Edge系列模型，正是这样一场技术革新的代表。这些模型以其卓越的性能和独特的优势，在多模态理解和推理任务中展现出了前所未有的潜力。Reka系列模型能够同时处理和推理文本、图像、视频和音频输入，这种跨模态的理解能力为复杂场景下的信息处理提供了强大的支持。

原创 2024-06-28 19:45:00 · 808 阅读 · 0 评论
智能网络构建：探索大模型在网络领域的应用

文章探讨了LLMs在网络设计、配置、诊断和安全方面的最新进展，并指出了智能规划、多模态数据理解、网络特定LLM构建、工具自主利用、可靠性与安全性以及效率和实时性能等挑战。总结了研究的主要发现，并对未来的研究方向提出了展望，旨在推动LLMs与网络技术的深度融合。

原创 2024-06-28 12:45:00 · 1104 阅读 · 0 评论

人工智能

作者: 人工智能大模型讲师培训咨询叶梓

探索大型多模态智能代理的前沿进展

AgentMD：通过大规模临床工具学习提升语言代理的风险预测能力

ReadAgent，一款具有要点记忆的人工智能阅读代理

交互式智能代理基础模型：迈向通用人工智能的新途径

POK´ELLMON：在宝可梦战斗中实现人类水平的人工智能

SwarmBrain: 通过大模型玩实时战略游戏《星际争霸II》

Formal-LLM：使LLM代理的计划生成过程更可控

ReplaceAnything3D: 文本引导的3D场景编辑技术

3D生成技术的最新进展综述

探索生成式人工智能辅助编程：GPT-4与GLM-4的比较研究

RoboCodeX：机器人行为合成的多模态代码生成

Debatrix：基于大型语言模型的多角度辩论评审系统

SongComposer：让大模型像人类一样具有音乐创作力

【YOLO性能对比试验】YOLOv9c/v8n/v6n/v5n的训练结果对比及结论参考

Github2.1万星！开发者的“瑞士军刀” 开源！

Snap Video：用于文本到视频合成的扩展时空变换器

Customize-A-Video：文生视频自由定制

InteractiveVideo：以用户为中心的可控视频生成技术

Direct-a-Video：用户导向的定制化视频生成技术

AnimateLCM：高效生成连贯真实的视频

Sora模型：释放创意产业文本到视频AI的潜力

Gen4Gen：多概念个性化图像生成的数据驱动革新

Phospho：LLM应用的文本分析利器

文本到图像的革新：自动化Prompt优化的UF-FGTG框架

知识图谱驱动的深度推理：ToG算法的创新与应用

MuLan：模仿人类画家的多对象图像生成

从文本到安全图像：自动提示优化防止不当内容生成

SPIN-Diffusion：自我博弈微调提升文本到图像扩散模型性能

Motion Guidance: 扩散模型实现图像精确编辑的创新方法

SEELE框架：图像中主体重定位的创新方法

ConsiStory：无需训练的一致性文本到图像生成技术

MobileDiffusion：移动设备上亚秒级文本到图像生成

多模态图像生成的突破：Image Anything一种无需训练的智能框架

OpenELM：开启开放训练和推理框架的高效语言模型家族

Tele-FLM：开源多语言大型语言模型技术报告

解析 Ferret-UI：多模态大模型在移动用户界面理解中的应用

自动驾驶新篇章：基于大模型的协作驾驶与终身学习框架

引入基于图的增强框架实现大模型的可控文本生成

多模态语言模型的新突破：Reka Core、Flash和Edge系列

智能网络构建：探索大模型在网络领域的应用