AI前沿_人工智能大模型讲师培训咨询叶梓的博客-CSDN博客

AI前沿

关注

文章平均质量分 92

关注数：文章数：26 文章阅读量：25626 文章收藏量：467

作者: 人工智能大模型讲师培训咨询叶梓

叶梓老师，长期负责城市信息化智能平台的建设工作，牵头多个省级、市级智能化信息系统的建设，主持设计并搭建多个行业省级、市级大数据平台。人工智能相关的培训和咨询qq526346584

展开

多模态和多智能体系统与理性的结合综述研究

尽管大模型（LLMs）在生成类人文本方面取得了显著成就，但它们在处理复杂情境时仍存在偏见、不一致性和理解困难等问题。例如框架效应、确定性效应、过度权重偏见和联合谬误等。这些偏见对LLMs在自然语言处理研究中的实用性构成了挑战，尤其是在医疗、金融和法律服务等对可靠性和一致性要求极高的领域。为了克服这些挑战，研究者们开始探索多模态和多智能体系统的潜力，以期通过合作提高决策的一致性和可靠性。

原创 2024-10-18 19:45:00 · 1132 阅读 · 0 评论
使用LLaMA-Factory快速训练自己的专用大模型

本文聊聊 LLama-Factory，它是一个开源框架，这里头可以找到一系列预制的组件和模板，让你不用从零开始，就能训练出自己的语言模型（微调）。模型路径：/root/LLaMA-Factory/models/glm-4-9b-chat，默认会自动下载模型，不过速度可能比较慢，我们的镜像中已经下载好这个模型，所以直接填写路径更快。已经内置的模型：Yi-1.5-9B-Chat、Qwen2-7B、meta-llama-3.1-8b-instruct、glm-4-9b-chat、chatglm3-6b。

转载 2024-10-14 19:30:00 · 390 阅读 · 1 评论
个性化视觉指令调优：让多模态大模型“认脸”

人工智能咨询培训老师叶梓转载标明出处多模态大模型存在一个明显的局限性：它们能够进行一般性的对话，但在针对特定个体的个性化对话中却表现不佳。这种“面孔失认症”限制了MLLMs在个性化场景中的应用，例如移动设备上的定制化视觉助手，或需要识别家庭成员的家庭机器人。为了解决这一问题，来自香港科技大学和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了一种名为个性化视觉指令调优（Personalized Visual Instruction Tuning，简称PVIT）的新方法。

原创 2024-10-15 19:30:00 · 785 阅读 · 0 评论
超越人类翻译：利用多代理协作翻译超长文学文本

文学作品通常包含复杂的语言、比喻表达和文化细微差别，这些特点使得机器翻译系统难以准确捕捉和再现原作的韵味。为了应对这一挑战，来自莫纳什大学、澳门大学和腾讯AI实验室的研究人员提出了一种新颖的多代理框架，用于文学翻译。这一框架基于大模型（LLMs），并通过一个名为TRANSAGENTS的虚拟翻译公司来实现，模拟了传统的翻译出版流程。留言“参加”即可来叶老师的直播间互动，1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。

原创 2024-10-15 12:45:00 · 993 阅读 · 0 评论
多模态模型架构的演进

多模态学习正成为连接不同类型数据（如图像、文本、音频等）的桥梁。随着深度学习技术的发展，多模态模型在理解和处理跨领域数据方面表现出了显著的效能。来自普渡大学、混沌工业公司、斯坦福大学和亚马逊的研究人员共同撰写了一篇论文，题为《多模态模型架构的演进》（The Evolution of Multimodal Model Architectures），该论文系统地识别并描述了当代多模态领域中普遍存在的四种多模态模型架构模式。

原创 2024-10-13 19:45:00 · 926 阅读 · 0 评论
LLAMAFACTORY：一键优化大型语言模型微调的利器

模型适配到特定的下游任务，通常需要进行微调（fine-tuning），这一过程往往需要大量的计算资源。为了解决这一问题，来自北京航空航天大学和北京大学的研究人员共同开发了LLAMAFACTORY，这是一个统一的框架，集成了多种前沿的高效训练方法，使得用户可以灵活地自定义100多种大型语言模型的微调过程，而无需编写代码。表格1列出了LLAMAFACTORY框架中支持的高效微调技术。表格2展示了LLAMAFACTORY支持的数据集结构。

原创 2024-10-14 12:45:00 · 1316 阅读 · 0 评论
人工智能长期记忆的新突破：HippoRAG的创新框架

人工智能咨询培训老师叶梓转载标明出处大模型（LLMs）在预训练后，如何有效地整合大量新经验，同时避免灾难性遗忘，一直是人工智能领域的难题。尽管已有的检索增强生成（RAG）方法为LLMs提供了长期记忆的解决方案，但这些方法在处理需要跨段落整合新知识的复杂任务时仍然力不从心。图1通过一个例子说明，如果要找到一个既与斯坦福大学有关又研究阿尔茨海默病的教授，当前的RAG系统由于孤立地编码每个段落，很难找到这位教授，除非一个段落同时提到这两个特征。

原创 2024-10-12 19:45:00 · 1005 阅读 · 0 评论
Lory: 推进大型语言模型训练的新篇章

人工智能咨询培训老师叶梓转载标明出处随着模型规模的增长，如何有效训练并利用这些模型成为了一个挑战。陈丹琦团队一项新的研究提出了一种创新的预训练方法——Lory，旨在解决大模型在混合专家（MoE）架构中的可微分性和计算效率问题。Lory通过专家合并技术，实现了模型的完全可微分，并通过因果段路由和基于相似性的数据批处理策略，显著提高了训练效率和模型性能。这项工作不仅推动了大模型的研究边界，也为未来更高效、更强大的AI系统的发展奠定了基础。

原创 2024-10-11 19:45:00 · 968 阅读 · 0 评论
基于补全学习的时空数据自适应模型演化系统ComS2T

时空学习模型通过融合多种空间卷积和时间演化技术，有效捕捉城市数据的复杂异质性。然而，快速的城市化进程导致城市数据分布和结构频繁变动，这与现有模型假设训练和测试数据独立同分布的情况相悖。现实世界中，城市时空要素的扩张和增长引发分布偏移，使得模型在遭遇新的数据实例时，其泛化能力受到限制，难以灵活适应数据的快速演变。为了克服这一难题，中国科学技术大学的研究团队提出了一种创新的互补时空学习系统ComS2T，该系56统通过促进模型自适应演化，有效应对数据分布变化带来的挑战。

原创 2024-10-09 16:03:50 · 1155 阅读 · 0 评论
三种时间序列深度学习预测模型

在时间序列预测领域，模型的架构通常依赖于多层感知器（MLP）或Transformer架构。总体而言，大概有三种时间序列的模型：基于 MLP 的模型，如N-HiTS、TiDE和TSMixer，可以实现非常好的预测性能，同时保持快速训练。基于Transformer的模型，如PatchTST和iTransformer也取得了良好的性能，但内存消耗更大，需要更多的时间来训练。

转载 2024-10-08 13:42:04 · 760 阅读 · 0 评论
训练验证器解决数学应用题

人工智能咨询培训老师叶梓转载标明出处数学问题解决不仅要求模型能够理解问题的语言表述，还要求其能够准确地执行一系列数学运算，每一步的准确性都至关重要。遗憾的是，现有的语言模型在这一领域的性能远远未能达到人类的水平，它们在解题过程中常常出现灾难性的错误，即便在经过专门的微调之后也难以避免。由此OpenAI的研究团队提出了一项新的研究，旨在通过训练验证器来解决这一难题。这项研究的核心是GSM8K数据集，它包含了8.5K个高质量的、语言多样化的小学数学应用题。

原创 2024-10-06 13:15:00 · 569 阅读 · 0 评论
视频理解新篇章：Mamba模型的探索与应用

在计算机视觉领域，视频理解一直是一个核心研究方向，它要求算法能够捕捉视频中的时空动态以定位活动或推断其演变。随着深度学习技术的发展，研究者们探索了多种架构，如递归神经网络(RNN)、三维卷积神经网络(3D CNN)和Transformers，以期更好地理解视频内容。一种名为状态空间模型(State Space Model, SSM)的新架构引起了研究者的关注，尤其是Mamba模型，它在长序列建模方面展现出了巨大的潜力。

原创 2024-10-01 12:45:00 · 913 阅读 · 0 评论
LARA：多语言多轮对话意图分类的新突破

人工智能咨询培训老师叶梓转载标明出处多轮对话意图分类面临的主要挑战在于对话的复杂性和上下文的不断变化。如图 1 所示。在多轮对话中，意图可能随着对话的进展而变化，这就需要注释者不仅要理解每条消息的内容，还要把握整个对话的上下文。由于意图种类繁多，且对话可能非常长，手动注释这样的数据集既耗时又容易出错，这对构建高质量的训练数据集构成了挑战。

原创 2024-09-30 17:45:00 · 2663 阅读 · 0 评论
Vision Mamba UNet：一种新型医学图像分割网络

在医学图像分割的研究中，卷积神经网络（CNN）与变换器（Transformer）模型各有其优势和局限。CNN由于其有限的局部感受野，在捕获长距离信息时能力较弱；而尽管Transformer在全局信息建模上具有显著优势，但其自注意力机制随着图像尺寸的增加，计算复杂度会以二次方的速度增长，这使得其在处理大规模图像数据时面临较大的计算压力。

原创 2024-09-29 12:45:00 · 889 阅读 · 0 评论
ViTamin——视觉-语言时代的可扩展视觉模型设计

人工智能咨询培训老师叶梓转载标明出处尽管视觉-语言模型（VLMs）已经取得了显著的成就，但在图像编码器的选择上，传统的视觉Transformer（ViT）依然是主流。尽管Transformer在文本编码领域已经证明了其有效性，其在图像编码上的表现尚未得到充分验证。特别是在ImageNet这类基准测试中，已经涌现出多种不同类型的网络架构，这表明对于图像编码器而言，是否采用Transformer作为通用解决方案仍需进一步研究和探讨。

原创 2024-09-28 19:45:00 · 1001 阅读 · 0 评论
开源项目 Open-Sora，全新升级！

对此感兴趣的开发者现在可以利用这些资源，结合技术报告和代码，来高效地处理和优化自己的数据集。Open-Sora 在开源社区悄悄更新了，现在支持长达单镜头 16 秒的视频生成，分辨率最高可达 720p，并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。更酷的是，Open-Sora 依旧全部开源，包含最新的模型架构、最新的模型权重、多时间 / 分辨率 / 长宽比 / 帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo 示例和详尽的上手教程。

转载 2024-09-24 21:50:39 · 311 阅读 · 0 评论
利用大规模无监督学习提升药物分子表示

在人工智能驱动的药物设计和发现领域，获取具有信息量的分子表示是一个至关重要的前提。近年来，研究者们将分子抽象为图，并利用图神经网络（GNNs）进行分子表示学习，展现出了巨大的潜力。然而，实际应用中GNNs面临着两个主要问题：一是用于监督训练的标记分子数据不足；二是模型对新合成分子的泛化能力较差。

原创 2024-09-26 12:45:00 · 2026 阅读 · 0 评论
一篇大模型Agent记忆机制研究综述

尽管先前的研究提出了许多有前景的记忆机制，但它们分散在不同的工作中，缺乏一个系统性的综述来从整体视角总结和比较这些工作，未能抽象出共同和有效的设计模式以启发未来的研究。智能体应用视角：在许多应用中，记忆是智能体不可或缺的组成部分。记忆管理（Memory Management）：智能体如何通过生成更高层次的记忆、合并相似的记忆条目和遗忘不重要或不相关的信息来处理存储的记忆信息。从三个视角来看，记忆为智能体建立了认知基础，并且对于智能体的演化原理和应用是必要的，这为设计具有记忆机制的智能体提供了洞见。

转载 2024-09-23 21:49:41 · 472 阅读 · 0 评论
基于注意力机制的图表示学习：GRAPH-BERT模型

图神经网络（GNNs）在处理图结构数据方面取得了显著的进展，但现有模型在深层结构中存在性能问题，如“悬挂动画问题”和“过平滑问题”。而且图数据内在的相互连接特性限制了大规模图输入的并行化处理，这在内存限制下尤为突出。针对这些问题，美国佛罗里达州立大学IFM实验室和伊利诺伊大学芝加哥分校以及北京邮电大学的研究者共同提出了一种新的图神经网络模型——GRAPH-BERT（基于图的BERT），该模型完全基于注意力机制，不依赖于任何图卷积或聚合操作。

原创 2024-09-25 19:45:00 · 1947 阅读 · 0 评论
图表示学习中的Transformer：Graphormer的突破

人工智能咨询培训老师叶梓转载标明出处在自然语言处理和计算机视觉等领域，Transformer架构已经成为主导选择。然而，在图级别的预测任务中，它的表现并不如主流的图神经网络（GNN）变体。这一现象引发了一个思考：Transformer是否适合图表示学习，以及如何使其在图表示学习中发挥作用。来自大连理工大学、普林斯顿大学、北京大学和微软亚洲研究院的研究人员共同提出了一种名为Graphormer的新型架构，该架构基于标准的Transformer架构，并在多个图表示学习任务上取得了优异的结果。

原创 2024-09-24 12:45:00 · 1147 阅读 · 0 评论
图结构感知的Transformer：一种新的图表示学习方法

尽管图神经网络（GNNs）在处理图数据方面取得了显著成就，但它们在表达能力和捕获长距离依赖方面存在局限性。为了突破这些局限，研究者们开始探索将Transformer架构应用于图表示学习。在此基础上，瑞士苏黎世联邦理工学院的研究团队提出了一种创新的方法——Structure-Aware Transformer（SAT），旨在通过在自注意力机制中引入基于子图的表示，增强模型对图结构的感知能力，从而在计算注意力时能够显式地考虑节点间的图结构信息。

原创 2024-09-22 19:26:34 · 878 阅读 · 0 评论
图神经网络的新篇章：通用、强大、可扩展的图变换器

图变换器（Graph Transformers, GTs）因其在处理节点间全局依赖关系方面的能力而受到广泛关注。然而，现有的GTs模型在处理大规模图时面临着计算复杂度高、泛化能力有限等问题。为了解决这些问题，蒙特利尔大学、麦吉尔大学、新加坡南洋理工大学等研究人员共同提出了一种新的GTs架构——通用、强大、可扩展（GPS）。这种图变换器不仅能够处理具有数百个节点的小规模图，还能扩展到具有数千个节点的大规模图，同时保持线性复杂度O(N + E)。

原创 2024-09-22 13:00:00 · 1042 阅读 · 0 评论
深度学习的新突破：Difformer模型

在现实世界中，数据之间的复杂相互依赖性是一个普遍存在的现象。这种错综复杂的依赖关系，对于传统的机器学习算法来说，是一个巨大的挑战。因为它们通常假设数据是独立同分布的，这使得算法难以捕捉数据的内在几何结构，进而影响到模型学习到的实例表示的质量。为了解决这一难题，来自上海交通大学的研究团队联合牛津大学和亚马逊网络服务的学者们，共同提出了一种创新的解决方案：基于能量约束的扩散模型。

原创 2024-09-21 19:45:00 · 1003 阅读 · 0 评论
SGFormer：简化并增强Transformer以应对大型图表示的挑战

大型图数据的表示学习面临的主要挑战是如何在有限的计算资源下，有效地捕捉节点间的依赖关系并生成有用的节点表示。现有的基于Transformer的方法通常采用多层多头注意力机制，这虽然能够捕获全局信息，但计算复杂度高，难以扩展到拥有数百万甚至更多节点的大型图。而且这些方法往往需要额外的位置编码、特征预处理或额外的损失函数，增加了模型的复杂性和计算负担。

原创 2024-09-21 12:45:00 · 973 阅读 · 0 评论
图结构的稀疏变换器：EXPHORMER框架

尽管图变换器在理论上具有强大的表达能力，但是它们在扩展到大型图时面临着巨大的挑战。这一挑战主要源于其全局注意力机制的二次方时间复杂度，这不仅限制了其在大型图数据集上的应用，也使得其在内存和计算资源上的需求变得难以承受。为了解决这一问题，一种名为EXPHORMER的框架应运而生。旨在构建强大且可扩展的图变换器。

原创 2024-09-20 17:45:00 · 784 阅读 · 0 评论
深度图变换器的新突破：DeepGraph

人工智能咨询培训老师叶梓转载标明出处在图变换器领域，尽管其全局注意力机制在图结构数据处理上显示出了巨大潜力，但现有的图变换器模型却普遍较浅，通常不超过12层。这一现象引发了学者们对于“增加层数是否能进一步提升图变换器性能”的深入探讨。在北京大学和微软研究院的合作下，研究者们提出了一个关键问题：为何现有的图变换器在增加深度后，性能并未得到显著提升，甚至出现了性能瓶颈？

原创 2024-09-19 19:45:00 · 733 阅读 · 0 评论

AI前沿

作者: 人工智能大模型讲师培训咨询叶梓

多模态和多智能体系统与理性的结合综述研究

使用LLaMA-Factory快速训练自己的专用大模型

个性化视觉指令调优：让多模态大模型“认脸”

超越人类翻译：利用多代理协作翻译超长文学文本

多模态模型架构的演进

LLAMAFACTORY：一键优化大型语言模型微调的利器

人工智能长期记忆的新突破：HippoRAG的创新框架

Lory: 推进大型语言模型训练的新篇章

基于补全学习的时空数据自适应模型演化系统ComS2T

三种时间序列深度学习预测模型

训练验证器解决数学应用题

视频理解新篇章：Mamba模型的探索与应用

LARA：多语言多轮对话意图分类的新突破

Vision Mamba UNet：一种新型医学图像分割网络

ViTamin——视觉-语言时代的可扩展视觉模型设计

开源项目 Open-Sora，全新升级！

利用大规模无监督学习提升药物分子表示

一篇大模型Agent记忆机制研究综述

基于注意力机制的图表示学习：GRAPH-BERT模型

图表示学习中的Transformer：Graphormer的突破

图结构感知的Transformer：一种新的图表示学习方法

图神经网络的新篇章：通用、强大、可扩展的图变换器

深度学习的新突破：Difformer模型

SGFormer：简化并增强Transformer以应对大型图表示的挑战

图结构的稀疏变换器：EXPHORMER框架

深度图变换器的新突破：DeepGraph