![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能前沿
文章平均质量分 89
人工智能培训咨询叶梓
叶梓,长期负责城市信息化智能平台的建设工作,牵头多个省级、市级智能化信息系统的建设,主持设计并搭建多个行业省级、市级大数据平台。提供人工智能相关的培训和咨询
展开
-
DLRover:蚂蚁集团开源的AI训练革命
它能够恢复失败的参数服务器和工作节点,自动启动具有更多内存的Pod以恢复内存不足的节点,重新分配失败工作节点的训练数据给其他工作节点,并根据模型大小自动扩展参数服务器。在蚂蚁集团的实践中,DLRover 管理着每天数百个深度学习训练作业,除代码错误导致的失败作业外,作业完成率从使用 KubeFlow 中的 tf-operator 的89%提高到了95%。与传统的检查点操作相比,Flash Checkpoint 允许训练过程更频繁地保存检查点,并且在发生故障时,可以减少从最新检查点恢复训练所需的回滚步骤。原创 2024-06-14 18:45:00 · 74 阅读 · 0 评论 -
不用从头训练,通过知识融合创建强大的统一模型
在模拟了多个具有相同基础模型结构但训练数据不同的LLMs的场景中,FUSELLM在所有测试域中都实现了最低的平均困惑度(perplexity),这表明其在整合多样化模型知识方面的有效性超过了传统的集成和合并方法。知识融合的目标是将多个预训练的LLMs的能力结合起来,形成一个统一的模型,这个模型能够继承所有源模型的优势,并在广泛的任务上表现出色。实验结果表明,尽管知识蒸馏能够提升模型性能,但FUSELLM通过结合三个7B模型的持续训练,相比于从单一13B模型中提取知识的蒸馏方法,取得了更显著的性能提升。原创 2024-06-14 14:29:03 · 380 阅读 · 0 评论 -
【开源】多语言大型语言模型的革新:百亿参数模型超越千亿参数性能
大型人工智能模型,尤其是那些拥有千亿参数的模型,因其出色的商业应用表现而受到市场的青睐。但是,直接通过API使用这些模型可能会带来数据泄露的风险,尤其是当模型提供商如OpenAI等可能涉及数据隐私问题时。私有部署虽然是一个解决办法,但昂贵的授权费用对于许多企业来说是一笔不小的开支。Orion-14B系列模型的推出,旨在解决这一难题,提供一个既经济实惠又性能卓越的选择。Orion-14B系列模型以其百亿参数规模,在多个专业场景问题解答中超越了GPT-4等千亿参数级别的模型。原创 2024-06-13 20:21:00 · 696 阅读 · 0 评论 -
CoVoMix:实现多个对话者的多轮对话语音生成技术
文本到语音(TTS)技术领域取得了显著进展,特别是在生成自然、高保真的语音方面。尽管如此,创建能够捕捉到自然对话细微差别的人类对话式语音仍然是一个巨大的挑战。这在生成具有多个说话者和多轮对话的语音时尤其如此,这些对话需要能够模拟真实对话中的流畅转换、重叠语音和适当的副语言行为,如笑声。为了解决这些挑战,上海交通大学和微软公司的研究人员提出了CoVoMix模型,这是一种用于零样本、类似人类的多说话者、多轮对话语音生成的新型模型。原创 2024-06-13 14:35:08 · 466 阅读 · 0 评论 -
Melodist模型在文本到歌曲(包含人声和伴奏)合成中的应用
在音乐与技术的交汇处,一项新的研究突破正在重塑我们创造和体验音乐的方式。浙江大学的研究者们提出了Melodist,这是一个创新的文本到歌曲(Text-to-Song)合成模型,它能够将简单的文本提示转化为包含人声和伴奏的完整歌曲。这项工作不仅推动了音乐生成技术的发展,也为音乐创作提供了新的可能性。传统的音乐生成研究集中在单一的声音合成上,而Melodist模型的提出,标志着一个全新的任务——文本到歌曲合成的诞生。这一任务的挑战在于如何将文本信息,如歌词、旋律和持续时间,转换为包含人声和伴奏的音乐作品。原创 2024-06-12 20:00:00 · 805 阅读 · 0 评论 -
大模型培训老师叶梓:通过直接偏好优化提升文本到音频生成的质量
在多媒体内容创作领域,文本到音频的生成技术正变得越来越重要。随着AI技术的发展,我们有能力快速生成接近人类创作水平的音频内容。然而,目前的文本到音频生成模型大多依赖于大规模数据集训练复杂的扩散模型。这些模型虽然在音频质量上取得了一定的成就,但往往无法精确捕捉输入文本中的概念及其顺序。这导致了生成的音频内容可能与用户的预期存在偏差。本文将介绍一项新技术——Tango 2,它通过直接偏好优化(Direct Preference Optimization, DPO)来改善这一问题。原创 2024-06-12 16:45:00 · 1511 阅读 · 0 评论 -
长格式音乐生成的突破:时长可达 4 分 45 秒
在音乐制作的世界中,人工智能正在逐步成为创意过程中不可或缺的伙伴。然儿,传统的音频生成模型通常受限于较短的音乐片段,无法捕捉到音乐作品中的长期结构和连贯性。Stability AI 的研究团队通过训练一个在长时间范围内工作的生成模型,成功克服了这一难题。他们的模型基于一个扩散变换器(diffusion transformer),操作在21.5 Hz的低潜在率上,能够生成具有自然音乐结构的完整音乐作品。原创 2024-06-11 21:15:00 · 1757 阅读 · 0 评论 -
AI培训讲师叶梓:高效零样本语音合成技术与FlashSpeech的突破
在人工智能领域,语音合成技术一直是研究的热点。随着语言模型和扩散模型的进展,零样本语音合成技术取得了显著成就,但这些技术在生成过程中存在速度慢和计算成本高昂的问题。这不仅限制了它们的实际应用,也对资源的有效利用提出了挑战。为了解决现有技术的局限性,研究者们提出了FlashSpeech,这是一种新型的大规模零样本语音合成系统。FlashSpeech的核心优势在于其高效率——它将推理时间缩短至先前工作的5%,同时保持了与之前工作相当的音质和说话者相似性。原创 2024-06-11 17:15:00 · 874 阅读 · 0 评论 -
推进音频和音乐理解的多轮对话数据集Audio Dialogues
在人工智能领域,音频理解一直是一个挑战性的话题。随着技术的进步,我们越来越需要模型能够通过对话的形式来理解和交互音频内容。然而,现有的数据集大多专注于单轮交互任务,例如音频字幕和简单的问答,这限制了模型处理更复杂音频对话的能力。这些数据集通常只提供对音频的一次性描述或简短问题的回答,缺乏对音频内容进行深入、交互式探索的能力。并且,在生成过程中现有数据集往往缺乏详细的元描述和基于人类反馈的质量控制,导致生成的对话可能包含不确定性或不准确的信息。原创 2024-06-10 16:00:00 · 822 阅读 · 0 评论 -
CameraCtrl:文生视频模型中的摄像机控制革命
在数字内容创作领域,视频生成技术正迅速发展,其中可控性是实现个性化和高质量视频内容的关键。尽管现有技术在文本到视频(T2V)生成方面取得了进展,但现有的T2V模型往往忽略了摄像机姿态的精确控制,这限制了视频内容的深度和用户参与度。为了解决这一问题,本文将介绍一种名为CameraCtrl的新技术,它通过精确的摄像机控制为视频生成带来了新的维度。原创 2024-06-10 11:00:00 · 1961 阅读 · 0 评论 -
“图生视频”技术创新:剪贴画秒变动画生成的实验验证与分析
AniClipart系统的设计核心在于将文本提示转化为可视的动画序列。系统首先对输入的剪贴画图像进行分析,以识别出能够代表图像特征的关键点。这些关键点是动画运动的基础,它们可以是图像中的特定形状、边缘或者显著的特征。接着,系统利用贝塞尔曲线来定义这些关键点的运动轨迹。贝塞尔曲线因其在图形设计中的灵活性和控制性而被选用,它们能够精确地控制动画中关键点的移动和变化。为了生成与文本描述相匹配的动画,系统采用了Video Score Distillation Sampling (VSDS)损失函数进行优化。原创 2024-06-09 17:30:00 · 836 阅读 · 0 评论 -
MagicTime:开创性的变形时间缩影视频生成模型
在人工智能领域,文本到视频(Text-to-Video, T2V)的生成一直是一个挑战性的话题。尽管现有的模型在生成通用视频方面取得了进展,但它们在编码现实世界的物理知识方面存在不足,导致生成的视频运动有限,缺乏对物理世界深刻理解的编码,这限制了它们生成具有持续主体变形过程的视频能力。这些视频通常只展示相机运动,而缺少物理上连贯的变化,如植物生长、冰融化或花朵绽放等现象。本文将介绍一种新型的时间缩影视频生成模型——MagicTime,它能够学习现实世界的物理规则,并生成包含复杂变形过程的高质量视频。原创 2024-06-09 14:00:00 · 547 阅读 · 0 评论 -
InternLM-XComposer2-4KHD开拓性的4K高清视觉-语言模型
大型视觉-语言模型(LVLM)在图像字幕和视觉问答(VQA)等任务中表现出色。然而,受限于分辨率,这些模型在处理包含细微视觉内容的图像时面临挑战。分辨率的限制严重阻碍了模型处理含有丰富细节的图像的能力。例如,在理解图表、表格和文档等类型的视觉内容时,细节的清晰度对于准确解读和生成语言描述至关重要。然而,当图像的分辨率不足时,这些细微的视觉信息可能会丢失,导致模型无法准确地捕捉和学习图像中的关键细节。现有模型通常只能在一个预先设定的分辨率范围内工作,这限制了它们的适用性和灵活性。原创 2024-06-07 21:30:00 · 932 阅读 · 0 评论 -
零样本身份保持:ID-Animator引领个性化视频生成技术新前沿
此外,模型还能够混合不同人物的身份特征,生成具有混合特征的视频。此外,ID-Animator的训练方法和数据集构建流程为零样本个性化视频生成提供了一个有效的解决方案,展示了其在实际应用中的广泛潜力。这项技术的核心在于其零样本(zero-shot)人物视频生成方法,它允许研究者和开发者根据单一的参考面部图像生成具有特定身份特征的视频,而无需进行额外的训练步骤。ID-Animator的设计基于两个主要组件:一个预训练的文本到视频(Text-to-Video, T2V)扩散模型,以及一个轻量级的面部适配器。原创 2024-06-08 14:00:00 · 657 阅读 · 0 评论 -
提升文本到图像模型的空间一致性:SPRIGHT数据集与训练技术的新进展
为语言模型提供明确的指示,要求其生成包含特定空间关系的描述。例如,提示可能要求模型使用“left/right”、“above/below”、“front/behind”等词汇。原创 2024-06-07 10:30:00 · 1001 阅读 · 0 评论 -
InstantStyle —— 文本到图像生成中的风格保持新突破
在人工智能领域,文本到图像生成(Text-to-Image Generation)技术正迅速发展,其应用范围从娱乐到专业设计不断扩展。然而,风格一致性生成一直是该领域的一个技术难题。最近,InstantX团队提出了一种名为InstantStyle的新框架,旨在解决这一挑战。InstantStyle框架的核心在于两个创新策略,以实现从参考图像到目标内容图像的风格迁移,同时保持内容的文本可控性。原创 2024-06-06 21:30:00 · 690 阅读 · 0 评论 -
个性化图像生成新突破 — 新型“文生图”扩散模型MoA架构解析
在数字化时代,个性化内容的创造已成为趋势。最近,一项名为MoA(Mixture-of-Attention)的新技术在个性化图像生成领域取得了显著进展。这项由Snap Inc.团队开发的架构,不仅提升了图像生成的个性化水平,还保持了原始模型的强大功能。本文将深入探讨MoA的方法论、实验成果及其应用前景。原创 2024-06-05 22:00:00 · 815 阅读 · 0 评论 -
强化学习在一致性模型中的应用与实验验证
在人工智能领域,文本到图像的生成任务一直是研究的热点。近年来,扩散模型和一致性模型因其在图像生成中的卓越性能而受到广泛关注。然而,这些模型在生成速度和微调灵活性上存在局限。为了解决这些问题,康奈尔大学的研究团队提出了一种新的框架——RLCM(Reinforcement Learning for Consistency Models),旨在通过强化学习优化一致性模型,以实现快速且高质量的图像生成。一致性模型通过直接将噪声映射到数据,显著加快了推理速度。在生成质量和推理时间之间提供了更精细的权衡。原创 2024-06-05 10:30:00 · 1081 阅读 · 0 评论 -
ControlNet++:让AI图像生成更精准、更可控
在人工智能的世界里,文本到图像的生成技术正变得越来越先进。但如何确保生成的图像精确地反映我们的想象呢?最近,一项名为ControlNet++的新技术为我们提供了答案。ControlNet++是一种新颖的方法,它通过优化生成图像与给定条件之间的像素级循环一致性,显著提高了文本到图像生成的可控性。这意味着,无论你的想象多么独特,ControlNet++都能更准确地帮你实现。原创 2024-06-04 22:00:00 · 1968 阅读 · 0 评论 -
LazyDiffusion:革新交互式图像编辑的扩散模型
Adobe Research和特拉维夫大学的研究人员联合开发了一种名为LazyDiffusion的新型扩散变换器,它能够高效地生成部分图像更新,特别适用于交互式图像编辑。该模型通过创新的编码器-解码器架构,显著提升了图像编辑的效率,同时保持了与全尺寸图像生成相媲美的质量。LazyDiffusion的核心在于两个阶段的工作流程:首先,上下文编码器处理当前画布和用户遮罩,生成一个紧凑的全局上下文;其次,扩散解码器基于这个上下文“懒惰”地合成遮罩像素,即仅生成遮罩区域的像素。原创 2024-06-03 17:30:00 · 1097 阅读 · 0 评论 -
ID-Aligner:通过奖励反馈学习提升身份保持文本到图像生成的性能
在人工智能领域,文本到图像生成(Text-to-Image Generation,简称T2I)技术近年来取得了显著进展,特别是在身份保持的图像生成方面,即生成与特定人物参考图像相匹配的新图像。这一技术在AI肖像、广告、动画和虚拟试穿等领域具有广泛的应用前景。然而,现有方法在保持参考肖像的身份特征、提升生成图像的美学吸引力,以及与不同的生成模型兼容方面仍面临挑战。为了解决这些问题,中山大学和字节跳动公司的研究人员联合提出了一种名为ID-Aligner的新框架。原创 2024-06-03 13:08:43 · 1069 阅读 · 0 评论 -
一文读懂开源大数据OLAP
通过构建多维数据模型、优化查询性能和采用先进的存储技术,OLAP帮助企业从数据中获得洞察,支持更明智的业务决策。随着技术的不断进步,OLAP在实时分析、云原生支持、多模数据结构分析等方面的应用将越来越广泛,成为企业数据驱动决策的重要工具。成效:通过OLAP系统,该公司能够实时监控销售趋势,及时调整库存和营销策略,有效减少了库存积压,提高了营销活动的投资回报率。成效:通过OLAP系统,该金融机构显著提高了欺诈检测的速度和准确性,增强了风险管理能力,保护了客户和机构自身的利益。原创 2024-06-02 21:45:00 · 1082 阅读 · 0 评论 -
图神经网络(GNNs)在时间序列分析中的应用
论文提出了一个全面的框架和分类法,用于梳理和讨论GNNs在时间序列分析中的应用。这个框架从任务和方法论两个角度对现有的工作进行了分类。原创 2024-06-02 18:30:00 · 769 阅读 · 0 评论 -
MultiBooth:文本驱动的多概念图像生成技术
用户可以为每个概念定义边界框,这些边界框在生成过程中用来确定每个概念的空间位置,确保多概念在图像中的布局合理且互不干扰。原创 2024-06-01 21:45:00 · 878 阅读 · 0 评论 -
基于大语言模型的Agent的探索与实践
AI代理是人工智能领域的核心概念之一,它指的是能够在环境中感知、做出决策并采取行动的计算实体。代理可以是简单的,如自动化的网页爬虫,也可以是复杂的,如能够进行战略规划和学习的自主机器人。AI代理的概念最早源于哲学探讨,特别是关于“能动性”(agency)的讨论。随后,这一概念被引入到计算机科学中,特别是在分布式系统和软件工程领域。早期的AI代理研究集中在简单的任务自动化和规则基础上的决策制定。在20世纪70年代和80年代,随着符号推理技术的发展,AI代理开始能够模拟专家的决策过程。原创 2024-06-01 16:33:12 · 704 阅读 · 0 评论 -
多模态融合技术现实世界中的挑战与研究进展
多模态融合技术的核心在于将来自不同感官渠道的信息结合起来,以期获得超越单一模态的理解和认知。例如,在自动驾驶车辆中,视觉系统可能受到光线变化的影响,而雷达和激光雷达(LiDAR)数据可以提供补充,帮助车辆在复杂环境中稳定导航。在医学诊断中,结合影像数据和病人的遗传信息可以提高疾病预测的准确性。原创 2024-05-31 10:07:20 · 592 阅读 · 0 评论 -
探索大语言模型在信息提取中的应用与前景
随着人工智能技术的快速发展,大语言模型(LLMs)在自然语言处理(NLP)领域取得了显著的进展。特别是在信息提取(IE)任务中,LLMs展现出了前所未有的潜力和优势。信息提取是从非结构化文本中抽取结构化信息(如实体、关系和事件)的过程,对于知识图谱构建、自动问答系统等应用至关重要。然而,传统的IE方法面临领域依赖性强、泛化能力弱等挑战。LLMs,如GPT-3和LLaMA,因其在文本理解和生成上的卓越表现,为解决上述挑战提供了新的可能性。原创 2024-05-30 21:30:00 · 989 阅读 · 0 评论 -
阿里开源的lowcode-engine:加速企业级应用开发的低代码利器
这个平台的设计理念非常现代,它追求的是内核的简洁和生态的强大。而且,lowcode-engine 使用的是TypeScript,这是一个静态类型的编程语言,它能够提供更好的代码健壮性和开发体验。此外,lowcode-engine 提供的不仅仅是代码层面的支持,它还提供了一套完整的工具链,帮助你从设计到部署的整个研发周期都能更加高效。lowcode-engine 是阿里巴巴推出的一个企业级的低代码开发平台,它就像是给开发者的一个工具箱,里面装满了各种现成的工具和材料,让搭建应用程序变得像搭积木一样简单。原创 2024-05-30 11:51:09 · 310 阅读 · 0 评论 -
GraphGPT——图结构数据的新语言模型
GraphGPT是一种新型框架,它通过图指令调整(Graph Instruction Tuning)来提升大语言模型对图结构数据的理解力和泛化能力。这一框架特别适合于零样本学习场景,即在没有下游任务标签的情况下进行预训练和微调。GraphGPT的核心优势在于其创新的框架设计,该设计专门针对图结构数据的理解与处理进行了优化。1.图结构编码与文本-图基础范式(Text-Graph Grounding)GraphGPT通过一种称为文本-图基础范式的方法,实现了图结构信息与自然语言空间的有效对齐。原创 2024-05-29 09:47:28 · 718 阅读 · 0 评论 -
提升大模型自我提问能力的方法:Rephrase and Respond(RaR)
尽管提示的质量对LLMs提供的回答质量有显著影响,但目前仍缺乏一种系统化的方法来构建LLMs能够更好理解的问题。此外,研究者还提供了RaR方法和流行的Chain-of-Thought(CoT)方法之间的全面比较,包括理论和实证比较。然后,将原始问题和重述的问题一起提示给回答LLM。此外,与基于准确度得分进行迭代提示工程的方法不同,我们的方法无需监督且无需训练,使其经济且适用于所有问题。实验表明,使用这种提示的GPT-4在多种任务上表现出更好的结果,尤其是在那些对LLMs来说存在歧义的人类设计数据集上。原创 2024-05-28 19:30:00 · 600 阅读 · 0 评论 -
通过自适应提示提升大语言模型的零样本推理能力
随着大模型(LLMs)的快速发展,它们在自然语言处理(NLP)任务上取得了前所未有的成就。特别是,LLMs展现出了强大的推理和规划能力,这得益于它们的少样本和零样本学习能力。然而,现有的方法仍存在一些限制,例如在少样本设置中,性能对示例选择非常敏感,而在零样本设置中,由于缺乏对LLMs的指导,性能受限。为了解决这些限制,论文提出了COSP,这是一种不需要手工示例或真实标签的算法。作为一种新颖的提示设计方法,它旨在提升大模型(LLMs)在零样本(Zero-Shot)推理任务中的表现。原创 2024-05-28 14:16:19 · 619 阅读 · 0 评论 -
USP技术提升大语言模型的零样本学习能力
论文提出了一种名为Universal Self-Adaptive Prompting(USP)的自动提示设计方法,旨在提升大语言模型(LLMs)在零样本学习(zero-shot learning)任务中的表现。这种方法特别适用于零样本(zero-shot)和少样本(few-shot)学习场景,其中模型需要在没有或只有很少的标注数据的情况下学习执行任务。上也展现了良好的性能。这些实验结果证明了USP方法在零样本和少样本学习场景下的有效性,特别是在处理复杂的NLP任务时,USP能够显著提高模型的性能。原创 2024-05-27 17:15:00 · 1540 阅读 · 0 评论 -
噪声嵌入提升语言模型微调性能
实验表明,使用噪声嵌入对原始LLM(如LLaMA-2-7B)进行微调时,其在AlpacaEval上的性能从29.79%提升至64.69%,显示出约35个百分点的显著提升。最近,一篇名为《NEFTUNE: NOISY EMBEDDINGS IMPROVE INSTRUCTION FINETUNING》的论文提出了一种新颖的方法,通过在训练过程中向嵌入向量添加噪声来提升模型的微调性能。在传统的语言模型微调中,模型的嵌入层会将输入的词汇映射为固定长度的向量,这些向量随后会被用来生成模型的输出。原创 2024-05-27 11:46:21 · 928 阅读 · 0 评论 -
文本嵌入的隐私风险:从嵌入向量重建原始文本的探索
随着大型语言模型(LLMs)的广泛应用,文本嵌入技术在语义相似性编码、搜索、聚类和分类等方面发挥着重要作用。然而,文本嵌入所蕴含的隐私风险尚未得到充分探讨。研究提出了一种控制生成的方法,通过迭代修正和重新嵌入文本,以生成与固定嵌入点接近的文本。研究发现,尽管基于嵌入的朴素模型表现不佳,但多步骤方法能够精确恢复92%的32个标记文本输入。此外,模型还能够从临床笔记数据集中恢复重要的个人信息(如全名)。在利用大型语言模型的系统中,文本数据的嵌入向量通常存储在向量数据库中。原创 2024-05-26 19:45:00 · 814 阅读 · 0 评论 -
大模型咨询培训叶梓老师:数千大模型,1张GPU搞定——UC Berkeley提出全新微调方法S-LoRA
S-LoRA通过统一分页、异构批处理和多GPU张量并行策略,实现了在单个GPU或多GPU上以极小的开销服务数千个LoRA适配器。这些创新点共同作用,使得S-LoRA能够有效地管理和调度主机和GPU内存,并且在多个GPU之间协调并行性,从而实现了对数千个LoRA适配器的高效服务。此外,S-LoRA的架构还允许它扩展到更多的适配器和更大的模型,而不受单一GPU内存容量的限制。在这些评估中,S-LoRA展示了其在单个GPU或多GPU环境下服务大量LoRA适配器的能力,并且具有很低的额外开销。原创 2024-05-25 20:45:00 · 1433 阅读 · 0 评论 -
探索高级聚类技术:使用LLM进行客户细分
Clustering with LLM”项目旨在探索定义聚类和分析结果的高级技术。这个仓库是为那些希望扩展其处理聚类问题的工具箱并朝着成为高级数据科学家迈进的数据科学家们准备的。原创 2024-05-25 13:29:56 · 550 阅读 · 0 评论 -
Qwen-Audio:推动通用音频理解的统一大规模音频-语言模型(开源)
基于Qwen-Audio的能力,研究者进一步开发了Qwen-Audio-Chat,它允许来自各种音频和文本输入的输入,支持多轮对话,并支持各种以音频为中心的场景。与以往主要处理特定音频类型(如人类语音)或专注于特定任务(如语音识别和字幕生成)的模型不同,Qwen-Audio在多任务学习框架中进行了扩展,涵盖了多种语言和音频类型,以促进通用音频理解能力的发展。通过大规模的端到端训练,Qwen-Audio成功地弥合了音频和文本模态之间的差距,并在多种任务上展现了卓越的性能。原创 2024-05-24 19:15:00 · 665 阅读 · 0 评论 -
大模型咨询培训叶梓老师:数千大模型,1张GPU搞定——UC Berkeley提出全新微调方法S-LoRA
S-LoRA通过统一分页、异构批处理和多GPU张量并行策略,实现了在单个GPU或多GPU上以极小的开销服务数千个LoRA适配器。这些创新点共同作用,使得S-LoRA能够有效地管理和调度主机和GPU内存,并且在多个GPU之间协调并行性,从而实现了对数千个LoRA适配器的高效服务。此外,S-LoRA的架构还允许它扩展到更多的适配器和更大的模型,而不受单一GPU内存容量的限制。在这些评估中,S-LoRA展示了其在单个GPU或多GPU环境下服务大量LoRA适配器的能力,并且具有很低的额外开销。原创 2024-05-24 12:33:07 · 253 阅读 · 0 评论 -
扩展大型视觉-语言模型的视觉词汇:Vary 方法
Vary方法是针对大型视觉-语言模型(LVLMs)提出的一种创新方法,旨在通过扩展模型的视觉词汇来提升其在特定视觉任务上的表现,尤其是那些需要密集和细粒度视觉感知的任务,如文档级光学字符识别(OCR)或图表理解。生成新的视觉词汇表是Vary方法的第一阶段,这一阶段的目标是创建一个能够补充现有CLIP视觉词汇表的新型视觉词汇表,以提高LVLMs在特定视觉任务上的表现。通过这种训练策略,Vary-base能够结合新旧视觉词汇的优势,提高模型在复杂视觉任务上的表现,同时保持在通用任务上的性能。原创 2024-05-23 19:00:00 · 585 阅读 · 0 评论 -
利用大模型提升个性化推荐的异构知识融合方法
在推荐系统中,分析和挖掘用户行为是至关重要的,尤其是在美团外卖这样的平台上,用户行为表现出多样性,包括不同的行为主体(如商家和产品)、内容(如曝光、点击和订单)和场景(如APP首页和小程序)。传统的推荐系统通过不断添加用户行为到模型中,导致两个主要问题:一是行为主体的多样性导致特征稀疏,二是用户、商家和商品行为的独立建模忽略了行为间的异构知识融合。通过设计新的用户行为建模框架,研究者们能够将结构化的用户行为数据转化为非结构化的异构知识,进而通过指令调整和微调,使LLM更精准地适应个性化推荐任务。原创 2024-05-23 17:00:00 · 618 阅读 · 0 评论