人工智能
文章平均质量分 88
分享人工智能前沿知识
人工智能大模型chatGPT培训咨询叶梓
叶梓,长期负责城市信息化智能平台的建设工作,牵头多个省级、市级智能化信息系统的建设,主持设计并搭建多个行业省级、市级大数据平台。提供人工智能相关的培训和咨询
展开
-
万字长文梳理Llama开源家族:从Llama-1到Llama-3
对于语言的代表性和毒性的分析,Llama-2使用了相应的工具和数据集,以了解预训练数据的特征,为模型的安全调整提供指导。Llama-1各个参数量版本都在超过1T token的语料上进行了预训训练,其中,最大的65B参数的模型在2,048张A100 80G GPU上训练了近21天,并在大多数基准测试中超越了具有175B参数的GPT-3。在Llama-2和Llama-2-Chat的微调中,采用了自回归损失函数,这是一种在生成模型中常见的方法,模型预测下一个token时会考虑到之前的所有token。转载 2024-05-16 07:18:37 · 3 阅读 · 0 评论 -
高效零样本语音合成技术与FlashSpeech的突破
在人工智能领域,语音合成技术一直是研究的热点。随着语言模型和扩散模型的进展,零样本语音合成技术取得了显著成就,但这些技术在生成过程中存在速度慢和计算成本高昂的问题。这不仅限制了它们的实际应用,也对资源的有效利用提出了挑战。为了解决现有技术的局限性,研究者们提出了FlashSpeech,这是一种新型的大规模零样本语音合成系统。FlashSpeech的核心优势在于其高效率——它将推理时间缩短至先前工作的5%,同时保持了与之前工作相当的音质和说话者相似性。原创 2024-05-17 16:30:00 · 658 阅读 · 0 评论 -
推进音频和音乐理解的多轮对话数据集Audio Dialogues
在人工智能领域,音频理解一直是一个挑战性的话题。随着技术的进步,我们越来越需要模型能够通过对话的形式来理解和交互音频内容。然而,现有的数据集大多专注于单轮交互任务,例如音频字幕和简单的问答,这限制了模型处理更复杂音频对话的能力。这些数据集通常只提供对音频的一次性描述或简短问题的回答,缺乏对音频内容进行深入、交互式探索的能力。并且,在生成过程中现有数据集往往缺乏详细的元描述和基于人类反馈的质量控制,导致生成的对话可能包含不确定性或不准确的信息。原创 2024-05-17 12:30:00 · 687 阅读 · 0 评论 -
CameraCtrl:文生视频模型中的摄像机控制革命
在数字内容创作领域,视频生成技术正迅速发展,其中可控性是实现个性化和高质量视频内容的关键。尽管现有技术在文本到视频(T2V)生成方面取得了进展,但现有的T2V模型往往忽略了摄像机姿态的精确控制,这限制了视频内容的深度和用户参与度。为了解决这一问题,本文将介绍一种名为CameraCtrl的新技术,它通过精确的摄像机控制为视频生成带来了新的维度。原创 2024-05-16 20:45:00 · 466 阅读 · 0 评论 -
“图生视频”技术创新:剪贴画秒变动画生成的实验验证与分析
AniClipart系统的设计核心在于将文本提示转化为可视的动画序列。系统首先对输入的剪贴画图像进行分析,以识别出能够代表图像特征的关键点。这些关键点是动画运动的基础,它们可以是图像中的特定形状、边缘或者显著的特征。接着,系统利用贝塞尔曲线来定义这些关键点的运动轨迹。贝塞尔曲线因其在图形设计中的灵活性和控制性而被选用,它们能够精确地控制动画中关键点的移动和变化。为了生成与文本描述相匹配的动画,系统采用了Video Score Distillation Sampling (VSDS)损失函数进行优化。原创 2024-05-15 19:15:00 · 823 阅读 · 0 评论 -
通过视频生成实现基于物理的3D对象交互——PhysDreamer
随着虚拟现实(VR)和增强现实(AR)技术的飞速发展,用户对于虚拟体验的真实性提出了更高的要求。在这样的背景下,PhysDreamer应运而生,它是一项创新的技术,能够为静态3D对象赋予逼真的物理交互动态,极大地丰富了虚拟环境的互动性和沉浸感。PhysDreamer系统旨在解决虚拟体验中逼真3D对象交互动态的合成问题。具体来说,它针对如何使静态3D对象在虚拟环境中对用户交互或外力作用时产生符合物理规律的动态响应进行研究。原创 2024-05-15 12:45:00 · 2185 阅读 · 0 评论 -
零样本身份保持:ID-Animator引领个性化视频生成技术新前沿
实验的基础是使用开源的AnimateDiff模型作为文本到视频生成的核心。此外,ID-Animator的训练方法和数据集构建流程为零样本个性化视频生成提供了一个有效的解决方案,展示了其在实际应用中的广泛潜力。这项技术的核心在于其零样本(zero-shot)人物视频生成方法,它允许研究者和开发者根据单一的参考面部图像生成具有特定身份特征的视频,而无需进行额外的训练步骤。在实验部分,研究者们使用了开源的AnimateDiff作为文本到视频生成模型的基础,并在NVIDIA A100 GPU上进行了训练。原创 2024-05-14 19:50:35 · 470 阅读 · 2 评论 -
InternLM-XComposer2-4KHD开拓性的4K高清视觉-语言模型
大型视觉-语言模型(LVLM)在图像字幕和视觉问答(VQA)等任务中表现出色。然而,受限于分辨率,这些模型在处理包含细微视觉内容的图像时面临挑战。分辨率的限制严重阻碍了模型处理含有丰富细节的图像的能力。例如,在理解图表、表格和文档等类型的视觉内容时,细节的清晰度对于准确解读和生成语言描述至关重要。然而,当图像的分辨率不足时,这些细微的视觉信息可能会丢失,导致模型无法准确地捕捉和学习图像中的关键细节。现有模型通常只能在一个预先设定的分辨率范围内工作,这限制了它们的适用性和灵活性。原创 2024-05-14 18:04:08 · 819 阅读 · 1 评论 -
提升文本到图像模型的空间一致性:SPRIGHT数据集与训练技术的新进展
为语言模型提供明确的指示,要求其生成包含特定空间关系的描述。例如,提示可能要求模型使用“left/right”、“above/below”、“front/behind”等词汇。原创 2024-05-13 22:09:44 · 1055 阅读 · 0 评论 -
InstantStyle —— 文本到图像生成中的风格保持新突破
在人工智能领域,文本到图像生成(Text-to-Image Generation)技术正迅速发展,其应用范围从娱乐到专业设计不断扩展。然而,风格一致性生成一直是该领域的一个技术难题。最近,InstantX团队提出了一种名为InstantStyle的新框架,旨在解决这一挑战。InstantStyle框架的核心在于两个创新策略,以实现从参考图像到目标内容图像的风格迁移,同时保持内容的文本可控性。原创 2024-05-13 20:34:56 · 965 阅读 · 1 评论 -
大规模语言模型--LLaMA 家族
模型的外推性是指大模型在训练时 和预测时的输入长度不一致, 导致模型的泛化能力下降的问题。总结来说, RoPE 的 self-attention 操作的流程是:对 于 token 序列中的每个词嵌入向量, 首先计算其对应的 query 和 key 向量, 然后对每个 token 位置都计算对应的 旋转位置编码, 接着对每个 token 位置的 query 和 key 向量的元素按照两两一组应用旋转变换, 最后再计算 query 和 key 之间的内积得到 self-attention 的计算结果。转载 2023-12-04 12:45:30 · 294 阅读 · 0 评论 -
强化学习在一致性模型中的应用与实验验证
在人工智能领域,文本到图像的生成任务一直是研究的热点。近年来,扩散模型和一致性模型因其在图像生成中的卓越性能而受到广泛关注。然而,这些模型在生成速度和微调灵活性上存在局限。为了解决这些问题,康奈尔大学的研究团队提出了一种新的框架——RLCM(Reinforcement Learning for Consistency Models),旨在通过强化学习优化一致性模型,以实现快速且高质量的图像生成。一致性模型通过直接将噪声映射到数据,显著加快了推理速度。在生成质量和推理时间之间提供了更精细的权衡。原创 2024-05-12 15:39:55 · 927 阅读 · 1 评论 -
ControlNet++:让AI图像生成更精准、更可控
在人工智能的世界里,文本到图像的生成技术正变得越来越先进。但如何确保生成的图像精确地反映我们的想象呢?最近,一项名为ControlNet++的新技术为我们提供了答案。ControlNet++是一种新颖的方法,它通过优化生成图像与给定条件之间的像素级循环一致性,显著提高了文本到图像生成的可控性。这意味着,无论你的想象多么独特,ControlNet++都能更准确地帮你实现。原创 2024-05-12 12:27:36 · 791 阅读 · 1 评论 -
一文辨析清楚LORA、Prompt Tuning、P-Tuning、Adapter 、Prefix等大模型微调方法
P-Tuning:使用一个可训练的LSTM模型(称为prompt_encoder)来动态生成虚拟标记嵌入,允许根据输入数据的不同生成不同的嵌入,提供了更高的灵活性和适应性,适合需要精细控制和理解复杂上下文的任务,相对复杂,因为它涉及一个额外的LSTM模型来生成虚拟标记嵌入。感性理解:大模型微调指的是“喂”给模型更多信息,对模型的特定功能进行 “调教”,即通过输入特定领域的数据集,让其学习这个领域的知识,从而让大模型能够更好的完成特定领域的NLP任务,例如情感分析、命名实体识别、文本分类、对话聊天等;转载 2023-11-21 13:24:11 · 2851 阅读 · 0 评论 -
一文搞懂ChatGPT相关概念和区别:GPT、大模型、AIGC、LLM、Transformer、羊驼、LangChain…..
同样,"man" 和 "woman" 的词向量也会非常接近,因为他们都代表性别。Diffusion算法针对任意噪声图片去噪后得到的图片是不可控的,如果让Diffusion算法能够接受文字的提示从而生成想要的图片,这就是当下AIGC的另一个大热点,AI绘画:只输入文字描述,即可自动生成各种图像,其核心算法-Stable Diffusion,就是上面提到的文字到图片的多模态算法CLIP和图像生成算法DIffusion的结合体,CLIP就是作为作为文字提示用的,进而对DIffusion施加影响生成所需的图片。转载 2023-05-22 10:11:17 · 6555 阅读 · 0 评论 -
开源大数据OLAP引擎最佳实践
上图是某电商领域的客户,它的大量业务依赖OLTP系统,在GMV,订单,物流,客户分析,推荐系统等方面,都有升级的需求。我们将OLTP系统逐步过渡到OLAP系统,替代了原有数仓结构的同时,让链路变得极其简化,让Ad-hoc查询灵活,方便运维人员分析细节数据,对接线上系统点查。在LakeHouse场景中,StarRocks的联合查询,不但屏蔽了底层数据源的细节,而且可以对异构数据据源数据联合分析,与增量数据湖格式完美结合。由于其优良的查询性能,PB级的数据规模,简单的架构,在国内外公司被广泛采用。转载 2024-05-11 22:17:36 · 15 阅读 · 0 评论 -
个性化图像生成新突破 — 新型“文生图”扩散模型MoA架构解析
在数字化时代,个性化内容的创造已成为趋势。最近,一项名为MoA(Mixture-of-Attention)的新技术在个性化图像生成领域取得了显著进展。这项由Snap Inc.团队开发的架构,不仅提升了图像生成的个性化水平,还保持了原始模型的强大功能。本文将深入探讨MoA的方法论、实验成果及其应用前景。原创 2024-05-11 16:11:57 · 1050 阅读 · 1 评论 -
LazyDiffusion:革新交互式图像编辑的扩散模型
Adobe Research和特拉维夫大学的研究人员联合开发了一种名为LazyDiffusion的新型扩散变换器,它能够高效地生成部分图像更新,特别适用于交互式图像编辑。该模型通过创新的编码器-解码器架构,显著提升了图像编辑的效率,同时保持了与全尺寸图像生成相媲美的质量。LazyDiffusion的核心在于两个阶段的工作流程:首先,上下文编码器处理当前画布和用户遮罩,生成一个紧凑的全局上下文;其次,扩散解码器基于这个上下文“懒惰”地合成遮罩像素,即仅生成遮罩区域的像素。原创 2024-05-11 14:50:14 · 1172 阅读 · 0 评论 -
ID-Aligner:通过奖励反馈学习提升身份保持文本到图像生成的性能
在人工智能领域,文本到图像生成(Text-to-Image Generation,简称T2I)技术近年来取得了显著进展,特别是在身份保持的图像生成方面,即生成与特定人物参考图像相匹配的新图像。这一技术在AI肖像、广告、动画和虚拟试穿等领域具有广泛的应用前景。然而,现有方法在保持参考肖像的身份特征、提升生成图像的美学吸引力,以及与不同的生成模型兼容方面仍面临挑战。为了解决这些问题,中山大学和字节跳动公司的研究人员联合提出了一种名为ID-Aligner的新框架。原创 2024-05-10 15:16:44 · 1108 阅读 · 0 评论 -
图神经网络(GNNs)在时间序列分析中的应用
分类任务通过学习时间序列的特征将其分配到不同的类别中,而插补任务则专注于填补数据中的缺失部分。作为框架的核心,通过图结构捕捉时间序列数据中的复杂空间和时间依赖性,其中空间模块处理变量间关系,时间模块处理时间点间的关系,而图结构学习则负责从数据中提取或学习图的拓扑结构。在时间序列分析中的研究提供了清晰的方向和系统的方法,不仅有助于理解现有研究的工作,也为未来的研究方向和应用提供了指导。可以处理来自多个传感器的时间序列数据,以识别设备间的复杂关系,优化设备间的协同工作,提高整个系统的能效和响应速度。原创 2024-05-10 12:57:44 · 744 阅读 · 1 评论 -
谈谈AI落地容易的业务-搜广推
对于一个推荐系统,如何识别场景中上下文,如何捕获人的行为和兴趣,如何抓取货的属性,这些都是推荐系统的业务目的,至于用什么算法,用什么模型都是手段,推荐系统最吸引人的也便如此,不同的业务目标有所不同,很多时候还要面对老板们既要又要还要的多业务目标优化,手段变得更加灵活了,甚至有不少点睛之笔的算法和框架出现,甚至是用简单到极致的砍一刀商业模式来解决算法问题,令人拍案叫绝。另一方面,由于计算规模的限制,通常粗排和召回不会用用户信息和物料信息进行大量的交叉分析,而精排阶段可以充分交叉并挖掘更多的特征。转载 2024-05-09 22:24:18 · 16 阅读 · 0 评论 -
探索大语言模型在信息提取中的应用与前景
随着人工智能技术的快速发展,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著的进展。特别是在信息提取(IE)任务中,LLMs展现出了前所未有的潜力和优势。信息提取是从非结构化文本中抽取结构化信息(如实体、关系和事件)的过程,对于知识图谱构建、自动问答系统等应用至关重要。然而,传统的IE方法面临领域依赖性强、泛化能力弱等挑战。LLMs,如GPT-3和LLaMA,因其在文本理解和生成上的卓越表现,为解决上述挑战提供了新的可能性。原创 2024-05-07 16:39:23 · 1408 阅读 · 0 评论 -
知识图谱在提升大语言模型性能中的应用:减少幻觉与增强推理的综述
知识增强的模型,如ERNIE和KALM,通过在预训练阶段引入知识图谱,增强了模型的语言表示能力。知识引导的掩蔽方法,如SKEP和GLM,通过在文本中掩盖特定的实体,并利用知识图谱中的关系知识来预测这些实体,从而提高了模型在问答和知识库完成等任务上的性能。例如,通过将知识图谱与语言模型结合,可以在输入层提供结构化的知识,从而增强模型对上下文的理解。例如,通过知识图谱增强的检索方法,模型能够在生成过程中检索相关信息,减少幻觉现象,而不改变LLM的架构。这些方法有助于确保事实的一致性,并提高生成内容的可靠性。原创 2024-05-06 22:03:17 · 766 阅读 · 0 评论 -
GraphGPT——图结构数据的新语言模型
GraphGPT是一种新型框架,它通过图指令调整(Graph Instruction Tuning)来提升大型语言模型对图结构数据的理解力和泛化能力。这一框架特别适合于零样本学习场景,即在没有下游任务标签的情况下进行预训练和微调。GraphGPT的核心优势在于其创新的框架设计,该设计专门针对图结构数据的理解与处理进行了优化。1.图结构编码与文本-图基础范式(Text-Graph Grounding)GraphGPT通过一种称为文本-图基础范式的方法,实现了图结构信息与自然语言空间的有效对齐。原创 2024-05-06 21:36:51 · 1275 阅读 · 0 评论 -
提升大模型自我提问能力的方法:Rephrase and Respond(RaR)
尽管提示的质量对LLMs提供的回答质量有显著影响,但目前仍缺乏一种系统化的方法来构建LLMs能够更好理解的问题。此外,研究者还提供了RaR方法和流行的Chain-of-Thought(CoT)方法之间的全面比较,包括理论和实证比较。然后,将原始问题和重述的问题一起提示给回答LLM。此外,与基于准确度得分进行迭代提示工程的方法不同,我们的方法无需监督且无需训练,使其经济且适用于所有问题。实验表明,使用这种提示的GPT-4在多种任务上表现出更好的结果,尤其是在那些对LLMs来说存在歧义的人类设计数据集上。原创 2024-05-05 15:59:39 · 465 阅读 · 0 评论 -
通过自适应提示提升大语言模型的零样本推理能力
随着大模型(LLMs)的快速发展,它们在自然语言处理(NLP)任务上取得了前所未有的成就。特别是,LLMs展现出了强大的推理和规划能力,这得益于它们的少样本和零样本学习能力。然而,现有的方法仍存在一些限制,例如在少样本设置中,性能对示例选择非常敏感,而在零样本设置中,由于缺乏对LLMs的指导,性能受限。为了解决这些限制,论文提出了COSP,这是一种不需要手工示例或真实标签的算法。作为一种新颖的提示设计方法,它旨在提升大模型(LLMs)在零样本(Zero-Shot)推理任务中的表现。原创 2024-05-05 15:32:33 · 833 阅读 · 0 评论 -
USP技术提升大语言模型的零样本学习能力
大型语言模型(LLMs)在零样本和少样本学习能力上取得了显著进展,这通常通过上下文学习(in-context learning, ICL)和提示(prompting)来实现。然而,零样本性能通常较弱,因为缺乏指导和难以应用现有的自动提示设计方法。论文提出了一种名为Universal Self-Adaptive Prompting(USP)的自动提示设计方法,旨在提升大型语言模型(LLMs)在零样本学习(zero-shot learning)任务中的表现。原创 2024-05-04 21:01:14 · 938 阅读 · 0 评论 -
文本嵌入的隐私风险:从嵌入向量重建原始文本的探索
随着大型语言模型(LLMs)的广泛应用,文本嵌入技术在语义相似性编码、搜索、聚类和分类等方面发挥着重要作用。然而,文本嵌入所蕴含的隐私风险尚未得到充分探讨。研究提出了一种控制生成的方法,通过迭代修正和重新嵌入文本,以生成与固定嵌入点接近的文本。研究发现,尽管基于嵌入的朴素模型表现不佳,但多步骤方法能够精确恢复92%的32个标记文本输入。此外,模型还能够从临床笔记数据集中恢复重要的个人信息(如全名)。在利用大型语言模型的系统中,文本数据的嵌入向量通常存储在向量数据库中。原创 2024-05-03 21:42:02 · 635 阅读 · 0 评论 -
大模型咨询培训叶梓老师:数千大模型,1张GPU搞定——UC Berkeley提出全新微调方法S-LoRA
通过将LoRA适配器的矩阵与基础模型的矩阵分区策略对齐,S-LoRA能够最小化通信成本,避免了不必要的通信,并实现了一些通信的融合。通过在小的中间张量上调度通信,并将大型张量与基础模型的通信融合,S-LoRA实现了与基础模型相比增加的LoRA计算的最小通信成本,从而提高了整体的服务吞吐量。然而,适配器聚类也带来了一些权衡。统一分页通过使用一个统一的内存池来管理动态的适配器权重和KV缓存张量,这个内存池被静态地分配一个大缓冲区,除了基础模型权重和临时激活张量占用的空间外,所有可用空间都被用于这个池。原创 2024-05-02 22:01:38 · 1044 阅读 · 0 评论 -
简化Transformer模型,以更少的参数实现更快的训练速度
ETH Zurich的研究人员Bobby He和Thomas Hofmann在最新研究中提出了一种简化的Transformer模型,通过移除一些非必要的组件,不仅减少了模型的参数数量,还提高了训练速度,同时保持了与传统Transformer相当的性能。实验验证 研究人员在自回归解码器仅模型和BERT编码器仅模型上进行了实验,结果表明,简化后的Transformer模型在每次更新的训练速度和性能上与标准Transformer相当,同时训练吞吐量提高了15%,使用的参数减少了15%。原创 2024-05-03 22:13:44 · 971 阅读 · 0 评论 -
探索高级聚类技术:使用LLM进行客户细分
Clustering with LLM”项目旨在探索定义聚类和分析结果的高级技术。这个仓库是为那些希望扩展其处理聚类问题的工具箱并朝着成为高级数据科学家迈进的数据科学家们准备的。原创 2024-05-02 21:04:43 · 575 阅读 · 0 评论 -
利用大模型提升个性化推荐的异构知识融合方法
在推荐系统中,分析和挖掘用户行为是至关重要的,尤其是在美团外卖这样的平台上,用户行为表现出多样性,包括不同的行为主体(如商家和产品)、内容(如曝光、点击和订单)和场景(如APP首页和小程序)。传统的推荐系统通过不断添加用户行为到模型中,导致两个主要问题:一是行为主体的多样性导致特征稀疏,二是用户、商家和商品行为的独立建模忽略了行为间的异构知识融合。通过设计新的用户行为建模框架,研究者们能够将结构化的用户行为数据转化为非结构化的异构知识,进而通过指令调整和微调,使LLM更精准地适应个性化推荐任务。原创 2024-04-30 20:30:59 · 1061 阅读 · 0 评论 -
Qwen-Audio:推动通用音频理解的统一大规模音频-语言模型(开源)
Qwen-Audio在多个基准测试任务上进行了评估,这些任务包括自动语音识别(ASR)、语音到文本翻译(S2TT)、自动音频字幕生成(AAC)、声学场景分类(ASC)、语音情感识别(SER)、音频问答(AQA)、声乐声音分类(VSC)和音乐音符分析(MNA)。的性能不仅在上述提到的数据集上超越了其他模型,而且在其他多个任务和数据集上也展现了强劲的性能,这证明了其通用音频理解能力的广泛性和有效性。该编码器将原始音频波形转换为。,它允许来自各种音频和文本输入的输入,支持多轮对话,并支持各种以音频为中心的场景。原创 2024-05-01 15:06:40 · 1201 阅读 · 2 评论 -
扩展大型视觉-语言模型的视觉词汇:Vary 方法
使用Vicuna-7B作为LLM,以及LLaVA-CC665k作为SFT数据,Vary在MMVet基准上的总指标比LLaVA-1.5高出2.4%,证明了Vary的数据和训练策略没有损害模型的通用能力。)提出的一种创新方法,旨在通过扩展模型的视觉词汇来提升其在特定视觉任务上的表现,尤其是那些需要密集和细粒度视觉感知的任务,如文档级光学字符识别(时,采取了一种特殊的策略,即冻结新旧视觉词汇网络的权重。能够结合新旧视觉词汇的优势,提高模型在复杂视觉任务上的表现,同时保持在通用任务上的性能。原创 2024-04-30 21:20:32 · 1141 阅读 · 2 评论