自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人工智能前沿分享

人工智能大模型培训老师叶梓分享AI前沿知识

  • 博客(713)
  • 资源 (1)
  • 收藏
  • 关注

原创 人工智能培训讲师咨询叶梓介绍及智能医疗技术与ChatGPT临床应用三日深度培训提纲

叶梓,上海交通大学计算机专业博士毕业,高级工程师。主研方向:数据挖掘、机器学习、人工智能。历任国内知名上市IT企业的AI技术总监、资深技术专家,市级行业大数据平台技术负责人。长期负责城市信息化智能平台的建设工作,开展行业数据的智能化应用研发工作,牵头多个省级、市级行业智能化信息系统的建设,主持设计并搭建多个省级、市级行业大数据平台。参与国家级人工智能课题,牵头上海市级人工智能示范应用课题研究。

2024-05-08 16:11:22 818

原创 人工智能讲师AI讲师大模型讲师叶梓介绍及大语言模型技术原理与实践提纲

本课程旨在通过实际案例展示ChatGPT、ChatGLM、Langchain等相关大语言模型的具体应用场景及实践技巧,从而帮助学习者深入了解和掌握大语言模型的概念和更广泛的应用,深入理解其工作方式,包括其基础知识、核心算法和实现方式,掌握其在各行业领域中的应用情况等。该课程适合于对大语言模型技术感兴趣的学习者,从初学者到进阶者均可受益。经过本课程的学习,获得相关技术实战经验,通过一系列的实践案例提高利用大模型解决实际问题能力。

2024-02-21 16:30:38 1317

原创 AI人工智能大模型讲师叶梓《基于人工智能的内容生成(AIGC)理论与实践》培训提纲

本课程介绍了chatGPT相关模型的具体案例实践,通过实操更好的掌握chatGPT的概念与应用场景,可以作为chatGPT领域学习者的入门到进阶级课程。1、指示学习(Instruct Learning)6、Batch Norm与Layer Norm。2、Transformer中的block。1、你需要的仅仅是“注意力”7、chatGPT的应用领域。8、chatGPT引发的讨论。5、位置编码(抛弃RNN)4、从人类反馈中RL的思路。3、有监督微调(SFT)5、奖励建模(RM)

2023-12-30 13:26:21 821

原创 人工智能AIGC培训讲师叶梓介绍及AI强化学习培训提纲

强化学习是当前最热门的研究方向之一,广泛应用于机器人学、电子竞技等领域。本课程系统性的介绍了强化学习(深度强化学习)的基本理论和关键算法,包括:马尔科夫决策过程、动态规划法、蒙特卡罗法、时间差分法、值函数逼近法,策略梯度法等;以及该领域的最新前沿发展,包括:DQN及其变种、信赖域系方法、Actor-Critic类方法、多Agent深度强化学习等;同时也介绍大量的实际案例,包括深度强化学习中最著名的工程应用:Alpha Go。

2023-12-06 14:16:05 286

原创 人工智能ai大模型培训师专家讲师叶梓介绍及ChatGPT提纲

叶梓,长期负责城市信息化智能平台的建设工作,牵头多个省级、市级智能化信息系统的建设,主持设计并搭建多个行业省级、市级大数据平台。参与国家级行业人工智能课题研究,牵头市级行业人工智能课题(智能化医疗产品、智能化场景应用)研究。带领团队在相关行业领域研发多款人工智能创新产品,成功落地多项大数据、人工智能前沿项目。参与国家级、省级大数据技术标准的制定,曾获省部级以上的科技创新一等奖。8、chatGPT的应用领域。9、chatGPT引发的讨论。2、 GPT的内部架构。5、 GPT的应用场景。6、奖励建模(RM)

2023-03-25 16:42:58 2396

原创 AI工智能讲师叶梓培训简历及提纲:AI人工智能之基于人工智能的内容生成(AIGC)简历提纲

AIGC并不是一个全新的概念,它最早出现在深度学习模型“对抗生成网络”GAN的应用中,被誉为“21世纪最强大的算法模型之一” ,后续发展起来的扩散模型,以及自然语言领域BERT、GPT等都是典型的AIGC模型。

2023-02-05 20:25:56 1011

原创 大数据人工智能培训讲师老师:叶梓简介 人工智能讲师ai讲师大数据讲师人工智能老师

上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、人工智能等方面都有着丰富的经验。个人助理QQ:526346584案例及课程:主要课程:《数据分...

2019-09-11 09:45:18 10973 1

原创 人工智能兼职讲师ai讲师强化学习讲师叶梓老师《强化学习》课程介绍及提纲

2018年11月29日,叶梓老师在线直播课《强化学习》第一期正式开班。这是人工智能之机器学习中除深度学习之外另一门经典课程,是AI必修之课。人工智能的重要领域——强化学习当前的机器学习算法可以分为3种:有监督的学习(Supervised Learning)、无监督的学习(Unsupervised Learning)和强化学习(Reinforcement Learning)...

2018-12-27 10:39:34 1011 1

原创 AI兼职讲师人工智能兼职讲师叶梓老师 机器学习与深度学习培训提纲

课程时长】6天(6小时/天)【课程简介】人工智能的浪潮正在席卷全球,各种培训课程应运而生,但真正能让学员系统、全面掌握人工智能深度学习知识点,并且能学以致用的实战课程并不多见。本课程包含机器学习、深度学习的重要概念及常用算法(决策树、关联规则、聚类、贝叶斯网络、神经网络、支持向量机、隐马尔科夫模型、遗传算法、CNN、RNN、GAN等),以及人工智能领域当前的热点。通过6天的系...

2018-12-27 10:36:10 955 1

原创 RAG减少LLM幻觉研究

" 时,正确答案应该是 "Jeymes Samuel",但模型错误地回答 "Adam McKay",因为文档中提到了与 "Adam McKay" 的联系,尽管并没有明确指出他是电影的导演。Table 7 展示了模型在反事实鲁棒性测试中的表现,包括没有外部文档时的准确率(ACC)、有反事实文档时的准确率(ACCdoc)、错误检测率(ED 和 ED*)以及错误纠正率(CR)。例如,当被问及ChatGPT应用程序和API的发布日期时,LLMs需要从不同的文档中提取相关信息,并整合这些信息以提供一个完整的答案。

2024-05-23 18:00:00 391

原创 大模型智能体的记忆机制综述

在狭义上,智能体的内存仅与同一试验内的历史信息有关,即智能体在某个步骤t之前的所有交互信息。这种定义强调了智能体如何利用当前任务中的先前步骤来影响其决策和行动。而广义上的内存定义则更为宽泛,它包括了跨不同试验的信息以及超出智能体与环境交互的外部知识。智能体的内存可以整合来自多个任务的经验和知识,以及通过API调用等手段获取的外部信息。

2024-05-23 16:30:00 588

原创 MAIA:多模态自动化可解释智能体的突破

随着人工智能技术的飞速发展,深度学习模型在图像识别、自然语言处理等领域取得了显著成就。然而,这些模型的“黑箱”特性使得其决策过程难以理解,限制了它们的应用范围和可靠性。为了解决这一问题,研究者们提出了多种模型可解释性方法,旨在提高模型的透明度和可信度。MAIA(Multimodal Automated Interpretability Agent)是一种创新的系统,由一组预训练的神经模型构成,它们协同工作以执行诸如特征解释和故障模式发现等任务。

2024-05-23 12:45:00 457

原创 多智能体系统的仿真:BattleAgent对历史战役进行多模态动态模拟

随着人工智能技术的飞速发展,大型语言模型(LLM)和视觉语言模型(VLM)为我们提供了新的视角和工具,以探索和理解复杂的历史事件。在最近的研究中,一个名为“BattleAgent”的系统被开发出来,它利用这些先进的AI技术来详细仿真历史战役,模拟领导者的决策过程和普通士兵的视角。旨在解决传统历史分析中存在的一些关键问题。它通过模拟历史战役中的复杂动态交互,包括领导者决策和普通士兵视角,填补了传统叙事中对个体经历的忽视。

2024-05-22 16:15:00 512

原创 多标签识别:JoyTag模型的图像标注革命【开源】

JoyTag有着广泛的适用性,它不仅能够处理动漫和漫画风格的艺术作品,还能通过辅助数据集的补充,增强对摄影图片和其他类型内容的处理能力。JoyTag项目特别强调性别积极性和包容性,它减少了对训练数据集的过滤,从而避免了对用户表达自由的限制和潜在的歧视。它基于Danbooru的标签体系,但通过手动标记和调整,使得模型能够更准确地适应摄影内容的需要,提高了标签的相关性和准确性。用户只需提供一张图片,JoyTag就能输出多达5000个不同标签的预测,这些预测是独立进行的,意味着每个标签的预测不受其他标签的影响。

2024-05-22 15:30:00 370

原创 大模型培训 AUTOWEBGLM:自动网页导航智能体

大型语言模型(LLMs)在智能代理任务中发挥着重要作用,尤其是在网络导航方面。然而,现有的代理在真实世界的网页上表现不佳,主要原因网络导航代理面临着三大挑战:网页上行动的多样性、HTML文本的处理限制以及开放领域决策的复杂性。为了克服这些挑战,AUTOWEBGLM采用了基于ChatGLM3-6B模型的架构,并通过创新的HTML简化算法和混合人类-AI数据构建方法,显著提升了代理的性能。AUTOWEBGLM的设计灵感来源于人类的浏览模式,它通过一个精心设计的HTML简化算法来表示网页,同时保留了关键信息。

2024-05-22 12:45:00 673

原创 开创性的全360°文本到3D场景生成技术

随着VR/AR技术的飞速发展,对于沉浸式3D场景的需求不断增长。从游戏到教育,从室内设计到房产展示,沉浸式体验正在成为各行业的新标准。然而,当前的3D场景生成技术面临诸多挑战,包括生成速度慢、场景一致性差以及对高质量3D训练数据的依赖。DreamScene360采用了一种新颖的方法,将文本描述直接转化为360°全景图像,再通过先进的3D建模技术生成3D场景。这一过程涉及使用2D扩散模型和自我优化机制来创建高质量的全景图像,并利用splatting技术将2D图像提升为3D空间中的点云。

2024-05-21 21:30:00 788

原创 字节跳动推出VoiceShop:保留原音色同时任意修改性别、口音和说话风格

在人工智能声音编辑领域,一项突破性技术正悄然改变游戏规则。字节跳动的Data-Speech团队最近推出了VoiceShop,这是一款能够让用户在完全保留原始说话者音色的基础上,任意修改语音的年龄、性别、口音和说话风格的先进框架。这项技术的问世,不仅为声音编辑带来了前所未有的灵活性和控制力,还预示着个性化语音合成和语音转换技术的全新时代。

2024-05-21 19:00:00 662

原创 智能互联:构建知识图谱的技术架构与应用实践

随着人工智能技术的飞速发展,知识图谱作为结构化知识的重要载体,已经成为智能系统不可或缺的一部分。本文将从技术探索到实战应用的角度,详细解析如何构建知识图谱,并探讨当前领域的热点问题。知识图谱的概念起源于人工智能和语义网领域,旨在以图形结构的方式表示和组织知识。随着Google在2012年推出知识图谱,这一概念开始进入主流视野,并在搜索引擎、虚拟助手、自然语言处理等领域得到广泛应用。

2024-05-21 15:15:49 981

转载 基于大模型的Agent进行任务规划的10种方式(附代码和论文)

这种方式模拟人类解决问题的思维组合,它能合并多条推理链,自然回溯到有效的推理链,并行地探索独立的推理链,更贴近人类思维方式,从而增强了推理能力。而 Agent 的执行过程与人做事的方式类似,其中最有效的就是 ReAct 框架的思路,它来自论文《ReAct:在语言模型中协同推理与行动》[3],作者发现让 Agent 执行下一步行动的时候,加上大模型自己的思考过程,并将思考过程、执行的工具及参数、执行的结果放到提示词中,就能使得模型对当前和先前的任务完成度有更好的反思能力,从而提升模型的问题解决能力。

2024-05-21 14:39:45 11

原创 多功能智能体(agent)直观地 LLM 提示框架AgentKit:用图谱而非编码的流程工程

AgentKit是一个创新的框架,它允许用户通过直观的方式设计智能代理的思考过程。这一框架的核心在于节点的概念,节点是构成代理思维的基本单元,每个节点都对应一个特定的子任务,并包含一个用于指导语言模型(LLM)的自然语言提示。用户可以像搭积木一样,将这些节点串联起来,构建出代理解决问题的逻辑链条。在AgentKit中,节点的设计和组合方式非常灵活,用户可以根据自己的需求,设计出能够执行复杂任务的代理。这种模块化的设计让AgentKit不仅能够模拟人类的思考过程,而且极大地降低了设计智能代理的门槛。

2024-05-21 10:11:26 711

原创 DLRover:蚂蚁集团开源的AI训练革命

它能够恢复失败的参数服务器和工作节点,自动启动具有更多内存的Pod以恢复内存不足的节点,重新分配失败工作节点的训练数据给其他工作节点,并根据模型大小自动扩展参数服务器。在蚂蚁集团的实践中,DLRover 管理着每天数百个深度学习训练作业,除代码错误导致的失败作业外,作业完成率从使用 KubeFlow 中的 tf-operator 的89%提高到了95%。与传统的检查点操作相比,Flash Checkpoint 允许训练过程更频繁地保存检查点,并且在发生故障时,可以减少从最新检查点恢复训练所需的回滚步骤。

2024-05-20 20:30:00 329

原创 不用从头训练,通过知识融合创建强大的统一模型

在模拟了多个具有相同基础模型结构但训练数据不同的LLMs的场景中,FUSELLM在所有测试域中都实现了最低的平均困惑度(perplexity),这表明其在整合多样化模型知识方面的有效性超过了传统的集成和合并方法。知识融合的目标是将多个预训练的LLMs的能力结合起来,形成一个统一的模型,这个模型能够继承所有源模型的优势,并在广泛的任务上表现出色。实验结果表明,尽管知识蒸馏能够提升模型性能,但FUSELLM通过结合三个7B模型的持续训练,相比于从单一13B模型中提取知识的蒸馏方法,取得了更显著的性能提升。

2024-05-20 10:30:52 963

转载 太强!AI没有落下的腾讯出YOLO-World爆款 | 开集目标检测速度提升20倍,效果不减

首先,与在完整LVIS数据集上训练的oracle YOLOv8s相比,YOLO-World取得了显著的提升,尤其是对于较大模型,例如,YOLO-World-L比YOLOv8-L在7.2 AP和10.2 AP上有更好的表现。此外,作为高效的单阶段检测器,YOLO-World在总体性能上超过了之前最先进的两阶段方法,而且无需额外的设计,例如,可学习的提示[7]或基于区域的对齐。预训练的YOLO-World拥有丰富的区域文本对,展示了在大词汇检测方面的强大能力,且更多的数据训练将带来开集能力的更大提升。

2024-05-20 09:47:27 8

转载 2023年终盘点:图文大模型编年简史

商汤业务经常面对的复杂视觉场景理解任务,这类任务已经有不错的图像理解能力,但是,这和人们沟通交互的方式仍有差距,其中最大的差别在于“用手指向”的能力,即指示(Referring,对于提问者)和定位(Grounding,对于回答者)的能力。比如,把这个图上的左上角认为是(0,0),图上的右下角(1000,1000),图上的任意一个点都可以表示成0到1000的一个数组。比如,工业质检的产品缺陷是随机的,凹陷,裂缝,标签印刷,而且,有些缺陷数据拍摄不到,或者有些是新上生产线的工业产品,连一张缺陷图片都没有。

2024-05-20 09:43:08 5

原创 【开源】多语言大型语言模型的革新:百亿参数模型超越千亿参数性能

大型人工智能模型,尤其是那些拥有千亿参数的模型,因其出色的商业应用表现而受到市场的青睐。但是,直接通过API使用这些模型可能会带来数据泄露的风险,尤其是当模型提供商如OpenAI等可能涉及数据隐私问题时。私有部署虽然是一个解决办法,但昂贵的授权费用对于许多企业来说是一笔不小的开支。Orion-14B系列模型的推出,旨在解决这一难题,提供一个既经济实惠又性能卓越的选择。Orion-14B系列模型以其百亿参数规模,在多个专业场景问题解答中超越了GPT-4等千亿参数级别的模型。

2024-05-20 09:24:31 1203

原创 CoVoMix:实现多个对话者的多轮对话语音生成技术

文本到语音(TTS)技术领域取得了显著进展,特别是在生成自然、高保真的语音方面。尽管如此,创建能够捕捉到自然对话细微差别的人类对话式语音仍然是一个巨大的挑战。这在生成具有多个说话者和多轮对话的语音时尤其如此,这些对话需要能够模拟真实对话中的流畅转换、重叠语音和适当的副语言行为,如笑声。为了解决这些挑战,上海交通大学和微软公司的研究人员提出了CoVoMix模型,这是一种用于零样本、类似人类的多说话者、多轮对话语音生成的新型模型。

2024-05-19 21:45:00 825

原创 Melodist模型在文本到歌曲(包含人声和伴奏)合成中的应用

在音乐与技术的交汇处,一项新的研究突破正在重塑我们创造和体验音乐的方式。浙江大学的研究者们提出了Melodist,这是一个创新的文本到歌曲(Text-to-Song)合成模型,它能够将简单的文本提示转化为包含人声和伴奏的完整歌曲。这项工作不仅推动了音乐生成技术的发展,也为音乐创作提供了新的可能性。传统的音乐生成研究集中在单一的声音合成上,而Melodist模型的提出,标志着一个全新的任务——文本到歌曲合成的诞生。这一任务的挑战在于如何将文本信息,如歌词、旋律和持续时间,转换为包含人声和伴奏的音乐作品。

2024-05-19 16:30:00 850

原创 大模型培训老师叶梓:通过直接偏好优化提升文本到音频生成的质量

在多媒体内容创作领域,文本到音频的生成技术正变得越来越重要。随着AI技术的发展,我们有能力快速生成接近人类创作水平的音频内容。然而,目前的文本到音频生成模型大多依赖于大规模数据集训练复杂的扩散模型。这些模型虽然在音频质量上取得了一定的成就,但往往无法精确捕捉输入文本中的概念及其顺序。这导致了生成的音频内容可能与用户的预期存在偏差。本文将介绍一项新技术——Tango 2,它通过直接偏好优化(Direct Preference Optimization, DPO)来改善这一问题。

2024-05-18 11:30:00 961

原创 长格式音乐生成的突破:时长可达 4 分 45 秒

在音乐制作的世界中,人工智能正在逐步成为创意过程中不可或缺的伙伴。然儿,传统的音频生成模型通常受限于较短的音乐片段,无法捕捉到音乐作品中的长期结构和连贯性。Stability AI 的研究团队通过训练一个在长时间范围内工作的生成模型,成功克服了这一难题。他们的模型基于一个扩散变换器(diffusion transformer),操作在21.5 Hz的低潜在率上,能够生成具有自然音乐结构的完整音乐作品。

2024-05-18 09:45:00 604

原创 AI咨询叶梓:高效零样本语音合成技术与FlashSpeech的突破

在人工智能领域,语音合成技术一直是研究的热点。随着语言模型和扩散模型的进展,零样本语音合成技术取得了显著成就,但这些技术在生成过程中存在速度慢和计算成本高昂的问题。这不仅限制了它们的实际应用,也对资源的有效利用提出了挑战。为了解决现有技术的局限性,研究者们提出了FlashSpeech,这是一种新型的大规模零样本语音合成系统。FlashSpeech的核心优势在于其高效率——它将推理时间缩短至先前工作的5%,同时保持了与之前工作相当的音质和说话者相似性。

2024-05-17 16:30:00 1531

原创 推进音频和音乐理解的多轮对话数据集Audio Dialogues

在人工智能领域,音频理解一直是一个挑战性的话题。随着技术的进步,我们越来越需要模型能够通过对话的形式来理解和交互音频内容。然而,现有的数据集大多专注于单轮交互任务,例如音频字幕和简单的问答,这限制了模型处理更复杂音频对话的能力。这些数据集通常只提供对音频的一次性描述或简短问题的回答,缺乏对音频内容进行深入、交互式探索的能力。并且,在生成过程中现有数据集往往缺乏详细的元描述和基于人类反馈的质量控制,导致生成的对话可能包含不确定性或不准确的信息。

2024-05-17 12:30:00 929

原创 CameraCtrl:文生视频模型中的摄像机控制革命

在数字内容创作领域,视频生成技术正迅速发展,其中可控性是实现个性化和高质量视频内容的关键。尽管现有技术在文本到视频(T2V)生成方面取得了进展,但现有的T2V模型往往忽略了摄像机姿态的精确控制,这限制了视频内容的深度和用户参与度。为了解决这一问题,本文将介绍一种名为CameraCtrl的新技术,它通过精确的摄像机控制为视频生成带来了新的维度。

2024-05-16 20:45:00 838

原创 MagicTime:开创性的变形时间缩影视频生成模型

在人工智能领域,文本到视频(Text-to-Video, T2V)的生成一直是一个挑战性的话题。尽管现有的模型在生成通用视频方面取得了进展,但它们在编码现实世界的物理知识方面存在不足,导致生成的视频运动有限,缺乏对物理世界深刻理解的编码,这限制了它们生成具有持续主体变形过程的视频能力。这些视频通常只展示相机运动,而缺少物理上连贯的变化,如植物生长、冰融化或花朵绽放等现象。本文将介绍一种新型的时间缩影视频生成模型——MagicTime,它能够学习现实世界的物理规则,并生成包含复杂变形过程的高质量视频。

2024-05-16 16:15:00 905

转载 万字长文梳理Llama开源家族:从Llama-1到Llama-3

对于语言的代表性和毒性的分析,Llama-2使用了相应的工具和数据集,以了解预训练数据的特征,为模型的安全调整提供指导。Llama-1各个参数量版本都在超过1T token的语料上进行了预训训练,其中,最大的65B参数的模型在2,048张A100 80G GPU上训练了近21天,并在大多数基准测试中超越了具有175B参数的GPT-3。在Llama-2和Llama-2-Chat的微调中,采用了自回归损失函数,这是一种在生成模型中常见的方法,模型预测下一个token时会考虑到之前的所有token。

2024-05-16 07:18:37 9

原创 “图生视频”技术创新:剪贴画秒变动画生成的实验验证与分析

AniClipart系统的设计核心在于将文本提示转化为可视的动画序列。系统首先对输入的剪贴画图像进行分析,以识别出能够代表图像特征的关键点。这些关键点是动画运动的基础,它们可以是图像中的特定形状、边缘或者显著的特征。接着,系统利用贝塞尔曲线来定义这些关键点的运动轨迹。贝塞尔曲线因其在图形设计中的灵活性和控制性而被选用,它们能够精确地控制动画中关键点的移动和变化。为了生成与文本描述相匹配的动画,系统采用了Video Score Distillation Sampling (VSDS)损失函数进行优化。

2024-05-15 19:15:00 824

原创 大模型实战讲师叶梓:通过视频生成实现基于物理的3D对象交互——PhysDreamer

随着虚拟现实(VR)和增强现实(AR)技术的飞速发展,用户对于虚拟体验的真实性提出了更高的要求。在这样的背景下,PhysDreamer应运而生,它是一项创新的技术,能够为静态3D对象赋予逼真的物理交互动态,极大地丰富了虚拟环境的互动性和沉浸感。PhysDreamer系统旨在解决虚拟体验中逼真3D对象交互动态的合成问题。具体来说,它针对如何使静态3D对象在虚拟环境中对用户交互或外力作用时产生符合物理规律的动态响应进行研究。

2024-05-15 12:45:00 2371

原创 零样本身份保持:ID-Animator引领个性化视频生成技术新前沿

实验的基础是使用开源的AnimateDiff模型作为文本到视频生成的核心。此外,ID-Animator的训练方法和数据集构建流程为零样本个性化视频生成提供了一个有效的解决方案,展示了其在实际应用中的广泛潜力。这项技术的核心在于其零样本(zero-shot)人物视频生成方法,它允许研究者和开发者根据单一的参考面部图像生成具有特定身份特征的视频,而无需进行额外的训练步骤。在实验部分,研究者们使用了开源的AnimateDiff作为文本到视频生成模型的基础,并在NVIDIA A100 GPU上进行了训练。

2024-05-14 19:50:35 484 2

原创 InternLM-XComposer2-4KHD开拓性的4K高清视觉-语言模型

大型视觉-语言模型(LVLM)在图像字幕和视觉问答(VQA)等任务中表现出色。然而,受限于分辨率,这些模型在处理包含细微视觉内容的图像时面临挑战。分辨率的限制严重阻碍了模型处理含有丰富细节的图像的能力。例如,在理解图表、表格和文档等类型的视觉内容时,细节的清晰度对于准确解读和生成语言描述至关重要。然而,当图像的分辨率不足时,这些细微的视觉信息可能会丢失,导致模型无法准确地捕捉和学习图像中的关键细节。现有模型通常只能在一个预先设定的分辨率范围内工作,这限制了它们的适用性和灵活性。

2024-05-14 18:04:08 839 1

原创 提升文本到图像模型的空间一致性:SPRIGHT数据集与训练技术的新进展

为语言模型提供明确的指示,要求其生成包含特定空间关系的描述。例如,提示可能要求模型使用“left/right”、“above/below”、“front/behind”等词汇。

2024-05-13 22:09:44 1059

原创 InstantStyle —— 文本到图像生成中的风格保持新突破

在人工智能领域,文本到图像生成(Text-to-Image Generation)技术正迅速发展,其应用范围从娱乐到专业设计不断扩展。然而,风格一致性生成一直是该领域的一个技术难题。最近,InstantX团队提出了一种名为InstantStyle的新框架,旨在解决这一挑战。InstantStyle框架的核心在于两个创新策略,以实现从参考图像到目标内容图像的风格迁移,同时保持内容的文本可控性。

2024-05-13 20:34:56 1238 1

Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册(All)_ZCX

叶梓老师整理的Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册,非常实用

2018-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除