自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(197)
  • 收藏
  • 关注

原创 OpenAI大动作:Whisper large-v3重塑语音识别技术

这个模型不仅提高了识别的准确性,还大幅扩展了对不同语言的支持范围。在最近的OpenAI首届开发者大会上,一个引人注目的技术亮点是Whisper large-v3的发布。这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步,而且还将很快在OpenAI的API中得到支持。OpenAI的Whisper large-v3不仅是一次技术更新,它代表了语音识别领域的一大步。随着这一技术的普及和应用,我们期待看到更多创新的使用场景,以及它如何帮助人们跨越语言障碍,实现更自然、更高效的交流。

2023-11-07 17:34:13 4111

原创 Hugging Face模型下载:国内如何高效应对?

为研究人员和开发者提供的众多预训练模型和相关工具,为NLP的研究与应用创造了无数可能性。然而由于某些原因,国内的开发者访问Hugging Face官方站点或下载模型时遭遇了困难。总而言之,AI快站为国内的AI从业者打开了一扇窗,为我们提供了一个可能的解决方案。如果你也遭遇了Hugging Face模型下载的困境,这或许是一个值得尝试的选项。在探索的过程中,我偶然发现了一个名为🔗 AI快站(aifasthub.com) 的国内站点,它声称提供Hugging Face模型的镜像加速服务。

2023-10-25 15:48:37 856

原创 VideoLLaMA 2:多模态视频理解新突破,音频理解能力再升级,挑战 GPT-4V

近年来,人工智能技术飞速发展,尤其是大模型的出现,为视频理解和生成领域带来了前所未有的机遇。然而,现有的视频大模型(Video-LLM)在处理视频中复杂的时空信息和音频信息方面仍存在不足,例如无法有效融合不同帧的特征,以及忽视了音频信息在场景理解中的重要作用。为了克服这些挑战,阿里巴巴达摩院发布了,一个旨在提升视频时空建模和音频理解能力的开源视频大模型。

2024-06-26 00:06:56 4715 4

原创 清华、北大与微软推出Glyph-ByT5-v2,精准生成文字海报,支持10种语言,效果炸裂

在 AI 领域,文生图技术已经取得了令人惊叹的进展,但如何将文字精准地融入图像,并支持多种语言,一直是研究人员面临的挑战。为了解决这一难题,清华大学、北京大学和微软亚洲研究院的研究人员合作推出了 Glyph-ByT5-v2,这是一个功能强大的定制多语言文本编码器,可以支持 10 种不同语言的精准视觉文本渲染。Glyph-ByT5-v2 的出现,为设计师、开发者以及普通用户提供了一个强大的工具,加速文生图技术的普及和应用,为更广泛的领域带来更智能、更便捷的设计体验。Huggingface模型下载:AI。

2024-06-25 00:11:32 1135

原创 潞晨Open-Sora 1.2发布,16秒720p视频一键生成,质量更高训练成本更低

文生视频技术是近年来 AI 领域最令人瞩目的突破之一。OpenAI 的 Sora 模型展示了令人惊叹的视频生成能力,但其闭源特性限制了技术的普及和发展。而潞晨 Open-Sora 团队则致力于将文生视频技术开源,让更多人能够体验和应用这项技术。Huggingface模型下载:AI快站模型免费加速下载:hpcai-tech16秒720p高清视频,现在一键生成!炫酷的科幻大片Open-Sora 1.2 的开源为文生视频技术的创新和发展注入了强劲的活力。

2024-06-24 00:06:59 1152

原创 Falcon2,110亿参数5.5万亿token,性能超越Llama 3

近年来,大型语言模型(LLM)领域蓬勃发展,不断涌现出新的模型和技术。其中,Meta 的 Llama 3 模型以其强大的性能和开源性,在业界引起了广泛关注。然而,来自阿联酋的技术创新研究所(TII)近日推出了新一代大模型 Falcon 2,其性能超越了 Llama 3,并展现出更多令人瞩目的亮点。Huggingface模型下载:AI快站模型免费加速下载:tiiuae。

2024-06-22 00:03:08 887

原创 让图片开口说话的模型Hallo: 基于音频驱动的肖像图像动画,精准唇形同步,支持多种语言和风格

让静态的图片“开口说话”,一直是人们对人工智能的期待。近年来,随着深度学习技术的发展,音频驱动的肖像图像动画技术取得了长足的进步。各种模型涌现,但如何实现精准的唇形同步、保持视频的真实感和流畅性,以及支持多种语言和风格,仍然是研究人员面临的挑战。来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究团队,共同开发了一个新的音频驱动肖像图像动画模型Hallo,该模型在多个方面实现了突破,为打造更逼真的动画形象提供了新的可能性。

2024-06-21 00:04:24 1205

原创 B站发布Index-1.9B大模型, 代码、对话、角色扮演,功能齐全,2.8T 数据训练,性能媲美同级别模型

近年来,大模型技术发展迅速,并已在多个领域展现出强大的能力。为了推动大模型技术的普及和应用,许多机构和企业纷纷开源了自己的模型。近日,Bilibili 发布了全新的开源大模型系列——Index-1.9B,该模型凭借着 2.8T 的海量训练数据和独特的训练策略,在代码生成、对话交互、角色扮演等方面展现出出色的性能,并与同级别模型相比处于领先地位。Huggingface模型下载:AI快站模型免费加速下载:IndexTeam。

2024-06-20 00:07:57 1128

原创 DeepSeek发布DeepSeek-Coder-V2,性能超GPT4-Turbo代码能力,236B参数,开源代码模型登顶全球第二

在开源代码模型领域,DeepSeek一直致力于打破闭源模型的垄断,为开发者提供更加强大、灵活的工具。继去年11月发布最强开源代码模型 DeepSeek-Coder 和今年5月发布最强开源 MoE 模型 DeepSeek-V2 后,DeepSeek 再度突破技术壁垒,发布了全新升级的 DeepSeek-Coder-V2。Huggingface模型下载:AI快站模型免费加速下载:DeepSeek-Coder-V2 的发布,标志着开源代码模型发展进入新的阶段。

2024-06-19 00:06:32 1108

原创 智谱GLM-4-9B,超越Llama3,多模态媲美GPT4V

在 2023 年 3 月发布开源对话模型 ChatGLM-6B 后,智谱 AI 迅速成为国内外开源大模型领域的重要力量。今年 6 月,智谱 AI 再次发力,开源了其第四代 GLM 系列模型 —— GLM-4-9B,并首次加入了多模态能力。该模型不仅在性能上超越了 Llama 3 8B,更在多模态能力方面展现出与 GPT-4V 相媲美的实力。Huggingface模型下载:AI快站模型免费加速下载:THUDM智谱 AI 开源 GLM-4-9B,标志着中国开源大模型技术取得了新的突破。

2024-06-18 00:04:41 1363

原创 Mistral AI 发布 Codestral-22B,精通 80+ 编程语言,22B 参数超越 70B Code Llama

大型语言模型 (LLM) 在代码生成领域展现出巨大的潜力,但现有的模型在支持的编程语言数量、生成速度和代码质量方面仍存在局限性。法国 AI 独角兽 Mistral AI 近期发布了其首款代码生成模型 Codestral-22B,宣称在多项指标上超越了 GPT-4 和 Llama3,并凭借其出色的性能和 80 多种编程语言的支持,成为了开源代码大模型的新王者。Huggingface模型下载:AI快站模型免费加速下载:mistralai。

2024-06-17 09:03:26 1325

原创 开源医疗大模型Llama3-Aloe-8B-Alpha,性能超越 MedAlpaca 和 PMC-LLaMA

近年来,大型语言模型 (LLM) 在医疗领域展现出巨大潜力,能够帮助医生和研究人员更快地获取信息、分析数据,并提高医疗服务效率。然而,目前市场上大多数医疗 LLM 都是闭源模型,限制了其在学术研究和应用领域的推广。为了打破这一现状,促进医疗 AI 的发展,越来越多的研究团队开始致力于开发开源的医疗 LLM。

2024-06-15 10:27:59 1783 4

原创 李沐团队发布Higgs-Llama-3-70B,角色扮演专用模型

近年来,大语言模型(LLM)在各个领域都展现出强大的能力,尤其是其在对话、写作、代码生成等方面的应用越来越广泛。然而,想要让 LLM 真正地融入人类社会,扮演各种角色,还需要具备更强大的角色扮演能力。为了解决这一问题,李沐团队(Boson AI 创始人)发布了 Higgs-Llama-3-70B,一个专门针对角色扮演任务进行优化的 LLM。该模型基于 Meta 的 LLaMA-3-base 模型,并在角色扮演能力方面进行了针对性的训练。

2024-06-14 00:16:21 1860

原创 Stable Diffusion 3震撼发布,开启图像生成新纪元,20亿参数Medium模型率先开源

Stability AI 作为开源图像生成领域的领军者,不断突破技术边界,6月12日发布了其最新一代文本到图像生成模型——Stable Diffusion 3。这次发布的是 Stable Diffusion 3 的 Medium 模型,拥有 20 亿参数,在图像质量、文本遵循度和排版方面都展现出超越现有模型的强大实力。Stability AI 未来还将开源 40 亿和 80 亿参数的版本,进一步提升模型能力,满足不同用户的需求。

2024-06-13 00:06:57 658

原创 Stability AI发布AI音频模型Stable Audio Open,文本生成47秒高清音效

Stability AI这家以开源图像生成模型 Stable Diffusion 而闻名的公司,在 6 月 6 日宣布开源其最新的 AI 音频模型 Stable Audio Open。这一新模型可以根据简单的文本提示生成最多 47 秒的高质量音频数据,为音乐制作和声音设计领域带来了新的可能性。Huggingface模型下载:AI快站模型免费加速下载:Stable Audio Open 的开源,为 AI 音频生成领域带来了新的突破。

2024-06-12 03:30:00 998

原创 阿里发布最强开源大模型通义千问Qwen2,国产最好用的LLM

近年来,大模型技术发展迅速,开源模型的出现为AI研究和应用带来了新的活力。在这一背景下,阿里云通义千问团队发布了全新升级的Qwen2系列开源模型,为国内外开发者提供了更强大的工具和更丰富的选择。Huggingface模型下载:AI快站模型免费加速下载:QwenQwen2的发布标志着阿里在开源大模型领域的又一次重要突破,展现了其在模型研发和应用方面的领先实力。

2024-06-11 00:16:46 1081

原创 字节开源Hyper-SD模型,超越SDXL-Lightning,单步生成SOTA级图像

近年来,扩散模型(Diffusion Model,DM)在图像生成领域取得了显著进展,展现出前所未有的图像质量和多样性。然而,扩散模型的训练和推理过程通常需要多个步骤,这限制了其在实际应用中的效率。为了克服这一挑战,字节跳动AI团队推出了全新的扩散模型加速框架——Hyper-SD,并将其开源。Hyper-SD 能够将扩散模型的推理步骤大幅压缩,甚至实现单步生成高质量图像,同时保持甚至超越原模型的生成效果。Huggingface模型下载:AI快站模型免费加速下载:ByteDance。

2024-06-09 09:57:16 1171

原创 全流程透明双语大语言模型MAP-Neo,4.5T 高质量数据训练

近年来,大语言模型 (LLM) 已经成为人工智能领域最热门的研究方向之一,并在各种任务中展现出前所未有的性能。然而,由于商业利益的驱动,许多最具竞争力的模型,例如 GPT、Gemini 和 Claude,其训练细节和数据来源往往被隐藏在专有接口背后。这限制了学术界对 LLM 的深入研究和应用。为了解决这一问题,研究团队开源了MAP-Neo,一个高性能、透明的双语大语言模型,旨在推动 LLM 研究的民主化。

2024-06-06 00:11:21 1011

原创 YOLOv10开源,高效轻量实时端到端目标检测新标准,速度提升46%

实时目标检测在自动驾驶、机器人导航、物体追踪等领域应用广泛,近年来,YOLO 系列模型凭借其高效的性能和实时性,成为了该领域的主流方法。但传统的 YOLO 模型通常采用非极大值抑制 (NMS) 进行后处理,这会增加推理延迟,阻碍了其端到端部署的应用。此外,现有的 YOLO 模型在架构设计方面也存在着一些局限性,例如计算冗余、参数利用率低等问题,这些问题限制了模型的性能和效率。Huggingface模型下载:AI快站模型免费加速下载:kadirnar。

2024-06-05 07:00:00 1323 1

原创 英伟达开源新利器NV-Embed向量模型,基于双向注意力的LLM嵌入模型,MTEB 56项任务排名第一

文本嵌入模型能够将文本信息转化为稠密的向量表示,并在信息检索、语义相似度计算、文本分类等众多自然语言处理任务中发挥着关键作用。近年来,基于解码器的大型语言模型 (LLM) 开始在通用文本嵌入任务中超越传统的 BERT 或 T5 嵌入模型,展现出更强的语义理解能力和更灵活的应用潜力。Huggingface模型下载:AI快站模型免费加速下载:nvidia。

2024-06-04 04:00:00 1162

原创 打造SimPO新算法,微调8B模型超越Claude 3 Opus

大型语言模型(LLM)近年来取得了巨大进展,但要将其与人类价值观和意图相一致,使其变得有用、诚实和无害,仍然是一个挑战。强化学习从人类反馈中(RLHF)是一种常用的方法,通过微调语言模型来实现有效对齐。传统的RLHF方法虽然取得了令人印象深刻的结果,但其多阶段过程(包括训练奖励模型和优化策略模型以最大化奖励)带来了优化挑战。

2024-06-03 02:45:00 971

原创 腾讯 InstantMesh,单图生成 3D 模型,10 秒内完成,性能超越 SOTA

近年来,3D 内容创作在游戏、动画、虚拟现实等领域发挥着越来越重要的作用。然而,传统的 3D 模型制作流程繁琐,需要专业人员花费大量时间和精力。为了简化 3D 内容创作流程,腾讯 ARC 实验室推出了 InstantMesh,一个基于单图像的 3D 网格生成框架,能够在短短 10 秒内完成高质量的 3D 模型生成,并显著超越了现有的 SOTA 模型。Huggingface模型下载:AI快站模型免费加速下载:TencentARC。

2024-06-02 10:02:35 899

原创 中文多模态InternVL-Chat-V1-5,中文理解能力强劲,8 项指标超越商业模型,性能媲美 GPT-4V

近年来,多模态大型语言模型(MLLM)的快速发展,为人工智能在图像、文本等多模态信息理解和处理方面带来了前所未有的突破。然而,现有的主流多模态模型多以英文为训练语言,在中文理解和处理方面存在着明显的短板,难以满足日益增长的中文多模态应用需求。为了弥补这一缺陷,OpenGVLab 团队开源了首个中文原生多模态模型 InternVL-Chat-V1-5,旨在为中文多模态领域的发展贡献力量。Huggingface模型下载:AI快站模型免费加速下载:OpenGVLab。

2024-06-01 03:45:00 1923 2

原创 IBM开源Granite Code模型,多尺寸可选,支持多种代码任务,性能媲美 CodeLlama

近年来,大型语言模型(LLM)在代码领域展现出惊人的潜力,为软件开发流程带来了革命性的改变。代码 LLM 不仅能够生成高质量代码,还能帮助程序员修复错误、解释代码、编写文档等等,极大地提高了软件开发效率。然而,现有的代码 LLM 存在着一些局限性,例如模型体积过大,部署成本高昂,以及对特定代码任务的性能表现不佳等等。为了解决这些问题,IBM 研究院推出了 Granite Code 模型家族,旨在为企业软件开发提供一个功能强大、灵活易用的代码 LLM 工具。Huggingface模型下载:AI。

2024-05-31 09:34:04 967

原创 智谱开源新一代多模态大模型CogVLM2,性能媲美GPT-4V

多模态大模型(MLLM)是近年来人工智能领域最热门的研究方向之一,其能够融合图像、文本等多种模态信息,实现更强大、更灵活的应用。然而,现有的主流多模态模型多以英文为训练语言,在中文理解方面存在着明显的短板。为了突破这一局限,智谱 AI 团队推出了新一代中文多模态大模型 CogVLM2,并将其开源,为中文多模态领域的发展贡献力量。Huggingface模型下载:AI快站模型免费加速下载:THUDM。

2024-05-30 03:30:00 1322

原创 最强端侧多模态模型MiniCPM-V 2.5,8B 参数,性能超越 GPT-4V 和 Gemini Pro

近年来,人工智能领域掀起了一股大模型热潮,然而大模型的巨大参数量级和高昂的算力需求,限制了其在端侧设备上的应用。为了打破这一局限,面壁智能推出了 MiniCPM 模型家族,致力于打造高性能、低参数量的端侧模型。近期,面壁智能再次推出了最新一代端侧多模态模型 MiniCPM-Llama3-V 2.5,以 8B 的参数量级,展现出了超越 GPT-4V 和 Gemini Pro 等多模态巨无霸的强大实力。Huggingface模型下载:AI快站模型免费加速下载:openbmb。

2024-05-29 04:00:00 1979

原创 微软发布多模态模型Phi-3-vision,仅4.2B,小模型大潜力

在大型语言模型(LLM)领域,模型参数规模与性能之间一直存在着密切的联系。近年来,虽然参数规模不断攀升,但随之而来的训练成本和推理成本也成为了制约模型发展的瓶颈。为了打破这一困境,微软推出了 Phi-3 模型家族,旨在用更小的模型实现更高的性能。近期,微软在 Build 大会上发布了 Phi-3 家族的新成员——Phi-3-vision,一个仅有 42 亿参数的多模态模型,展现了小模型的巨大潜力。Huggingface模型下载:AI快站模型免费加速下载:microsoft。

2024-05-28 00:18:02 865

原创 Cohere继Command-R+之后发布大模型Aya-23,性能超越 Gemma、Mistral 等,支持中文

近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了推动多语言自然语言处理技术的发展,Cohere团队发布了新的多语言指令微调模型家族——Aya 23,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。Huggingface模型下载:AI快站模型免费加速下载:

2024-05-27 03:00:00 961

原创 腾讯发布ELLA:为扩散模型注入LLM能力,提升复杂场景的图像生成,准确率超90%

近年来,基于扩散模型的文本到图像生成技术取得了显著进步,能够生成高质量、逼真的图像。然而,大多数扩散模型仍然使用CLIP作为文本编码器,这限制了它们理解复杂提示的能力,例如包含多个物体、详细属性、复杂关系、长文本对齐等等。为了克服这一局限性,腾讯团队推出了一个名为ELLA(Efficient Large Language Model Adapter)的全新方法,它能够将强大的大型语言模型(LLM)与扩散模型无缝结合,从而提升文本对齐能力,无需重新训练扩散模型或LLM。Huggingface模型下载:

2024-05-25 23:38:46 819

原创 零一万物Yi-1.5开源,34B/9B/6B多尺寸,34B超Qwen1.5-72B

近年来,大型语言模型(LLM)在各个领域展现出惊人的能力,为人们的生活和工作带来了巨大的改变。然而,大多数开源 LLM 的性能仍然无法与闭源模型相媲美,这限制了 LLM 在科研和商业领域的进一步应用。为了推动 LLM 的开源发展,零一万物团队推出了全新一代的开源语言模型——Yi-1.5,并提供 34B/9B/6B 三种不同尺寸,旨在为研究人员和开发者提供更多选择,助力 LLM 的发展与应用。Huggingface模型下载:AI快站模型免费加速下载:01-ai。

2024-05-25 07:15:00 1102

原创 Defog发布Llama-3-SQLCoder-8B,文本转SQL模型,性能比肩GPT-4,准确率超90%,消费级硬件可运行

在计算语言学领域,将自然语言转化为可执行的SQL查询是一个重要的研究方向。这对于让那些没有编程或SQL语法知识的用户也能轻松访问数据库信息至关重要。Defog团队近日发布了基于Llama-3的SQLCoder-8B模型,它在文本转SQL模型领域取得了显著突破,在准确率和易用性方面都达到了新的高度。Huggingface模型下载:AI快站模型免费加速下载:defog。

2024-05-24 06:30:00 1698

原创 OpenVoiceV2:零样本跨语言语音克隆技术,支持多种风格控制,12倍实时语音生成速度

语音克隆技术近年来取得了显著进展,但现有方法通常存在着局限性,例如无法灵活控制语音风格、需要大量多语言数据进行训练、生成速度慢等等。为了克服这些挑战,MyShell.ai团队推出了全新的语音克隆技术OpenVoiceV2,它能够在无需额外训练的情况下,仅凭少量参考音频,就能够克隆任何人的声音,并支持多种语音风格控制,以及快速高效的跨语言语音生成。Huggingface模型下载:AI快站模型免费加速下载:myshell-ai。

2024-05-23 07:00:00 1942

原创 Google开源视觉语言模型PaliGemma,图像描述、问答、分割样样精通,消费级GPU可运行

近年来,视觉语言模型(VLM)在图像理解和生成领域取得了显著进展。这类模型能够接收图像和文本输入,并生成相应的文本输出,为图像描述、问答、分割等多种视觉任务提供了全新的解决方案。近日,Google开源了其最新研发的视觉语言模型PaliGemma,该模型不仅拥有强大的多任务能力,还具备轻量级和易用性等特点,使其在众多应用场景中具有广阔的应用前景。Huggingface模型下载:AI快站模型免费加速下载:google。

2024-05-22 00:02:26 1070

原创 轻量级MoE模型DeepSeek-V2-Lite: 16B参数,2.4B活跃参数,40G可部署,高效的MoE模型

近年来,大型语言模型(LLM)在自然语言处理领域取得了突破性进展。然而,随着模型参数量的不断增加,训练和部署成本也随之大幅提升,阻碍了LLM的广泛应用。为了克服这一挑战,混合专家模型(MoE)应运而生,它通过将模型拆分成多个专家并根据输入选择激活不同的专家来降低计算成本。DeepSeek-V2-Lite模型作为DeepSeek-AI团队最新发布的MoE模型,凭借其轻量级设计和高效的性能,为MoE模型研究和应用开辟了新的方向。Huggingface模型下载:AI快站模型免费加速下载:

2024-05-21 00:15:48 2440

原创 谷歌发布时序预测基础模型TimesFM,2亿参数,消费级GPU可运行,零样本时间序列预测新突破

时序数据在零售、金融、制造、医疗和自然科学等各个领域无处不在,而时序预测则是这些领域中一项至关重要的任务。近年来,深度学习模型在处理丰富、多变量的时序数据方面取得了显著进展,往往优于传统的统计方法,例如 ARIMA 或 GARCH。然而,大多数深度学习模型都需要经过漫长而复杂的训练和验证过程,才能在新的时序数据上进行测试。因此,对于需要快速部署和应用的实际场景,这些模型存在局限性。

2024-05-20 07:00:00 2318

原创 360智脑开源7B大模型,支持360k(50万字)长文本输入

360公司正式开源了自研的7B参数大模型"360智脑"系列,包括基础模型和支持4K、32K、360K三种不同长度上下文的聊天模型。其中,最长可支持360K(约50万字)的长文本输入,这在开源大模型中极为罕见。360智脑7B系列模型不仅开源了模型权重,连同微调训练代码、推理部署代码等工具链一并开放给开发者使用,真正做到了"开箱即用"。Huggingface模型下载:AI快站模型免费加速下载:qihoo360强大的性能表现。

2024-05-19 20:59:51 357

原创 腾讯开源首个中文原生文生图模型Hunyuan-DiT,15亿参数、中英双语支持,消费级单卡可推理

近年来,文生图模型的快速发展让人们看到了 AI 技术在艺术创作领域的巨大潜力。然而,现有的主流文生图模型多以英文为训练语言,在中文理解方面存在局限性,导致生成的图像难以准确反映中文语境。为了填补这一空白,腾讯 AI 团队倾力打造了首个中文原生文生图模型——Hunyuan-DiT,并将其开源,旨在推动中文文生图领域的发展。Huggingface模型下载:AI快站模型免费加速下载:

2024-05-17 00:01:33 1060

原创 英伟达发布 VILA 视觉语言模型,实现多图像推理、增强型上下文学习,性能超越 LLaVA-1.5

近年来,大型语言模型 (LLM) 的发展取得了显著的成果,并逐渐应用于多模态领域,例如视觉语言模型 (VLM)。VLM 旨在将 LLM 的强大能力扩展到视觉领域,使其能够理解和处理图像和文本信息,并完成诸如视觉问答、图像描述生成等任务。然而,现有的 VLM 通常缺乏对视觉语言预训练过程的深入研究,导致模型在多模态任务上的性能和泛化能力受限。

2024-05-16 06:00:00 1177

原创 针对实拍场景的虚拟试衣模型IDM-VTON:高保真和细节保留的虚拟试穿算法,真实环境效果领先

虚拟试衣是一种将人物图像与服装图像合成,生成人物穿戴目标服装的图像技术。相比传统的GAN方法,基于扩散模型的虚拟试衣方法能够生成更加自然逼真的图像。然而,现有的扩散模型在保留服装细节方面仍存在局限性。为了解决这一问题,本文提出了一种名为IDM-VTON的新型扩散模型,能够在保持高清逼真度的同时更好地保留服装的细节特征。该模型在仿真场景和真实环境评测中均取得了优异的表现,在细节保留度和图像真实性方面超越了之前的方法。Huggingface模型下载:AI快站模型免费加速下载:yisol。

2024-05-15 07:54:32 665

原创 Gemma-2B-10M:32GB显存运行20亿参数模型,高效处理千万级上下文长度,Transformer长文本处理新突破

近年来,Transformer 模型在自然语言处理领域取得了巨大成功,但其计算复杂度随输入文本长度的增加而急剧上升,成为制约其发展的瓶颈。传统的 Transformer 模型采用全局注意力机制,计算复杂度为 O(n²),这意味着处理长文本时需要消耗大量计算资源和内存。为了解决这一问题,Google 提出了一种名为 Infini-attention 的压缩内存技术,可以有效降低 Transformer 的内存占用。

2024-05-14 06:00:00 802

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除