努力犯错-CSDN博客

原创 OpenAI大动作：Whisper large-v3重塑语音识别技术

这个模型不仅提高了识别的准确性，还大幅扩展了对不同语言的支持范围。在最近的OpenAI首届开发者大会上，一个引人注目的技术亮点是Whisper large-v3的发布。这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步，而且还将很快在OpenAI的API中得到支持。OpenAI的Whisper large-v3不仅是一次技术更新，它代表了语音识别领域的一大步。随着这一技术的普及和应用，我们期待看到更多创新的使用场景，以及它如何帮助人们跨越语言障碍，实现更自然、更高效的交流。

2023-11-07 17:34:13 4111

原创 Hugging Face模型下载：国内如何高效应对？

为研究人员和开发者提供的众多预训练模型和相关工具，为NLP的研究与应用创造了无数可能性。然而由于某些原因，国内的开发者访问Hugging Face官方站点或下载模型时遭遇了困难。总而言之，AI快站为国内的AI从业者打开了一扇窗，为我们提供了一个可能的解决方案。如果你也遭遇了Hugging Face模型下载的困境，这或许是一个值得尝试的选项。在探索的过程中，我偶然发现了一个名为🔗 AI快站(aifasthub.com) 的国内站点，它声称提供Hugging Face模型的镜像加速服务。

2023-10-25 15:48:37 856

原创 VideoLLaMA 2：多模态视频理解新突破，音频理解能力再升级，挑战 GPT-4V

近年来，人工智能技术飞速发展，尤其是大模型的出现，为视频理解和生成领域带来了前所未有的机遇。然而，现有的视频大模型（Video-LLM）在处理视频中复杂的时空信息和音频信息方面仍存在不足，例如无法有效融合不同帧的特征，以及忽视了音频信息在场景理解中的重要作用。为了克服这些挑战，阿里巴巴达摩院发布了，一个旨在提升视频时空建模和音频理解能力的开源视频大模型。

2024-06-26 00:06:56 4715 4

原创清华、北大与微软推出Glyph-ByT5-v2，精准生成文字海报，支持10种语言，效果炸裂

在 AI 领域，文生图技术已经取得了令人惊叹的进展，但如何将文字精准地融入图像，并支持多种语言，一直是研究人员面临的挑战。为了解决这一难题，清华大学、北京大学和微软亚洲研究院的研究人员合作推出了 Glyph-ByT5-v2，这是一个功能强大的定制多语言文本编码器，可以支持 10 种不同语言的精准视觉文本渲染。Glyph-ByT5-v2 的出现，为设计师、开发者以及普通用户提供了一个强大的工具，加速文生图技术的普及和应用，为更广泛的领域带来更智能、更便捷的设计体验。Huggingface模型下载：AI。

2024-06-25 00:11:32 1135

原创潞晨Open-Sora 1.2发布，16秒720p视频一键生成，质量更高训练成本更低

文生视频技术是近年来 AI 领域最令人瞩目的突破之一。OpenAI 的 Sora 模型展示了令人惊叹的视频生成能力，但其闭源特性限制了技术的普及和发展。而潞晨 Open-Sora 团队则致力于将文生视频技术开源，让更多人能够体验和应用这项技术。Huggingface模型下载：AI快站模型免费加速下载：hpcai-tech16秒720p高清视频，现在一键生成！炫酷的科幻大片Open-Sora 1.2 的开源为文生视频技术的创新和发展注入了强劲的活力。

2024-06-24 00:06:59 1152

原创 Falcon2，110亿参数5.5万亿token，性能超越Llama 3

近年来，大型语言模型（LLM）领域蓬勃发展，不断涌现出新的模型和技术。其中，Meta 的 Llama 3 模型以其强大的性能和开源性，在业界引起了广泛关注。然而，来自阿联酋的技术创新研究所（TII）近日推出了新一代大模型 Falcon 2，其性能超越了 Llama 3，并展现出更多令人瞩目的亮点。Huggingface模型下载：AI快站模型免费加速下载：tiiuae。

2024-06-22 00:03:08 887

原创让图片开口说话的模型Hallo: 基于音频驱动的肖像图像动画，精准唇形同步，支持多种语言和风格

让静态的图片“开口说话”，一直是人们对人工智能的期待。近年来，随着深度学习技术的发展，音频驱动的肖像图像动画技术取得了长足的进步。各种模型涌现，但如何实现精准的唇形同步、保持视频的真实感和流畅性，以及支持多种语言和风格，仍然是研究人员面临的挑战。来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究团队，共同开发了一个新的音频驱动肖像图像动画模型Hallo，该模型在多个方面实现了突破，为打造更逼真的动画形象提供了新的可能性。

2024-06-21 00:04:24 1205

原创 B站发布Index-1.9B大模型，代码、对话、角色扮演，功能齐全，2.8T 数据训练，性能媲美同级别模型

近年来，大模型技术发展迅速，并已在多个领域展现出强大的能力。为了推动大模型技术的普及和应用，许多机构和企业纷纷开源了自己的模型。近日，Bilibili 发布了全新的开源大模型系列——Index-1.9B，该模型凭借着 2.8T 的海量训练数据和独特的训练策略，在代码生成、对话交互、角色扮演等方面展现出出色的性能，并与同级别模型相比处于领先地位。Huggingface模型下载：AI快站模型免费加速下载：IndexTeam。

2024-06-20 00:07:57 1128

原创 DeepSeek发布DeepSeek-Coder-V2，性能超GPT4-Turbo代码能力，236B参数，开源代码模型登顶全球第二

在开源代码模型领域，DeepSeek一直致力于打破闭源模型的垄断，为开发者提供更加强大、灵活的工具。继去年11月发布最强开源代码模型 DeepSeek-Coder 和今年5月发布最强开源 MoE 模型 DeepSeek-V2 后，DeepSeek 再度突破技术壁垒，发布了全新升级的 DeepSeek-Coder-V2。Huggingface模型下载：AI快站模型免费加速下载：DeepSeek-Coder-V2 的发布，标志着开源代码模型发展进入新的阶段。

2024-06-19 00:06:32 1108

原创智谱GLM-4-9B，超越Llama3，多模态媲美GPT4V

在 2023 年 3 月发布开源对话模型 ChatGLM-6B 后，智谱 AI 迅速成为国内外开源大模型领域的重要力量。今年 6 月，智谱 AI 再次发力，开源了其第四代 GLM 系列模型 —— GLM-4-9B，并首次加入了多模态能力。该模型不仅在性能上超越了 Llama 3 8B，更在多模态能力方面展现出与 GPT-4V 相媲美的实力。Huggingface模型下载：AI快站模型免费加速下载：THUDM智谱 AI 开源 GLM-4-9B，标志着中国开源大模型技术取得了新的突破。

2024-06-18 00:04:41 1363

原创 Mistral AI 发布 Codestral-22B，精通 80+ 编程语言，22B 参数超越 70B Code Llama

大型语言模型 (LLM) 在代码生成领域展现出巨大的潜力，但现有的模型在支持的编程语言数量、生成速度和代码质量方面仍存在局限性。法国 AI 独角兽 Mistral AI 近期发布了其首款代码生成模型 Codestral-22B，宣称在多项指标上超越了 GPT-4 和 Llama3，并凭借其出色的性能和 80 多种编程语言的支持，成为了开源代码大模型的新王者。Huggingface模型下载：AI快站模型免费加速下载：mistralai。

2024-06-17 09:03:26 1325

原创开源医疗大模型Llama3-Aloe-8B-Alpha，性能超越 MedAlpaca 和 PMC-LLaMA

近年来，大型语言模型 (LLM) 在医疗领域展现出巨大潜力，能够帮助医生和研究人员更快地获取信息、分析数据，并提高医疗服务效率。然而，目前市场上大多数医疗 LLM 都是闭源模型，限制了其在学术研究和应用领域的推广。为了打破这一现状，促进医疗 AI 的发展，越来越多的研究团队开始致力于开发开源的医疗 LLM。

2024-06-15 10:27:59 1783 4

原创李沐团队发布Higgs-Llama-3-70B，角色扮演专用模型

近年来，大语言模型（LLM）在各个领域都展现出强大的能力，尤其是其在对话、写作、代码生成等方面的应用越来越广泛。然而，想要让 LLM 真正地融入人类社会，扮演各种角色，还需要具备更强大的角色扮演能力。为了解决这一问题，李沐团队（Boson AI 创始人）发布了 Higgs-Llama-3-70B，一个专门针对角色扮演任务进行优化的 LLM。该模型基于 Meta 的 LLaMA-3-base 模型，并在角色扮演能力方面进行了针对性的训练。

2024-06-14 00:16:21 1860

原创 Stable Diffusion 3震撼发布，开启图像生成新纪元，20亿参数Medium模型率先开源

Stability AI 作为开源图像生成领域的领军者，不断突破技术边界，6月12日发布了其最新一代文本到图像生成模型——Stable Diffusion 3。这次发布的是 Stable Diffusion 3 的 Medium 模型，拥有 20 亿参数，在图像质量、文本遵循度和排版方面都展现出超越现有模型的强大实力。Stability AI 未来还将开源 40 亿和 80 亿参数的版本，进一步提升模型能力，满足不同用户的需求。

2024-06-13 00:06:57 658

原创 Stability AI发布AI音频模型Stable Audio Open，文本生成47秒高清音效

Stability AI这家以开源图像生成模型 Stable Diffusion 而闻名的公司，在 6 月 6 日宣布开源其最新的 AI 音频模型 Stable Audio Open。这一新模型可以根据简单的文本提示生成最多 47 秒的高质量音频数据，为音乐制作和声音设计领域带来了新的可能性。Huggingface模型下载：AI快站模型免费加速下载：Stable Audio Open 的开源，为 AI 音频生成领域带来了新的突破。

2024-06-12 03:30:00 998

原创阿里发布最强开源大模型通义千问Qwen2，国产最好用的LLM

近年来，大模型技术发展迅速，开源模型的出现为AI研究和应用带来了新的活力。在这一背景下，阿里云通义千问团队发布了全新升级的Qwen2系列开源模型，为国内外开发者提供了更强大的工具和更丰富的选择。Huggingface模型下载：AI快站模型免费加速下载：QwenQwen2的发布标志着阿里在开源大模型领域的又一次重要突破，展现了其在模型研发和应用方面的领先实力。

2024-06-11 00:16:46 1081

原创字节开源Hyper-SD模型，超越SDXL-Lightning，单步生成SOTA级图像

近年来，扩散模型（Diffusion Model，DM）在图像生成领域取得了显著进展，展现出前所未有的图像质量和多样性。然而，扩散模型的训练和推理过程通常需要多个步骤，这限制了其在实际应用中的效率。为了克服这一挑战，字节跳动AI团队推出了全新的扩散模型加速框架——Hyper-SD，并将其开源。Hyper-SD 能够将扩散模型的推理步骤大幅压缩，甚至实现单步生成高质量图像，同时保持甚至超越原模型的生成效果。Huggingface模型下载：AI快站模型免费加速下载：ByteDance。

2024-06-09 09:57:16 1171

原创全流程透明双语大语言模型MAP-Neo，4.5T 高质量数据训练

近年来，大语言模型 (LLM) 已经成为人工智能领域最热门的研究方向之一，并在各种任务中展现出前所未有的性能。然而，由于商业利益的驱动，许多最具竞争力的模型，例如 GPT、Gemini 和 Claude，其训练细节和数据来源往往被隐藏在专有接口背后。这限制了学术界对 LLM 的深入研究和应用。为了解决这一问题，研究团队开源了MAP-Neo，一个高性能、透明的双语大语言模型，旨在推动 LLM 研究的民主化。

2024-06-06 00:11:21 1011

原创 YOLOv10开源，高效轻量实时端到端目标检测新标准，速度提升46%

实时目标检测在自动驾驶、机器人导航、物体追踪等领域应用广泛，近年来，YOLO 系列模型凭借其高效的性能和实时性，成为了该领域的主流方法。但传统的 YOLO 模型通常采用非极大值抑制 (NMS) 进行后处理，这会增加推理延迟，阻碍了其端到端部署的应用。此外，现有的 YOLO 模型在架构设计方面也存在着一些局限性，例如计算冗余、参数利用率低等问题，这些问题限制了模型的性能和效率。Huggingface模型下载：AI快站模型免费加速下载：kadirnar。

2024-06-05 07:00:00 1323 1

原创英伟达开源新利器NV-Embed向量模型，基于双向注意力的LLM嵌入模型，MTEB 56项任务排名第一

文本嵌入模型能够将文本信息转化为稠密的向量表示，并在信息检索、语义相似度计算、文本分类等众多自然语言处理任务中发挥着关键作用。近年来，基于解码器的大型语言模型 (LLM) 开始在通用文本嵌入任务中超越传统的 BERT 或 T5 嵌入模型，展现出更强的语义理解能力和更灵活的应用潜力。Huggingface模型下载：AI快站模型免费加速下载：nvidia。

2024-06-04 04:00:00 1162

原创打造SimPO新算法，微调8B模型超越Claude 3 Opus

大型语言模型（LLM）近年来取得了巨大进展，但要将其与人类价值观和意图相一致，使其变得有用、诚实和无害，仍然是一个挑战。强化学习从人类反馈中（RLHF）是一种常用的方法，通过微调语言模型来实现有效对齐。传统的RLHF方法虽然取得了令人印象深刻的结果，但其多阶段过程（包括训练奖励模型和优化策略模型以最大化奖励）带来了优化挑战。

2024-06-03 02:45:00 971

原创腾讯 InstantMesh，单图生成 3D 模型，10 秒内完成，性能超越 SOTA

近年来，3D 内容创作在游戏、动画、虚拟现实等领域发挥着越来越重要的作用。然而，传统的 3D 模型制作流程繁琐，需要专业人员花费大量时间和精力。为了简化 3D 内容创作流程，腾讯 ARC 实验室推出了 InstantMesh，一个基于单图像的 3D 网格生成框架，能够在短短 10 秒内完成高质量的 3D 模型生成，并显著超越了现有的 SOTA 模型。Huggingface模型下载：AI快站模型免费加速下载：TencentARC。

2024-06-02 10:02:35 899

原创中文多模态InternVL-Chat-V1-5，中文理解能力强劲，8 项指标超越商业模型，性能媲美 GPT-4V

近年来，多模态大型语言模型（MLLM）的快速发展，为人工智能在图像、文本等多模态信息理解和处理方面带来了前所未有的突破。然而，现有的主流多模态模型多以英文为训练语言，在中文理解和处理方面存在着明显的短板，难以满足日益增长的中文多模态应用需求。为了弥补这一缺陷，OpenGVLab 团队开源了首个中文原生多模态模型 InternVL-Chat-V1-5，旨在为中文多模态领域的发展贡献力量。Huggingface模型下载：AI快站模型免费加速下载：OpenGVLab。

2024-06-01 03:45:00 1923 2

原创 IBM开源Granite Code模型，多尺寸可选，支持多种代码任务，性能媲美 CodeLlama

近年来，大型语言模型（LLM）在代码领域展现出惊人的潜力，为软件开发流程带来了革命性的改变。代码 LLM 不仅能够生成高质量代码，还能帮助程序员修复错误、解释代码、编写文档等等，极大地提高了软件开发效率。然而，现有的代码 LLM 存在着一些局限性，例如模型体积过大，部署成本高昂，以及对特定代码任务的性能表现不佳等等。为了解决这些问题，IBM 研究院推出了 Granite Code 模型家族，旨在为企业软件开发提供一个功能强大、灵活易用的代码 LLM 工具。Huggingface模型下载：AI。

2024-05-31 09:34:04 967

原创智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

多模态大模型（MLLM）是近年来人工智能领域最热门的研究方向之一，其能够融合图像、文本等多种模态信息，实现更强大、更灵活的应用。然而，现有的主流多模态模型多以英文为训练语言，在中文理解方面存在着明显的短板。为了突破这一局限，智谱 AI 团队推出了新一代中文多模态大模型 CogVLM2，并将其开源，为中文多模态领域的发展贡献力量。Huggingface模型下载：AI快站模型免费加速下载：THUDM。

2024-05-30 03:30:00 1322

原创最强端侧多模态模型MiniCPM-V 2.5，8B 参数，性能超越 GPT-4V 和 Gemini Pro

近年来，人工智能领域掀起了一股大模型热潮，然而大模型的巨大参数量级和高昂的算力需求，限制了其在端侧设备上的应用。为了打破这一局限，面壁智能推出了 MiniCPM 模型家族，致力于打造高性能、低参数量的端侧模型。近期，面壁智能再次推出了最新一代端侧多模态模型 MiniCPM-Llama3-V 2.5，以 8B 的参数量级，展现出了超越 GPT-4V 和 Gemini Pro 等多模态巨无霸的强大实力。Huggingface模型下载：AI快站模型免费加速下载：openbmb。

2024-05-29 04:00:00 1979

原创微软发布多模态模型Phi-3-vision，仅4.2B，小模型大潜力

在大型语言模型（LLM）领域，模型参数规模与性能之间一直存在着密切的联系。近年来，虽然参数规模不断攀升，但随之而来的训练成本和推理成本也成为了制约模型发展的瓶颈。为了打破这一困境，微软推出了 Phi-3 模型家族，旨在用更小的模型实现更高的性能。近期，微软在 Build 大会上发布了 Phi-3 家族的新成员——Phi-3-vision，一个仅有 42 亿参数的多模态模型，展现了小模型的巨大潜力。Huggingface模型下载：AI快站模型免费加速下载：microsoft。

2024-05-28 00:18:02 865

原创 Cohere继Command-R+之后发布大模型Aya-23，性能超越 Gemma、Mistral 等，支持中文

近年来，多语言大模型（MLLM）发展迅速，但大多数模型的性能依然存在显著差距，尤其是在非英语语言方面表现不佳。为了推动多语言自然语言处理技术的发展，Cohere团队发布了新的多语言指令微调模型家族——Aya 23，其性能超越了 Gemma、Mistral 等同类模型，并首次支持了中文。Huggingface模型下载：AI快站模型免费加速下载：

2024-05-27 03:00:00 961

原创腾讯发布ELLA：为扩散模型注入LLM能力，提升复杂场景的图像生成，准确率超90%

近年来，基于扩散模型的文本到图像生成技术取得了显著进步，能够生成高质量、逼真的图像。然而，大多数扩散模型仍然使用CLIP作为文本编码器，这限制了它们理解复杂提示的能力，例如包含多个物体、详细属性、复杂关系、长文本对齐等等。为了克服这一局限性，腾讯团队推出了一个名为ELLA（Efficient Large Language Model Adapter）的全新方法，它能够将强大的大型语言模型（LLM）与扩散模型无缝结合，从而提升文本对齐能力，无需重新训练扩散模型或LLM。Huggingface模型下载：

2024-05-25 23:38:46 819

空空如也

空空如也