三花AI-CSDN博客

原创腾讯开源 HunyuanImage-2.1：17B 参数文生图模型原生支持 2K 高清

在 Wave Summit 2025 深度学习开发者大会上[2]，百度推出多款产品：文心大模型 X1.1 带来更强大的生成能力，剧本驱动多模协同的数字人技术实现更自然的人机交互，飞桨框架 v3.2 提供更高效的开发体验，以及文心快码 3.5S 提升编码效率。HunyuanImage-2.1[1] 是腾讯开源的最新文生图大模型，拥有 17B 参数规模，并原生支持 2K 分辨率（2048×2048）的高清图像输出。此外，百度还同步开源了 ERNIE-4.5-21B-A3B-Thinking 深度思考模型。

2025-09-10 19:36:36 609

原创哔哩哔哩开源 IndexTTS-2.0：新一代零样本语音合成模型

Model Context Protocol（MCP）Registry 预览版[5]正式发布，这个项目可以理解为 Node.js 的 npm 或者 Python 的 PyPI 的 MCP 版本。IndexTTS-2.0[3] 是哔哩哔哩语音团队开源的新一代零样本语音合成模型，基于 55K 小时中英双语语音和 135 小时情感数据训练，实现了对语音时长和情感的精准控制。目前该模型暂未开源（有点小遗憾），但已上线阿里云百炼平台 API，佬们也可以在 Hugging Face Space 上在线体验[2]。

2025-09-09 15:14:38 690

原创字节开源 USO 模型：统一风格与主体驱动的生成框架

微软在 Copilot Labs 上线了实验性功能「音频表达（Audio Expression）[1]」，用户通过输入提示词，可让 AI 以不同语音风格朗读文本。目前完全免费，不过仅支持英语，佬们可以试试看。

2025-09-01 11:22:20 522

原创风口真的要来了，国务院关于深入实施“人工智能+”行动的意见

xAI 正式发布首款编程专用模型 Grok Code Fast 1[1]（代号 Sonic），模型具备 256K 上下文窗口，现已在主流 AI 编程工具上限时免费开放。这模型定价为每百万输出 tokens 30 美元，单张图约 1290 tokens，折合 0.039 美元——只能说香蕉虽好，但也不便宜啊，不过效果确实非常的好啊。Google Translate 推出两项 AI 驱动的全新功能：支持超过 70 种语言的实时对话翻译，以及个性化的语言学习练习。这是我跑的词云图，大家可以感受下这股势头。

2025-08-27 17:11:42 355

原创阿里 20B 参数 Qwen-Image-Edit 全能图像编辑模型

主打'Anything. Anyone. Anywhere.'，目前官网已开放注册通道，佬们可以抢先注册。Qwen-Image-Edit[1] 是阿里 Qwen 团队基于 20B 参数 Qwen-Image 模型开发的图像编辑版本。这个模型不仅能对图片中的文字进行精准编辑，还支持元素的添加、删除、修改、IP 创作、物体旋转和风格迁移等炫酷功能。通过 AI 技术将传统动画制作流程（包括关键帧绘制、中间帧补间和上色）整合为自动化流程。还在控制并修复图片上的错别字（支持中文），佬们现在就可以在。

2025-08-19 10:54:18 327

原创 xAI AI 伴侣 Ani 和 Valentine 支持电话实时通话

OpenAI最新推出了从入门到生产级的 AI 应用开发学习路径[3]，学习后能够掌握AI基础概念，将其融入 AI 应用开发中，评估应用性能，并实施最佳实践以确保AI解决方案稳健且可大规模部署。现在，你可以像给朋友打电话一样，直接拨打 +1 (325) 225-5264（Ani）或 +1 (607) 225-5825（Valentine），与你的 AI 伴侣进行自然流畅的语音交流。该模型推理速度相比前代提升了惊人的 12 倍，同时显著增强了指令遵循和风格保持能力，特别适合需要快速生成风格统一视频内容的场景。

2025-08-18 14:50:22 441

原创 Vercel v0.dev → v0.app：AI Agent 模式一键生成全栈应用

Microsoft POML（Prompt Orchestration Markup Language）[3]是微软最新发布的专门用于编排提示词的标记语言，有效解决了提示词工程中的四大痛点：结构化缺失、复杂数据整合困难、格式敏感性以及工具链不完善等问题。智谱 AI 正式发布基于 MOE（混合专家）架构的新一代旗舰视觉推理模型GLM-4.5V[2]，支持多模态输入，并在多个基准测试中达到SOTA性能，现已开源并提供 API 服务。这个项目好，终于有人做了，可以用专门的格式来管理和维护提示词了。

2025-08-12 11:14:46 423

原创 Ideogram API 重磅推出角色一致性功能，告别LoRA训练烦恼

Cursor 发布了其全新的命令行工具（Beta 版）Cursor CLI[2] ，类似 Claude Code 和 Gemini CLI，开发者能直接在终端中跨多种 IDE 运行 AI 编码工作流和自动化任务，集成了最新上线的 GPT-5 模型。OpenAI 正式发布其下一代旗舰模型 GPT-5[1]，在 LMArena 多个类别榜单中均排名第一，超越了 Google 的 Gemini 2.5 Pro 和 OpenAI 上一代模型 o3。能极大简化复杂工作流的开发和调试过程，是俺期待已久的更新。

2025-08-08 16:42:31 497

原创 OpenAI 明日凌晨直播：GPT-5 或将正式亮相

LangChain[6]推出了开源异步编码 Agent OpenSWE，该工具基于 LangGraph 技术栈构建，深度集成了 GitHub 平台，能够自主完成从规划到提交 PR 的整个开发流程。实际体验下来，就像是低配版 NotebookLM，生成时间需要 1-3 分钟，采用一男一女双角色对谈模式，音色和语调处理还可以，值得佬们前往官网[10]亲自尝试。具体申请条件和完整功能介绍可查看。此外，还发布了 Gemini CLI v0.1.18[4] 版本，提升了免费额度，并新增启动时加载多个目录等多项功能。

2025-08-07 11:01:34 401

原创阿里 Qwen-Image：20B 参数开源文生图模型，文本渲染能力突出

该模型是一个拥有 20B 参数的 MMDiT 模型，基于 Apache 2.0 许可证开源。该功能支持文生图，生成速度极快，就跟刷小红书似的。还支持图生视频，不过效果一般，但生成效率同样出色，最 6 的是原生支持 NSFW 内容生成。这些模型专门针对消费级 GPU、边缘计算设备（包括智能汽车、智能家居）以及移动终端（手机和 PC）等低功耗场景优化设计。腾讯混元团队[2]一次性开源了四款参数规模从 0.5B 到 7B 的小尺寸大语言模型。官方号称其特别擅长文本渲染和复杂场景生成。

2025-08-05 17:37:15 586

原创快手 Kling AI 新工作空间 Kling Lab

该系列采用创新的混合专家架构(MoE)，旨在统一推理、编码和 Agent 能力，并在多项评测中表现优异，性能和表现比肩 Claude 4。本次开源包含三个版本：文生视频（WAN2.2-T2V-A14B）、图生视频（WAN2.2-I2V-A14B）以及文本+图像生视频（WAN2.2-TI2V-5B），更多介绍和演示可以看官网[2]了解。微软为其 Edge 浏览器推出了一种名为“Copilot Mode”的全新模式，旨在提供一种由 AI 驱动的网页浏览体验，最亮眼的是其多标签RAG和视觉辅助能力。

2025-07-30 17:33:05 488

原创谷歌 Gemini 2.5 升级：对话指令驱动的智能图像分割

这款 MoE 架构模型拥有 480B 总参数，其中激活参数达 35B，原生支持 256K token 的超长上下文窗口，在代码生成和理解能力上可媲美 Claude Sonnet4。该功能能够通过理解复杂的自然语言指令（包括对象关系、条件逻辑和抽象概念）来精确识别和分割图像中的特定区域。腾讯也发布了一款 AI 编程IDE CodeBuddy[2]，同样基于 VSCode 套壳的，支持 Claude、混元等多款主流大模型。包，或者直接在 Claude Code 中配置代理就能用。

2025-07-23 16:07:23 392

原创 zAI 发布 Zread AI：智能分析开源项目

zAI 发布 Zread AI[1] ，这是一款专为开源项目生成文档的工具，提供原生中文支持。与 deepwiki 类似，但功能更强大，还能智能分析仓库 issues 并生成开发者背景报告（这个功能确实有点意思）。字节开源的 Seed-X 模型[2]，这是一个仅7B大小的模型，专门用于翻译任务。支持 28 种语言互译。官方放出的基准测试表现来看，效果能比肩 DeepSeek R1 和 Gemini Pro 2.5！注册后支持私有仓库文档生成，有需要的佬不妨试试看。

2025-07-22 16:59:24 427

原创 Decart AI 发布 MirageLSD：号称零延迟的实时视频生成模型

OpenAI 重磅推出 ChatGPT agent 智能代理系统，这是一个通用 agentic 系统，配备了完整的工具套件，包括视觉浏览器、文本浏览器、终端和直连API，能够动态选择最佳路径，包括过滤结果、运行代码，甚至生成幻灯片和电子表格，同时在各个步骤中保持完整的任务上下文。每次调用可生成 8 秒时长的视频内容，提供带音频和不带音频两种版本选择。谷歌DeepMind官方公告[6]显示，谷歌搜索的AI模式现已支持 Gemini 2.5 Pro，因为支持推理了，可以用来解决非常复杂的数学问题。

2025-07-18 17:13:36 1036

原创 OpenArt Story 一键生成完整叙事短视频

PUSA V1.0 通过使用 VTA 微调 SOTA 模型 Wan2.1-T2V-14B，仅需 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤，就超越了 Wan-I2V-14B 模型的性能。的新功能，用户可以将任何想法、脚本、节奏或角色转化为 1 分钟视频，这个视频包含动作、音乐和完整的叙事线，不仅仅是简短的片段，而是一个完整的故事。更厉害的是，Wan-I2V 只能进行图像到视频的生成，而 PUSA 模型还支持包括首尾帧生成、视频扩展、文生视频等功能。OpenArt 推出了一个名为。

2025-07-16 18:20:11 383

原创 NSFW Grok 数字伙伴，只能说老马是懂用户的

IndexTTS2[1] 是一个突破性的自回归语音合成模型，能在零样本条件下实现两大核心能力：精确的时长控制，以及音色与情感的完美解耦。该模型支持包括愤怒、哭泣、恐惧、沮丧、快乐、惊讶、平静等在内的丰富情感表达。表示 Grok 1.1.17 版本带来了 Companions（数字伙伴）功能。更新后，用户只需在设置中向下滚动至语音部分，点击「启用伙伴」即可开启，需要 SuperGrok 订阅。不过目前官方只放出了演示网站和一些对比音频，期待后续能放出完整模型和代码。好感度系统，我只能说，老马是懂用户的。

2025-07-15 17:58:27 843

原创不要错过学习老马团队 xAI 开源 Grok 全系列官方提示词

腾讯混元发布了 Hunyuan3D-PolyGen ，具备智能重拓扑功能，能够生成高质量、复杂几何形状的 3D 模型，支持多种网格格式，可直接应用于游戏开发等专业领域。GitHub 上这个Context Engineering 入门模板[3]可以带你入门，有需要的可以看看，主要是针对 Claude Code 的。Twitter/X 平台上的「Grok Explain」和 Grok Bot 功能提示词。Grok4 的具体升级细节目前尚未公布，佬们可以猜猜看。如果你想学习老马团队是如何设计提示词的，不要错过。

2025-07-08 18:11:29 528

原创阿里开源 OmniAvatar：音频驱动数字人模型

NVIDIA 推出的 Describe Anything Model (DAM)[3] 是一款多模态大语言模型，它能够为图像或视频中的特定区域生成详细描述，支持通过点击、框选、涂鸦或遮罩等多种交互方式指定目标区域。OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。从目前已有的开源数字人模型来看，OmniAvatar 的表现算是相当出色了。EasyEdit[2] 是一款基于 Flux KContext 模型的开源图像编辑器，通过自然对话即可智能修改图片。

2025-07-04 19:36:45 509

原创这还是我认识的百度吗？Ernie 4.5开放23款大模型性能比肩OpenAI O1

阿里通义最新发布 Qwen-TTS[4] 语音合成模型，目前支持三种特色中文方言：北京话、上海话和四川话。从官方数据显示，LLM版本超越DeepSeek v3和Qwen 235B，而VLM版本则可与OpenAI O1相媲美。不过略显遗憾的是，官方暂时没有开源计划，开发者需要通过 API[5] 进行调用，具体接口文档和计费标准可以参考阿里云官方说明。Ernie 4.5[1]重磅发布 23 款开放权重大模型，包括 VLM 和 LLM 两大系列。目前代码和模型已经开源，佬们可以在 github 上查看。

2025-07-01 18:10:34 337

原创小米发布首款 AI 智能眼镜：支持语音交互与实时识别

产品搭载超级小爱 AI 助手，支持语音控制和智能交互，配备 1200 万像素摄像头可实现实时拍摄、记录和场景识别功能。现已发布开源权重，这是一个支持多模态（文本/音频/图像/视频）理解的大模型，仅需 2GB RAM 即可运行，也是第一个在 lmarena 上得分超过 1300 分的 10B 参数模型。Claude 推出 Artifacts Space，即在你创建了 Artifact 后，可以把这个应用发布后供任何人使用。佬们可以在官方推文[2]中查看完整介绍与技术细节。

2025-06-27 19:19:41 523

原创 Jina AI 发布性能超越 OpenAI 12% 的嵌入模型

DRA-Ctrl[3]（Dimension-Reduction Attack）是一个创新的跨模态图片编辑框架，通过整合视频模型中的视觉、时间、空间和因果等多维度高维特征表示，实现对图片主体的状态预测与精准编辑。该模型支持单向量和多向量嵌入输出，在多语言检索任务中的性能表现尤为突出 - 比 OpenAI 的 text-embedding-3-large 高出 12%。该工具集成了 MCP 框架、谷歌搜索等实用功能，还能调用谷歌最新的视频生成模型 Veo 和图像模型，还要什么自行车。

2025-06-26 18:59:29 541

原创 OmniGen2：开源自然语言图像编辑模型

可以理解为开源领域的 Flux Context 替代方案，支持通过自然语言指令实现精准的局部图像编辑，包括：对象删除与替换、风格转绘、颜色调整、背景处理（删除/替换）、物品添加、表情修改以及动作修改等多种编辑任务。目前标准版定价为 $39/月（约合人民币 280 元），仅仅只有画质升级的功能还是有点小贵。官方定位是为 AI 视频创作者提供终极画质优化方案，解决内容生产的最后一公里问题。OmniGen2[1] 是一个统一的多模态图像编辑模型，支持单图和多图编辑。

2025-06-24 10:33:45 354

原创 HeyGen AI 三步创建产品广告视频

Hugging Face[1] 官方发布教程《LoRA Fine-Tuning FLUX.1-dev on Consumer Hardware》，详细讲解如何在单张消费级显卡（10GB显存）上，使用 QLoRA 技术和 diffusers 库对 FLUX.1-dev 模型进行高效微调。HeyGen 最新推出的 Product Placement[7] 功能，只需上传产品照片、选择一个人像、输入文案脚本，即可生成产品介绍视频。从官方演示来看，效果非常不错，项目的代码即将开源，感兴趣的佬可以先到官网查看示例。

2025-06-20 11:49:19 545

原创 Midjourney V1视频模型每月10美元起

官方表示[3]，他们的终极目标是打造一个能在 3D 空间中实时生成图像、环境和角色，并支持用户交互的完整 AI 系统。未来，Midjourney 计划持续整合各类模型，最终形成统一的智能创作平台。Midjourney 正式推出 V1 视频生成模型，这是一款面向大众的视频创作工具，基础订阅费仅需 10 美元/月。佬们可以在 HuggingFace Spaces 体验[1]，值得一试，不要错过。这是 Midjourney 在图像生成基础上推出的首个视频生成模型。命令即可快速添加 SSE 服务器配置。

2025-06-19 11:29:21 394

原创高品质白菜价 1080p 视频生成模型

海螺 AI 在其 MiniMaxWeek 的第二天推出了 Hailuo 02 视频模型[3]，官方号称一流品质，白菜价格支持原生 1080p输出，可以生成杂技表演等复杂动作。海螺 AI 发布的 Minimax Agent[1] 是一款类似 Manus 的产品，他们还开源了其核心的 Minimax M1 推理模型[2]。同时还推出了 Gemini 2.5 Flash-Lite 预览版，这是目前谷歌速度最快、性价比最优的 Gemini 2.5 模型。完整功能介绍可参考官方推文[4]，也可以在官网试用。

2025-06-18 15:17:16 550

原创 AI 视频超分辨率模型可升级至 4K

阿里通义团队正式推出 MLX 格式的 Qwen3 大模型，包含 4-bit、6-bit、8-bit 和 BF16 四个量化版本，专门针对 Apple 的 MLX 框架进行了深度优化。Topaz Labs[3] 最新推出的 Astra 是一款基于 AI 的视频超分辨率模型，能够将 AI 生成的视频智能放大至 4K 分辨率，同时显著提升画质和细节表现。新增了--sref random功能，提供更多的变化以供探索。如果想回到旧系统或使用旧的 sref，可以使用 --sv 4。

2025-06-17 10:29:36 593

原创腾讯混元 3D 2.1 发布：首个全链路开源工业级 3D 生成大模型

Anthropic[3] 发布了一篇深度文章，详细介绍了Anthropic 公司构建多智能体研究系统的过程，探讨了其在处理复杂研究任务中的优势、面临的挑战以及相关的工程实践和评估方法，旨在分享如何通过多智能体系统更有效地探索复杂主题的经验教训。腾讯混元3D 2.1[1]开源了业界首个全链路工业级3D生成大模型，本次不仅开源了模型权重、训练代码和数据处理流程，还完整公开了核心架构设计。通过引入PBR（基于物理的渲染）技术，显著提升了材质细节的真实性，模型在不同光照下更自然、更一致。干货满满，值得一看！

2025-06-16 11:21:14 437

原创 Manus 推出完全免费的 Chat 模式无任何使用限制

如果是代码文件，则能直接保存为对应扩展名的源文件（例如 .py、.js、.sql 等）。Manus 正式推出全新 Chat 模式，官方号称[2] 面向所有用户完全免费且无使用限制。SeedVR2[3] 是字节跳动推出的视频高清修复单步 Diffusion 模型，采用 Apache 2.0 开源协议。AI 领域的重要服务如 Claude、OpenRouter 和 Cursor 等等依赖 GCP 的服务都中断了。目前谷歌官方已发布声明[4]表示服务已恢复，但具体故障原因仍在调查中。

2025-06-13 09:59:13 425

原创 Higgsfield AI 整合 Flux.1 Kontext：一站式创意工作流解决方案

Higgsfield AI通过整合Flux.1 Kontext，将照片编辑、电影级动画、视觉特效（VFX）和虚拟形象语音功能集成到一个单一的工作流程中。V-JEPA 2能够实现机器人在陌生环境中的零样本规划（zero-shot planning），使机器人能够在不熟悉的环境中规划并执行任务。Meta AI 最新发布的世界模型V-JEPA 2[2] 具有在视觉理解和预测方面的顶尖性能。从演示看效果非常的强啊，不过开源是不可能开源的，应该只可以在即梦、豆包上用了。目标是为其 AI 模型提供训练数据。

2025-06-12 16:17:52 729

原创看来小红书这次是认真在搞大模型了，开源 dots.llm1 MoE 大模型

Eleven Labs 官方[1] 宣布推出 Eleven v3（alpha 版本），这个语音模型支持 70 多种语言，具备多说话人对话功能，还能通过情感音频标签实现更自然的语音表达。dots.llm1[4] 是小红书开源的最新 MoE 大语言模型，总参数达 143B ，激活参数 14B ，提供 base 和 inst 两个版本。从官方公布的 MMLU-Pro 评分来看，表现相当不错 - 虽然比不上 DeepSeek-V3，但居然能压过 Qwen3-235B-A22B 一头。

2025-06-10 09:54:24 356

原创 ComfyUI 子工作流功能：一次编辑全局更新

该方法以取代传统的基于文本坐标预测的方式，为 GUI 代理（GUI agents）提供了更稳定可靠的定位解决方案。目前模型已基于 Apache 2.0 协议在 Hugging Face 和 ModelScope 开源，技术报告和代码也在 GitHub 同步公开，完整技术细节可查阅官方博客[4]。需要注意的是，Speak 功能目前仅对 Pro 和 Ultimate 订阅用户开放，佬们可以在官方推文查看完整功能介绍[7]。Veo 3 是目前最好的视频生成模型，若你因为谷歌锁 ip 还没体验过，值得一试。

2025-06-06 17:12:47 443

原创一键重塑视频风格与内容

Cursor 1.0 全面开放了 Background Agent 让所有用户都能使用远程编程助手，新增的 BugBot 可自动审查 GitHub PR 并快速修复问题，Jupyter Notebook 现已支持通过 Agent 直接编辑多代码单元格，实验性的记忆功能能保存对话上下文供后续参考，同时简化了 MCP 服务器的一键安装并支持 OAuth 认证，聊天窗口现在能直接渲染图表和表格，全新的仪表盘还提供了更详细的用量统计分析。该功能能够智能重塑视频中的风格设定、角色形象和场景布局。

2025-06-05 11:33:22 308

原创 Chain-of-Zoom ：64 倍超分辨率在线体验

Fal 推出了基于FLUX-1 Kontext 开发的 AI 图像编辑模板[3]，包含老照片修复、背景替换、风格转换、水印去除等实用功能，能够快速实现多种专业效果。Replicate 最新发布的博文[4]展示了 FLUX.1 Kontext 的强大功能 - 它让原本需要复杂 ComfyUI 工作流才能完成的任务变得轻而易举。官方还贴心地发布了对应的 flux-kontext-apps[5] 示例库，佬们可以亲自上手体验。从换发型、生成职业照，到老照片修复、比例调整和水印去除，Kontext 都能轻松搞定。

2025-06-03 18:14:07 441

空空如也

空空如也