- 博客(734)
- 资源 (8)
- 收藏
- 关注
原创 【AI大模型前沿】GELab-Zero:阶跃开源的4B端侧多模态GUI Agent模型,助力本地可控的移动设备智能化
GELab-Zero是由阶跃星辰团队开源的端侧多模态GUI Agent模型,基于Qwen3-VL-4B-Instruct基座模型构建,参数量为4B。它专注于移动设备的自动化交互和任务执行,具备本地可部署能力,支持在消费级硬件上运行,确保低延迟和隐私保护。该模型能够识别UI元素并执行点击、滑动等操作,支持跨应用任务处理,如外卖、出行等场景,还具备零样本适应能力,可适配未见过的App。其核心使命是降低Agent开发者的实验门槛,推动Mobile Agent的规模化落地。
2026-01-24 08:00:00
804
原创 【AI大模型前沿】StepAudio R1:首个解锁音频推理能力的开源大模型
StepAudio R1是首个成功解锁音频领域推理能力的模型。它解决了传统音频模型在推理长度增加时性能下降的问题,证明了在音频领域,像文本和视觉一样,分配更多的计算资源可以预测性地提高性能。该模型在多项音频理解和推理基准测试中表现出色,超越了Gemini 2.5 Pro,并与Gemini 3 Pro相当。
2026-01-23 08:00:00
1075
1
原创 【AI大模型前沿】GLM-4.7:智谱AI的旗舰大模型,开启智能编程新时代
GLM-4.7是由智谱AI开发的开源大语言模型,专注于提升编码能力、推理能力和工具协同能力。它在多语言编程、复杂任务规划、前端设计美学等方面表现出色,支持多种编程框架,如Claude Code等。GLM-4.7引入了交错式、保留式和轮级思考模式,显著提升了复杂任务的执行稳定性和可控性。
2026-01-22 08:00:00
1087
1
原创 【AI大模型前沿】GLM-4.6V:智谱多模态大模型的创新突破与应用实践
GLM-4.6V是智谱AI与清华大学联合推出的多模态大模型系列,旨在实现高保真视觉理解和长上下文推理。该系列包含基础版GLM-4.6V(106B参数,12B激活)和轻量版GLM-4.6V-Flash(9B参数),支持长达128K tokens的上下文,并首次将原生多模态函数调用能力融入视觉模型,实现了从视觉感知到可执行行动的闭环。
2026-01-21 08:00:00
1305
原创 AI大模型前沿】GLM-TTS:智谱AI打造的可控情感零样本文本转语音模型
GLM-TTS 是智谱 AI 开发的零样本语音合成系统,基于大型语言模型,支持零样本语音克隆和流式推理。该系统采用两阶段架构,结合 LLM 生成语音 Token 和 Flow Matching 模型合成波形。通过引入多奖励强化学习框架,GLM-TTS 在情感表达和语音自然度上显著优于传统 TTS 系统。
2026-01-20 08:00:00
1203
1
原创 【AI大模型前沿】GLM-ASR:智谱开源的高性能语音识别模型
GLM-ASR是由智谱AI开发的开源语音识别模型系列,包括云端的GLM-ASR-2512和开源的GLM-ASR-Nano-2512。该系列模型基于深度学习架构,针对语音识别任务进行优化,不仅在理想环境下表现出色,更注重在复杂声学环境下的鲁棒性。GLM-ASR-Nano-2512采用1.5B参数,通过特定的训练策略,覆盖多噪声、多口音、低音量以及中文方言等复杂语音样本,使其在实际应用中表现出色。
2026-01-19 08:00:00
1153
原创 【AI大模型前沿】DeepSeek-Math-V2:数学推理的智能助手,从定理证明到竞赛夺冠
DeepSeek-Math-V2 是一个专注于数学推理的开源大语言模型,由 DeepSeek 团队开发。它基于 DeepSeek-V3.2-Exp-Base 构建,采用验证器 - 生成器协同进化的训练方式,通过自我验证机制显著提升了数学定理证明和推理的严谨性。该模型在国际数学奥林匹克竞赛(IMO)、中国数学奥林匹克竞赛(CMO)和普特南数学竞赛(Putnam)等权威基准测试中表现出色,接近满分水平。
2026-01-18 08:00:00
653
原创 【AI大模型前沿】Depth Anything 3:字节跳动推出的高效视觉空间重建模型
Depth Anything 3(DA3)是字节跳动Seed团队推出的一种视觉空间重建模型,能够从任意数量的视觉输入(包括单张图片、多视角图像或视频流)中恢复出三维空间的几何结构。该模型采用单一的Transformer架构,无需复杂的多任务训练或定制化架构设计,通过“深度-射线”表征法,实现了从单目深度估计到多视角几何重建的统一。
2026-01-17 08:00:00
731
原创 【AI大模型前沿】Z-Image:阿里通义的图像生成魔法棒,低资源设备也能玩转高清图像
Z-Image是一个具有60亿参数的高效图像生成基础模型,通过系统优化,在照片级真实感图像生成和中英双语文本渲染方面表现出色,其性能可与顶级商业模型相媲美。它包含三个主要变体:Z-Image-Turbo、Z-Image-Base和Z-Image-Edit,分别专注于快速推理、基础开发和图像编辑。
2026-01-16 08:00:00
668
1
原创 【2025具身智能大模型·系列19】小米MiMo-Embodied:开创性的跨领域具身大模型
MiMo-Embodied是由小米具身智能团队开发的开创性跨领域具身基础模型,是首个成功整合自动驾驶和具身智能两大领域的开源视觉语言模型(VLM)。该模型在环境感知、任务规划、空间理解等多方面展现出卓越性能,覆盖了17个具身智能基准测试和12个自动驾驶基准测试,显著超越了现有的开源、闭源以及领域专用模型。
2026-01-15 08:00:00
667
原创 【AI大模型前沿】HunyuanOCR:腾讯混元推出的高效端到端OCR视觉语言模型
HunyuanOCR 是腾讯混元团队推出的一款开源端到端OCR视觉语言模型,专为高效处理复杂文档和多语言文本设计。它依托混元原生多模态架构,仅用1B参数量就实现了多项OCR任务的SOTA性能。HunyuanOCR 支持文本检测与识别、复杂文档解析、开放字段信息抽取、视频字幕抽取以及图像文本翻译等功能,覆盖了经典OCR任务的全场景应用。其轻量化设计和强大的多语言支持能力,使其在实际应用中表现出色,广泛适用于文档处理、票据解析、视频内容创作等多个领域。
2026-01-14 08:00:00
1346
原创 【AI大模型前沿】Fara-7B:微软打造的高效计算机操作代理模型,开启智能办公新时代
Fara-7B 是微软推出的一款专注于计算机使用的代理型小语言模型(SLM),拥有 70 亿参数。它通过视觉感知网页内容,直接操作鼠标、键盘等界面元素来帮助用户完成任务。该模型基于 Qwen2.5-VL-7B 构建,采用“观察 - 思考 - 行动”的循环方式执行任务。其训练数据由微软开发的合成数据生成管道 FaraGen 生成,包含 145K 条轨迹,覆盖多种任务片段。
2026-01-13 08:00:00
1212
原创 【AI大模型前沿】Olmo 3:开源时代的 AI 定制先锋,打造专属智能模型
Olmo 3是一系列开源大型语言模型,由AI2开发,旨在通过提供完整的模型开发流程,推动AI的可解释性、协作创新和负责任的发展。该系列模型包括多个版本,如Olmo 3-Base(基础模型,7B和32B参数)、Olmo 3-Think(推理模型)、Olmo 3-Instruct(对话模型)以及Olmo 3-RL Zero(强化学习路径)。Olmo 3-Base在编程、阅读理解和数学解题等方面表现出色,Olmo 3-Think专注于复杂推理和强化学习,Olmo 3-Instruct擅长多轮对话和指令跟随,而Ol
2026-01-12 08:00:00
1804
1
原创 【AI大模型前沿】腾讯 HunyuanVideo-1.5:用消费级显卡解锁高清视频生成的无限可能
HunyuanVideo-1.5 是腾讯混元团队开源的轻量级视频生成模型,参数规模为 8.3B。该模型基于 Diffusion Transformer 架构,支持通过文字描述或图片生成 5-10 秒的高清视频,具备强大的指令理解能力,能精准实现多样化场景生成,包括写实、动画等多种风格。其创新采用 SSTA 稀疏注意力机制,显著提升推理效率,可在 14G 显存的消费级显卡上流畅运行,降低了使用门槛。该模型的出现,不仅为视频创作提供了更高效、更便捷的工具,也为相关领域的研究和发展注入了新的活力。
2026-01-11 08:00:00
891
原创 【AI大模型前沿】Meta SAM 3:基于概念提示的图像与视频分割模型
Segment Anything Model 3(SAM 3)是由 Meta 开发的最新一代视觉分割模型,能够基于文本、图像示例或视觉提示(如点、框)在图像和视频中检测、分割和跟踪对象。与前代模型相比,SAM 3 引入了可提示概念分割(Promptable Concept Segmentation, PCS)功能,能够处理开放词汇的概念提示,一次性返回所有匹配对象实例的分割掩码和唯一身份标识。该模型在新的 SA-Co 基准测试中性能显著提升,达到人类水平的 75%-80%,并且在多个公开基准测试中取得了最佳
2026-01-10 08:00:00
712
原创 【AI大模型前沿】Meta SAM 3D:从单图到3D世界的神奇钥匙
SAM 3D是Meta公司基于SAM系列推出的一款先进的3D重建模型,包含SAM 3D Objects和SAM 3D Body两个子模型。SAM 3D Objects能够从单张图像重建出物体和场景的详细3D模型,具备多视角一致性和复杂场景处理能力;SAM 3D Body则专注于人体姿态、骨骼和网格的高精度恢复,即使在非标准姿势、遮挡和部分出画等复杂情况下也能表现出色。
2026-01-09 08:00:00
861
1
原创 【GitHub开源AI精选】Open-AutoGLM:智谱AI开源的手机端智能助理框架,开启自动化操作新时代
Open-AutoGLM 是一个由智谱AI开源的手机端智能助理框架,基于AutoGLM构建。它能够通过自然语言指令,以多模态方式理解手机屏幕内容,并执行自动化操作来完成用户任务。该框架利用ADB控制设备,结合视觉语言模型感知屏幕,自动生成并执行操作流程。它支持多种操作,如点击、滑动、输入文本等,还内置敏感操作确认机制,确保用户隐私和数据安全。Open-AutoGLM 支持50多款主流中文应用,覆盖社交、电商、外卖等多个场景,旨在推动AI技术在移动端的发展和应用。
2026-01-08 08:00:00
951
1
原创 【GitHub开源AI精选】ViMax:香港大学开源的多智能体视频生成框架,一键实现创意到视频的跨越
ViMax 是一个端到端的多智能体视频生成框架,整合了导演、编剧、制片人和视频生成器的功能。它支持 Idea2Video、Novel2Video、Script2Video 和 AutoCameo 等模式,能够生成分钟级长视频并保持人物与场景一致性。通过智能分镜、多摄像机模拟和自动化一致性检测等技术,ViMax 实现了从创意到成片的高效自动化流程。
2026-01-07 08:00:00
1277
1
原创 【GitHub开源AI精选】Supertonic:开源AI驱动的极速离线TTS引擎,重塑语音合成新体验
Supertonic是由Supertone公司开源的一款高性能、极速离线的文本转语音(TTS)系统,专为极致性能和隐私保护而设计。它采用轻量级神经网络架构,仅包含66M参数,生成语音的速度可达167倍实时速度,是目前最快的TTS系统之一。Supertonic完全离线运行,所有处理在本地设备完成,确保隐私和零延迟响应。它支持多种语言,可无缝处理复杂文本,无需预处理,并且高度可配置,适用于多种开发环境和应用场景。
2026-01-06 08:00:00
960
1
原创 【GitHub开源AI精选】MemOS:解锁AI记忆潜能,打造记忆原生的智能系统
MemOS是一个开源的AI记忆管理操作系统,旨在为智能体和AI应用提供长期记忆能力。它通过统一的记忆抽象层,支持多种记忆类型(如文本记忆、激活记忆、参数记忆),具备动态知识图谱、记忆调度和生命周期管理等功能。MemOS能够使AI系统像人类一样记住用户过往信息,并在后续交互中主动调用记忆,从而实现更连贯、个性化的对话体验。
2026-01-04 08:00:00
1669
1
原创 【GitHub开源AI精选】Skywork R1V4-Lite:实时交互、深度推理,多模态智能体的全能王
Skywork R1V4-Lite是由昆仑万维推出的一款轻量级多模态智能体,它集成视觉操作、深度推理与任务规划三大能力,无需用户设计提示词,仅需一张图就能自动观察、推理并给出答案。该模型在多个权威视觉与感知基准评测上表现出色,展现出低延迟、高吞吐和极低成本的特点,适用于实时问答、视觉检索、智能助手等场景。
2026-01-03 09:19:06
602
原创 【GitHub开源AI精选】Lumine:字节跳动打造的3D开放世界通用AI智能体,开启跨游戏智能交互新时代
Lumine是由字节跳动Seed团队发布的通用AI智能体,它能够在3D开放世界游戏中实现实时感知、推理和行动。基于Qwen2-VL-7B-Base模型,Lumine通过类人交互范式,将感知、思考和行动整合在一起,展现出强大的任务执行能力、战斗能力、解谜能力、NPC交互能力以及GUI操作能力,并且具备跨游戏泛化能力。
2026-01-01 08:00:00
1272
原创 【AI大模型前沿】InfinityStar:字节跳动推出的高效视频生成模型,开启视频创作新纪元
InfinityStar是由字节跳动(FoundationVision)推出的一款高效视频生成模型。它通过统一的时空自回归框架,实现了高分辨率图像和动态视频的快速合成。该模型采用纯离散方法,将视频分解为序列片段,有效解耦外观和动态信息,从而提升生成效率。InfinityStar不仅支持文本到图像、文本到视频等多种生成任务,还能在单GPU上实现分钟级生成720p视频,是视频生成领域的重要进展。
2025-12-31 08:00:00
920
原创 【AI大模型前沿】Bee:腾讯混元与清华联合开源的全栈多模态大模型创新项目
Bee是由腾讯混元团队与清华大学联合推出的全栈开源多模态大模型解决方案,旨在通过提升数据质量来缩小开源模型与闭源模型之间的性能差距。该项目包含三大核心成果:首先是1500万规模的高质量双层CoT数据集Honey-Data-15M,它经过多步清洗和双层思维链扩充,覆盖多模态理解与生成任务,显著提升了数据的准确性和推理深度;其次是开源的数据增强工具HoneyPipe及DataStudio,为开发者提供了高效的数据处理和标注增强能力;最后是基于该数据集训练的8B模型Bee-8B,它在多项基准测试中刷新了全开源多模
2025-12-30 08:00:00
1833
原创 腾讯KaLM-Embedding:高性能多语言文本嵌入模型的创新与实践
KaLM-Embedding是由腾讯团队开发的一系列高性能文本嵌入模型,通过先进的训练技术和高质量的数据集,显著提升了文本嵌入的性能。最新版本KaLM-Embedding-V2在架构和训练方法上进行了多项创新,例如移除因果注意力掩码以实现双向表示学习,并结合多阶段训练流程(包括预训练、微调和对比蒸馏),显著提升了模型的泛化能力和语义理解能力。其中,KaLM-Embedding-Gemma3-12B-2511作为该系列的重要成员,基于更大的参数规模(12B参数),进一步优化了模型性能,适用于需要更高精度的复杂
2025-12-29 08:00:00
1005
原创 【AI大模型前沿】ERNIE 4.5:百度文心大模型的多模态技术革新与应用实践
ERNIE 4.5 是百度文心推出的新一代大型多模态基础模型家族,包含多种不同变体,涵盖从 0.3 亿到 470 亿参数的模型。它采用异构混合专家架构(MoE),将参数分为文本、视觉和共享专家,通过模态隔离路由机制实现高效的多模态处理。ERNIE 4.5 在多模态任务和文本任务中均表现出色,尤其在视觉推理、文档理解等高难度任务上优势显著。此外,它还支持多语言交互、长文本处理和图像思考功能,广泛应用于文档解析、智能客服、内容创作等领域。
2025-12-28 08:00:00
1830
原创 【GitHub开源AI精选】SmartResume:阿里巴巴开源高效智能简历解析系统
SmartResume是由阿里巴巴开源的智能简历解析系统,融合了OCR文本提取、PDF元数据解析、版面检测(YOLOv10模型)及轻量化大语言模型(Qwen3-0.6B微调版),支持PDF、图片、Word等多种常见格式的简历解析,能够将非结构化文本秒级转换为结构化数据,如姓名、工作经历、教育背景等,其核心创新在于通过版面感知技术重建阅读顺序,解决复杂布局导致的语义断裂问题,同时利用轻量化模型实现高效推理,平衡精度与成本。
2025-12-27 08:00:00
2119
原创 【GitHub开源AI精选】Kosong:月之暗面开源的AI代理开发利器,赋能智能体应用构建
Kosong是一个专为现代AI Agent应用设计的LLM抽象层,旨在解决与多个模型和工具交互时的技术栈可维护性问题。它通过统一消息结构、异步工具编排和可插拔的聊天提供商,帮助团队避免将业务逻辑硬编码到单一API,从而简化智能体的构建过程。
2025-12-26 08:00:00
1003
原创 【GitHub开源AI精选】DeepEyesV2:迈向多模态智能体的新里程碑
DeepEyesV2是一个由小红书团队开发的多模态智能体模型,旨在通过整合代码执行、网页搜索和图像操作等多种工具,实现对复杂问题的主动解决。该模型通过两阶段训练法,即冷启动阶段和强化学习阶段,使模型能够动态选择、组合和使用工具,从而在真实世界理解、数学推理和搜索密集型任务中表现出色。
2025-12-25 08:00:00
1606
原创 【GitHub开源AI精选】Meta Omnilingual ASR:支持1600+语言的开源多语言语音识别技术
Omnilingual ASR是由Meta AI 团队开发的一种创新的自动语音识别系统。它通过一个通用的转录模型,能够将超过1600种语言的口语转换为书面文本。该系统基于强大的自监督学习架构和大规模多语言数据集构建,能够在仅有少量标注数据的情况下实现对多种语言的高效识别。
2025-12-24 08:00:00
720
原创 【AI大模型前沿】SenseNova-SI:商汤开源的空间智能大模型,性能超越GPT-5
SenseNova-SI是由商汤科技开源的空间智能大模型系列,包括2B和8B两个规格。该模型通过大规模、高质量的空间数据训练,显著增强了空间测量、空间关系理解、视角转换等核心维度的能力。在多个权威基准测试(VSI、MMSI、MindCube、ViewSpatial)中,SenseNova-SI不仅大幅领先同量级开源多模态大模型,还超越了GPT-5和Gemini 2.5 Pro等顶尖闭源模型。
2025-12-23 08:00:00
745
原创 【AI大模型前沿】Open-o3-Video:北大联合字节开源的时空推理视频模型
Open-o3-Video是由北京大学联合字节跳动开源的视频推理模型,专注于将显式的时空证据(关键时间戳和边界框)整合到视频推理过程中。该模型通过精心策划的STGR数据集和两阶段训练策略(监督微调和强化学习优化),显著提升了视频推理的准确性和可解释性。在V-STAR基准测试中,Open-o3-Video取得了最佳性能,mAM和mLGM指标分别提升了14.4%和24.2%。其非代理化框架设计和开源特性,为视频理解领域提供了强大的技术支撑和创新生态。
2025-12-22 08:00:00
694
原创 【AI大模型前沿】OmniVinci:NVIDIA全模态大模型,语音、图像、视频全搞定的六边形战士
OmniVinci是英伟达推出的一款全模态大语言模型,专注于处理视觉、听觉、语言和推理的多模态任务。它通过独特的OmniAlignNet技术实现跨模态语义对齐,采用Temporal Embedding Grouping机制解决时序同步问题,并引入Constrained Rotary Time Embedding优化时间感知能力。在多个基准测试中,OmniVinci的性能超越了现有的顶尖模型,尤其在音画同步理解任务上表现突出。
2025-12-21 08:00:00
997
原创 【AI大模型前沿】Step-Audio-EditX:全球首个开源LLM音频编辑大模型,开启音频创作新纪元
Step-Audio-EditX是由阶跃星辰开发的开源音频编辑大模型,它基于3B参数的LLM架构,专注于音频的情感、说话风格和副语言编辑。该模型不仅支持零样本TTS(文本到语音合成),还能够通过迭代编辑实现情感和风格的细粒度控制。其核心创新在于仅使用大边距合成数据进行训练,无需额外的编码器或适配器,即可实现音频属性的解耦和迭代控制。
2025-12-20 08:00:00
721
原创 【AI大模型前沿】Maya1:Maya Research开源的语音合成模型,让AI声音充满情感
Maya1 是一个开源的AI语音合成模型,基于30亿参数的Transformer架构和SNAC神经编解码器,能够通过自然语言描述生成具有特定情感和特征的语音。它支持20多种情绪表达,如大笑、哭泣、叹气等,并且可以实时流式传输音频,适用于游戏配音、播客制作、语音助手开发等多种场景。
2025-12-19 08:00:00
1026
原创 【AI大模型前沿】FG-CLIP:360推出的双语细粒度视觉语言对齐模型,助力多模态理解新突破
FG-CLIP 是由 360 人工智能研究院推出的双语细粒度视觉语言对齐模型,旨在提升图像与文本之间的精准匹配能力。该模型通过层次化对齐架构和丰富的细粒度监督信号,实现了对图像细节的精准理解,同时支持中英文双语任务。FG-CLIP 在 29 项权威基准测试中全面超越了 Google 的 SigLIP 2 和 Meta 的 MetaCLIP 2,展现出卓越的性能,成为全球领先的视觉语言模型。
2025-12-18 08:00:00
980
原创 【AI大模型前沿】UniWorld:基于强化学习的图像编辑大模型技术解析与应用探索
UniWorld是一个专注于图像编辑与生成的多模态大模型,其核心目标是通过统一的架构实现图像理解、生成、编辑和感知等多任务处理。该模型在图像编辑领域引入了强化学习策略优化,解决了传统监督微调方法的过拟合和泛化能力差的问题。UniWorld通过高分辨率语义编码器和多模态大语言模型(MLLM)的结合,实现了在多个基准测试中的卓越性能,展现出强大的通用性和泛化能力。
2025-12-17 08:00:00
803
原创 【AI大模型前沿】Ouro:字节跳动Seed团队推出的循环语言模型,开启推理新纪元
Ouro是一个循环语言模型(Looped Language Models,简称LoopLM),其名称来源于象征循环与自我吞噬的“衔尾蛇”(Ouroboros)。该模型通过在潜在空间中进行迭代计算,将推理能力直接构建到预训练阶段,而非仅依赖后期微调。Ouro采用两阶段自适应计算训练策略,展现出卓越的参数效率。其1.4B和2.6B参数规模的模型在各类基准测试中,性能媲美甚至超越了规模大得多的SOTA LLM,尤其在高难度数学推理任务上表现卓越。
2025-12-16 08:00:00
880
1
原创 【AI大模型前沿】美团 LongCat-Flash-Omni:低延迟音视频交互的全模态大模型
LongCat-Flash-Omni 是一款由美团 LongCat 团队开发的开源全模态大语言模型,基于 LongCat-Flash 系列高效架构设计,创新性地集成多模态感知和语音重建模块。该模型拥有 5600 亿总参数(激活参数 270 亿),能够实现低延迟的实时音视频交互能力。通过渐进式多模态融合训练策略,LongCat-Flash-Omni 在文本、图像、音频、视频理解及生成能力上表现出色,在全模态基准测试中达到开源最先进水平(SOTA)。
2025-12-15 08:00:00
932
原创 【AI大模型前沿】SoulX-Podcast:多语言、多方言、多说话人的语音合成新突破
SoulX-Podcast是由Soul AI Lab推出的一款多说话人语音合成模型,专为生成长篇播客对话而设计。该模型基于Qwen3-1.7B架构,采用“LLM + Flow Matching”语音生成范式,具备零样本语音克隆与多轮对话能力,能够生成超过90分钟的高稳定性多轮语音对话。SoulX-Podcast不仅支持普通话、英语及多种汉语方言(如四川话、河南话、粤语等),还具备跨方言提示功能,可通过普通话提示生成目标方言语音。此外,模型支持副语言控制(如笑声、叹气等),增强语音合成的真实感。其在多说话人对
2025-12-14 08:00:00
895
各领域行业ChatGPT Prompt提示词大全
2024-06-05
CVP架构的企业级知识库落地
2024-05-26
面试必备十五问,面试难题预先知
2010-07-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅