自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

寻道AI,探索AI无限可能!

探索未知,分享所知。作为一名系统架构师,我曾带领团队打造多个行业领域的系统平台。如今,我正踏上AI大模型的探索之旅,期待与你一起成长,迎接技术的未来。

  • 博客(713)
  • 资源 (12)
  • 收藏
  • 关注

原创 【GitHub开源AI精选】Lumine:字节跳动打造的3D开放世界通用AI智能体,开启跨游戏智能交互新时代

Lumine是由字节跳动Seed团队发布的通用AI智能体,它能够在3D开放世界游戏中实现实时感知、推理和行动。基于Qwen2-VL-7B-Base模型,Lumine通过类人交互范式,将感知、思考和行动整合在一起,展现出强大的任务执行能力、战斗能力、解谜能力、NPC交互能力以及GUI操作能力,并且具备跨游戏泛化能力。

2026-01-01 08:00:00 844

原创 【AI大模型前沿】InfinityStar:字节跳动推出的高效视频生成模型,开启视频创作新纪元

InfinityStar是由字节跳动(FoundationVision)推出的一款高效视频生成模型。它通过统一的时空自回归框架,实现了高分辨率图像和动态视频的快速合成。该模型采用纯离散方法,将视频分解为序列片段,有效解耦外观和动态信息,从而提升生成效率。InfinityStar不仅支持文本到图像、文本到视频等多种生成任务,还能在单GPU上实现分钟级生成720p视频,是视频生成领域的重要进展。

2025-12-31 08:00:00 807

原创 【AI大模型前沿】Bee:腾讯混元与清华联合开源的全栈多模态大模型创新项目

Bee是由腾讯混元团队与清华大学联合推出的全栈开源多模态大模型解决方案,旨在通过提升数据质量来缩小开源模型与闭源模型之间的性能差距。该项目包含三大核心成果:首先是1500万规模的高质量双层CoT数据集Honey-Data-15M,它经过多步清洗和双层思维链扩充,覆盖多模态理解与生成任务,显著提升了数据的准确性和推理深度;其次是开源的数据增强工具HoneyPipe及DataStudio,为开发者提供了高效的数据处理和标注增强能力;最后是基于该数据集训练的8B模型Bee-8B,它在多项基准测试中刷新了全开源多模

2025-12-30 08:00:00 1709

原创 腾讯KaLM-Embedding:高性能多语言文本嵌入模型的创新与实践

KaLM-Embedding是由腾讯团队开发的一系列高性能文本嵌入模型,通过先进的训练技术和高质量的数据集,显著提升了文本嵌入的性能。最新版本KaLM-Embedding-V2在架构和训练方法上进行了多项创新,例如移除因果注意力掩码以实现双向表示学习,并结合多阶段训练流程(包括预训练、微调和对比蒸馏),显著提升了模型的泛化能力和语义理解能力。其中,KaLM-Embedding-Gemma3-12B-2511作为该系列的重要成员,基于更大的参数规模(12B参数),进一步优化了模型性能,适用于需要更高精度的复杂

2025-12-29 08:00:00 929

原创 【AI大模型前沿】ERNIE 4.5:百度文心大模型的多模态技术革新与应用实践

ERNIE 4.5 是百度文心推出的新一代大型多模态基础模型家族,包含多种不同变体,涵盖从 0.3 亿到 470 亿参数的模型。它采用异构混合专家架构(MoE),将参数分为文本、视觉和共享专家,通过模态隔离路由机制实现高效的多模态处理。ERNIE 4.5 在多模态任务和文本任务中均表现出色,尤其在视觉推理、文档理解等高难度任务上优势显著。此外,它还支持多语言交互、长文本处理和图像思考功能,广泛应用于文档解析、智能客服、内容创作等领域。

2025-12-28 08:00:00 1737

原创 【GitHub开源AI精选】SmartResume:阿里巴巴开源高效智能简历解析系统

SmartResume是由阿里巴巴开源的智能简历解析系统,融合了OCR文本提取、PDF元数据解析、版面检测(YOLOv10模型)及轻量化大语言模型(Qwen3-0.6B微调版),支持PDF、图片、Word等多种常见格式的简历解析,能够将非结构化文本秒级转换为结构化数据,如姓名、工作经历、教育背景等,其核心创新在于通过版面感知技术重建阅读顺序,解决复杂布局导致的语义断裂问题,同时利用轻量化模型实现高效推理,平衡精度与成本。

2025-12-27 08:00:00 1794

原创 【GitHub开源AI精选】Kosong:月之暗面开源的AI代理开发利器,赋能智能体应用构建

Kosong是一个专为现代AI Agent应用设计的LLM抽象层,旨在解决与多个模型和工具交互时的技术栈可维护性问题。它通过统一消息结构、异步工具编排和可插拔的聊天提供商,帮助团队避免将业务逻辑硬编码到单一API,从而简化智能体的构建过程。

2025-12-26 08:00:00 951

原创 【GitHub开源AI精选】DeepEyesV2:迈向多模态智能体的新里程碑

DeepEyesV2是一个由小红书团队开发的多模态智能体模型,旨在通过整合代码执行、网页搜索和图像操作等多种工具,实现对复杂问题的主动解决。该模型通过两阶段训练法,即冷启动阶段和强化学习阶段,使模型能够动态选择、组合和使用工具,从而在真实世界理解、数学推理和搜索密集型任务中表现出色。

2025-12-25 08:00:00 1582

原创 【GitHub开源AI精选】Meta Omnilingual ASR:支持1600+语言的开源多语言语音识别技术

Omnilingual ASR是由Meta AI 团队开发的一种创新的自动语音识别系统。它通过一个通用的转录模型,能够将超过1600种语言的口语转换为书面文本。该系统基于强大的自监督学习架构和大规模多语言数据集构建,能够在仅有少量标注数据的情况下实现对多种语言的高效识别。

2025-12-24 08:00:00 618

原创 【AI大模型前沿】SenseNova-SI:商汤开源的空间智能大模型,性能超越GPT-5

SenseNova-SI是由商汤科技开源的空间智能大模型系列,包括2B和8B两个规格。该模型通过大规模、高质量的空间数据训练,显著增强了空间测量、空间关系理解、视角转换等核心维度的能力。在多个权威基准测试(VSI、MMSI、MindCube、ViewSpatial)中,SenseNova-SI不仅大幅领先同量级开源多模态大模型,还超越了GPT-5和Gemini 2.5 Pro等顶尖闭源模型。

2025-12-23 08:00:00 687

原创 【AI大模型前沿】Open-o3-Video:北大联合字节开源的时空推理视频模型

Open-o3-Video是由北京大学联合字节跳动开源的视频推理模型,专注于将显式的时空证据(关键时间戳和边界框)整合到视频推理过程中。该模型通过精心策划的STGR数据集和两阶段训练策略(监督微调和强化学习优化),显著提升了视频推理的准确性和可解释性。在V-STAR基准测试中,Open-o3-Video取得了最佳性能,mAM和mLGM指标分别提升了14.4%和24.2%。其非代理化框架设计和开源特性,为视频理解领域提供了强大的技术支撑和创新生态。

2025-12-22 08:00:00 660

原创 【AI大模型前沿】OmniVinci:NVIDIA全模态大模型,语音、图像、视频全搞定的六边形战士

OmniVinci是英伟达推出的一款全模态大语言模型,专注于处理视觉、听觉、语言和推理的多模态任务。它通过独特的OmniAlignNet技术实现跨模态语义对齐,采用Temporal Embedding Grouping机制解决时序同步问题,并引入Constrained Rotary Time Embedding优化时间感知能力。在多个基准测试中,OmniVinci的性能超越了现有的顶尖模型,尤其在音画同步理解任务上表现突出。

2025-12-21 08:00:00 922

原创 【AI大模型前沿】Step-Audio-EditX:全球首个开源LLM音频编辑大模型,开启音频创作新纪元

Step-Audio-EditX是由阶跃星辰开发的开源音频编辑大模型,它基于3B参数的LLM架构,专注于音频的情感、说话风格和副语言编辑。该模型不仅支持零样本TTS(文本到语音合成),还能够通过迭代编辑实现情感和风格的细粒度控制。其核心创新在于仅使用大边距合成数据进行训练,无需额外的编码器或适配器,即可实现音频属性的解耦和迭代控制。

2025-12-20 08:00:00 622

原创 【AI大模型前沿】Maya1:Maya Research开源的语音合成模型,让AI声音充满情感

Maya1 是一个开源的AI语音合成模型,基于30亿参数的Transformer架构和SNAC神经编解码器,能够通过自然语言描述生成具有特定情感和特征的语音。它支持20多种情绪表达,如大笑、哭泣、叹气等,并且可以实时流式传输音频,适用于游戏配音、播客制作、语音助手开发等多种场景。

2025-12-19 08:00:00 966

原创 【AI大模型前沿】FG-CLIP:360推出的双语细粒度视觉语言对齐模型,助力多模态理解新突破

FG-CLIP 是由 360 人工智能研究院推出的双语细粒度视觉语言对齐模型,旨在提升图像与文本之间的精准匹配能力。该模型通过层次化对齐架构和丰富的细粒度监督信号,实现了对图像细节的精准理解,同时支持中英文双语任务。FG-CLIP 在 29 项权威基准测试中全面超越了 Google 的 SigLIP 2 和 Meta 的 MetaCLIP 2,展现出卓越的性能,成为全球领先的视觉语言模型。

2025-12-18 08:00:00 943

原创 【AI大模型前沿】UniWorld:基于强化学习的图像编辑大模型技术解析与应用探索

UniWorld是一个专注于图像编辑与生成的多模态大模型,其核心目标是通过统一的架构实现图像理解、生成、编辑和感知等多任务处理。该模型在图像编辑领域引入了强化学习策略优化,解决了传统监督微调方法的过拟合和泛化能力差的问题。UniWorld通过高分辨率语义编码器和多模态大语言模型(MLLM)的结合,实现了在多个基准测试中的卓越性能,展现出强大的通用性和泛化能力。

2025-12-17 08:00:00 744

原创 【AI大模型前沿】Ouro:字节跳动Seed团队推出的循环语言模型,开启推理新纪元

Ouro是一个循环语言模型(Looped Language Models,简称LoopLM),其名称来源于象征循环与自我吞噬的“衔尾蛇”(Ouroboros)。该模型通过在潜在空间中进行迭代计算,将推理能力直接构建到预训练阶段,而非仅依赖后期微调。Ouro采用两阶段自适应计算训练策略,展现出卓越的参数效率。其1.4B和2.6B参数规模的模型在各类基准测试中,性能媲美甚至超越了规模大得多的SOTA LLM,尤其在高难度数学推理任务上表现卓越。

2025-12-16 08:00:00 742 1

原创 【AI大模型前沿】美团 LongCat-Flash-Omni:低延迟音视频交互的全模态大模型

LongCat-Flash-Omni 是一款由美团 LongCat 团队开发的开源全模态大语言模型,基于 LongCat-Flash 系列高效架构设计,创新性地集成多模态感知和语音重建模块。该模型拥有 5600 亿总参数(激活参数 270 亿),能够实现低延迟的实时音视频交互能力。通过渐进式多模态融合训练策略,LongCat-Flash-Omni 在文本、图像、音频、视频理解及生成能力上表现出色,在全模态基准测试中达到开源最先进水平(SOTA)。

2025-12-15 08:00:00 821

原创 【AI大模型前沿】SoulX-Podcast:多语言、多方言、多说话人的语音合成新突破

SoulX-Podcast是由Soul AI Lab推出的一款多说话人语音合成模型,专为生成长篇播客对话而设计。该模型基于Qwen3-1.7B架构,采用“LLM + Flow Matching”语音生成范式,具备零样本语音克隆与多轮对话能力,能够生成超过90分钟的高稳定性多轮语音对话。SoulX-Podcast不仅支持普通话、英语及多种汉语方言(如四川话、河南话、粤语等),还具备跨方言提示功能,可通过普通话提示生成目标方言语音。此外,模型支持副语言控制(如笑声、叹气等),增强语音合成的真实感。其在多说话人对

2025-12-14 08:00:00 762

原创 【AI大模型前沿】FIBO:首个开源原生支持JSON的文本生成图像模型

FIBO是一个开源的文本生成图像模型,专为长结构化描述训练而成。它在超过1亿条结构化JSON描述上训练,每条约1000字,能够精确、可重复地控制光线、构图、色彩与相机参数。FIBO支持生成、精修和灵感三种模式,具备特征解耦能力,可单独调整某个属性而不破坏整体场景。其使用100%授权数据,确保合规性和法律透明性,适合专业工作流。

2025-12-13 11:39:28 799

原创 【AI大模型前沿】DeepSeek-OCR:开启OCR 2.0时代,用视觉压缩技术革新文档处理

DeepSeek-OCR是由DeepSeek团队开发的一款革命性的OCR模型,参数规模约30亿(3B),采用“上下文光学压缩”技术,将文本信息以视觉形式压缩,使模型通过“看图”来重建文本。该模型不仅继承了传统OCR的文本识别能力,更在文档理解层面进行了全方位升级,能够同时“看懂文字”“理解布局”“分析图表”,真正实现了从“看见文字”到“理解内容”的跨越。

2025-12-12 08:00:00 1255

原创 【AI大模型前沿】HunyuanWorld-Mirror:腾讯开源的多功能3D重建大模型

HunyuanWorld-Mirror是由腾讯发布的一个开源的多功能前馈式3D重建大模型。它能够整合多种几何先验信息,如相机姿态、校准内参、深度图等,并在单次前向传播中同时生成点云、多视图深度图、相机参数、表面法线、3D高斯点等多种3D表示。这一模型不仅在性能上刷新了开源领域的SOTA(State of the Art),更重要的是它打破了技术壁垒,让3D重建从专业工具转变为人人可用的技术。

2025-12-11 08:00:00 813

原创 【AI大模型前沿】PaddleOCR-VL:百度0.9B超轻量级文档解析利器,多语言多模态功能强大

PaddleOCR-VL是一款面向文档解析的SOTA(State-of-the-Art)且资源高效的模型。其核心组件为PaddleOCR-VL-0.9B,这是一种紧凑而强大的视觉语言模型(VLM),由NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型组成,以实现精准的元素识别。该模型不仅支持109种语言,还能在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。

2025-12-10 08:00:00 1229

原创 【AI大模型前沿】SAIL-VL2:字节跳动开源的小而强视觉语言模型,2B参数也能吊打大模型

SAIL-VL2 是由字节跳动抖音 SAIL 团队和新加坡国立大学 LV-NUS 实验室联合开发的开源视觉语言基础模型。作为 SAIL-VL 的继任者,SAIL-VL2 在 2B 和 8B 参数规模下,于多样化的图像与视频基准测试中均达到当前最优性能,展现出从细粒度感知到复杂推理的强劲能力。其核心创新包括大规模数据筛选与优化、渐进式训练框架以及混合专家(MoE)架构,使得模型在效率和性能上均实现了显著提升。

2025-12-09 08:00:00 968

原创 【GitHub开源AI精选】DiaMoE-TTS:清华和巨人网络开源的多方言语音合成利器

DiaMoE-TTS 是一个基于国际音标(IPA)的统一框架,专门针对多方言语音合成的复杂性而设计。它在 F5-TTS 架构的基础上,引入了方言感知的混合专家(MoE)模型来模拟不同方言之间的语音差异,并利用低秩适配器(LoRA)和条件适配器进行参数高效的自适应,从而能够快速迁移到新的方言。与依赖大规模或专有资源的方法不同,DiaMoE-TTS 支持可扩展的开放数据驱动合成,实验表明其能够生成自然且富有表现力的语音,即使在只有数小时数据的情况下,也能对未见过的新方言以及专业领域(如京剧)实现零样本性能。

2025-12-08 08:00:00 1278

原创 【AI大模型前沿】SongBloom:腾讯AI Lab开源的全长度歌曲生成模型

SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,通过交错生成范式,逐步将音乐草图从短到长进行扩展,并将细节从粗粒度提升到细粒度。仅需输入 10 秒参考音频和对应歌词,SongBloom 即可生成长达 2 分 30 秒的双通道、48kHz 高质量完整歌曲。在主观和客观评测中,SongBloom 均优于现有开源方法,并与顶尖商业平台 Suno-v4.5 相当。

2025-12-07 08:00:00 2301

原创 【AI大模型前沿】UniPixel:香港理工大学联合腾讯推出的像素级多模态大模型

UniPixel是一个由香港理工大学和腾讯ARC Lab团队开发的统一像素级多模态大模型,专注于图像/视频的精细理解与交互。它能够在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的“对象记忆机制”和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。基于Qwen2.5-VL框架构建的UniPixel,支持点、框、掩码三种交互方式,在9项视觉任务基准测试中超越了72B参数的传统模型,并且开源了代码和在线Demo。

2025-12-06 08:00:00 2009

原创 【AI大模型前沿】Youtu-Embedding:腾讯优图开源的高性能通用文本表示模型

Youtu-Embedding 是腾讯优图实验室开发的面向企业级应用的通用文本表示模型。该模型通过大规模语料预训练和创新的微调框架,具备强大的语义理解能力,能够胜任文本检索、意图理解、相似度判断等六大任务。它在中文语义评测基准 CMTEB 上表现优异,广泛适用于企业客服、知识管理、智能问答等场景。

2025-12-05 08:00:00 968

原创 【GitHub开源AI精选】Glyph:智谱与清华开源的视觉文本压缩框架,突破大模型上下文限制

Glyph 是一个通过视觉 - 文本压缩扩展上下文窗口的框架,它将长文本渲染为图像,利用视觉语言模型(VLM)处理图像,从而在不增加模型实际上下文长度的前提下实现上下文的高效扩展。这种方法不仅大幅降低了计算成本和显存占用,还显著提升了推理速度,同时在多模态任务中展现出强大的泛化能力。

2025-12-04 08:00:00 732

原创 【GitHub开源AI精选】LLaVA-OneVision-1.5:面向多模态训练大众化的全开源框架

LLaVA-OneVision-1.5 是由 EvolvingLMMS-Lab 开发的全开源多模态框架,旨在通过高效训练和高质量数据实现多模态任务的高性能和低成本。该模型采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率。基于 Qwen3 的语言模型,通过三阶段训练流程(语言–图像对齐、高质量知识中期预训练和视觉指令对齐)进行优化。它在多模态基准测试中表现出色,成本可控,且全链条透明开放。

2025-12-03 08:00:00 992

原创 【GitHub开源AI精选】MineContext:字节开源的主动式上下文感知 AI 工具,助力高效信息管理

MineContext 是一个主动式上下文感知 AI 工具,它通过每 5 秒截取一次屏幕,经过处理后,批量发送给视觉语言模型(VLM)分析,提取出人物、产品、公司档案等六种结构化上下文,主动生成日报、待办、洞察等高质量信息,而非被动等待用户提问。它采用存储本地、分析云端的混合架构,包含元模型、采集器、存储层、更新引擎和接口层五个核心组件,以隐私优先,所有数据存储在本地,确保用户信息安全。

2025-12-02 08:00:00 1662

原创 【GitHub开源AI精选】StableAvatar:复旦大学联合微软亚洲研究院推出的无限时长音频驱动虚拟形象视频生成技术框架

StableAvatar 是一个基于扩散变换器(Diffusion Transformer)的音频驱动视频生成技术框架。它能够根据一张人物图片和一段音频生成与音频高度同步的人物口型和表情的视频,且视频长度理论上可以无限延长。该技术框架通过其独特的架构和创新机制,解决了以往技术在生成长视频时的关键问题,显著提升了生成视频的自然度和连贯性。

2025-12-01 08:00:00 1636

原创 【2025具身智能大模型·系列18】RoboBrain-X0:智源研究院开源的跨本体泛化具身模型,开启机器人新时代

RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,实现了从感知到执行的一体化能力。

2025-11-30 08:00:00 1623 2

原创 【AI大模型前沿】NeuTTS Air:Neuphonic打造的超拟真离线语音合成模型

NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音(TTS)模型。它以0.5B参数的Qwen语言模型为基础,结合自研的NeuCodec音频编解码器,实现了在本地设备上的高效语音合成。NeuTTS Air不仅能够生成自然流畅、接近真人的语音,还具备即时语音克隆功能,仅需3秒音频样本即可精准复刻说话者的声音。其紧凑的架构设计使其在性能、速度和质量之间达到了绝佳的平衡,能够在中端设备上实现实时推理,广泛应用于离线语音助手、智能玩具、本地AI Agent嵌入式语音接口、游戏与互动角色

2025-11-29 08:00:00 875

原创 【AI大模型前沿】微软UserLM-8b:AI助手的逼真陪练,多轮对话精炼利器

UserLM-8b是由微软推出的一款80亿参数的用户语言模型,旨在模拟真实用户在多轮对话中的行为,以评估和优化AI助手的性能。该模型通过逐步揭示任务意图,生成更接近真实用户行为的对话内容,为AI助手的开发和优化提供了高效的模拟环境。它在大规模真实对话数据集(如WildChat-1M)上进行训练,能够生成第一轮用户话语、后续用户话语,并判断对话何时结束。

2025-11-28 08:00:00 1275 2

原创 【AI大模型前沿】Ling-1T:蚂蚁集团开源万亿参数的高效推理非思考模型

Ling-1T 是基于 Ling 2.0 架构的万亿参数非思考模型,其设计目标是实现高效的推理和强大的认知能力。该模型在 20T+ token 的高质量、高推理浓度语料上完成预训练,支持最高 128K 的上下文窗口,并通过“中训练+后训练”的演进式思维链(Evo-CoT)方法,极大地提升了模型的推理效率和准确性。Ling-1T 在多项复杂推理基准测试中取得了 SOTA 表现,展现出在高效思考与精确推理之间的卓越平衡。

2025-11-27 08:00:00 898

原创 【AI大模型前沿】Ming-UniAudio:蚂蚁集团开源的多功能统一语音大模型

Ming-UniAudio 是蚂蚁集团开源的一个创新语音处理项目,旨在通过统一的连续语音分词器 MingTok-Audio 和端到端的语音语言模型,实现语音理解、生成和编辑任务的高效融合。MingTok-Audio 基于 VAE 框架和因果 Transformer 架构,能够有效整合语义和声学特征,为语音理解和生成任务提供统一的表示。在此基础上,Ming-UniAudio 开发了一个端到端的语音语言模型,支持语音理解和生成任务,并通过扩散头技术确保高质量的语音合成。

2025-11-26 08:00:00 1064

原创 【AI大模型前沿】Logics-Parsing:阿里巴巴开源的端到端文档解析模型

Logics-Parsing 是阿里巴巴开源的一款基于 Qwen2.5-VL-7B 的端到端文档解析模型。该模型通过监督微调(SFT)和以布局为中心的强化学习(LC-RL)两阶段训练,能够将 PDF 图像直接转换为结构化的 HTML 输出。这一过程不仅简化了文档解析流程,还极大地提升了对复杂文档的处理能力。Logics-Parsing 的设计目标是解决传统文档解析方法在处理复杂布局和高级内容类型时的局限性。它支持普通文本、数学公式、表格、化学公式和手写中文字符等多种内容类型,能够准确识别和解析这些复杂内容,

2025-11-25 08:00:00 1040

原创 【AI大模型前沿】智谱GLM-4.6:355B参数的旗舰级AI模型,代码能力与推理性能全面升级

GLM-4.6是智谱AI推出的最新旗舰级文本模型,总参数量达到355B,激活参数为32B。该模型在所有核心能力上均超越了前代GLM-4.5,特别是在代码能力、上下文长度、推理能力、搜索能力、写作能力和多语言翻译等方面实现了显著提升。GLM-4.6在多个权威基准测试中表现出色,与国际顶尖模型如Claude Sonnet 4相媲美,稳居国产模型首位。

2025-11-24 08:00:00 1804

原创 【AI大模型前沿】DeepSeek-V3.2-Exp:基于稀疏注意力机制的高效长文本处理大模型

DeepSeek-V3.2-Exp是DeepSeek-AI于2025年9月29日发布的实验性大语言模型,旨在探索和验证在长上下文场景下训练和推理效率的优化。该模型基于V3.1-Terminus构建,引入了创新的DeepSeek稀疏注意力(DSA)机制,实现了细粒度稀疏注意力,突破了传统Transformer架构的限制。在多个公开基准测试中,DeepSeek-V3.2-Exp的性能与V3.1-Terminus基本持平,但在长文本处理场景中,其推理成本显著降低。

2025-11-23 08:00:00 1164

js小技巧:当鼠标移上文字弹出层

js小技巧:当鼠标移上文字或照片的时候可以弹出层 层里面可以是文字、图片、表格

2010-07-16

各领域行业ChatGPT Prompt提示词大全

本资料精心汇编了适用于各行各业的ChatGPT Prompt提示词,旨在帮助用户更高效地利用ChatGPT进行行业分析和内容创作。我们根据不同领域的特征和需求,归纳和整理了一系列有效的Prompt模板和词汇,以便于专业人士快速引导模型生成所需的专业信息或解决方案。 无论您从事的是科技、金融、教育还是医疗行业,或是任何其他专业领域,本资料的Prompt提示词都将助您一臂之力,使您能够更加精准地与ChatGPT沟通,从而提升工作效率、优化输出内容,并发掘更多的应用场景和商业价值。

2024-06-05

CVP架构的企业级知识库落地

1.基于ChatGPT+VectorDB+Prompt架构实现的企业级本地知识库源码; 2.企业可以通过这个知识库来管理和分析自己的数据,比如客户信息、市场调研结果、产品数据等。 3. 利用本地知识库+通过RAG机制实现检索生成增强,落地实现企业级本地知识库机器人方案。(为了提高检索的效率和准确性,采用了RAG(Retrieval-Augmented Generation)机制。这是一种先进的信息检索技术,它结合了传统的关键字检索和最新的生成模型技术。通过RAG机制,系统能够理解用户的查询意图,然后从知识库中检索出最相关的信息,最后通过生成模型将这些信息整合成有用的答案)

2024-05-26

Java面试专题及答案大全各类经验分享

Java面试专题及答案等,多个技术点面试大全;阿里百度美团面试题集合,各类经验分享

2024-04-16

Embedding-评论数据集

Embedding-评论数据集

2024-04-05

任意获取鼠标点击处的位置坐标

获取鼠标的坐标,通过js任意获取鼠标点击处的位置坐标。

2010-12-17

js实现定时隐藏div

js实现定时隐藏div层,任你设置时间,时间一到立即隐藏

2010-12-17

初学者必备资料-php-ext学习

初学者必备的学习PHP-EXT资料,详细实列

2010-09-10

jquery匹配搜索

jquery就匹配搜索功能。模拟百度搜索栏,输入关键字自动提示。。。。

2010-11-22

jquery表单验证

jquery表单验证,jquery实现各种各类的无刷新表单验证。

2010-11-06

jquery技巧总结

jquery技巧总结,轻松,简单学习jquery.

2010-11-06

面试必备十五问,面试难题预先知

在应聘的过程中,总会遇到一些难缠的问题,令人一时不知如何招架。当然这些问题并没有标准答案,个人以为,胜出的关键,是事先对应聘单位需要什么样的人有所了解,既“投其所好”,又诚信而本色地展示自我

2010-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除