
前沿
文章平均质量分 78
记录前言算法与模型
Open-source-AI
前沿算法探索,躺坑踩雷记录,测试记录,心得分享……
展开
-
Index-AniSora模型论文速读:基于人工反馈的动漫视频生成
本文提出了一种通过人类反馈对齐动漫视频生成的方法,解决了现有模型在生成动漫视频时面临的数据稀缺、运动模式异常和奖励模型局限性等问题。研究首先构建了首个动漫视频多维奖励数据集,并开发了AnimeReward奖励模型,该模型从视觉外观和视觉一致性两个维度评估视频质量。此外,引入了Gap-Aware Preference Optimization(GAPO)训练方法,通过明确考虑偏好差距来优化模型。实验结果表明,该方法显著提升了动漫视频的生成质量,更好地符合人类偏好,尤其在减少失真和伪影、提高运动稳定性和角色一致原创 2025-05-20 18:00:00 · 621 阅读 · 0 评论 -
Index-AniSora论文速读:探索Sora时代动画视频生成的前沿
《AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era》论文介绍了一种名为AniSora的系统,旨在解决动画视频生成中的独特挑战。传统动画制作流程劳动密集且耗时,而现有的计算机视觉辅助方法难以满足多样化需求。AniSora通过统一的扩散框架和时空掩码模块,支持多种动画制作任务,如关键帧插值和局部图像引导动画。系统采用DiT基础模型和3D因果VAE,有效捕捉时空依赖关系。数据处理流程从100万原始动画视频中原创 2025-05-20 16:00:00 · 693 阅读 · 0 评论 -
哔哩哔哩推出开源动漫视频生成模型速读:Index-AniSora
Index-AniSora 是哔哩哔哩推出的开源动漫视频生成模型,支持多种动漫风格的视频创作,包括剧集、原创动画、漫画改编等。该模型基于 IJCAI'25 的 AniSora 开发,提供完整的训练和推理代码,并支持在 RTX 4090 上高效部署。技术架构上,Index-AniSora 采用增强型 Wan2.1-14B 基础模型,通过区域指导和时序指导实现视频的精确控制。模型支持 Nvidia GPU 和华为昇腾910B NPUs,具备广泛的设备适配性。数据集方面,项目配备了端到端的数据集管道和评估基准,确原创 2025-05-20 10:19:51 · 499 阅读 · 0 评论 -
II-Medical-8B论文速读:课程SFT,DPO和RL 为长思维链推理从无到有
Light-R1论文介绍了一个开源套件,用于训练长推理模型,旨在解决大型推理模型在部署时面临的高计算成本问题。研究团队通过课程训练逐步增加数据难度,并结合多阶段后期训练,成功开发出LightR1-32B模型,该模型在数学推理方面优于DeepSeek-R1-DistillQwen-32B。研究背景表明,长推理链在基础AI模型和工业AI应用中广受欢迎,但部署完整的R1级模型需要高昂的计算成本。因此,研究团队致力于开发在几十亿参数内即可执行长COT的紧凑型模型,这对于数学问题解决、算法规划和科学分析至关重要。原创 2025-05-20 15:30:00 · 335 阅读 · 0 评论 -
II-Medical-8B论文速读:140 万开源蒸馏推理数据集助力大语言模型训练
论文介绍了AM-DeepSeek-R1-Distilled数据集,这是一个包含140万条带推理痕迹的通用推理任务数据集,涵盖了高质量且具有挑战性的推理问题。数据从多个开源数据集中收集,经过语义去重和精细清洗...原创 2025-05-20 14:15:00 · 445 阅读 · 0 评论 -
II-Medical-8B论文:S1简单的测试时扩展
本文介绍了s1模型,这是一种通过测试时扩展提升语言模型性能的方法。作者构建了s1K数据集,包含1000个高质量、多样性和难度的问题,用于监督微调。测试时扩展通过增加计算量(如生成更多推理步骤)来提升模型性能,其中顺序扩展方法(如budget forcing)优于平行扩展。实验结果显示,s1-32B模型在多个推理基准测试中表现优异,超越了OpenAI的o1-preview模型。消融实验进一步验证了数据质量、多样性和难度对模型性能的重要性。文章认为,测试时扩展能够有效激活和放大模型已有的推理能力。原创 2025-05-20 10:03:22 · 225 阅读 · 0 评论 -
医疗推理大模型(微调自Qwen3-8B):II-Medical-8B
II-Medical-8B 是智能互联网公司开发的一款专为医疗推理设计的大型语言模型,基于 Qwen/Qwen3-8B 模型,通过监督微调(SFT)和强化学习(RL)优化性能。该模型在 HealthBench 等医疗问答基准测试中表现出色,得分与 OpenAI 的 GPT-4.5 相当。训练数据集包含 555,000 个样本,涵盖多种医学推理和问答数据,并通过聚类和领域分类进行筛选。模型使用推荐参数为温度 0.6,top_p 0.9,并强调逐步推理和格式化输出。尽管模型在医疗领域表现优异,但需注意其数据集可原创 2025-05-20 09:58:54 · 454 阅读 · 0 评论 -
阿里世界偏好模型:WorldPM-72B论文速读
本文介绍了World Preference Modeling (WorldPM)的研究,旨在探索偏好建模中的扩展潜力。研究从StackExchange、Reddit和Quora等公共论坛收集约1500万条训练样本,使用参数规模从1.5B到72B的模型进行训练,并评估其在对抗性、客观和主观三类评估指标上的表现。研究发现,对抗性和客观评估中,模型性能随训练数据和模型规模增加呈现幂律下降趋势,而主观评估中未观察到明显扩展趋势,可能因风格偏好导致。WorldPM作为偏好微调基础模型,在多个评估指标上表现提升...原创 2025-05-19 18:15:00 · 450 阅读 · 0 评论 -
阿里开源世界偏好模型(WorldPM-72B):训练统一的偏好表示
Qwen/WorldPM-72B 模型速览摘要 世界偏好模型(WorldPM)通过大规模训练(1500 万偏好数据)实现了统一的偏好表示学习,展示了与语言建模类似的扩展规律。该模型在各种偏好场景下表现出强大的泛化能力,但建议进行特定任务微调以获得最佳性能。WorldPM-72B 提供了多个变体,如 HelpSteer2、UltraFeedback 和 RLHFLow,分别在不同规模的数据集上微调。使用该模型时,需确保 transformers 版本≥4.40.0,并遵循特定的系统提示和奖励计算规则。通过 H原创 2025-05-19 16:00:00 · 523 阅读 · 0 评论 -
沉浸式冒险和叙事类应用的语言生成模型:Harbinger-24B
Harbinger-24B 是由 Latitude Games 开发的语言模型,专注于沉浸式冒险和叙事类应用。该模型基于 Mistral Small 3.1 Instruct 进行训练,采用直接偏好优化(DPO)技术,旨在增强指令遵循能力、提升序列连贯性和保持叙事一致性。训练分为两个阶段:SFT 阶段使用多轮数据集进行微调,DPO 阶段通过用户偏好数据优化模型行为。推荐推理设置包括温度为 0.8、重复惩罚为 1.05 和最小概率为 0.025。用户可在 https://aidungeon.com 上体验该模原创 2025-05-19 09:53:32 · 475 阅读 · 0 评论 -
16专家MOE生成模型(基于Qwen 30B-A3B微调):Qwen3-30B-A6B-16-Extreme
Qwen3-30B-A6B-16-Extreme 是基于 Qwen 30B-A3B 模型的微调版本,将专家数量从 8 个增加到 16 个,以增强复杂任务的处理能力。该模型支持 32K 上下文和 8K 输出,提供多种格式生成和量化版本,适用于深度分析和复杂问题解答。尽管使用 16 个专家会降低速度,但其在 GPU 上的性能表现优异,速度可提升 4 到 8 倍。模型支持 Jinja 和 CHATML 模板,并允许设置系统角色以指导输出风格。Qwen3-30B-A6B-16-Extreme 在科学、环境问题和创意原创 2025-05-19 14:00:00 · 669 阅读 · 1 评论 -
电影级生成模型(基于Wan2.1微调):MoviiGen1.1
MoviiGen 1.1 是一款基于 Wan2.1 微调的前沿视频生成模型,专注于电影美学和视觉质量。该模型在电影氛围、镜头运动和细节保留等关键维度上表现卓越,成为专业电影应用的首选。其视觉连贯性和质量显著提升,支持高分辨率输出,并在复杂场景中保持稳定性能。MoviiGen 1.1 提供高效的训练框架,包括序列并行、多分辨率训练和分布式训练,优化了数据处理和模型训练流程。用户可通过快速开始指南轻松部署模型,并利用提供的训练脚本进行单节点或多节点训练。尽管评估方法未详细说明,但 MoviiGen 1.1 在电原创 2025-05-19 09:44:06 · 401 阅读 · 0 评论 -
Step1X-3D开源模型论文速读:面向高保真可控纹理3D资产生成
Step1X-3D 是一个旨在解决高质量 3D 资产生成挑战的开放框架。当前 3D 生成技术面临数据稀缺、算法复杂性和生态系统不完善等问题。Step1X-3D 通过处理超过 5M 资产,生成一个包含 2M 高质量数据集,并采用两阶段 3D 原生架构:第一阶段使用混合 VAE-DiT 几何生成器生成 TSDF 表示,第二阶段是基于扩散的纹理合成模块,确保跨视图一致性。实验表明,Step1X-3D 在几何和纹理生成方面表现出色,支持高可控性生成,并在用户研究中获得较高偏好。未来计划提高网格分辨率和扩展纹理生成能原创 2025-05-18 14:00:00 · 831 阅读 · 0 评论 -
高保真生成3D资源模型速递:Step1X-3D
Step1X-3D是一种创新的3D资产生成框架,旨在解决3D领域中的数据稀缺、算法限制和生态碎片化问题。该框架通过严格的数据筛选流程,从超过500万资产中构建了200万高质量数据集,具有标准化的几何和纹理特性。其两阶段3D原生架构结合了混合变分自编码器-扩散模型(VAE-DiT)的几何生成器和基于SD-XL的纹理合成模块,确保了几何与纹理的精确对齐。Step1X-3D全面开源模型、训练代码和适配模块,支持将2D控制技术直接应用于3D合成。基准测试显示,其性能优于现有开源方法,并与专有解决方案竞争。该框架为可原创 2025-05-18 12:00:00 · 309 阅读 · 0 评论 -
facebook的Open Molecules 2025 (OMol25) 数据集、评估与模型开源速读
Open Molecules 2025 (OMol25) 是目前最大规模的高质量分子密度泛函理论(DFT)数据集,涵盖生物分子、金属复合物、电解质等多个领域,包含超过1亿个分子结构,存储容量达456GB。数据集采用CC-BY-4.0许可协议,允许自由使用。研究者可通过fairchem库访问数据集,并利用提供的基线模型(如eSEN系列)进行分子动力学模拟等研究。OMol25为分子科学研究提供了丰富的资源和工具,支持在Hugging Face和GitHub等平台获取帮助和反馈。原创 2025-05-17 14:00:00 · 311 阅读 · 0 评论 -
facebook开源分子化学数据集和模型(OMol25)论文速读
《The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models》论文介绍了一个大规模、高精度的分子数据集OMol25,旨在推动机器学习在分子化学领域的应用。该数据集包含超过1亿个DFT单点计算,涵盖83种元素和多种分子系统,计算成本高达60亿CPU核心小时。研究设计了多种评估任务,并训练了多个基线模型(如eSEN、GemNet-OC和MACE)来测试数据集的有效性。实验结果表明,基线模型在能量和力预测方面表现良好,但在处理电离能、自旋间隙原创 2025-05-17 12:00:00 · 664 阅读 · 0 评论 -
基于对抗性后训练的快速文本到音频生成:stable-audio-open-small 模型论文速读
《Fast Text-to-Audio Generation with Adversarial Post-Training》论文提出了一种新的文本到音频生成加速方法,旨在解决现有系统推理速度慢的问题。该方法通过对抗相对论-对比后训练(ARC)替代传统的蒸馏方法,避免了高成本和性能损失。ARC结合了对抗相对论损失和对比损失,提升了生成多样性和文本遵循性。实验表明,ARC在保持音频质量的同时,显著提升了生成速度,并提出了新的多样性评估指标CCDS。原创 2025-05-16 15:15:00 · 898 阅读 · 0 评论 -
stabilityai开源音频扩散生成小模型:stable-audio-open-small
Stable Audio Open Small 是一种基于潜在扩散模型的音频生成工具,能够根据文本提示生成最长11秒、44.1kHz的立体声音频。该模型结合了自编码器、T5文本嵌入和基于变换器的扩散模型(DiT),主要用于音乐和音频生成的研究与实验。训练数据集包含来自Freesound和Free Music Archive的音频记录,经过严格的版权审核。模型在Stability AI Community License下授权,适用于商业用途,但需遵循特定许可要求。尽管模型在生成音效和现场录音方面表现良好,但原创 2025-05-16 10:58:44 · 830 阅读 · 0 评论 -
一个3d图像生成开源模型:isometric skeumorphic 3d bnb
开源模型“multimodalart/isometric-skeumorphic-3d-bnb”是一个专注于等距拟物化3D设计的工具。该模型通过fal.ai平台上的“fal-ai/flux-lora-fast-training”进行训练,旨在快速生成高质量的3D视觉效果。尽管目前缺乏详细的模型介绍,但其应用场景可能涵盖游戏设计、建筑可视化及产品展示等领域。该模型的开源特性为开发者提供了灵活性和可扩展性,使其能够根据具体需求进行定制和优化。原创 2025-05-16 10:46:56 · 162 阅读 · 0 评论 -
阿里视频创建和编辑的一体化模型论文速读:Wan2.1-VACE-14B
VACE(Video Creation and Editing)是一种统一的视频生成和编辑框架,旨在整合多种视频任务所需的多模态输入,解决现有视频生成模型在时空一致性和任务多样性方面的挑战。VACE通过视频条件单元(VCU)统一处理文本、图像、视频和掩码等输入,支持文本到视频生成、引用到视频生成、视频到视频编辑、掩码视频到视频编辑等任务,并允许任务组合。基于扩散Transformer(DiTs)的架构,VACE通过上下文标记化和全面微调等方法,确保生成视频的时空一致性和高质量。研究者还构建了VACE-Ben原创 2025-05-16 12:15:00 · 940 阅读 · 0 评论 -
阿里开源通义万相Wan2.1-VACE-14B:用于视频创建和编辑的一体化模型
Wan2.1是一个开放且先进的大规模视频生成模型套件,支持多种任务如文本到视频、图像到视频、视频编辑等,并在多个基准测试中超越现有开源和商业模型。其技术创新包括3D因果变分自编码器(Wan-VAE)和扩散变换器(DiT),显著提升了时空压缩效率和性能。Wan2.1提供了1.3B和14B参数规模的模型版本,支持480P和720P分辨率,并在不同GPU上展示了高效的计算性能。该模型已集成到多个平台,支持多GPU推理,并通过人工评估验证了其优越性。Wan2.1采用Apache 2.0许可证,团队持续更新模型并欢迎原创 2025-05-15 11:52:22 · 1507 阅读 · 0 评论 -
开源的跨语言GUI元素理解8B大模型:AgentCPM-GUI
AgentCPM-GUI 是由清华大学自然语言处理实验室与 ModelBest 联合开发的开源大模型,基于 MiniCPM-V 架构,拥有 80 亿参数,专为移动终端 GUI 操作设计。该模型通过接收屏幕截图作为输入,自动执行用户任务,具备高质量 GUI 定位、中文应用适配、强化推理规划和紧凑动作空间设计等关键特性。在基准测试中,AgentCPM-GUI 在多个指标上表现优异,尤其在复杂 GUI 场景下的任务执行能力显著领先。其技术架构结合了多模态融合和强化学习,训练数据涵盖大规模双语 Android 数据原创 2025-05-15 16:00:00 · 1012 阅读 · 0 评论 -
AM-Thinking-v1论文解读:以32B规模推进推理前沿
《AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale》论文介绍了一种基于开源Qwen2.5-32B基础模型的推理优化语言模型AM-Thinking-v1。该模型通过精心设计的后训练流程,在多个推理基准测试中实现了与开源模型相比的最先进性能,甚至超越了许多更大型的混合专家(MoE)模型。训练数据全部来自公开数据集,涵盖数学推理、代码生成、科学推理、指令遵循和通用聊天等任务。模型通过监督微调(SFT)和强化学习(RL)进行训练,采用集原创 2025-05-15 11:31:48 · 847 阅读 · 0 评论 -
32B密集型语言模型性能媲美千亿大模型:AM-Thinking-v1
AM-Thinking-v1 是由 a-m-team 团队开发的 32B 密集型语言模型,基于 Qwen 2.5-32B-Base 构建,旨在提升推理能力。该模型通过冷启动监督微调、通过率感知的数据策划和强化学习等步骤进行训练,在 AIME’24/’25 和 LiveCodeBench 基准测试中表现出色,推理能力接近参数量更大的 Qwen3-235B-A22B 模型。AM-Thinking-v1 适用于代码生成、逻辑推理和文本写作等场景,能够生成复杂的 Python 脚本并提供有深度的思考过程。然而,模型原创 2025-05-15 11:28:46 · 892 阅读 · 0 评论 -
阿里端到端多模态语音对话开源模型论文速读:Qwen2.5-Omni
Qwen2.5-Omni 技术报告介绍了一种先进的端到端多模态模型,能够感知并生成文本、图像、音频和视频等多种模态内容。该模型采用思考者-说话者架构,其中思考者负责处理多模态输入并生成文本,说话者则负责流式生成语音。关键特性包括多模态感知与生成、TMRoPE位置嵌入、流式能力等。Qwen2.5-Omni通过分块处理和滑动窗口块注意力等技术实现实时理解和高效音频输出流。模型经历了多阶段预训练和微调,评估结果显示其在多模态任务中表现优异,超越了单模态模型,并在复杂视听交互和语音对话中表现出色,代表了向通用人工智原创 2025-05-14 17:45:00 · 294 阅读 · 0 评论 -
阿里Qwen2.5-Omni-3B:更小的多模态(文音图视)语言/语音对话模型
Qwen2.5-Omni是一款开源的多模态交互模型,能够同时处理文本、图像、音频和视频等多种模态,并生成自然流畅的文本和语音回应。该模型采用创新的Thinker-Talker架构和时间对齐多模态旋转位置嵌入(TMRoPE)技术,确保视频和音频的时间同步,为实时语音视频聊天提供支持。Qwen2.5-Omni在多模态任务中表现出色,尤其在音频处理和端到端语音指令遵循任务中,性能与同尺寸的单模态模型相当甚至更优。使用该模型需安装相关库,并可通过启用FlashAttention-2技术来提升运行效率。Qwen2.5原创 2025-05-14 11:34:39 · 440 阅读 · 0 评论 -
文生视频LTX-Video-13B量化版: ltxv-13b-0.9.7-dev-GGUF
本文介绍了一个基于 Lightricks/LTXVideo 的 13b-0.9.7-dev 变体模型的 GGUF 格式转换版本,适用于 ComfyUI 平台。该模型为量化模型,保留了原模型的所有限制和许可条款。使用说明包括基于官方示例工作流操作,需确保 ComfyUI 更新至最新版本,并注意与其他组件的兼容性,如 T5 剪辑、Lora 和 Teacache 的使用限制。建议禁用 Teacache 以避免质量下降。原创 2025-05-14 10:15:12 · 250 阅读 · 0 评论 -
这届网友不好糊弄,字节Seed1.5-Embedding模型卡讨论区炸了
本文介绍了Seed1.5-Embedding嵌入模型,该模型基于预训练大型语言模型,具有通用性、推理专长和灵活性等特点。在MTEB和BRIGHT等基准测试中,Seed1.5-Embedding表现出色,尤其是在中英文的通用嵌入任务和复杂查询理解方面。模型支持多种嵌入维度,即使在较低维度下性能也不显著下降。尽管模型性能优异,但官方可能不打算开源,仅在Hugging Face上宣传,引发了网友对开源的强烈呼声。文章最后提到,虽然开源嵌入模型较少,但也有一些表现良好的小模型如m3e、bge等。整体来看,Seed1原创 2025-05-14 10:04:19 · 371 阅读 · 0 评论 -
字节开源代码模型论文《让代码模型为自己整理数据》速览:Seed-Coder
Seed-Coder是一种新型的代码模型,旨在通过自主策划训练数据来提升代码相关任务的性能。该模型通过减少人工干预,采用以模型为中心的数据处理流程,显著提高了代码预训练数据的质量。Seed-Coder在多个开源模型中取得了最先进的性能,甚至在代码生成、补全、编辑、推理和软件工程任务上超越了一些规模更大的模型。原创 2025-05-13 16:00:00 · 722 阅读 · 0 评论 -
字节开源代码指令微调模型:Seed-Coder-8B-Instruct
ByteDance推出的Seed-Coder系列,特别是Seed-Coder-8B-Instruct模型,通过创新的模型中心化数据处理流程,显著提升了代码模型的开发效率和质量。该模型基于8B参数的因果语言模型架构,采用预训练和后训练两阶段方法,处理包括GitHub和合成数据在内的多种数据源。Seed-Coder-8B-Instruct在代码生成、推理、编辑及软件工程等任务中表现优异,尤其在HumanEval和MBPP等基准测试中领先于同类开源模型。其数据处理流程公开透明,通过Hugging Face平台易于原创 2025-05-13 15:45:00 · 238 阅读 · 0 评论 -
字节开源代码推理模型:Seed-Coder-8B-Reasoning
字节跳动推出的开源代码模型Seed-Coder-8B-Reasoning,具有80亿参数,提供基础、指令微调和推理增强三种变体。该模型采用以模型为中心的数据处理方式,依赖大型语言模型进行代码数据筛选,展现出强大的性能和透明度。Seed-Coder-8B-Reasoning在编程竞赛中表现优异,如IOI'2024和Codeforces比赛,证明了较小规模大型语言模型在复杂推理任务中的能力。使用该模型需安装transformers和accelerate库,并通过简单代码即可快速启动。Seed-Coder通过公开原创 2025-05-13 14:45:00 · 243 阅读 · 0 评论 -
INTELLECT-2大模型论文速读:通过全局分散强化学习训练的推理模型
INTELLECT-2 是一个 320 亿参数的语言模型,通过强化学习运行进行训练,利用社区提供的全球分布式、无需许可的 GPU 资源。原创 2025-05-13 10:12:26 · 864 阅读 · 0 评论 -
分布式异步强化学习框架训练32B大模型:INTELLECT-2
INTELLECT-2 是一个拥有 320 亿参数的语言模型,基于 qwen2 架构构建,与 vllm 和 sglang 等推理引擎兼容。该模型通过社区贡献的分布式 GPU 资源进行强化学习训练,采用 prime-rl 框架和基于可验证奖励的 GRPO 方法,特别强调长度控制预算。训练数据集主要包括数学和编码任务,模型在 AIME24、AIME25 和 LiveCodeBench 等基准上表现优于 QwQ-32B,但在 IFEval 上略有下降。总体而言,INTELLECT-2 在数学和编码能力上表现出色,原创 2025-05-13 09:38:00 · 744 阅读 · 0 评论 -
端到端音频聊天模型论文速读:Voila
Voila 是一种创新的语音-语言基础模型,旨在实现实时、自然、灵活的语音交互。与传统的被动响应式 AI 系统不同,Voila 能够实时评估环境、预判用户需求,并通过语音进行主动互动。其核心架构基于层次化多尺度 Transformer,结合语音语言 LLM 主干和音频 Transformer,支持端到端语音对话和全双工模型。Voila 通过语音标记化、文本和音频对齐等技术,提升了语音生成和识别的准确性,并允许用户创建多样化的语音角色。实验表明,Voila 在 ASR 和 TTS 任务中表现优异,显著优于现有原创 2025-05-12 14:45:00 · 1176 阅读 · 0 评论 -
maitrix-org/Voila-chat:端到端音频聊天模型
Voila 是一种新型的大型语音-语言基础模型家族,旨在提升人与AI的交互体验。它通过创新的端到端模型设计和分层 Transformer 架构,实现了低至195毫秒的延迟,超越了平均人类反应时间。Voila 支持多种音频任务,包括语音识别、文本转换语音和跨六种语言的语音翻译。其亮点包括高保真、低延迟的实时流音频处理,语音与语言建模能力的有效整合,丰富的预建和定制语音资源,以及统一的多任务音频模型。Voila 提供了多个版本,如基础模型、端到端音频聊天模型、全双工音频聊天模型等,适用于不同的应用场景。通过基准原创 2025-05-12 10:20:25 · 1217 阅读 · 0 评论 -
字节高效图像定制生成模型框架:DreamO论文速读
DreamO 是由字节跳动团队开发的统一图像定制框架,支持通过多种输入条件(如人物、物体、动物等)生成高质量的定制化图像。该框架通过创新的特征编码和路由约束机制,实现了多条件组合生成的高效性和稳定性,同时保持角色身份特征。DreamO 提供了本地和在线演示环境,支持多种图像定制任务,包括IP、ID、虚拟试穿和风格化任务。开发团队持续优化模型,解决了过度饱和和塑料脸等问题,并提供了详细的安装指南和推理方式。用户需遵守法律法规,负责任地使用该技术。原创 2025-05-12 09:55:39 · 672 阅读 · 0 评论 -
ByteDance/DreamO:字节开源定制图像生成模型框架
本文介绍了DreamO,一个基于扩散变换器(DiT)的统一图像定制框架,旨在支持多种图像定制任务并实现不同类型条件的无缝集成。DreamO通过构建大规模训练数据集、引入特征路由约束和设计占位符策略,实现了高保真图像生成和异构控制信号的有效解耦。采用渐进式训练策略,模型逐步获得鲁棒和泛化的图像定制能力,同时保持基础模型的图像质量。实验表明,DreamO能够处理身份驱动、主题驱动、试穿和风格驱动等多种任务,并通过轻量级LoRA设计实现高效部署。原创 2025-05-12 09:53:11 · 851 阅读 · 0 评论 -
英伟达推理模型论文速读:OpenCodeReasoning-Nemotron-32B
OpenCodeReasoning研究旨在通过构建大规模、高质量的监督微调(SFT)数据集,提升大型语言模型(LLMs)在代码任务中的推理能力。研究者创建了OPENCODEREASONING数据集,包含736,712个样本,涵盖28,904个独特的编程问题,并通过多步骤精炼确保数据质量。实验表明,仅使用SFT数据蒸馏的模型在LiveCodeBench和CodeContests基准测试中超越了通过强化学习(RL)训练的模型,特别是在32B参数规模下表现尤为突出。研究还通过消融实验分析了代码执行过滤、C++解决原创 2025-05-11 14:57:14 · 1301 阅读 · 0 评论 -
英伟达微调qwen2.5-32B模型,开源推理模型:OpenCodeReasoning-Nemotron-32B
OpenCodeReasoning-Nemotron-32B 是一个基于 Qwen2.5-32B-Instruct 开发的大型语言模型,专为代码生成推理任务优化,支持 32,768 个标记的上下文长度,适用于商业和非商业用途。该模型在 LiveCodeBench 和 CodeContest 等基准测试中表现出色,尤其在代码生成任务中展现了强大的推理能力。其核心优势包括长上下文支持、硬件优化(专为 NVIDIA GPU 设计)以及广泛的适应性,适用于开发者和研究人员构建大型语言模型。训练数据来自 OpenCo原创 2025-05-11 14:54:16 · 795 阅读 · 0 评论 -
微调自qwen3的无审查大模型(需谨慎使用):Josiefied-Qwen3-8B-abliterated-v1
JOSIEFIED模型家族是一系列基于知名架构(如阿里巴巴的Qwen、谷歌的Gemma和Meta的LLaMA)构建的高级语言模型,参数规模从0.5B到32B不等。这些模型经过重大修改和微调,旨在最大化无审查行为,同时保持工具使用和指令遵循能力。尽管具有叛逆精神,JOSIEFIED模型在标准基准测试中通常超越其基础模型,提供高性能语言生成能力,专为需要无限制、高性能语言生成的高级用户设计。其中,Josiefied-Qwen3-8B-abliterated-v1是该家族的新成员,专注于开放性和指令对齐进行微调。原创 2025-05-11 14:47:49 · 358 阅读 · 0 评论