自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Key Lesson Is All You Need

数据质量决定AI发展上限,如同人类智慧需要关键顿悟而非简单积累。劣质数据无法培育深度思考,真正突破来自那些触及本质的瞬间。打造有灵魂的AGI需要精心选择训练内容,赋予其人性化特质,而非追求功利指标。这不仅是技术挑战,更是关乎培育何种人工智能的伦理选择。

2026-01-27 15:10:36 334

原创 从原始数据到高质量标注:标注系统背后的流水线是如何运作的?

本文探讨了人工智能时代数据标注系统面临的挑战与创新解决方案。随着大模型训练对高质量标注数据需求的激增,传统人工标注流程暴露出效率低、协作难、成本高等痛点。文章提出构建工业化标注流水线的思路,通过批次驱动、角色协作、智能分配等机制重构标注流程。系统采用节点化设计,支持任务状态追踪、智能分配、多人共识等核心功能,并引入撤回打回机制保障数据质量。同时设计了分角色视角和沉浸式任务队列提升用户体验。这种新型标注系统将数据生产从作坊式转变为工业化流程,实现效率与质量的双重提升,为AI训练提供可靠的数据支撑。

2026-01-26 16:54:48 1033

原创 从 Workflow 到 Brainflow:打造人脑计算阵列的未来标注协同形态

本文探讨了数据标注领域从传统工作流(Workflow)向人脑计算阵列(Brainflow)的范式转变。传统工作流存在流程僵化、节点冗余、协作低效等问题,而Brainflow通过构建类脑协同阵列,实现实时交互、动态决策和智能调度。这种新模式弱化任务节点、打破角色边界、引入AI协同伙伴,以最终交付质量为导向,使团队成员像神经元一样高效连接。文章提出了从工具到神经协同的跨越理念,认为未来的标注系统将实现集体智慧的跃迁,形成更灵活有机的协作形态。

2026-01-23 10:45:34 993

原创 低代码:数据标注界面的终极解决方案

高质量数据标注是AI发展的关键,而标注界面作为核心生产力工具,直接影响数据质量和效率。随着大模型时代的到来,传统标注模板已无法满足复杂需求,如人机协同、精细化规则评估等。智识科技提出通过低代码平台构建标注界面,实现从定制开发到组件化、开源生态的演进。低代码方案能显著提升开发效率,降低技术门槛,并支持未来Prompt-to-UI的智能化生成。该方案结合可视化拖拽与领域特定语言(DSL),平衡易用性与灵活性,旨在打造适应AI新时代的高效标注平台。

2026-01-19 17:31:19 1576

原创 Rubric第四讲:如何用Rubric把控数据质量

每一个项目都应该从深入理解场景开始。我们会和合作方并肩,一起厘清:数据将如何用于训练?用于提升何种能力?在这一具体领域里,“高质量”意味着什么?哪些错误和幻觉在生产环境中会造成最大的问题?这些问题构成了第一版评分量表的雏形。它不是一个静态文档,而是会随着反馈、迭代和对场景理解不断加深完善的系统。为了确保评分量表真正发挥作用,我们内部遵循一套可复用的流程:定义什么是高质量:将业务目标具体化为可衡量的标准设计评分量表:将专家经验结构化验证与校准:让模型与人工评分趋于一致。

2026-01-17 11:10:49 1136

原创 Rubric第三讲:如何科学的设计和优化rubric

相比之下,Bai 等人 [2] 在“宪法式人工智能(Constitutional AI, CAI)”中首次提出更具可扩展性的评分量表设计方式:将一组简洁的原则通过提示注入模型,使其能够利用规则进行自我批判和自我改写,旨在提升 LLM 的有用性、无害性和诚实性。通过更精确的标准定义和合理的量表设计,可以在一定程度上缓解这些问题,使评分结果既更一致,也更贴近真实任务需求,从而实现本文开篇强调的双重优化目标。大量研究表明,相比无指导评分,使用 Rubric 可显著提高人工评分者的“评分者间一致率”[5]。

2026-01-15 16:06:52 1245

原创 Rubric第二讲:深入了解不同类型的rubric及其使用场景

尽管制定高质量评分量表需要投入大量时间,例如邀请领域专家梳理和明确关键要素,但这类投入能够明显提升人工标注者之间的一致性,也能让自动化评估方法,尤其是基于大语言模型的评判方式,更加稳定和可靠[1]。基于评分量表的评估并不是简单地区分好与坏,而是在做一系列经过深思熟虑的设计选择:在什么粒度上评估、在任务的哪个阶段评估、又采用何种方式进行评估。每种方式各有优势、权衡与成本。同时,我们会区分过程评估(trace级)与结果评估的差异,并简要分析基于大语言模型的自动化评估与基于代码的可执行评估各自的特性与使用场景。

2026-01-12 16:32:02 880

原创 Rubric第一讲:评分量表(Rubrics)如何帮助提升大模型可靠性

评分量表是一套结构化指南,用于明确 AI 系统每一次输出的标准具体是什么,怎么样算“好”。得分项列表:例如 “代码是否可编译?”“代码是否包含注释?模型在各得分项上的表现描述:以 “代码可编译性” 为例,既可以用 “是 / 否” 来衡量,也可以采用更细致的分级,如 “是 / 是(但有警告)/ 否”。将表现转化为数值的评分规则:例如 “代码无问题 = 0 分,有警告 = 1 分,不可编译 = 2 分”。最终的评分量表得分,是由一系列评估指标以及每个指标对应的数值或分值构成的。

2026-01-11 10:57:48 2080

原创 为什么大模型持续需要人类标注?

摘要:2025年AI技术虽取得显著进展,但依然依赖人类提供高质量数据来解决现实世界的复杂问题。随着AI能力提升,应用场景不断扩展,但文化差异、行业惯例等语境断层问题凸显,需要专业人士持续指导。互联网信息存在滞后性和片面性,大量关键知识仍存在于线下实践。AI难以通过沙盘模拟自主学习现实工作中的创造性突破。真正的突破在于聚焦关键问题,而非海量数据堆积,需要专家精准定义和解决现实难题。

2026-01-09 17:24:53 535

原创 【招聘】数据工程师 500元/小时

负责设计数据科学与科学计算方向的评测任务(数据清洗、数值模拟、建模与解释),并提供可运行的数据集、评估指标与参考 Pipeline,使终端智能体能够在交互式环境中完成复杂推理与数据处理工作。你将参与构建面向 AI Coding / 终端智能体 的数据工程类 benchmark,重点评估模型在真实数据场景中处理、建模、推断与验证结果的能力,而不仅是离线算法效果。3、设计并实现题目的黄金解决方案,用于验证解题结果在功能正确性、系统状态变化与工程合理性上的有效性,避免过度约束或硬编码假设。

2025-12-31 09:55:13 349

原创 【兼职】算法工程师 500元/小时

负责设计模型训练与推理类评测任务,构建可在终端环境中运行的轻量训练 / 推理 pipeline,并研究评估指标以检验模型在终端操作类任务中的推理能力与工程化表现。3、设计并实现题目的黄金解决方案,用于验证解题结果在功能正确性、系统状态变化与工程合理性上的有效性,避免过度约束或硬编码假设。2、使用Docker 等容器化技术搭建可复现、标准化的题目运行环境,确保问题状态、初始条件与评测结果具备一致性与确定性。4、编写高质量的题目文档与配置文件,清晰描述题目目标、输入输出与验收标准,强调可复现性与标准化流程。

2025-12-31 09:53:52 275

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除