
大模型-模型评估
文章平均质量分 84
大模型评估,包括评估基准、评估方案等工作
大模型任我行
大模型探索者,每日论文分享,追踪技术前沿!之前的几百篇论文分享都在xhs(https://www.xiaohongshu.com/user/profile/61d5aec7000000001000568c),欢迎点赞收藏!
展开
-
上海交大:LLM自动化软件开发评测
如何评估和训练自动化特征驱动软件开发(FDD)系统的有效性以及其面临的挑战。论文提出了SWE-Dev数据集,这是第一个用于特征驱动软件开发的真实世界数据集,并对各种编码系统在复杂任务中的能力进行了评估。原创 2025-06-07 08:00:00 · 694 阅读 · 0 评论 -
上海人工智能实验室:多模态空间推理评测
如何有效评估多图像空间推理能力,以推动多模态大语言模型(MLLM)的空间智能发展?论文提出了MMSI-Bench,一个专门用于评估多图像空间推理能力的基准,展示了当前MLLMs在该领域与人类表现之间的显著差距。原创 2025-06-04 11:45:00 · 571 阅读 · 0 评论 -
复旦:多模态时序理解基准DanmakuTPPBench
如何构建一个有效的多模态基准,以促进时序点过程(TPP)建模及理解,特别是如何整合文本、视觉及时间信号的丰富上下文信息?论文提出DanmakuTPPBench,这是第一个针对多模态TPP建模与理解的综合性基准,包含DanmakuTPP-Events和DanmakuTPP-QA两个数据集。原创 2025-05-30 08:00:00 · 552 阅读 · 0 评论 -
HKUST:多模态推理大模型作为评估器
如何提升多模态大语言模型(MLLM)作为裁判的评估能力,尤其是在复杂开放式任务中缺乏明确标准答案时的判断准确性与可解释性?论文提出MR.Judge框架,将判断过程转化为带推理的多选题任务,通过反向合成负样本和文本推理模型蒸馏提升MLLM裁判的推理与评估能力。原创 2025-05-26 10:00:00 · 724 阅读 · 0 评论 -
NUS:多模态大模型评估基准General-Bench
现有多模态大语言模型(MLLMs)评估基准存在不足,如何构建一个有效的基准来评估多模态智能和任务协同能力?论文提出了一个新的评估框架General-Level和一个大规模的多模态评估基准General-Bench,以全面评估多模态通用模型的能力。原创 2025-05-25 10:00:00 · 1430 阅读 · 0 评论 -
复旦:评估LLM作为教师模型的能力
当前大语言模型(LLM)评估方法存在局限性,特别是如何通过间接方式评估模型的多维能力?论文提出了一种新的间接评估框架Teach2Eval,通过测量教师模型指导弱学生模型的能力,来反映教师模型的综合能力。原创 2025-05-25 08:00:00 · 343 阅读 · 0 评论 -
HKUST:长上下文视觉语言模型评估
当前长上下文视觉语言模型(LCVLM)在评估中存在不足,特别是在任务覆盖和上下文长度控制方面的局限。论文提出MMLONGBENCH基准,涵盖多种长上下文视觉语言任务,提供标准化的输入长度和多样化的评估,以全面评估模型的性能。原创 2025-05-22 08:00:00 · 763 阅读 · 0 评论 -
Meta:强化学习优化LLM评估器
如何通过强化学习提升大语言模型(LLM)作为评判者的推理能力和判断质量?论文提出了一种新的训练方法J1,通过将判断任务转换为可验证任务并利用强化学习优化思维和判断过程,从而提高了LLM的评判性能。原创 2025-05-20 10:00:00 · 818 阅读 · 0 评论 -
清华:LLM评估框架Feedbacker
如何在大语言模型(LLM)的评估中提供更及时和有效的反馈,而不仅仅是依赖于排名?论文提出了Feedbacker评估框架,通过细致的查询和创新的PC²点对点评估方法,实现了更全面和精确的模型性能反馈。原创 2025-05-20 08:00:00 · 1377 阅读 · 0 评论 -
北大:基于因果的LLM形式化推理
如何将实际因果理论与大语言模型(LLM)结合,以实现更正式和可解释的实际因果推理?论文提出了AC-REASON框架,首次将实际因果理论与LLM整合,并构建了专注于实际因果关系的AC-BENCH基准。原创 2025-05-17 10:00:00 · 881 阅读 · 0 评论 -
OpenAI:LLM医疗健康评估基准HealthBench
如何有效评估大型语言模型在医疗健康领域的表现和安全性的问题。论文提出了HealthBench,一个全面且可信赖的评估基准,旨在提高AI模型在医疗健康中的应用效果。原创 2025-05-17 08:00:00 · 1777 阅读 · 0 评论 -
斯坦福:基于人类反馈的agent动态评估
如何从开放式人类反馈中诱导出适用于智能体评估的可解释性指标?论文提出了AutoLibra,一个新颖的智能体评估框架,通过人类反馈自动生成评估指标,以提高智能体的性能和评估质量。原创 2025-05-16 10:00:00 · 1038 阅读 · 0 评论 -
港中文:LLM网站生成基准WebGen-Bench
如何系统性地评估大语言模型(LLM)在从零开始生成网站的能力?论文提出了WebGen-Bench基准,首次系统性评估LLM驱动的代理生成符合用户指令的网站的能力。原创 2025-05-12 10:00:00 · 1607 阅读 · 0 评论 -
字节:LLM自动化证明工程基准
在形式数学库的维护和演进中,如何有效评估和增强自动化证明工程的能力?论文提出了APE-Bench I,这是第一个基于真实开发工作流的大规模文件级证明工程基准,旨在评估语言模型在实际证明工程任务中的性能。原创 2025-05-05 10:00:00 · 1015 阅读 · 1 评论 -
HKUST:LLM中文网络检索推理评估
如何评估大语言模型(LLM)在中文信息环境中的网络浏览和推理能力?论文提出了BrowseComp-ZH基准,专门设计用于评估LLM在中文环境下的网络浏览能力和推理能力。原创 2025-05-04 10:00:00 · 1584 阅读 · 0 评论 -
阿里:LLM多语言数学推理基准PolyMath
当前多语言数学推理基准不足以有效评估先进大语言模型(LLM)的推理能力。论文提出了PolyMath,一个多语言数学推理基准,涵盖多种难度级别,旨在推动多语言推理能力的研究。原创 2025-05-02 08:00:00 · 537 阅读 · 0 评论 -
NUS:多模态多视角理解评估
多模态大型语言模型(MLLM)在多视角理解能力方面存在不足,以及缺乏有效的评估基准。论文提出了All-Angles Bench基准,包含2100多个经人工注释的多视角问题-答案对,全面评估MLLM在多视角场景中的表现。原创 2025-05-01 10:00:00 · 992 阅读 · 0 评论 -
复旦:多模态几何求解数据构建
在几何问题求解中高质量数据短缺。论文提出了一个名为TrustGeoGen的可扩展和形式验证的数据引擎,用于生成可信的多模态几何推理数据。原创 2025-04-28 10:00:00 · 1304 阅读 · 0 评论 -
北大:LLM物理推理基准PHYBench
当前大语言模型(LLM)在复杂物理推理能力评估中存在不足。论文提出了名为PHYBench的基准,专门设计用于评估模型在物理上下文中的推理能力,并引入了新的评价指标EED Score。原创 2025-04-27 10:00:00 · 958 阅读 · 0 评论 -
OpenAI:agent网页信息获取基准
如何评估人工智能代理在浏览互联网时获取信息的能力,特别是面对复杂和难以找到信息的问题?论文提出了一个新的基准数据集BrowseComp,包含1266个具有挑战性的问题,旨在评估AI代理的浏览能力和信息获取的创造性。原创 2025-04-24 08:00:00 · 505 阅读 · 0 评论 -
阿里:LLM几何推理基准GeoSense
如何评估多模态大型语言模型(MLLM)在几何问题中的表现?论文提出了GeoSense这一首个综合性双语基准,系统评估MLLM在几何推理中的识别和应用几何原则的能力。原创 2025-04-23 10:00:00 · 634 阅读 · 0 评论 -
谷歌:预测LLM微调后的性能
如何可靠地预测大语言模型(LLM)在进行监督微调(SFT)后的表现?论文提出了新的预测代理(如PPL-SC和Kshot-RAG)以及学习比较(LTC)框架,从而显著提高了对微调结果的预测准确性。原创 2025-04-23 08:00:00 · 607 阅读 · 0 评论 -
北大:LLM中文幻觉评测系统C-FAITH
如何自动构建和评估针对大语言模型(LLM)幻觉的高质量基准数据集?论文提出了HaluAgent,一个多代理系统,能够自动生成用于幻觉评估的问答数据集,并提供了C-FAITH,一个具有细粒度的中文幻觉评估基准。原创 2025-04-21 08:00:00 · 439 阅读 · 0 评论 -
中科院:LRM在简单问题上缺失快思考能力
如何评估大型推理模型(LRM)在简单任务上的系统1思维能力?论文提出了S1-Bench基准,专门用于评估LRM在简单问题上的表现,填补了现有研究的空白。原创 2025-04-20 10:00:00 · 375 阅读 · 0 评论 -
信通院:LLM推理验证器xVerify
如何有效评估大语言模型(LLM)对客观问题的回答正确性?论文提出了一种名为xVerify的高效答案验证器,专门用于评估LLM的推理模型输出。原创 2025-04-20 08:00:00 · 690 阅读 · 0 评论 -
HKUST:LLM旅行规划中的时空感知评测
如何提升大语言模型(LLM)在旅行规划中的时空感知能力,以生成更高效、舒适和灵活的旅行计划?论文提出了一种新的评估基准TP-RAG,专注于查询特定的时空上下文化和轨迹级知识利用,以提高LLM在旅行规划中的表现。原创 2025-04-19 08:00:00 · 715 阅读 · 0 评论 -
中科大:多模态视频理解基准VCR-Bench
当前视频理解领域缺乏有效的评估工具来衡量视频的链式思维(CoT)推理能力。论文提出了VCR-Bench,一个专门用于评估大型视觉语言模型(LVLM)在视频链式思维推理中的表现的基准框架。原创 2025-04-16 08:00:00 · 973 阅读 · 0 评论 -
腾讯:强化学习优化大模型视频理解
如何评估多模态大语言模型(MLLM)在视频理解任务中的后训练有效性?🔸主要贡献:论文提出了SEED-Bench-R1基准,系统评估强化学习(RL)与监督微调(SFT)在视频理解中的表现,展示了RL的优越性和未来研究方向。原创 2025-04-15 08:00:00 · 1099 阅读 · 0 评论 -
微软:LLM推理一致性评估
大语言模型(LLM)在推理任务中如何评估其推理一致性?论文提出了一种新的度量标准“推理一致性”,用于评估AI系统在推理过程中依据其中间步骤的有效性。原创 2025-04-14 08:00:00 · 1573 阅读 · 0 评论 -
OpenAI:agent论文复现基准PaperBench
如何评估人工智能在从头复制机器学习研究论文结果方面的能力?论文提出了一个名为PaperBench的基准,旨在评估AI代理的复制能力,并提供了一套详尽的评估标准和自动化评分流程。原创 2025-04-09 10:00:00 · 1399 阅读 · 0 评论 -
人大:LLM奥数评估基准OlymMATH
如何评估大语言模型(LLM)在复杂数学推理方面的能力?论文提出了OlymMATH,一个经过严格验证的双语奥林匹克水平数学基准,旨在有效评估LLM的数学推理能力。原创 2025-04-04 10:00:00 · 916 阅读 · 0 评论 -
清华:LLM工具调用仿真模拟
如何稳定、可扩展且真实地模拟工具环境以提升工具学习模型的性能?论文提出了MirrorAPI框架,通过训练专门的LLM模型,准确复制真实API响应以提高工具学习的稳定性和可扩展性。原创 2025-04-03 08:00:00 · 504 阅读 · 0 评论 -
谷歌:LLM在开放式写作中的偏好对齐
大语言模型(LLM)在开放式写作任务中,如何有效生成多样化的编辑建议?论文深入分析了三种主要模型在文档创建和编辑中的表现,评估了它们生成的动作的多样性、与人类偏好的对齐程度,以及文本迭代精炼的能力。原创 2025-03-31 08:00:00 · 383 阅读 · 0 评论 -
微软:LLM对话中的基础行为建立基准
人类与大语言模型(LLM)在对话中如何建立共同理解?论文提出了一种新的基准(RIFTS),用于研究和评估人类与LLM之间的对话中的“基础”(grounding)行为。原创 2025-03-29 10:00:00 · 386 阅读 · 0 评论 -
阿里:图谱检索的LLM电商基准
在电商领域中,如何评估大语言模型(LLM)能力的可靠性和效率?论文提出了一个新的基准数据集ECKGBench,利用知识图谱探索LLM在电商中的能力,并提供了一种评估模型知识边界的方法。原创 2025-03-28 10:00:00 · 960 阅读 · 0 评论 -
国科大:基于LLM的信息检索指令遵循基准
信息检索系统在处理复杂用户指令时的能力不足,尤其是在专业领域中的信息检索任务。论文提出了一个名为IFIR的综合基准,用于评估信息检索系统在专业领域中的指令遵循能力,并引入了一种新的评估指标INSTFOL,以更准确地衡量检索系统在指令遵循方面的表现。原创 2025-03-17 08:00:00 · 474 阅读 · 0 评论 -
复旦:多模态大模型生成引用基准
如何在多模态大语言模型(MLLM)中生成可信的引用文本,以减少模型输出的幻觉现象。论文提出了MCITEBENCH,这是第一个针对多模态引用文本生成的基准,旨在评估和分析MLLM在引用生成中的性能。原创 2025-03-10 10:00:00 · 900 阅读 · 0 评论 -
阿里:LLM电商评估基准ChineseEcomQA
如何构建一个可扩展的电商知识基准,以系统性评估大语言模型(LLM)在电子商务领域的能力。论文提出了ChineseEcomQA,一个专注于基础电商概念的问答基准,具有可扩展性,并且通过大量实验分析了主流LLM的性能和局限性。原创 2025-03-05 10:00:00 · 1013 阅读 · 0 评论 -
HKUST:评估大模型的视觉线索发现
当前的视觉语言模型(VLM)在处理多图像或视频时,是否能够有效地链接匹配视觉线索?论文贡献了VLM2-Bench这一基准,用于评估视觉语言模型在链接和匹配视觉线索方面的能力,并通过对多种模型的广泛评估揭示了它们在视觉推理任务中的不足之处。原创 2025-03-03 10:00:00 · 462 阅读 · 0 评论 -
Meta:基于LLM的agent评估套件
如何评估和提升AI研究代理在开放式研究任务中的能力?论文提出了MLGym这一新框架及其基准,涵盖了多个机器学习领域的任务,为研究人员提供了一个综合的评估平台来测试和比较不同的AI代理模型。原创 2025-03-02 10:00:00 · 1061 阅读 · 0 评论