
大模型-模型评估
文章平均质量分 84
大模型评估,包括评估基准、评估方案等工作
大模型任我行
大模型探索者,每日论文分享,追踪技术前沿!之前的几百篇论文分享都在xhs(https://www.xiaohongshu.com/user/profile/61d5aec7000000001000568c),欢迎点赞收藏!
展开
-
阿里:LLM多语言数学推理基准PolyMath
当前多语言数学推理基准不足以有效评估先进大语言模型(LLM)的推理能力。论文提出了PolyMath,一个多语言数学推理基准,涵盖多种难度级别,旨在推动多语言推理能力的研究。原创 2025-05-02 08:00:00 · 372 阅读 · 0 评论 -
NUS:多模态多视角理解评估
多模态大型语言模型(MLLM)在多视角理解能力方面存在不足,以及缺乏有效的评估基准。论文提出了All-Angles Bench基准,包含2100多个经人工注释的多视角问题-答案对,全面评估MLLM在多视角场景中的表现。原创 2025-05-01 10:00:00 · 953 阅读 · 0 评论 -
复旦:多模态几何求解数据构建
在几何问题求解中高质量数据短缺。论文提出了一个名为TrustGeoGen的可扩展和形式验证的数据引擎,用于生成可信的多模态几何推理数据。原创 2025-04-28 10:00:00 · 1241 阅读 · 0 评论 -
北大:LLM物理推理基准PHYBench
当前大语言模型(LLM)在复杂物理推理能力评估中存在不足。论文提出了名为PHYBench的基准,专门设计用于评估模型在物理上下文中的推理能力,并引入了新的评价指标EED Score。原创 2025-04-27 10:00:00 · 909 阅读 · 0 评论 -
OpenAI:agent网页信息获取基准
如何评估人工智能代理在浏览互联网时获取信息的能力,特别是面对复杂和难以找到信息的问题?论文提出了一个新的基准数据集BrowseComp,包含1266个具有挑战性的问题,旨在评估AI代理的浏览能力和信息获取的创造性。原创 2025-04-24 08:00:00 · 466 阅读 · 0 评论 -
阿里:LLM几何推理基准GeoSense
如何评估多模态大型语言模型(MLLM)在几何问题中的表现?论文提出了GeoSense这一首个综合性双语基准,系统评估MLLM在几何推理中的识别和应用几何原则的能力。原创 2025-04-23 10:00:00 · 610 阅读 · 0 评论 -
谷歌:预测LLM微调后的性能
如何可靠地预测大语言模型(LLM)在进行监督微调(SFT)后的表现?论文提出了新的预测代理(如PPL-SC和Kshot-RAG)以及学习比较(LTC)框架,从而显著提高了对微调结果的预测准确性。原创 2025-04-23 08:00:00 · 587 阅读 · 0 评论 -
北大:LLM中文幻觉评测系统C-FAITH
如何自动构建和评估针对大语言模型(LLM)幻觉的高质量基准数据集?论文提出了HaluAgent,一个多代理系统,能够自动生成用于幻觉评估的问答数据集,并提供了C-FAITH,一个具有细粒度的中文幻觉评估基准。原创 2025-04-21 08:00:00 · 407 阅读 · 0 评论 -
中科院:LRM在简单问题上缺失快思考能力
如何评估大型推理模型(LRM)在简单任务上的系统1思维能力?论文提出了S1-Bench基准,专门用于评估LRM在简单问题上的表现,填补了现有研究的空白。原创 2025-04-20 10:00:00 · 354 阅读 · 0 评论 -
信通院:LLM推理验证器xVerify
如何有效评估大语言模型(LLM)对客观问题的回答正确性?论文提出了一种名为xVerify的高效答案验证器,专门用于评估LLM的推理模型输出。原创 2025-04-20 08:00:00 · 661 阅读 · 0 评论 -
HKUST:LLM旅行规划中的时空感知评测
如何提升大语言模型(LLM)在旅行规划中的时空感知能力,以生成更高效、舒适和灵活的旅行计划?论文提出了一种新的评估基准TP-RAG,专注于查询特定的时空上下文化和轨迹级知识利用,以提高LLM在旅行规划中的表现。原创 2025-04-19 08:00:00 · 610 阅读 · 0 评论 -
中科大:多模态视频理解基准VCR-Bench
当前视频理解领域缺乏有效的评估工具来衡量视频的链式思维(CoT)推理能力。论文提出了VCR-Bench,一个专门用于评估大型视觉语言模型(LVLM)在视频链式思维推理中的表现的基准框架。原创 2025-04-16 08:00:00 · 924 阅读 · 0 评论 -
腾讯:强化学习优化大模型视频理解
如何评估多模态大语言模型(MLLM)在视频理解任务中的后训练有效性?🔸主要贡献:论文提出了SEED-Bench-R1基准,系统评估强化学习(RL)与监督微调(SFT)在视频理解中的表现,展示了RL的优越性和未来研究方向。原创 2025-04-15 08:00:00 · 1065 阅读 · 0 评论 -
微软:LLM推理一致性评估
大语言模型(LLM)在推理任务中如何评估其推理一致性?论文提出了一种新的度量标准“推理一致性”,用于评估AI系统在推理过程中依据其中间步骤的有效性。原创 2025-04-14 08:00:00 · 1524 阅读 · 0 评论 -
OpenAI:agent论文复现基准PaperBench
如何评估人工智能在从头复制机器学习研究论文结果方面的能力?论文提出了一个名为PaperBench的基准,旨在评估AI代理的复制能力,并提供了一套详尽的评估标准和自动化评分流程。原创 2025-04-09 10:00:00 · 1339 阅读 · 0 评论 -
人大:LLM奥数评估基准OlymMATH
如何评估大语言模型(LLM)在复杂数学推理方面的能力?论文提出了OlymMATH,一个经过严格验证的双语奥林匹克水平数学基准,旨在有效评估LLM的数学推理能力。原创 2025-04-04 10:00:00 · 887 阅读 · 0 评论 -
清华:LLM工具调用仿真模拟
如何稳定、可扩展且真实地模拟工具环境以提升工具学习模型的性能?论文提出了MirrorAPI框架,通过训练专门的LLM模型,准确复制真实API响应以提高工具学习的稳定性和可扩展性。原创 2025-04-03 08:00:00 · 473 阅读 · 0 评论 -
谷歌:LLM在开放式写作中的偏好对齐
大语言模型(LLM)在开放式写作任务中,如何有效生成多样化的编辑建议?论文深入分析了三种主要模型在文档创建和编辑中的表现,评估了它们生成的动作的多样性、与人类偏好的对齐程度,以及文本迭代精炼的能力。原创 2025-03-31 08:00:00 · 369 阅读 · 0 评论 -
微软:LLM对话中的基础行为建立基准
人类与大语言模型(LLM)在对话中如何建立共同理解?论文提出了一种新的基准(RIFTS),用于研究和评估人类与LLM之间的对话中的“基础”(grounding)行为。原创 2025-03-29 10:00:00 · 377 阅读 · 0 评论 -
阿里:图谱检索的LLM电商基准
在电商领域中,如何评估大语言模型(LLM)能力的可靠性和效率?论文提出了一个新的基准数据集ECKGBench,利用知识图谱探索LLM在电商中的能力,并提供了一种评估模型知识边界的方法。原创 2025-03-28 10:00:00 · 945 阅读 · 0 评论 -
国科大:基于LLM的信息检索指令遵循基准
信息检索系统在处理复杂用户指令时的能力不足,尤其是在专业领域中的信息检索任务。论文提出了一个名为IFIR的综合基准,用于评估信息检索系统在专业领域中的指令遵循能力,并引入了一种新的评估指标INSTFOL,以更准确地衡量检索系统在指令遵循方面的表现。原创 2025-03-17 08:00:00 · 449 阅读 · 0 评论 -
复旦:多模态大模型生成引用基准
如何在多模态大语言模型(MLLM)中生成可信的引用文本,以减少模型输出的幻觉现象。论文提出了MCITEBENCH,这是第一个针对多模态引用文本生成的基准,旨在评估和分析MLLM在引用生成中的性能。原创 2025-03-10 10:00:00 · 885 阅读 · 0 评论 -
阿里:LLM电商评估基准ChineseEcomQA
如何构建一个可扩展的电商知识基准,以系统性评估大语言模型(LLM)在电子商务领域的能力。论文提出了ChineseEcomQA,一个专注于基础电商概念的问答基准,具有可扩展性,并且通过大量实验分析了主流LLM的性能和局限性。原创 2025-03-05 10:00:00 · 960 阅读 · 0 评论 -
HKUST:评估大模型的视觉线索发现
当前的视觉语言模型(VLM)在处理多图像或视频时,是否能够有效地链接匹配视觉线索?论文贡献了VLM2-Bench这一基准,用于评估视觉语言模型在链接和匹配视觉线索方面的能力,并通过对多种模型的广泛评估揭示了它们在视觉推理任务中的不足之处。原创 2025-03-03 10:00:00 · 448 阅读 · 0 评论 -
Meta:基于LLM的agent评估套件
如何评估和提升AI研究代理在开放式研究任务中的能力?论文提出了MLGym这一新框架及其基准,涵盖了多个机器学习领域的任务,为研究人员提供了一个综合的评估平台来测试和比较不同的AI代理模型。原创 2025-03-02 10:00:00 · 1038 阅读 · 0 评论 -
阿里:大模型中文视觉问答基准
如何评估大规模视觉语言模型(LVLM)在视觉事实性方面的能力,尤其是在视觉幻觉方面。🔸主要贡献:论文提出了一个名为ChineseSimpleVQA的短问答基准,专注于视觉事实性评估,用于系统性评估LVLM的视觉认知和知识发现能力。原创 2025-02-22 08:00:00 · 360 阅读 · 0 评论 -
南大:LLM旅行规划基准ChinaTravel
如何构建一个有效的基准测试,以评估语言代理在中国旅行规划中的能力,特别是在处理开放式用户查询和复杂逻辑约束时的表现。论文提出了一个综合性的中文旅行规划基准框架,结合真实数据、领域特定语言(DSL)和多样化评估指标,为语言代理的开发和测试提供了坚实的基础。原创 2025-02-19 08:00:00 · 930 阅读 · 0 评论 -
复旦:LLM知识问答任务性能预测
如何在预训练之前仅利用可用信息,预测大语言模型(LLM)在闭卷问答(CBQA)任务上的能力?论文提出了一种信息论方法,并引入了SMI指标来反映模型在特定任务上的知识保留能力。原创 2025-02-16 10:00:00 · 840 阅读 · 0 评论 -
腾讯:多模态大模型抽象推理评估
如何评估大型多模态模型(LMM)在抽象视觉推理(AVR)方面的能力,以及现有评估方法的局限性。论文提出了MM-IQ基准,包含2710个经过严格筛选的测试项目,涵盖8种不同的推理范式,为多模态模型的抽象推理能力提供了全面的评估。原创 2025-02-08 10:00:00 · 381 阅读 · 0 评论 -
HKUST:LLM本科级数学推理评估
当前大语言模型(LLM)在本科级数学推理能力上存在不足,特别是开源模型与闭源模型之间有性能差距。论文提出了UGMathBench,一个多样化和动态的基准测试,用于评估LLM在本科级数学问题上的推理能力,并提供了新的评估指标来更准确地衡量模型的真实推理能力。原创 2025-02-06 08:00:00 · 760 阅读 · 0 评论 -
NTU:多模态大模型的知识获取能力评估
现有的视频基准无法系统地评估大型多模态模型(LMM)的知识获取功能。论文提出了Video-MMMU,一个大规模多模态、多学科的视频基准,用于评估模型从视频中获取知识的能力,并引入了知识获取度量来量化模型在观看视频后的性能提升。原创 2025-02-01 08:00:00 · 751 阅读 · 0 评论 -
Agnostiq:揭示LLM的记忆与推理机制
如何量化和理解大型语言模型(LLM)在推理任务中的真实推理能力,而非仅仅依赖表面上的性能指标?论文提出了一种基于现象学分析的双重框架(概率混合模型和信息论一致性分析),通过控制实验(如位置偏差)揭示了模型行为的深层机制,提供了比传统准确性指标更深入的见解。原创 2025-01-27 08:00:00 · 848 阅读 · 0 评论 -
微软:LLM软件开发依赖推断基准
如何有效评估大语言模型(LLM)在依赖推断任务中的性能,特别是软件开发场景识别出内外部依赖包?论文提出了DI-BENCH,这是第一个专注于依赖推断的综合性、大规模基准测试,涵盖了581个真实世界的代码库,并引入了基于持续集成(CI)的自动化测试框架,用于评估LLM在依赖推断任务中的表现。原创 2025-01-26 10:00:00 · 983 阅读 · 0 评论 -
阿里:LLM网络遍历能力评测
传统的搜索引擎可能只检索浅层内容,限制了大语言模型(LLM)处理复杂、多层信息的能力。论文提出了一个新的基准测试WebWalkerQA和一个多代理框架WebWalker,用于评估和提升LLM在网络遍历任务中的表现,特别是在需要深度探索和多步骤推理的场景中。原创 2025-01-20 10:00:00 · 699 阅读 · 0 评论 -
密歇根大学:LLM中文幽默理解评估
大语言模型(LLM)在理解和解释中文幽默方面面临挑战。论文贡献了一个名为Chumor的中文幽默理解数据集,并评估了多种LLM在该数据集上的表现,揭示了LLM在中文幽默理解上的显著不足。原创 2025-01-20 08:00:00 · 438 阅读 · 0 评论 -
阿里:竞赛级LLM代码生成基准
现有代码生成基准在竞争性编程问题评估中的不足,并缺乏人类可比的标准化评分系统。论文提出了CODEELO基准,通过直接提交代码到CodeForces平台进行评判,实现了零误判、支持特殊评判和一致的执行环境,并提供了与人类可比的Elo评分系统。原创 2025-01-13 10:00:00 · 1042 阅读 · 0 评论 -
ScaleAI:LLM工具使用的过程监督基准
如何评估大语言模型(LLM)在复杂多步骤工具使用任务中的有效性?论文贡献了一个名为ToolComp的多工具推理和过程监督基准,旨在评估模型执行多步骤工具使用任务的能力。原创 2025-01-12 10:00:00 · 664 阅读 · 0 评论 -
清华:构建代码LLM高难度评估基准
如何有效评估大语言模型(LLM)在生成并调用自身生成的代码以解决更复杂问题时的能力?论文提出了HumanEval Pro、MBPP Pro和BigCodeBench-Lite Pro三个新的基准测试,用于评估LLM在自调用代码生成任务中的表现,填补了现有基准测试在复杂代码生成任务评估上的不足。原创 2025-01-09 10:00:00 · 1113 阅读 · 0 评论 -
HKUST:激发LLM使用内在知识
大语言模型(LLM)在知识密集型任务中经常产生错误答案或幻觉的问题,如何更好地利用模型内部存储的知识?论文提出了SkipUnsure方法,通过过滤无信息响应并利用模型内部存储的知识,显著提高了LLM在问答任务中的表现。原创 2025-01-08 10:00:00 · 977 阅读 · 0 评论 -
微软:LLM图表因果推理基准CARL-GT
当前大语言模型(LLM)在因果推理能力评估方面不足以解决现实问题。论文提出了一个名为CARL-GT的基准测试,用于全面评估LLM在因果图推理、知识发现和决策制定方面的因果推理能力。原创 2025-01-04 08:00:00 · 1015 阅读 · 0 评论