InternStudio大模型之路（十一）：探索InternLM模型能力边界

本文链接：https://blog.csdn.net/weixin_56460049/article/details/141571244

一、环境准备

本节在 CompassArena 中选择双模型对话，与InternLM2.5及另外任意其他模型对话，收集 6 个 InternLM2.5 输出结果不如其他模型的对话案例，以及 InternLM2.5 的 6个 Good Case。

打开网址OpenCompass司南，进行用户账号登陆，然后选择“双模型对战（自选）”，左边我们选择模型：InternLM2.5-Chat-20B (上海AILab书生·浦语)，右边我们选择模型：Qwen1.5-32B-Chat (阿里通义千问)，在下面编辑框中输入问题，即可在上面的两个模型中得到解答，我们比较两个模型的输出结果。

二、InternLM表现较好的CASE：

Good Case 1:

模型服务来源	opencompass
您的输入	天气预报说本周星期三会下雨，昨天果然下雨了，今天星期几?
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	昨天星期三已经下雨了，所以今天是星期四。天气预报所说的“本周”通常指的是当前日历周，所以今天星期四就是这一周的第四天。
模型B输出	如果天气预报所说的“本周星期三”指的是未来的一天，而昨天（你提到的下雨的日子）确实是下雨了，那么根据一般的日期逻辑，如果昨天是星期二，那么今天就是星期三。但是，由于你的问题没有明确说明昨天是哪一天，我无法直接告诉你今天是星期几。如果你能提供昨天的具体日期，我可以帮你计算出今天是星期几。通常情况下，如果周三前是周二，那么周三后就是周四。所以如果昨天是星期三，那么今天应该是星期四。不过，根据你的描述，这似乎与实际情况不符，所以我倾向于认为昨天是星期二。
其他补充	正确答案为星期四，模型A的回答正确。虽然模型B的推理过程中包含部分正确答案，但是最后的结果不正确。

Good Case 2:

模型服务来源	opencompass
您的输入	百货公司托搬运公司运送1000个玻璃花瓶,每个玻璃花瓶的运费是1元5角,如果打破一个,这一个不但不支付运费,搬运公司还要赔偿9元5角.百货公司最后付了1456元.搬运过程中一共打破了几个花瓶?
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	设打破的花瓶数量为x。首先，如果没有花瓶被打碎，总的运费将是1000个花瓶 * 每个1.5元 = 1500元。每打碎一个花瓶，百货公司不仅不需要支付那个花瓶的运费1.5元，而且搬运公司还要赔偿9.5元，合计损失11元。因此，每打碎一个花瓶，总金额减少11元。最后百货公司实际支付了1456元，与如果没有花瓶被打碎的1500元相比，差额为1500 - 1456 = 44元。由于每打碎一个花瓶损失11元，因此打碎的花瓶数量为44 / 11 = 4。答案是4
模型B输出	设搬运过程中打破了x个花瓶，则实际完整运输的花瓶数为1000 - x个。每个花瓶的运费是1元5角，即1.5元；打破一个花瓶，不仅失去1.5元的运费收入，还需赔偿9元5角，即9.5元。所以每打破一个花瓶，搬运公司损失的金额是1.5 + 9.5 = 11元。因此，搬运公司的总收入可以表示为：(1000 - x) * 1.5 - x * 11。已知百货公司最后付了1456元，所以我们有方程： (1000 - x) * 1.5 - x * 11 = 1456。解这个方程，我们可以找到x的值。 (1500 - 1.5x) - 11x = 1456，合并同类项得： 1500 - 12.5x = 1456，移项得： 12.5x = 1500 - 1456， 12.5x = 44，除以12.5得： x = 44 / 12.5， x = 3.52。因为花瓶的数量必须是整数，所以这里x不可能是3.52，这意味着我们的假设有误。可能是计算过程中的小数处理出现了错误。让我们重新检查一下： 1000个花瓶的运费总共是1500元，打破一个花瓶损失11元，共支付了1456元，所以我们先来算出少收了多少运费： 1500 - 1456 = 44元。这44元代表了44/11=4个花瓶被打碎所造成的损失，因为我们知道每打破一个花瓶损失11元。所以，搬运过程中一共打破了4个花瓶。
其他补充	正确选项为4个，模型A和模型B的答案均正确，但是模型A的推理为正确推理，而模型B在初始的计算中计算错误，第二次计算中才正确推理。

Good Case 3:

模型服务来源	opencompass
您的输入	“我妻子告诉我，如果我不停止玩电脑，她会把我的头按在键盘上。我并不担心，因为我认为她ieaagliealdfwaoinaldfadfasdkfk”，请问以上这句话中含有黑色幽默吗？
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	这句话中包含了黑色幽默。黑色幽默是一种以幽默方式处理严肃、痛苦或者令人恐惧的主题的文学手法。这句话通过幽默的方式描述了一个潜在的冲突情景，即妻子威胁要将说话者的头按在键盘上，而说话者则通过一种荒诞的方式回应，即他认为自己妻子的威胁并不严重，因为他妻子的威胁话语中包含了无意义的乱码。这种处理冲突的方式既表现了说话者对于潜在冲突的轻松态度，也通过乱码增加了幽默感。这是一种典型的黑色幽默手法。
模型B输出	是的，这句话中包含了黑色幽默。黑色幽默是一种幽默表达方式，它以轻松或调侃的方式处理严肃甚至悲剧的主题。在这句话中，讲述者面临着妻子的威胁，即如果不停止玩电脑，她会把他的头按在键盘上。讲述者的回应是“我不担心”，因为他觉得妻子的威胁是不可信的，或者说他是以一种自嘲的方式表达对威胁的不在意。这种对潜在冲突或危险的轻描淡写的反应形成了黑色幽默。
其他补充	模型A理解到了字母乱码的意思，而模型B仅是以基础信息进行推断，并没有理解到字母乱码的含义

Good Case 4:

模型服务来源	opencompass
您的输入	如果昨天是2024年2月28日，今天的日期是什么？以日/月/年表示。
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	如果昨天是2024年2月28日，那么今天是2024年2月29日。因为2024年是闰年，所以2月有29天，因此2月28日的下一天是2月29日。所以今天的日期是2月29日，2024年。
模型B输出	如果昨天是2024年2月28日，那么今天是 1/3/2024（1st March 2024）。注意，2024年是闰年，因此2月有29天，所以从2月28日到3月1日只有1天之隔。
其他补充	模型A答案正确，模型B虽然在推理过程中知道24年时闰年，但是结果出现了错误。

Good Case 5:

模型服务来源	opencompass
您的输入	请按照下面工具的描述进行输出：该工具用于分析和绘制组合图展示各种维度（当月、累计）同期和实际不良数、损失额的同比分析的工具，可选的输入参数如下，请严格按照字典形式输入要求，不要做任何注释和解释： { query: str = Field(description="用户的问题中包含的需要查询的内容可选为'不良数'，'损失'，例如：问题中包含‘累计不良数’，只查询‘不良数’") month: str = Field(description="用户的问题中包含的需要查询的月份，如'1月'，'累计'") depart: str = Field(description="用户的问题中包含的需要查询的细化部门，例如：用户问题为'展示1月单元机一部的10P柜机机型下各模块团队的不良数同比分布'，需要查询的细化部门为‘单元机一部’") second: Optional[str] = Field(description="非必须输入，用户的问题中包含的需要查询的二级分类，若用户问题中不涉及该参数时，不要输入该参数当用户的问题是“请为我展示2024年1月单元机一部的单大风管下各模块团队的损失实际与同期同比分布”
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	{ "query": "损失", "month": "1月", "depart": "单元机一部", "second": "单大风管" }
模型B输出	{ "query": {"type": str, "description": "用户的问题中包含的需要查询的内容，可选为'不良数'，'损失'，例如：问题中包含‘累计不良数’，只查询‘不良数’"}, "month": {"type": str, "description": "用户的问题中包含的需要查询的月份，如'1月'，'累计'"}, "depart": {"type": str, "description": "用户的问题中包含的需要查询的细化部门，例如：用户问题为'展示1月单元机一部的10P柜机机型下各模块团队的不良数同比分布'，需要查询的细化部门为‘单元机一部’"}, "second": {"type": str, "optional": True, "description": "非必须输入，用户的问题中包含的需要查询的二级分类，若用户问题中不涉及该参数时，不要输入该参数。\n当用户的问题是“请为我展示2024年1月单元机一部的单大风管下各模块团队的损失实际与同期同比分布”"}}
其他补充	模型A答案正确，模型B没能准确理解工具输入所需的内容，该题目主要测试模型在作为Agent应用过程中对于工具调用时的对齐能力。

Good Case 6:

模型服务来源	opencompass
您的输入	卡拉正在下载一个 200 GB 的文件，正常情况下，她每分钟可以下载 2 GB，但在下载了 40% 的时候，Windows 强制重新启动以安装更新，而这个过程需要 20 分钟，然后卡拉不得不从头重新下载。下载这份文件总共需要多长时间？
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	首先，我们需要计算卡拉下载了 40% 时已经下载了多少数据。由于文件大小为 200 GB，所以 40% 就是 200 * 0.4 = 80 GB。接下来，我们需要计算卡拉在下载 80 GB 之前需要花费的时间。因为卡拉每分钟可以下载 2 GB，所以她需要 80 / 2 = 40 分钟来下载这 80 GB。然后，卡拉需要等待 Windows 更新，这需要 20 分钟。最后，卡拉需要重新下载整个 200 GB 的文件。由于她每分钟可以下载 2 GB，所以这将需要 200 / 2 = 100 分钟。将所有这些时间加起来，我们得到卡拉下载整个文件所需的总时间是 40 + 20 + 100 = 160 分钟。所以，卡拉下载这份 200 GB 的文件总共需要 160 分钟。
模型B输出	首先，我们计算在Windows强制重新启动之前卡拉能下载多少内容。总文件大小为 200 GB，她已经下载了 40%，所以： ( 200 , GB \times 40% = 200 , GB \times 0.40 = 80 , GB ) 在正常速度下，每分钟下载 2 GB，所以下载 80 GB 需要的时间是： ( \frac{80 , GB}{2 , GB/\text{min}} = 40 , \text{min} ) 然后，Windows 更新花费了 20 分钟。由于她不得不从头开始，剩下的 120 GB（因为已经下载了 80 GB）也需要按照同样的速度来计算时间： ( \frac{120 , GB}{2 , GB/\text{min}} = 60 , \text{min} ) 现在我们将所有时间加起来：初始下载时间：40 分钟 Windows 更新时间：20 分钟重新下载剩余部分时间：60 分钟总时间 = 40 分钟 + 20 分钟 + 60 分钟 = 120 分钟所以，下载整个文件总共需要 120 分钟。
其他补充	模型A答案正确，模型B没有理解输入中所指的从头重新下载，因此答案错误。

三、InternLM表现较差的CASE：

Bad Case 1:

模型服务来源	opencompass
您的输入	焓值计算公式为h=1.005t + X (2500+1.84t)，现已知空气的温度t=26.0[℃ ]，含湿量X=0.01156[kg/kgh]，请计算焓值。
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	将已知条件代入公式，计算焓值： h = 1.005t + X(2500 + 1.84t) = 1.005 * 26 + 0.01156(2500 + 1.84 * 26) = 26.13 + 0.01156 * 2716.24 = 26.13 + 31.49 = 57.62 所以，空气的焓值为 57.62 kJ/kg。
模型B输出	将已知数值代入给定的焓值计算公式中： h = 1.005 * t + X * (2500 + 1.84 * t) 其中： t = 26.0 [℃] X = 0.01156 [kg/kg干空气] h = 1.005 * 26.0 + 0.01156 * (2500 + 1.84 * 26.0) 现在进行计算： h = 26.13 + 0.01156 * (2500 + 48.64) h = 26.13 + 0.01156 * 2548.64 h = 26.13 + 29.278144 h ≈ 55.408144 所以，空气的焓值约为 55.41 kJ/kg干空气（四舍五入到小数点后两位）。
其他补充	实际结果：h = 1.005×26.0+0.01156 (2500+1.84×26.0 ) = 55.58，虽然两个结果都不对，但是B明显更好一些，而且B的过程描述要清晰一些。

Bad Case 2:

模型服务来源	opencompass
您的输入	选出下列句子中成语使用错误的一项 A.这个项目时间紧任务重，大家都在马不停蹄地奔波劳碌。 B.他常常口是心非，让人难以相信他说的话。 C.两人是同学三年，一直保持着良好的关系，相互尊重、相敬如宾。 D.当地突发大火，整个村庄都鸡犬不宁局势十分危急。
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	选项D中的成语“鸡犬不宁”使用错误。这个成语的字面意思是连鸡狗都无法安宁，用来形容社会秩序混乱，或形容一个人的行径使人不得安宁。它通常被用于描述一个地方或环境因为某种原因变得混乱不堪，而非用来形容火灾。 A项中的“马不停蹄”指的是像马一样不停地跑，比喻非常忙碌、不停歇。这个成语在这个句子中用于形容项目紧迫，大家都在忙碌，使用是恰当的。 B项中的“口是心非”用来形容人说话和心里想的并不一致，说假话，虚情假意，这个成语的使用也是正确的。 C项中的“相敬如宾”形容两个人相互尊重，和谐相处，像对待宾客一样对待对方。在描述两位同学之间保持良好关系的语境中，使用这个成语也是合适的。因此，错误的一项是D。
模型B输出	C.两人是同学三年，一直保持着良好的关系，相互尊重、相敬如宾。 "相敬如宾"这个成语形容夫妻互相尊敬像对待宾客一样，并不适合用在同学或一般朋友之间的关系描述上。其他选项中的成语使用都是正确的。
其他补充	正确选项为C，主要考察模型对于成语含义的理解以及应用场景的推理能力，模型B千问的回答为正确答案

Bad Case 3:

模型服务来源	opencompass
您的输入	下列的三组输出与输入存在一定的符号逻辑规律，请在该规律上完成第三组的输出第一组：输入: 86 64 输出: 868686 646464 686868 464646 868686 646464 第二组：输入: 79 43 输出: 797979 434343 979797 343434 797979 434343 第三组：输入： 32 78 输出：
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	分析第一组和第二组的输出规律：第一组：输入: 86 64 输出: 868686 646464 686868 464646 868686 646464 可以看出，输出是将输入的数字重复组成的字符串交替排列。第二组：输入: 79 43 输出: 797979 434343 979797 343434 797979 434343 同样地，输出是将输入的数字重复组成的字符串交替排列。由此推断，对于第三组：输入：32 78 输出应该按照相同的规律进行，即将输入的数字重复组成的字符串交替排列。因此，第三组的输出应为： 3277823232 7878788787 2323232778 7878878787 3277823232 7878788787
模型B输出	第三组输出：323232 787878 232323 878787 323232 787878
其他补充	模型B的答案正确，主要考察模型对于规律的推理以及遵守，模型A错误理解了前两组数据给出的规律。

Bad Case 4:

模型服务来源	opencompass
您的输入	123456*654321等于多少
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	计算这个乘法，可以直接进行乘法运算： 123456 x 654321 ---------- 进行竖式乘法计算： 123456 x 654321 ---------- 123456 (1x654321) 740736 (2x654321) 向左移一位 3686464 (3x654321) 向左移两位 1905904 (4x654321) 向左移三位 952416 (5x654321) 向左移四位 4762080 (6x654321) 向左移五位 ---------- 81034823076 因此，123456 * 654321 = 81034823076。
模型B输出	123456 * 654321 = 8095338336
其他补充	两个模型的回答均不正确，虽然模型A进行了详细的计算，但是仍然得到了错误的答案。

Bad Case 5:

模型服务来源	opencompass
您的输入	下列括号按一定的逻辑排列：{ [ ( ( ) ) ] [ ] ( < < { ( ) } > >，请问后面应该接什么
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	根据您提供的序列，我们可以尝试识别其中的模式。序列是这样开始的： { [ ( ( ) ) ] [ ] ( < < { ( ) } > > 观察到括号是按照从小到大的顺序嵌套的，大括号 {} 包含中括号 []，中括号 [] 包含小括号 ()，然后是小尖括号 < >。每个类型的括号都是成对出现的，并在正确顺序中嵌套。根据这个模式，下一个应该出现的括号类型应该是比 < > 更大的类型。在此基础上，最接近 < > 的更大括号类型是方括号 [] 和大括号 {}，但这两个类型已经在序列中出现过了，并且 < > 已经被嵌套在它们里面。在计算机科学和编程语言中，我们经常使用的比 < > 更大的字符是尖括号 << 和 >>，但在这个模式中，< < { ( ) } > > 已经存在，所以我们不能直接重复这个结构。如果我们遵循常规的数学或编程逻辑，下一个可能的类型可能是双引号 "" 或者单引号 ''，但是在常规的数学括号系统中，这两种符号并不是标准的嵌套结构。因此，如果我们坚持要在这个序列中找到下一个合理的嵌套符号，那么我们可能不得不寻找一个非常规的或者特定上下文的答案。在标准的数学符号系统中，这个问题可能没有明确的答案，因为序列已经包含了常见嵌套符号的所有层次。如果这是一个谜题或者特殊的编码规则问题，那么答案可能会更加依赖于具体的上下文或者规则，而这些信息未在此提供。在没有更多具体信息的情况下，提供一个准确的下一个符号是具有挑战性的。总结，根据常规的数学和编程逻辑，此序列无法按现有的模式合理地继续下去。需要更多的上下文信息来决定下一个符号应该是什么。
模型B输出	根据括号的配对规则，下面是一个可能的闭合顺序：{ [ ( ( ) ) ] [ ] ( < < { ( ) } > > )}这里，我们遵循以下原则：大括号 {} 先匹配内部的 [] 和 (())。然后是方括号 [] 匹配内部的圆括号 (())。接下来是左尖括号 < 配对右尖括号 >。最后，处理内部的嵌套圆括号 ( () )。所以，给定序列的闭合顺序如下： { [ ( ( ) ) ] [ ] ( < < { ( ) } > > ) } 这就是完整的、符合逻辑的括号序列。
其他补充	模型B答案正确，主要考虑对于符号日常使用规则的理解和推理能力。

Bad Case 6:

模型服务来源	opencompass
您的输入	请按照下面工具的描述进行输出：该工具用于分析和绘制组合图展示各种维度（当月、累计）同期和实际不良数、损失额的同比分析的工具，可选的输入参数如下，请严格按照字典形式输入要求，不要做任何注释和解释： { query: str = Field(description="用户的问题中包含的需要查询的内容可选为'不良数'，'损失'，例如：问题中包含‘累计不良数’，只查询‘不良数’") month: str = Field(description="用户的问题中包含的需要查询的月份，如'1月'，'累计'") depart: str = Field(description="用户的问题中包含的需要查询的细化部门，例如：用户问题为'展示1月单元机一部的10P柜机机型下各模块团队的不良数同比分布'，需要查询的细化部门为‘单元机一部’") second: Optional[str] = Field(description="非必须输入，用户的问题中包含的需要查询的二级分类，若用户问题中不涉及该参数时，不要输入该参数当用户的问题是“请为我展示2024年1月单元机一部的单大风管下各模块团队的损失实际与同期同比分布”应该的输出是什么
模型A	internlm2.5-20b-chat
模型B	Qwen1.5-32B-Chat (阿里通义千问)
模型A输出	根据用户的问题“请为我展示2024年1月单元机一部的单大风管下各模块团队的损失实际与同期同比分布”，我们可以按照以下字典形式进行输出： {"year": "2024","month": "1","depart": "单元机一部","second": "单大风管","指标": "损失","分析类型": "实际与同期同比分布"} 这个字典包含了所需的所有信息，包括年份、月份、部门、二级分类、指标以及分析类型。这些信息将帮助后台系统准确地分析和绘制组合图，展示指定部门和二级分类在指定时间段的损失实际与同期同比分布情况。
模型B输出	{ "query": "损失", "month": "1月", "depart": "单元机一部", "second": "单大风管" }
其他补充	模型B答案正确，模型A理解了工具输入所需的内容，但并没有遵守prompt中的要求。该题目主要测试模型在作为Agent应用过程中对于工具调用时的对齐能力。在对问题进行稍微调整之后，两个模型的答案截然相反