上一篇,我们尝试了百度最新文心大模型解决前面几道选择题,正确率虽然不是百分之百,但是思路都基本正确,对不懂的学生可以说是帮助比较大。那么我们再看看更难的几何题,结果如何?我们就用刚刚考完的深圳市宝安区二模题来看看,大模型应该来不及用这套题来训练,结果应该比较公正!
本文以问到底网站为测试工具,《问到底》人工智能网站集成了多个主流的大模型,deepseek,腾讯混元,阿里通义,讯飞星火,文心一言,豆包,不用出站,点击一下就能方便切换大模型。
本文以《问到底》人工智能网站作为实测对象,《问到底》集成了数学公式输入,方便输入复杂的数学公式以及各种特殊的符号,方便询问人工智能,并自动把人工智能解答的latex数学符号自动转成符合人工阅读的图片。
宝安区二模第7题如下,为了避免干扰,题目从原试卷中提前,再把图片单独提取出来,避免与其他题目的图片混在一起产生干扰
百度文心最新大模型回复:
点评:只能说是惊艳,题目完全读懂,步骤,过程也正确,大模型已经达到初中生智力水平了,关键是秒完成,即使数学老师也不能再1秒内完成,远胜于人类了
第二题:
百度文心大模型4.5tubo输出的答案:
点评:完全正确,读图正确,题意理解正确,解题步骤正确,完美。学生的数学都不用担心了
再来一题比较难的,有点弯弯绕绕的,需要成绩好的同学才能做出来,看人工智能够不够聪明:
百度大模型的输出:
点评:遗憾挑战失败,第1不得推断并不成立
,
AD并不垂直于BD,这部分推断错了后面全部错了,结果也错了,但是也证明了百度大模型并不像作业帮一样搜索现成的题库,而是真正的进行逻辑思考,笔者又试了其他家的大模型,阿里通义,腾讯混元,deepseekv3,没一个能做出来的,可能人工智能的推理水平就达到了普通中学生的水平,那些号称能做出奥赛题的呢?笔者有点疑惑,是不是提前用答案训练了,确实有理由怀疑,因为现在随便一套初中几何题都不能正确做出,能做出的是一些推理逻辑比较简单的题目。
综合总结,可能人工智能的水平只能达到了初中普通学生的智力水平,但是人工智能的速度是人类不能企及的,可以快速做题而不知疲倦,这是人工智能的优势之处。