率先测了一把阿里「世界最强」数学大模型后，我深吸一口气。。

夕小瑶

于 2024-08-20 17:35:48 发布

阅读量1.4k

点赞数 25

文章标签： python 人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/141364224

版权

打开APP Store，各种搜题软件太多了！

拍搜赛道不止服务于K12学段的学生、老师、家长等广大的用户群体，大学生、考研、考公等任何学习场景都有需求。

除了作业帮、猿辅导等传统教培企业一直在拍搜赛道深耕，一些互联网巨头这些年也纷纷入局推出产品，比如阿里的夸克搜索也上线了拍照搜题功能，还有字节的闪电搜题和Gauth（面向海外市场的AI教育产品）。

大模型爆火以来，AI教育创企和产品也是多了很多，比如MathGPT、Solvely、Answer.ai等，数学作为大模型需要攻克的场景之一，出现了很多专攻数学的大模型。

比如，今天的主角：Qwen2-Math-72B。

上周，阿里就发布了一个世界最强数学模型，在math数据集上一骑绝尘，远超各种闭源模型，甚至超过了其他大型开源数学模型。

模型具体信息移步今日的推文《阿里推出世界最强的数学模型Qwen2-Math，击败GPT4o、Claude3.5》。

今天，阿里又放出了一个多模态demo，通过另一个模型Qwen2-VL的加持，为Qwen2-Math提供处理图片文本的能力。

也就是说，现在可以拍照搜题了！

这个多模态模型可以直接在hugging face上测试，我把链接贴在下面了：

https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

千问还给出了一些使用例，无论是步骤还是答案确实可以：

光看官方给出的效果确实客观，可是具体好不好用，还得自己上手试试才知道。

拍照搜题正确率怎么样？让我来试试

既然能拍照搜题，那当然是要拿图片来提问了。

Round 1：简单计算

让我们先来道普通的算术题，通过计算器都可以计算出来。

比如这个：

拿着这个这道题目去问……确实答对了！

诶，我们来问这个难倒无数AI的经典题目：

9.8和9.11哪个大？

我的天！千问居然答对了！

前后换个顺序问问，也答对了。

我们换一个题型。

Round 2：代数

来试试我们最经典的代数题吧。既然官方演示使用的也是代数题目，说明这方面的能力也不在话下。

就拿这个题目来试试吧，上点强度：

然后，我便开始苦苦等待，仿佛这道题难倒它了，足足等了2分钟……

但结果不负众望，它答对了，代数强者恐怖如斯。

不过，还不能急着下结论，我们的重头戏还没上呢！

Round 3：概率

概率题我们就上点难度，直接拿出2023年的新高考1卷概率题来提问：

我们先来看标准答案吧！

貌似概率题目考的实在是太理想化了，千问水灵灵的给出了错误答案：

第二问就差一点就做对了，思路是好的，但是错了就是错了。

好吧好吧，我们还是直接上重头戏：几何图形！

Round 4：几何

关于几何题，评论区的网友们给出了绝佳的事例：

坏了，我刚看到这个题目时，我也懵了，这题该咋做啊！

不过还是做出来了，答案是4π-8 。

不行，我得看看千问会不会。

哎呀，啰里啰嗦一堆，结果还是做错了。看来千问的几何能力还有待提升啊！

最后我们再来一个比较针对性的测试：

Round 5：多模态能力

还有一名网友给出了一个事例，同时出现多种计算符号会让多模态文本处理“宕机”，从而给出错误的答案。

拿去一问，果然千问做错了。

今天测试的一共6道题，Qwen2-Math 3对3错。

从测试的case感受讲，计算代数问题能力不错，但是比较高阶的概率和几何图形就cover不住了。

看来，数学模型的多模态发展还是任重道远啊！

我还特意去了解了一下国家9年义务教育对各个阶段要求掌握具备的数学能力是咋样的！

2022年版（数学课程标准）是这样定义的

你们觉得这版模型能力是什么水平？？

我还是非常期待，在多模态文本识别方面，阿里还能继续披荆斩棘，打造数学AI模型的国产之光。

愿国产AI无惧风雨，一直在路上。

参考资料

[1]https://x.com/Alibaba_Qwen/status/1825559009497317406

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。