一直以来,无论是GPT、Claude还有国内的AI对话产品,都一直被诟病“AI回答不可靠”,尤其是在程序员这类对AI回答的可靠性要求极高的场景(毕竟AI给代码里埋个bug,背锅的还是程序员)。
而且当AI给的代码不可靠的时候,程序员发现跑不通或效果不对的时候,这时候再通过后续的prompt工程、追问等,大概率还是不行,对话次数多了之后AI甚至会发生遗忘,反而浪费了程序员的编程时间。
最近,一款名为AskManyAI的产品注意到了程序员群体的这个痛点,并且成功找到了一个简单、优雅的解决方法——
当单个AI对你提问的问题理解不到位、回答错误的时候,不要做prompt工程,也不要试图纠正它,而是选择直接抛弃它,直接换AI!
没错,AskManyAI的研发团队在日常的使用中做了详细的统计,发现无论是GPT-4还是Claude3.5,对于AI编程类的对准确性要求高的复杂问题上,其日常回答的正确率、可靠性都只能做到70%~80%。
这意味着,你提10个问题,有2、3个问题就得不到正确的回答,浪费程序员的时间。
但AskManyAI研发团队发现,由于各个AI在训练时存在较大的差异,导致他们的能力短板长板各自有所不同,形成了明显的互补效应。这意味着,当一个AI对某个问题回答错误的时候,这个问题很可能另一个AI能回答正确。但具体是哪个AI能回答对,这无法预测。
于是,AskManyAI想到,如果提问的时候一次性同时问GPT-4o、GPT-4、Claude-3.5、Claude-3 Opus的话,是不是回答的正确率能得到直线飙升?
带着这个疑问,AskManyAI研发团队在经过长达一个月的“人肉测试”后,惊喜的发现通过对主流6个AI模型的同时提问,在程序员编程、debug场景的问题满足率/回答正确性上直线飙升了接近20个百分点,错误率从单个AI的20%~30%下降到了不足5%。
这就是AskManyAI产品研发的初衷。
笔者果断去尝试了一把,如图所示,笔者出了一道非常复杂的编程需求题目:
要对一个非常复杂的数据结构的mongoDB记录进行一系列非常复杂的操作、变形,最终得到一个三级嵌套的复杂数据结构的json字典。
这个需求,笔者光写就写了500字。
笔者先是将这个问题同时抛给了Claude-3.5、GPT-4o、GPT-4和Claude-3 Opus。然后发现——
笔者忘记在问题中加一个限定条件了,咳咳。。。
(你们别打我
所以我又同时告诉所有的4个AI,我再加一个补充条件。。。
这次,所有的AI根据我的补充条件,写了他们的代码。
我认真审查后发现,果然!!
只有Claude-3.5的回答靠谱!
GPT系列的模型没有正确的理解我的需求,写出的代码不对。而Claude-3 Opus写的虽然对,但是代码很不优雅。
于是我选择了采纳Claude-3.5的回答,然后继续追加需求
果然,Claude-3.5对我的新需求理解也到位,给到了正确的代码。
你们可以通过左边的目录,清晰的看到我的对话过程。
第一次提问,提问给了4个AI——GPT-4o、GPT-4、Claude3.5、Claude3Opus。
第二次提问,补充条件,给了全部4个AI。
第三次,发现只有Claude3.5回答正确,于是采纳它,深入的修改需求、增加新需求等。
至此,我的一个复杂的编程需求完美得到了解决。
若没有AskManyAI,我一定还深陷在调教GPT-4的痛苦中。。。
最后附传送门:
https://askmanyai.chat
一句话总结吧,未来AI产品一定会向着不断细分前进。
而在程序员群体来说,AskManyAI我愿称之为2024年度最惊喜的实用性产品。