首先是这个模型真的不太擅长写代码(图 2 是 GPT4,图 3 和 4 是 GPT4o),这个和之前测试 OpenAI 以及 EarlyAccess 结果基本一致。然后正因为不擅长,他也很少会在对话场景中乱输出代码,反而把一些对话内容治服了,拿了前所未有的高分
另外一个对照是正好我们的 PromptRange 记录了所有打靶数据,今天测试下来 4o 比 4 在这个环节要快一倍甚至两倍,但是纵向对比 4 的速度,比 19 号慢了 50% 以上,这个已经失去对比的参考系了。
另外 4o 在视频流的处理上(今天我们实验室看了一下原理,本质上还是需要转图片),确实还不错,期待有更多应用可以用上。