最近,AI界又火了!DeepSeek推出了一款新的推理模型R1,直接对标OpenAI的明星产品o1。
这可是个大新闻!要知道,o1一直是业界的标杆,DeepSeek R1凭什么敢挑战它?
今天我们就来扒一扒背后的秘密。
虽然DeepSeek R1很厉害,但也不是完美的。它有几个小缺点,我们先来说说:
1. 多语言能力不足
DeepSeek R1主要专注于中文和英文,其他语言就有点不太灵光了。例如,即使查询使用的是非中文和非英文的语言,模型也可能会使用英文进行推理和回复。
此外,在多语言混合输入的测试中,模型的表现也不够理想。比如,在C-Eval(中文评估)中,未对齐的语言模型表现仅为86.5%,而对齐后的DeepSeek-R1提升至91.8%,但语言混合问题仍未完全解决。
2. 通用能力受限
尽管DeepSeek R1在数学、编程和推理任务上表现出色,但在一些通用任务上,如函数调用、复杂角色扮演和JSON输出等任务上,表现不如DeepSeek-V3。
此外,在软件工程任务中,DeepSeek R1的提升有限,主要原因是数据稀缺、长反馈延迟以及工具链依赖。比如,在SWE-bench评测中,DeepSeek-R1的“Reso