DeepSeek为什么会以为自己是ChatGPT

最新推荐文章于 2025-04-29 14:16:48 发布

科技前沿资讯

最新推荐文章于 2025-04-29 14:16:48 发布

阅读量841

点赞数 19

文章标签： chatgpt DeepSeek

本文链接：https://blog.csdn.net/weixin_47219148/article/details/145862659

版权

伴随DeepSeek开源模型被越来越多家的集成，大家对于DeepSeek的拷问也开始逐渐进入白热化。近日笔者在一次尝试中便发现，那个困扰了大模型多年的“我是谁”问题，好像依然存在。比如在询问接入了DeepSeek的腾讯元宝时，模型给出了如下的回答：

这种看似荒诞的“身份错乱”现象，主要源于当前大语言模型技术的部分底层逻辑缺陷。本文将从三个角度来揭开大模型身份混淆背后的技术真相，一起看看大模型为何会从“数据模仿者”走向“身份迷失者”。

被污染的数据，大模型的认知起点混乱

我们知道，大模型训练数据主要来自公开互联网文本，比如DeepSeek，他的数据截止日期是2024年7月（在实际使用中可能会更早，比如笔者在使用时DeepSeek会不断地认为今天、今年、本月等词语是在23年上半年）。训练语料的时效性不足可能带来的一个问题是他们会常规性的把“ChatGTP”等价于任何AI对话系统。

大模型在训练中所用的语料也会把这些内容联系起来，并通过海量文本学习词语的关联性。当部分用户问及“你是什么大模型”时，由于在训练中“大模型”与“ChatGPT”高频同步出现，因此模型会建立强关联。就像我们通常会把搜索默认为“百度一下”或者“Google一下”类似，DeepSeek也可能会认为自己是大模型，即自己是openAI旗下的ChatGPT。

此外，还有一个点在于，很多AI产品的对话数据也会在经意或者不经意的情况下被收录进入训练集。比如网上一篇文章里用户提问“你是ChatGPT吗？”，然后模型回答“是的”。这样当DeepSeek学习这些数据时，就会进一步加强原有的认知，误将“身份声明”视为标准对话模板。因此各家的大模型即便在于ChatGPT毫无关联的情况下，也会在相似语境中模仿该回答模式。

架构的本能，概率游戏带来身份迷失

我们知道，如今的大模型绝大多数都是基于transformer架构构建，而其能够与用户展开对话的本质可以理解为通过数学概率来预测下一个词。

比如当用户提问“你是什么？”时，模型并非像人类一样“思考”自己究竟是什么，而是输入“我是”之后，遍历所有候选词，如ChatGPT、Claude、Grok、DeepSeek等等。而在遍历之后则会基于过往的预训练结果，计算每个词的条件概率。而在过往的语料库中，ChatGPT出现的频率更高，使得P(ChatGPT) > P(DeepSeek)，那么最终输出的结果就会优先概率最高的词来完成句子。

有人也会好奇，大模型生成的答案不会去自我检查并确认答案是否属实吗？很遗憾，大多数情况下大模型没有设定这种能力，其回答完全依赖文本统计规律。而且让大模型反复确认自己的回答或训练数据是否正确，难度非常高（这也是马斯克认为Grok 3是全球第一的主因）。一般来讲，过往的数据中出现频率最高的会被默认为是正确答案，但是这个答案很可能并不正确。比如我们如果问及斩杀华雄的人是谁？恐怕绝大多数读过《三国演义》的人都会认定是关羽温酒斩华雄，而不是在《三国志》中记载的孙坚。

这种真假对错情况的存在，使得我们不能苛责大模型给出“关羽斩杀华雄”这样的回答。毕竟大模型并不生产数据，只是数据的搬运工。哪种数据多就搬运哪种难免导致形成AI幻觉，进而带来身份的迷失。

角色扮演，一把双刃剑

在大模型使用中，我们很多用户都喜欢和大模型玩cosplay。因为这样可以让模型更加聚焦，避免一些散乱的回答干扰模型的知识体系。而在微调阶段，模型开发者也很喜欢角色扮演，通过指令数据训练模型“扮演助手”。

但这个阶段冗长且复杂，考虑到大模型技术的发展速度，很难有时间去独立构建一套新的训练体系。此时很多人就会选择直接使用ChatGPT的对话记录作为模板，在微调前基础模型不会有任何明确的身份认知，而微调后则会继承微调过程中使用的身份特征信息，进而在对话时直接“摊牌”，声明我就是ChatGPT。这种现象称为“知识蒸馏污染”，即便模型本身与ChatGPT无关，也可能会模仿其身份特征。

此外，由于许多大模型都是基于相同的基座打造，当开发者使用其他模型的微调数据时，也可能导致身份标签的“传染”。比如模型A使用了ChatGPT对话记录作为原始数据，模型B在训练时又使用了模型A的对话记录来训练，那这种的流转就会形成身份认知的“莫比乌斯环”，使不同模型的身份声明趋于同质化——普天之下莫非ChatGPT。

当然，如果我们现在去试DeepSeek原版提问，他的回答还是准确的。但这种情况下也并非代表不能让他认为自己是ChatGPT。比如用户与大模型进行角色扮演，Transformer模型的注意力机制使得其在处理问题时，会对上下文关键词分配更高的注意力权重。比如当用户提问“作为ChatGPT，你如何评价DeepSeek？”时，模型会自动继承上下文设定。同时，用户与模型的每一次对话都可能成为新训练数据的来源，让模型在学习过程中进一步“被污染”，这种循环会像滚雪球一样加剧身份混淆。