清华大学:DeepSeek与AI幻觉研究报告 2025

06d66e1477ab3035e50c3d86b8a24893.jpeg

该文档围绕 DeepSeek 与 AI 幻觉展开研究,核心内容涵盖 AI 幻觉的定义、产生原因、评测方法、应对策略、潜在风险以及创造力价值等方面。

1. AI 幻觉的定义与类型

指模型生成与事实不符、逻辑断裂或脱离上下文的内容,包括事实性幻觉(与现实世界事实不一致)和忠实性幻觉(与用户指令或上下文不一致),如在回答糖尿病患者能否用蜂蜜代替糖的问题时出现错误或偏题的情况。

2. DeepSeek 产生幻觉的原因

  • 数据偏差:训练数据的错误或片面性会被放大,例如医学领域过时论文可能导致错误结论。

  • 泛化困境:难以处理训练集外的复杂场景,像预测南极冰层融化对非洲农业的影响。

  • 知识固化:过度依赖参数化记忆,缺乏动态更新能力,对 2023 年后的事件可能完全虚构。

  • 意图误解:用户提问模糊时,模型易 “自由发挥”,如对 “介绍深度学习” 的理解可能偏离实际需求。

3. AI 幻觉的评测

  • 测试方法:通过随机生成通用提示语获取回答后人工判断标注并交叉验证,以及抽取事实性幻觉测试题比对答案并标注类型交叉验证。

  • 评测结果:在事实性幻觉评测中,DeepSeekV3 幻觉率为 29.67%,DeepSeekR1 为 22.33% 等,且不同模型在不同测试场景下幻觉率各异,同时推理能力与幻觉率存在双向作用机制,推理增强可能降低或增加幻觉率。

4. 减缓 AI 幻觉的方法

  • 普通用户应对方式:包括双 AI 验证 / 大模型协作、提示词工程(如知识边界限定、对抗性提示等),并针对不同高发场景(如知识边界模糊、未来事件预测等)给出防护建议。

  • 技术方案:有 RAG 框架、结合外部知识库、精细训练和开发评估工具等。

5. AI 幻觉的潜在风险

包含信息污染风险,加剧虚假信息传播;信任危机,使用户怀疑专业场景可靠性;控制欠缺,可能被恶意利用;安全漏洞,影响自动化系统等。

6. AI 幻觉的创造力价值

  • 科学发现:如启发新型蛋白质结构设计,推动科研范式转变为 “AI 幻觉 - 实验验证 - 理论重构”。

  • 文艺与设计:突破思维定式,为创作提供灵感。

  • 娱乐与游戏:创造新体验,生成游戏资产等。

  • 技术创新:如提升自动驾驶系统识别精度等。

后台回复“250220A,可获得下载资料的方法。

ed4bb11b5cb47466a968a0d9d32f4c76.jpeg

a186338527ac8fa38d8c74cfc812bf9e.jpeg

63e5e461e5133ecfc0b46a41c82c0cb0.jpeg

944af4e3ba3830afbaa7f1eaf52607b6.jpeg

052d1a9504f7bcd6bbb9e9a6531f6efe.jpeg

f9091a688ead1903350d59588b4f3bf9.jpeg

e9bfd5651983d66d150b05396a80d192.jpeg

b0dc1f91b7dfe51506bbc441758d4e9f.jpeg

21a422e58e1defc72d6a2497e8d44eca.jpeg

ad2d937697e7c1fd933b919981306ce4.jpeg

b8273a9a6e2fae78de6ad50562030194.jpeg

19c17ea978e0b52a87d50ceeb0f6fb3a.jpeg

8443cd33aa52f866034b401241697a03.jpeg

d0bcb12d888a0d97d0324652f3efe342.jpeg

c9f82854453fa53306cbd70e77061cda.jpeg

44cf63f09a1ff707c242ff21e66f872e.jpeg

985ddb8ba4655926887937df57e61958.jpeg

6a6be12a44d2e75c007eeef73b0f0306.jpeg

e3273ad3368498578682458aac063f12.jpeg

0c381337f6203ff3abbb24ff0b0109c8.jpeg

4fd76cafc0a4ad8246dbf4400e72ad04.jpeg

760451428d36c35b1b7a0d19396672c7.jpeg

52dd481f80fa80d161214cac332ccd45.jpeg

eb376e21d5df953c6f138e8e0ad92cee.jpeg

0fcaba98e560934c47235e4ae025ad4a.jpeg

30d9404e773ccf188958867d4f06868a.jpeg

265e147e3372a4bf44c96f7fb6475201.jpeg

cdbe61acaab2494a1a4bfe8edaace07b.jpeg

0cf06f070c9e00d59c9b06543bb5b251.jpeg

ff98ac794de06107ad4da258a39fd2f4.jpeg

cd1676464fbfb361cb2a03465d8dce86.jpeg

0d6cb854e5836e50aed7231bb74249d0.jpeg

本公号使用腾讯元器(使用Deep SeekR1大模型)创建了智能交通技术AI服务,欢迎扫码进入体验(或在后台私信公号)。

5a45efd76a7c5039f2b48fa20d084dda.jpeg

点击文后阅读原文,可获得下载资料的方法。

b29f47a29c4689e5e6733a1caa78b558.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值