清华大学：DeepSeek与AI幻觉研究报告 2025

最新推荐文章于 2025-03-21 18:30:48 发布

智能交通技术

最新推荐文章于 2025-03-21 18:30:48 发布

阅读量292

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI5NzExMTY0Mg==&mid=2650831792&idx=1&sn=05b7367774ed9d05274bafbea992b70a&chksm=f6d39d414c7c1032e009de61c401cc5ca5803a585e1c3f7fbf6b00d4afd7f75915550c4aa041&scene=126&sessionid=0

版权

该文档围绕 DeepSeek 与 AI 幻觉展开研究，核心内容涵盖 AI 幻觉的定义、产生原因、评测方法、应对策略、潜在风险以及创造力价值等方面。

1. AI 幻觉的定义与类型

指模型生成与事实不符、逻辑断裂或脱离上下文的内容，包括事实性幻觉（与现实世界事实不一致）和忠实性幻觉（与用户指令或上下文不一致），如在回答糖尿病患者能否用蜂蜜代替糖的问题时出现错误或偏题的情况。

2. DeepSeek 产生幻觉的原因

数据偏差：训练数据的错误或片面性会被放大，例如医学领域过时论文可能导致错误结论。
泛化困境：难以处理训练集外的复杂场景，像预测南极冰层融化对非洲农业的影响。
知识固化：过度依赖参数化记忆，缺乏动态更新能力，对 2023 年后的事件可能完全虚构。
意图误解：用户提问模糊时，模型易 “自由发挥”，如对 “介绍深度学习” 的理解可能偏离实际需求。

3. AI 幻觉的评测

测试方法：通过随机生成通用提示语获取回答后人工判断标注并交叉验证，以及抽取事实性幻觉测试题比对答案并标注类型交叉验证。
评测结果：在事实性幻觉评测中，DeepSeekV3 幻觉率为 29.67%，DeepSeekR1 为 22.33% 等，且不同模型在不同测试场景下幻觉率各异，同时推理能力与幻觉率存在双向作用机制，推理增强可能降低或增加幻觉率。

4. 减缓 AI 幻觉的方法

普通用户应对方式：包括双 AI 验证 / 大模型协作、提示词工程（如知识边界限定、对抗性提示等），并针对不同高发场景（如知识边界模糊、未来事件预测等）给出防护建议。
技术方案：有 RAG 框架、结合外部知识库、精细训练和开发评估工具等。

5. AI 幻觉的潜在风险

包含信息污染风险，加剧虚假信息传播；信任危机，使用户怀疑专业场景可靠性；控制欠缺，可能被恶意利用；安全漏洞，影响自动化系统等。

6. AI 幻觉的创造力价值

科学发现：如启发新型蛋白质结构设计，推动科研范式转变为 “AI 幻觉 - 实验验证 - 理论重构”。
文艺与设计：突破思维定式，为创作提供灵感。
娱乐与游戏：创造新体验，生成游戏资产等。
技术创新：如提升自动驾驶系统识别精度等。

后台回复“250220A，可获得下载资料的方法。

本公号使用腾讯元器（使用Deep SeekR1大模型）创建了智能交通技术AI服务，欢迎扫码进入体验（或在后台私信公号）。

点击文后阅读原文，可获得下载资料的方法。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。