该文档围绕 DeepSeek 与 AI 幻觉展开研究,核心内容涵盖 AI 幻觉的定义、产生原因、评测方法、应对策略、潜在风险以及创造力价值等方面。
1. AI 幻觉的定义与类型
指模型生成与事实不符、逻辑断裂或脱离上下文的内容,包括事实性幻觉(与现实世界事实不一致)和忠实性幻觉(与用户指令或上下文不一致),如在回答糖尿病患者能否用蜂蜜代替糖的问题时出现错误或偏题的情况。
2. DeepSeek 产生幻觉的原因
数据偏差:训练数据的错误或片面性会被放大,例如医学领域过时论文可能导致错误结论。
泛化困境:难以处理训练集外的复杂场景,像预测南极冰层融化对非洲农业的影响。
知识固化:过度依赖参数化记忆,缺乏动态更新能力,对 2023 年后的事件可能完全虚构。
意图误解:用户提问模糊时,模型易 “自由发挥”,如对 “介绍深度学习” 的理解可能偏离实际需求。
3. AI 幻觉的评测
测试方法:通过随机生成通用提示语获取回答后人工判断标注并交叉验证,以及抽取事实性幻觉测试题比对答案并标注类型交叉验证。
评测结果:在事实性幻觉评测中,DeepSeekV3 幻觉率为 29.67%,DeepSeekR1 为 22.33% 等,且不同模型在不同测试场景下幻觉率各异,同时推理能力与幻觉率存在双向作用机制,推理增强可能降低或增加幻觉率。
4. 减缓 AI 幻觉的方法
普通用户应对方式:包括双 AI 验证 / 大模型协作、提示词工程(如知识边界限定、对抗性提示等),并针对不同高发场景(如知识边界模糊、未来事件预测等)给出防护建议。
技术方案:有 RAG 框架、结合外部知识库、精细训练和开发评估工具等。
5. AI 幻觉的潜在风险
包含信息污染风险,加剧虚假信息传播;信任危机,使用户怀疑专业场景可靠性;控制欠缺,可能被恶意利用;安全漏洞,影响自动化系统等。
6. AI 幻觉的创造力价值
科学发现:如启发新型蛋白质结构设计,推动科研范式转变为 “AI 幻觉 - 实验验证 - 理论重构”。
文艺与设计:突破思维定式,为创作提供灵感。
娱乐与游戏:创造新体验,生成游戏资产等。
技术创新:如提升自动驾驶系统识别精度等。
后台回复“250220A,可获得下载资料的方法。
本公号使用腾讯元器(使用Deep SeekR1大模型)创建了智能交通技术AI服务,欢迎扫码进入体验(或在后台私信公号)。
点击文后阅读原文,可获得下载资料的方法。