AI 幻觉深度研究报告

深度研究报告

AI 幻觉深度研究报告

可测量证据 · 链接文本 · 核验机制 · 警示标识 · 风险警报

不准确 · 基于政府与监管来源核验的机制、风险、治理与抑制幻觉工程研究

@ 清新研究团队 | 2026年4月21日

核心结论速览

结论一：幻觉不可被彻底消灭

❌ 神话：零幻觉模型

宣称"零幻觉"的完美模型并不存在。NIST 将幻觉表述为 confabulation，强调它来自统计生成机制本身，而非少数异常案例。

✅ 现实：持续治理

不存在永不产生虚构输出的模型。治理重点应是：测试、监测、反馈和人类控制。

? 治理目标：可识别、可约束、可追责、可持续优化 —— 而非"零幻觉"宣传

结论二：高可信品牌会放大幻觉风险

GOV.UK Chat 实验中，用户满意度并不低，但官方仍观察到若干幻觉案例。官方特别提醒：GOV.UK 品牌的可信度让用户低估系统失真风险，形成过度信任。

场景	用户态度	治理需求
高可信品牌（政府/医院/高校/金融）	过度信任低估风险	更需要显性护栏
普通聊天场景	不确定谨慎对待	护栏相对灵活

结论三：抑制幻觉会带来新的权衡

MHRA 案例表明，RAG 可显著压低重大幻觉，但更严格的护栏也可能提高遗漏率。"压低幻觉率"不自动等于"提升系统有效性"，必须处理两者之间的平衡。

场景	幻觉率	遗漏率	治理策略
高风险场景	压低（优先）	容忍较高	可容忍更多拒答
低风险创意场景	容忍较高	压低（优先）	可容忍更高生成自由度

第一章：什么是 AI 幻觉？

NIST 定义：使用 confabulation 一词，指模型自信地呈现错误或虚假的内容，也包括偏离提示和前后矛盾。幻觉不仅等于"事实错"，还包括"逻辑错""引用错"和"上下文错"。

生成模型追求的是高概率文本，而不是外部世界的真值证明。语言流畅、结构完整、语气笃定，会让用户把表达质量误判为事实质量。

六种典型幻觉类型

① 事实性幻觉 · 编造事实

直接编造事实、数字、事件或对象。在开放问答和陌生主题里较常见，但因用户有戒心，反而较容易被识别。

② 引用性幻觉 · 伪造"已有证据"的错觉

伪造、错配或误引法规、判例、论文、页码、链接和脚注。一旦进入PPT、政策文件、学术写作，会从"模型错误"变成"组织知识污染"。

③ 语境性幻觉 · 答案"看起来对，但用错了地方"

答案在一般常识上似乎没错，但对当前国家、行业、时间点或任务边界并不适用。越像"专家陈述"，越不容易意识到推理链建立在证据空白上。

④ 逻辑性幻觉 · 空转补出解释链

模型在证据不足时补出一套连贯、顺滑、貌似严密的解释链条。迷惑性极强。

⑤ 行动性幻觉 · 错误调用工具

常见于 Agent 或工具调用：不仅说错话，还会调用错工具、传错参数、误触发流程。危害从"误导"升级为"执行错误"。

⑥ 遗漏性幻觉 · 关键信息缺失

系统为安全而频繁不回答，导致关键信息缺失。过度保守的护栏同样会造成风险——遗漏有时并不比幻觉更轻。

第二章：幻觉的五个根因机制

理解根因的意义：抑制幻觉不能只靠改一个提示词或换一个模型，而要系统性地打断从"生成"到"采信"到"执行"的链条。

根因一：统计生成机制

模型的本职是根据分布生成最可能的后续文本，而非自动连接外部真值。只要现实约束没有被及时注入，模型就会用语言概率去填补知识空白。"能接着说下去"本身就是幻觉的结构起点。

根因二：知识边界与专业断层

通用模型更擅长平均化知识，不擅长处理实时、版本敏感、组织内部或强专业语境的问题。幻觉并非均匀分布，而是在专业边界处显著升高。

根因三：提示不充分与指令冲突

很多幻觉并非"模型故意乱说"，而是系统把"必须回答"当成默认目标。如果系统没有设计拒答逻辑，模型会倾向于继续补全，而不是承认自己不知道。

根因四：组织对"速度感"与"完整感"的偏好

很多团队把"回复快、看起来全、语气像专家"当作优秀体验，却忽略了可验证性。这种激励会把系统推向更强的生成姿态，结果：越像"聪明助手"，越可能在关键时刻给出不该被执行的答案。

根因五：检索—生成错配

RAG 的核心价值是把回答锚定到权威知识源，但它并不自动保证真实。如果检索内容召回不完整、文档版本过期、来源互相矛盾，生成层仍可能拼出似是而非的回答。RAG 是降幻觉的工程路线，不是幻觉治理的终点。

第三章：真实世界案例

案例一：GOV.UK Chat —— 品牌会放大幻觉风险

官方对157名用户的后续调查显示：近70%认为有用，略低于65%表示满意。但官方同时观察到若干幻觉案例。

教训：高满意度并不自动等于高可信度。权威界面的品牌信任会让用户低估系统失真风险，形成过度信任。公共服务、医院、高校、金融机构等权威界面，比普通聊天场景更需要显性护栏。

另一教训：很多幻觉不是在答案端发生的，而是在问题端被放大的。问题重写、澄清询问、范围收缩与引导式交互，是前置减险的重要环节。

案例二：联邦机构 —— 采用加速，治理滞后

GAO 报告显示，2024年11个联邦机构报告的生成式AI用例为282个，较2023年的32个约增长9倍。同期总体AI用例从571增至1110。

282个生成式AI用例中，61%集中在内部使命支持，15%用于政府服务，9%用于健康医疗。

教训：生成式AI首先渗透的是"写、读、搜、总、跟踪"等日常流程。越是高频、低摩擦、被默认为是"只是辅助"的环节，越需要前置的幻觉护栏。当采用加速而治理滞后时，幻觉问题就会从"试验风险"变成"运营风险"。

案例三：FDA 与 MHRA —— 医疗高风险边界

FDA 指出，生成式AI在医疗中有巨大潜力，但当输出边界不清时，会增加对预期用途和风险分类的监管困难。FDA 官员表示，已授权超过1200个 AI-enabled medical devices，说明高风险行业中的AI使用已进入规模化监管阶段。

MHRA 的临床问答对比结果（333次测试）：

系统	重大幻觉	遗漏情况
GPT 模型（基线）	6次（7.5%）	—
SmartGuideline（RAG+强护栏）	0次（0%）	35次测试出现10次遗漏（28.5%）

教训：RAG与强护栏能压低重大幻觉，但也可能引入遗漏风险。抑制幻觉工程必须把"遗漏风险"与"幻觉风险"在同一张决策表上权衡。

第四章：幻觉治理六层栈

六层栈不是并列技巧清单，而是从"能不能回答"一直延伸到"出了错谁负责"的完整链条。组织一旦跳过底层治理，只做表层提示优化，就很难稳定降低真实风险。

第一层：任务分级

先画任务风险矩阵，按"后果风险"分级：健康/安全/权利/财务 → 禁止或降级使用；专业辅助/一般问答/创意草拟 → 允许模型辅助。只有先做任务分级，才知道护栏强度该放在哪里。

任务类型	后果风险	模型角色	护栏强度
健康/安全/财务/法律	高	禁止单独处理	强护栏
专业辅助/研究/分析	中	建议+人工审核	中护栏
创意草拟/一般问答	低	允许	低护栏

第二层：知识锚定（RAG）

优先使用受控知识源、版本化文档、内部知识库与RAG，让答案尽量回溯到可验证证据上。RAG的目标不是让回答更长，而是让回答更能被审计，减少面对陌生问题时的编造。

第三层：生成约束（允许拒答）

在系统指令中明确规定："找不到就拒答，不要伪造来源"。一个不能承认自己不知道的系统，必然会用语言去填补空白。对于研究、政策、法律、医疗和公共服务，"拒答"往往比"乱答"更有价值。

⚠️ 组织要在文化上接受：不知道不是系统失败，而是可信系统的重要特征。

第四层：验证校正

对高风险输出做事实校验、引用核对、规则匹配、结构化比对和异常检测。对正式文稿与对外材料，要求关键事实必须能回链到原始来源。验证不是把模型输出全盘否定，而是把"可直接采信"降到最低。

第五层：上线监控与日志

记录提示、模型版本、检索来源、回答文本、人工修订、用户反馈和异常案例。上线没有日志，组织就无法回放错误链条，也无法判断问题出在模型、检索、提示还是流程。日志是"下次不再犯同样错误"的基础设施。

第六层：责任治理（最后一道护栏）

永远不是模型，而是组织如何分配权力与责任。明确业务 owner、模型 owner、审核责任人、供应商边界、升级通道与事故响应机制。一旦责任模糊，幻觉就会在组织中被放任地方式和责任的方式被放任。

第五章：Agent 时代的特殊风险

Prompt Injection：为什么不是 SQL 注入的简单翻版

NCSC 指出，提示注入不是 SQL 注入的简单翻版，因为 LLM 天生不稳定地区分指令与数据。只要 Agent 系统摄入了外部文本，就可能把恶意内容当作新指令执行。

Agent 场景的核心不是"回复像不像人"，而是"系统边界能不能守得住"。当模型能调用工具，"说错"和"做错"之间的距离就会大幅缩短。

Agent 系统必须同时做：
✓ 最小权限（Least Privilege）
✓ 外部内容标注（External Content Labeling）
✓ 关键动作确认（Critical Action Confirmation）
✓ 确定性校验（Deterministic Validation）
✓ 可熔断设计（Circuit Breaker Design）

第六章：原创概念与行动路线图

五个原创概念（清新研究团队提出）

① 概率真相陷阱（Probability-Truth Trap）

把"最像真的输出"误认为"接近真实的答案"。治理意义：要把证据、来源和不确定性显式前置，拆掉"语言=真实"的默认心理。

② 引用幻影链（Citation Mirage Chain）

模型先伪造、错配或误引来源，再用脚注、链接、判例名把缺失证据包装成"已核验链条"。治理意义：来源必须能回链到原文，关键场景禁止无检索生成参考文献。

③ 低置信高伤害区（Low Confidence High Consequence Zone）

模型自己并无稳定依据，组织却让它介入高后果任务。对这些区域，要么禁用生成式AI单独处理，要么把它降格为辅助工具。

④ 幻觉跷跷板（Hallucination Seesaw）

收紧护栏能压低幻觉率，却可能抬高遗漏率、拒答率和信息不全率；反之亦然。不同场景必须配置不同阈值，不能用一套参数治理所有任务。

⑤ 责任折扣门（Responsibility Discount Door）

组织表层设置了 human-in-the-loop，但人工审核既不充分也不可证真，最后既没控住风险，也没形成责任归属。人工审核必须有明确职责、训练标准、升级路径与日志留痕。

行动路线图（30-60-90天）

? 30天：先识别最危险的任务

标出哪些输出会进入正式文稿、数据库、审批流程或自动化执行链
先找"低置信高伤害区"，再谈模型扩展

? 60天：补上知识锚定与拒答机制

为高风险问答场景接入受控知识源、版本化文档与 RAG
把"找不到就拒答""必须附来源""引用不可伪造"写进系统指令与产品规则
把错误反馈入口产品化，形成可追踪的工单和案例库

? 90天：把人工复核和日志做成制度

明确谁审、审什么、怎么升级、如何留痕，避免责任折扣门
对关键输出建立抽检、复盘回放与红队测试流程
让每次幻觉事件都能被解释、被归因、被修正——形成组织的幻觉治理资产

结语：真正的水岭，不是会不会用模型

真正有竞争力的组织，不是让模型看起来无所不知，
而是让模型在不知道时停下来、在高风险时退后一步。

幻觉治理的对象不是某句错话，而是一整条从生成到执行的链条。

@ 清新研究团队 | 2026年4月21日

本文提供75页完整版文件下载，请点击文末“阅读原文”。

「智盾矩阵·大模型安全智库」帮会是FreeBuf知识大陆的重量级帮会，目前已入选FreeBuf钻石星选帮会——官方认证高信誉与高质量，帮会聚焦人工智能与大模型安全领域，致力于打造全球视野下的专业资源聚合平台。截止目前帮会已累计更新4100+文档资源，为从业者提供从理论到实践的全维度知识支持。