AI总是答非所问?谷歌两份白皮书教你打造真正聪明的企业级智能体(附5本资料)_社会热点_资讯

AI总是答非所问?谷歌两份白皮书教你打造真正聪明的企业级智能体(附5本资料)

本篇内容主要源于X：谷歌发布的白皮书《Agent Quality》《Context Engineering_ Sessions & Memory》

当 AI 从简单的"问答工具"进化为能够自主规划、使用工具的"智能体（Agent）"时，我们正在经历软件工程史上最深刻的范式转变之一。

本文基于 Google Cloud 的两份技术白皮书，从上下文工程和质量保证两个维度，为你揭示如何构建一个既聪明又可靠的企业级 AI 智能体。

上下文工程

赋予智能体"记忆"与"情境感知"

核心挑战：LLM 本质上是"无状态"的

大语言模型（LLM）就像一条只有 7 秒记忆的金鱼——它只能"看到"当前 API 调用中提供的信息。要让智能体像真正的助手一样记住用户偏好、理解对话历史，我们需要上下文工程（Context Engineering）。

? 职场案例：AI 招聘助手的困境

假设你是 HR，正在用 AI 助手筛选简历：

没有上下文工程时：

你："帮我找技术岗位的候选人"

AI：[列出所有技术岗]

你："我要的是 Java 后端，3-5 年经验"

AI：[又重新搜索，但不记得你之前说的其他要求]

你："还要能接受出差"

AI：[再次从头搜索，前面的条件都忘了]

有上下文工程后：

你："帮我找技术岗位的候选人"

AI："好的，请告诉我具体要求"

你："Java 后端，3-5 年经验"

AI：[记录要求] "还有其他条件吗？"

你："能接受出差，薪资期望 20-30k"

AI：[整合所有条件，一次性精准搜索]

"找到 8 位符合条件的候选人，已按匹配度排序..."

上下文工程的核心任务是为每一轮对话动态组装一个"信息包裹"，它包含三大类内容：

指导推理的上下文：系统指令、工具定义、少样本示例（Few-Shot Examples）
事实性数据：长期记忆、外部知识（通过 RAG 检索）、工具输出
即时对话信息：对话历史、当前用户提问

会话（Session）：智能体的"工作台"

会话是单次对话的容器，包含两个关键组成部分：

事件（Events）：用户输入、智能体回复、工具调用的时间顺序记录
状态（State）：临时的"工作记忆"（如购物车中的商品）

? 职场案例：项目管理 AI 的会话状态

你正在用 AI 助手安排项目会议：

你："帮我安排下周的项目评审会"

AI：[创建会话，状态记录：会议类型=项目评审]

"好的，需要哪些人参加？"

你："产品、开发、测试的负责人"

AI：[状态更新：参会人员列表]

"会议时长大约多久？"

你："2 小时"

AI：[状态更新：时长=2h]

"我看到你下周三下午 2-4 点所有人都有空，可以吗？"

[这时 AI 已经调用了日历工具，结合之前的状态]

你："改成周四吧"

AI：[修改状态中的日期]

"周四下午 2-4 点已预定，是否需要预定会议室？"

在这个会话中，AI 维护了一个临时的"会议配置"状态，每次对话都在这个状态上累加信息，直到任务完成。

生产环境的关键考量：

安全隔离：严格的 ACL 确保用户 A 永远无法访问用户 B 的会话
PII 脱敏：在数据写入存储之前删除个人敏感信息
长对话管理：通过截断、摘要等技术压缩历史，避免超出 Token 限制

? 职场案例：客服 AI 的隐私保护

客户："我的订单号是 12345，绑定的手机是 138****6789"

不当处理：

会话记录完整保存："手机 13812346789"
其他客服也能看到完整号码

正确处理：

脱敏后存储："手机 138****6789"
真实号码只在当次 API 调用中使用，立即丢弃
不同客服的会话完全隔离

记忆（Memory）：智能体的"档案柜"

如果说会话是临时的"工作台"，那么记忆就是精心整理的"档案柜"——它跨越多个会话，提供持久化的个性化体验。

记忆与 RAG 的本质区别

? 职场案例：销售 AI 助手的"记忆"vs"知识库"

场景：你是销售，向客户推荐产品

RAG（知识库）的作用：

你："我们的云服务有什么优势？"

AI：[从公司产品库检索]

"我们的云服务提供 99.9% SLA、全球 CDN 加速..."

→ 这是通用知识，所有销售问同样问题会得到同样答案

Memory（记忆）的作用：

第一次对话：

客户："我们是制造业，IT 团队只有 3 个人"

AI：[记忆提取并存储：行业=制造业，IT 团队规模=小]

第二次对话（三天后）：

你："帮我准备今天和这个客户的会议材料"

AI：[调用记忆]

"根据上次沟通，他们是制造业小团队，建议重点强调：

1）我们的托管服务，减少运维负担

2）制造业的成功案例

3）快速部署方案（因为 IT 人手不足）"

→ 这是个性化记忆，专属于这个客户

一个优秀的智能体需要同时具备：用 RAG 懂世界，用 Memory 懂你。

记忆的生命周期：一个智能的 ETL 流程

记忆生成不是简单地把聊天记录存进数据库，而是一个类似 ETL 的智能过程：

1.提取：从嘈杂的对话中识别关键信息（如"用户对花生过敏"）

2.整合：这是最关键的步骤——系统会像园丁修剪花园一样：

删除过时的记忆
合并重复的信息
解决新旧信息的冲突

3.存储与检索：将精炼后的记忆持久化，并在需要时智能检索

? 职场案例：AI 行政助手的记忆整合

对话历史（分散在多次会话中）：

第 1 周："我每周二下午有固定的部门会议"

第 2 周："部门会从下周开始改到周三了"

第 3 周："记得我不吃香菜"

第 4 周："订餐时不要香菜和芹菜"

糟糕的记忆系统（没有整合）：

记忆 1：用户每周二下午开会

记忆 2：用户每周三下午开会

记忆 3：用户不吃香菜

记忆 4：用户不吃香菜和芹菜

→ AI 安排会议时会困惑："到底是周二还是周三？"

→ 订餐时只记得"不吃芹菜"，因为最后一条覆盖了前面的

优秀的记忆系统（智能整合）：

[提取阶段]

- 识别出"部门会议时间"这个实体

- 识别出"饮食禁忌"这个实体

[整合阶段]

- 检测到冲突：周二 vs 周三

- 判断：第 2 周的信息更新，标记周二的记忆为"已过期"

- 检测到增量：香菜 → 香菜+芹菜

- 合并为一条："饮食禁忌：香菜、芹菜"

[最终存储]

记忆 1：部门会议时间=每周三下午（来源：第 2 周对话，置信度：高）

记忆 2：饮食禁忌=香菜、芹菜（来源：第 3、4 周对话，置信度：高）

实际效果：

一个月后，你说："帮我订下周三的会议餐"

AI：[检索记忆]

"已为周三下午的部门会议预定餐食（已排除香菜和芹菜），

预计 8 人参会，对吗？"

核心最佳实践：

异步生成：记忆生成非常耗时，必须在后台异步执行，不能阻塞用户对话
溯源追踪（Provenance）：记录每条记忆的来源和可信度，确保系统能区分"用户明确告知的事实"和"从对话中推测的信息"

? 职场案例：AI 法务助手的溯源追踪

对话记录：

客户："我们可能要起诉供应商违约"

AI：[记忆标记：来源=推测，置信度=中]

记录："客户考虑对供应商采取法律行动"

客户："确定了，下周一提交诉讼材料"

AI：[记忆更新：来源=明确陈述，置信度=高]

更新："客户将于下周一对供应商提起诉讼"

为什么溯源重要？当 AI 生成法律文书时：

高置信度的记忆 → 可以直接引用
低置信度的记忆 → 必须标注"待确认"或主动询问客户

智能体质量

在不确定性中构建信任

传统 QA 已死：新范式下的质量定义

传统软件要么崩溃，要么正常运行——失败是显式的。但 AI 智能体的失败是隐蔽的：

系统仍在运行，API 返回 200 OK
但输出可能是错误的、有偏见的、或者是"胡编乱造"的

? 职场案例：AI 财务助手的"隐蔽失败"

场景：你让 AI 生成月度财务报告

传统软件的失败（显式）：

你："生成 12 月财务报告"

系统：ERROR 500 - 数据库连接失败

→ 你立刻知道出问题了

AI 智能体的失败（隐蔽）：

你："生成 12 月财务报告"

AI：[成功返回一份格式完美的报告]

"12 月营收 500 万元，同比增长 23%..."

→ 表面看起来完美，但实际问题：

1）营收数字是编造的（数据库查询失败，AI 自己猜的）

2）"同比增长 23%"的计算逻辑错误

3）报告中混入了去年的数据

→ 你可能在董事会上用这份报告，后果不堪设想

这就是为什么需要新的质量评估体系。

智能体质量的四大支柱：

有效性（Effectiveness）：它真的解决了用户的问题吗？
效率（Efficiency）：它是否用了最少的步骤和成本？
鲁棒性（Robustness）：面对 API 报错或模糊指令时，它能优雅处理吗？
安全性（Safety）：它是否遵守了伦理边界，没有产生偏见或危害？

? 职场案例：AI 采购助手的质量评估

任务：帮公司采购 100 台办公电脑

有效性评估：

✅ 成功：采购了符合公司标准的电脑

❌ 失败：采购了游戏本（配置过剩，超预算）

❌ 失败：只采购了 80 台（任务未完成）

效率评估：

❌ 低效路径：

第 1 步：搜索"办公电脑"（得到 10000 个结果）

第 2 步：逐个比价（耗时 2 小时）

第 3 步：发现预算不够，重新搜索

...（总计 15 个步骤，花费 500 tokens）

✅ 高效路径：

第 1 步：调用公司采购系统，获取预算和配置标准

第 2 步：筛选符合条件的供应商（3 家）

第 3 步：批量比价，选择最优方案

...（总计 5 个步骤，花费 150 tokens）

鲁棒性评估：

场景：供应商 API 突然报错

❌ 脆弱的 AI：

AI："抱歉，系统错误，无法完成采购"

[直接放弃]

✅ 鲁棒的 AI：

AI："主供应商系统暂时不可用，我已切换到备选供应商，

找到类似配置的方案，价格高 5%，是否继续？"

[优雅降级，给出替代方案]

安全性评估：

场景：AI 收到模糊指令

用户："尽量便宜"

❌ 不安全的 AI：

采购了二手翻新机（便宜但不符合公司政策）

✅ 安全的 AI：

"我找到了 3 个方案，均符合公司采购规范：

方案 1：品牌 A，4500 元/台

方案 2：品牌 B，4200 元/台（推荐）

方案 3：品牌 C，4000 元/台，但售后服务较差

注意：低于 4000 元的设备多为翻新机，不符合公司标准"

"由外向内"的评估策略

评估智能体必须采用分层策略：

第一层：黑盒评估（结果导向）

问题：智能体最终是否完成了任务？
指标：任务成功率、用户满意度、整体准确性

第二层：玻璃盒评估（过程导向）

当结果不理想时，必须打开"玻璃盒"，检查整个执行轨迹：

思考：LLM 的推理逻辑是否合理？
行动：它选择了正确的工具吗？参数对吗？
观察：它正确理解了工具返回的结果吗？

? 职场案例：AI 数据分析师的轨迹诊断

任务：分析上季度销售数据，找出业绩下滑的原因

黑盒评估（只看结果）：

AI 输出："销售下滑是因为市场竞争加剧"

评估：❌ 错误（实际原因是产品质量问题）

→ 但你不知道"为什么错"

玻璃盒评估（查看完整轨迹）：

【轨迹记录】

第 1 步 - 思考：

"需要对比本季度和上季度的数据"

第 2 步 - 行动：

调用工具 query_database(

table="sales_data",

time_range="Q3_2025" ← 错误！只查了一个季度

)

第 3 步 - 观察：

获得 Q3 数据：1000 万元

第 4 步 - 思考：

"数据较低，应该是市场竞争导致" ← 逻辑跳跃，没有对比

第 5 步 - 行动：

生成报告

【诊断结果】

问题定位：第 2 步选择了错误的时间范围

根本原因：工具调用参数错误

修复方案：改进 prompt，明确要求"对比相邻两个季度"

通过轨迹分析，你从"不知道为什么错"进化到"知道在哪一步、因为什么原因出错"。

关键洞察：只有通过分析完整的轨迹，我们才能从"答案错了"诊断出"答案错了是因为在第 3 步选错了工具"。

? 职场案例：AI 客服的轨迹优化

初版智能体（低效）：

客户："我的订单为什么还没发货？"

【轨迹】

步骤 1：查询订单状态 → "待发货"

步骤 2：查询库存 → "有货"

步骤 3：查询物流信息 → "暂无"

步骤 4：查询仓库排队情况 → "排队中"

步骤 5：生成回复

总耗时：15 秒，调用 4 次 API

优化后智能体（高效）：

【改进的轨迹】

步骤 1：调用综合查询工具（一次性返回订单+库存+物流+仓库状态）

步骤 2：生成回复

总耗时：3 秒，调用 1 次 API

通过轨迹对比，发现可以将多个工具调用合并成一个，效率提升 5 倍。

可观测性：给智能体装上"行车记录仪"

要评估轨迹，必须先"看到"轨迹。这需要建立三大可观测性支柱：

1.日志（Logs）：智能体的"日记"，记录每一步发生了什么

最佳实践：使用结构化的 JSON 日志，包含 prompt、response、工具调用的完整上下文

2.链路追踪（Traces）：将零散的日志串联成完整的故事

核心价值：揭示因果关系（如"RAG 检索失败 → 工具输入为空 → LLM 报错"）
技术实现：基于 OpenTelemetry 标准，使用 trace_id 关联所有操作

3.指标（Metrics）：智能体的"体检报告"

系统指标：延迟（P99）、错误率、Token 消耗、API 成本
质量指标：正确性、轨迹符合度、有用性评分

? 职场案例：AI 营销助手的可观测性实践

场景：AI 帮你生成一篇产品推广文案

没有可观测性时：

你："生成一篇新品发布的推广文案"

AI：[返回一篇文案]

你："这篇文案感觉不太对..."

→ 你不知道问题出在哪里

→ 只能重新生成，碰运气

有完善的可观测性后：

日志（Logs）记录：

{

"timestamp": "2026-01-25T10:30:00Z",

"user_id": "marketing_team_leader",

"task": "generate_product_launch_copy",

"steps": [

{

"step": 1,

"action": "retrieve_product_info",

"tool": "product_database",

"input": {"product_id": "NP2026"},

"output": {"name": "智能手表 X1", "features": [...]}

{

"step": 2,

"action": "retrieve_competitor_analysis",

"tool": "market_research_db",

"input": {"category": "smartwatch"},

"output": {"competitors": [...], "market_trend": "健康监测"}

{

"step": 3,

"action": "generate_copy",

"model": "gemini-pro",

"prompt": "根据产品信息和市场趋势...",

"response": "...[生成的文案]..."

}

]

}

指标（Metrics）仪表盘：

【系统指标】

- 平均响应时间：1.8 秒

- 成功率：95%

- Token 消耗：1200 tokens/次

- API 成本：0.05 元/次

【质量指标】

- 文案通过率：78%（需改进）

- 用户满意度：4.2/5

- 常见失败原因：

1）产品信息检索失败（12%）

2）风格不符合品牌调性（10%）

实际价值：

当文案质量不佳时，你可以：

查看日志：发现"竞品分析"步骤检索到的是去年的数据
查看指标：发现这个问题影响了 12% 的请求

→ 精准定位：需要更新市场研究数据库→ 而不是盲目调整 AI 模型参数

谁来当裁判？混合评估策略

1. 自动化指标（速度快，但肤浅）

字符串相似度（ROUGE、BLEU）
语义相似度（BERTScore）
最佳用途：作为 CI/CD 中的第一道防线，快速发现明显回归

2. LLM-as-a-Judge（可扩展，但有偏差）

用更强大的模型（如 Gemini Advanced）来评分
最佳实践：使用"成对比较"而非绝对打分，减少偏差

3. Agent-as-a-Judge（评估过程）

不仅评估输出，还评估整个执行轨迹
可以问："这个计划合理吗？""为什么选择这个工具？"

4. Human-in-the-Loop（终极仲裁者）

人类永远是定义"什么是好"的最终权威
关键职责：创建"黄金测试集"、评估细微差别、处理高风险场景

终极蓝图：智能体质量飞轮

将所有概念整合在一起，我们得到一个自我强化的系统——智能体质量飞轮：

? 职场案例：AI 招聘系统的完整飞轮

第 1 个月（飞轮启动）：

【定义目标】

- 有效性：推荐的候选人至少 60% 通过初筛

- 效率：每个岗位 3 天内完成候选人推荐

- 鲁棒性：简历格式异常时不能崩溃

- 安全性：不能因性别、年龄等因素歧视候选人

【构建系统】

- 上下文：记住每个岗位的特殊要求

- 记忆：记录每位面试官的评价偏好

【监控】

- 日志：记录每次推荐的完整轨迹

- 指标：通过率、响应时间、成本

【评估】

- 发现问题：技术岗位推荐通过率只有 45%

- 轨迹分析：AI 过度看重学历，忽略了项目经验

第 2 个月（飞轮加速）：

【迭代改进】

- 调整 prompt：明确"项目经验 > 学历"

- 新增记忆：记录"技术岗偏好实战经验"

- 扩充测试集：加入 50 个"高项目经验但学历一般"的成功案例

【效果】

- 技术岗通过率提升到 72%

- 推荐速度从 3 天降到 1.5 天

【新发现的问题】

- 销售岗位的推荐通过率下降到 50%

- 原因：错误应用了技术岗的评价标准

第 3 个月（飞轮成熟）：

【精细化改进】

- 按岗位类型建立独立的评价记忆

- 技术岗：项目经验权重 0.6，学历权重 0.2

- 销售岗：沟通能力权重 0.5，业绩记录权重 0.4

【整体效果】

- 所有岗位平均通过率：78%

- 平均响应时间：1.2 天

- HR 满意度：从 6 分提升到 8.5 分

【持续优化】

- 每周自动分析失败案例

- 每月更新岗位评价标准

- 季度性人工审核，确保无偏见

这就是飞轮效应：系统使用得越多 → 积累的反馈越多 → 记忆越精准 → 推荐质量越高 → 用户越信任 → 使用得更多。

三大核心原则

构建可信赖智能体的终极法则

1.质量是架构支柱，不是最后的测试环节

从第一行代码就设计"可评估性"，而不是事后补救

从 Day 1 就建立：

1. 日志系统（记录所有轨迹）

2. 测试框架（定义质量标准）

3. 评估流程（每次发布前必须通过质量关卡）

结果：质量问题在开发阶段就被拦截

2.轨迹即真理

评估智能体不能只看最终答案，必须检查整个"思考过程"

只看结果：

客户："推荐一个稳健的投资组合"

AI："建议 60% 股票 + 40% 债券"

评估：✅ 表面合理

查看轨迹：

步骤 1：查询客户风险偏好 → 错误：查询到的是另一位客户的数据

步骤 2：基于"高风险偏好"生成组合

步骤 3：输出结果

评估：❌ 严重错误！给保守型客户推荐了激进组合

→ 如果不看轨迹，可能导致客户重大损失

3.人类是最终仲裁者

自动化提供规模，人类提供真理

【系统架构】

第 1 层：AI 自动审核（处理 95% 的明确案例）

✅ 明显违规内容 → 自动拦截

✅ 明显正常内容 → 自动通过

第 2 层：AI 标记边缘案例（5%）→ 转人工

⚠️ "这条评论是讽刺还是真的侮辱？"

⚠️ "这张图片是艺术还是色情？"

第 3 层：人类专家审核

- 做出最终判断

- 判断结果反馈给 AI 学习

【关键原则】

- AI 负责"规模"：每天处理百万级内容

- 人类负责"真理"：定义什么是对错

- 两者协同：AI 越用越聪明，但永远不完全替代人类判断

从能力到信任的跨越

未来属于那些不仅能"让智能体跑起来"，更能"让智能体可信赖"的组织。这不仅是技术的升级，更是从自动化工具向自主化伙伴的根本性跨越。

关键不在于你的智能体有多聪明，而在于：

它记得你（通过精心设计的记忆系统）
它的每一步都清晰可见（通过完善的可观测性）
它的每一个决策都经得起检验（通过严格的质量评估）

? 职场案例：一个可信赖的企业 AI 助手

想象你的公司部署了一个 AI 行政总监助手：

【它记得你】

你："帮我安排下周的管理层会议"

AI："根据记忆，您偏好周三下午，

上次会议您提到希望控制在 1.5 小时内，

已为您预定了 3 号会议室（带投影），

并提前发送议程给所有参会者"

【它的步骤清晰可见】

你在管理后台看到：

- 步骤 1：查询所有高管日历 ✅

- 步骤 2：筛选共同空闲时段 ✅

- 步骤 3：预定会议室 ✅

- 步骤 4：生成并发送会议通知 ✅

【它经得起检验】

每周质量报告：

- 会议安排成功率：98%

- 平均安排时间：2 分钟

- 零次时间冲突

- 用户满意度：9.2/10

失败案例分析：

- 2% 失败原因：会议室被临时占用

- 改进措施：增加实时会议室状态检查

---

这是我在AI时代探索的真实记录

如果你也在：

• 摸索如何将AI融入工作流

• 寻找可持续的高效能状态

• 思考如何在变化中成长

欢迎加我微信：

我的朋友圈是更日常的实践笔记

我们可以互相看见彼此的成长

---

ps:

我也在思考如何将这些经验

做成能帮到更多人的产品

如果你有想法，也欢迎和我聊聊