当 AI 读财报时,它在想什么?用 Shapley 值拆开金融大模型的＂黑箱＂_展会资讯_资讯

当 AI 读财报时,它在想什么?用 Shapley 值拆开金融大模型的＂黑箱＂

2026-07-06 00:42

当 AI 读财报时,它在想什么?用 Shapley 值拆开金融大模型的＂黑箱＂

大模型看研报、读公告、判情绪，已经不是新鲜事。但你敢直接信它的结论吗？

金融场景下，"模型为什么这么说"往往比"模型说了什么"更重要——监管要问、风控要查、投资要复核。最近一篇由 arXiv 收录的论文 《Shapley in Context: Explaining Financial Language with Domain Expertise》 给出了一条有意思的路：用博弈论里的 Shapley 值给金融文本的 LLM 预测做归因，并且证明了这套方法能和金融常识对齐。

换句话说：AI 不光能给你打分，还能告诉你"是哪几个词把分拉上来的"。

? 为什么是 Shapley 值？

解释黑箱模型的方法不少——Integrated Gradients、LIME、Attention 可视化……但放到金融文本上，大多有两个毛病：

1. 没嵌入行业知识："strong earnings" 和 "weak earnings" 在金融语境下明显不对称，但通用归因方法不一定能抓住这种单调性；
2. 文本是离散的：IG 这类基于梯度的方法假设输入连续可导，把词嵌到向量空间再求导，反而可能把词之间的关系搞歪。

这篇论文选的是 Baseline Shapley (BShap)——给每个特征（词 / 短语 / 段落）算一个"贡献值"，满足四条经典公理：线性、完备、对称、哑元。更重要的是，作者针对金融场景补了一组领域公理，并且严格证明了 BShap 全部满足：

• 个体单调性："strong" 比中性基线更正面 → 归因为正 ✅
• 需求单调性："strong" 比 "stable" 语气更强 → 前者归因更大 ✅
• 边际效应：从 " " → "stable" → "strong"，增量递减 ✅
• Pairwise 单调：同一句话里，"毛利率"对特斯拉的重要性 > "盈利"（成长扩张期工厂/R&D 烧钱压利润，毛利才是核心观测）✅
• 一阶占优：同一个词（如 "earnings"）在不同公司间的敏感度可比较——可口可乐 > 亚马逊（成熟防御 vs 成长科技）✅

? 唯一不能比的：不同模型 + 不同特征（比如"亚马逊的毛利" vs "特斯拉的盈利"）跨模型跨特征同时换，BShap 本身给不出确定排序——论文坦诚说了这点。

? 小试牛刀：FinBERT 读一句财报

拿 FinBERT 跑这句：

"The company reported strong earnings."

BShap 归因："strong" ≈ 0.94，"earnings" ≈ 0，基线句 "The company reported financial statement." 得分约 -0.04（中性）。换成 "stable earnings"，"stable" 归因掉到 0.57——符合"强词 > 弱词"的需求单调性，而且 "stable" 本身语义模糊，得靠 "earnings" 托住语气，所以 "earnings" 在 "stable" 句里权重反而上升，交互效应被抓出来了。

分类任务也能用。拿 BART-Large-MNLI 零样本判 Upstart（AI 借贷平台）的板块归属：

• 技术 56% / 金融 33%，符合 FinTech 定位
• "AI" 对技术类贡献为正，"lending" 为负（太金融味会拖累技术标签）——符号方向完全符合个体单调公理

甚至能抓模型翻车。同模型读 Voleon（量化对冲，明文写"AI + ML + 交易"），结果技术 64% / 金融 14%——明显金融侧低估。BShap 归因显示："quantitative investment management" 和 "trading strategies" 两词组几乎没拉金融分，暴露出模型对金融术语不敏感，得微调。换成 ChatGPT-5.2 跑同一段，金融 65% / 技术 30%，合理多了。

? 真刀真枪：10-K 风险因子归因

论文的重头戏是用 BShap 拆 SEC Form 10-K 的 Item 1A（风险因子），把每个 risk heading（信用风险、市场流动性风险、监管风险……）当作一个特征，让 LLM 打 0–10 的风险总分，再反推每个 heading 拉了多少分。

三个案例

? 硅谷银行 SVB（2022 年报，2023 年 3 月倒闭）

ChatGPT 给总分 10.0（极高）。BShap 拆出来：

• 信用风险、市场与流动性风险 → 占大头
• 市场流动性段里明文点了"2022 年美联储持续加息 + 利差压缩 + 存款挤兑"——正是次年爆雷的导火索

? 富国 WFC（2024 年报）

同样总分 10.0，但结构完全不同：

• 监管与法律风险占比显著更高（2016 假账户案后的 consent orders、资产 caps 至今绑着）
• 原"按揭业务风险"段在统一归类后并入信用风险， credit 项跳升

? Crocs（2020 → 2021）

用 2020 作基线、2021 作 explicand，看相对风险变化（BShap 得分 5.33，中等幅度的结构迁移）：

• "公司战略"段 ↑：2022 年收购 HEYDUDE 带来整合 + 债务风险
• "财务与会计"段 ↑：收购推高杠杆
• "宏观经济"段 ↓：COVID 冲击在 2021 相对缓释

三家的 risk heading 本来各写各的，论文还演示了怎么用 LLM 先把所有 heading 映射到一套统一银行风险分类（信用 / 市场利率流动性 / 运营科技 / 监管法律 / 战略外部 / 其他），再用 BShap 横向比——Dummy 公理保证"这家没有的 heading"自动归因 0，不用硬算。

对投资的用处是什么？

这套框架短期当然替代不了分析师，但它能补几个现在挺痛的缺口：

• 排雷优先级：10-K 的 Item 1A 动辄十几页，BShap 能告诉你今年到底是"信用风险段"在恶化还是"宏观套话段"在恶化——后者基本可忽略
• 跨期对比：用 T-1 年作基线，能抓结构迁移（Crocs 式收购风险、银行式利率风险爬坡）
• 模型审计：如果内部已经用 LLM 做情绪 / 板块 / 信用打分，BShap 可以当"第二道门"，看模型是不是被无关词组带偏
• 跨公司可比：同一个词（"earnings""guidance""margin"）在不同标的上的敏感度，一阶占优公理保证能比——这对选股因子组合有点想象空间

局限也得说清楚：精确 Shapley 是 O(2ⁿ)，heading 级（5–7 个）还好，词级就得上蒙特卡洛或分层聚合；另外 LLM 打分本身有随机性，论文里跑了 30 次取均值 + 95% CI，稳定性（rank consistency）和保真度（feature removal test）都验过，但换模型换 prompt 结果会变。

写在后面

可解释性在金融里不是锦上添花，是 MRM（模型风险管控）手册里白纸黑字要求的。把 Shapley 这条老博弈论搬过来、配上金融公理、再接到 LLM + 10-K 上，这篇论文算是把"AI 读文本"从黑箱往合规推了一步。

对个人投资者，下次看财报 AI 情绪分的时候，可以多问一句："分是哪几句给拉上去的？"——能答上来的模型，才敢真放进组合。

原文：https://arxiv.org/html/2607.00856v1

? 风险提示：本文基于学术论文与公开 10-K 文本展开讨论，所涉模型与实证结果为研究方法演示，不构成任何投资建议。LLM 输出存在随机性与幻觉风险，实盘使用前请结合自身风控框架验证。

打赏