推广 热搜： 采购方式甲带滤芯带式称重给煤机减速机型号气动隔膜泵无级变速机链式给煤机履带减速机

DeepSeek 算不对财报?别卷显卡了,这篇论文能给金融IT省百万预算!

日期：2026-02-03 13:55:29 来源：网络整理作者：本站编辑评论：0

文末有惊喜，记得看到最后~

最近项目组为了搞“智能投研助手”已经连加了三个周的班，但效果总是差点意思：明明原文是1.2亿营收，模型推理出来变成12亿。想用参数规模更大的满血版DeepSeek R1，老板又不批预算买H20卡。看着测试用例里时不时出现的胡说八道反馈，真上线了，研究员一天能给我们打八百个电话。

周末得空在家刷了会儿Arxiv，看到一篇新论文《Bridging the Arithmetic Gap: The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning》，创作团队的观点十分扎心：大模型在金融定量推理任务上就如同文科生遇到理科试卷，别指望它能完美推理！

但这篇论文提出的 Financial-PoT（金融思维程序） 架构，让我看到了在低算力、低预算下解决这个问题的希望。说人话就是：既然大模型算术差，那就让它只负责写Python代码，计算的事交给CPU去干。

PoT将分析任务分为语义提取和数学计算两部分，数学计算部分由实时生成的独立的python计算程序完成，从而提升大模型任务性能和准确率。

DeepSeek 这种推理模型虽然强，但在处理 A股年报这种“数据源+映射难度+结果单位”三维复杂的场景时，依然会发生论文里说的“认知崩溃”。

图片为论文table 5数据重绘

简单总结这篇论文给我的 3 个落地启发：

1、降本增效：30B模型能打 235B

论文实测证明，在研报分析这种复杂推理任务场景下，用“模型生成代码+外部工具执行”的模式，小参数模型的效果能超越单纯依靠“大力出奇迹”的大参数模型。这意味着我们不用去考虑H800买不到的问题了！用本地部署的 30B/35B 模型配合代码解释器，就能达到甚至超过昂贵大模型的准确率。

2、安全合规：从“有概率失败”到“可排查到底哪里失败了”

大家做金融项目最怕什么？怕大模型幻觉。大模型直接吐出一个数字，你根本不知道它是怎么算出来的，业务追究出问题原因时总是会汗流浃背。但在 PoT 模式下，模型输出的是一段 Python 代码。

算对了，那是逻辑对。

算错了，看代码就知道是公式引错了还是数据提错了。这种“可追溯、可审计”的特性，才是敢上线的前提。

3、别迷信“全能”，相信“分工”

之前我做行情抓取时也踩过坑，死磕 Prompt 让模型算同比增长率，结果始终无法平衡响应速度和解析准确度。后来把任务拆解：大模型只负责提取“今年营收”和“去年营收”两个变量，计算交给 Python 脚本，准确率瞬间从 65% 飙到 85%。这篇论文用学术严谨的数据（基于95份A股年报的CCB基准测试）验证了这条路的正确性。

图片为论文PoT架构图数据重绘

但也必须得泼盆冷水，这篇论文虽然给了新思路，但在实际落地中，这3个“深坑”不解决，上线必炸 ⚠️：

1、拆分数学计算部分、转换数字以及公式的准确度要求是严苛的

下游收到的哪怕只是错一个小数点，最终结果也是天差地别，这块儿论文里没有做任何校验性质的说明，实践中需要考虑；

2、生成 Python 代码虽然贴合实际任务场景，但也同时拉长了任务的执行时间

对于时效性要求较高的场景，需要考虑把自动生成部分改造成一个通用的计算工具可能更具落地价值；

3、数据完整性、规范性以及勾稽关系复杂程度对大模型推理性能的影响都未在论文中进行进一步讨论

但这些都是金融实际业务场景需要考虑的点。

限于篇幅，更多关于论文的细节解析和思考我整理到下面的资料中，欢迎领取：

【细节深挖】我针对论文更多细节的独家解析（是我整个论文研究解析过程中的完整思考分析）。
【逻辑全景】我提炼的高清思维导图，一眼看懂原文全篇脉络。
【原文直达】官方下载通道（论文原文有大量细节和图表可帮助读者进一步深入研究，有兴趣的朋友建议阅读一下原文）

? 关注公众号，回复“0203”，获取这些正文里放不下的硬核细节。

参考资料
论文标题：Bridging the Arithmetic Gap The Cognitive Complexity Benchmark and Financial-PoT for Robust Financial Reasoning
原作者：Boxiang Zhao, Qince Li, Zhonghao Wang, Yi Wang, Peng Cheng, Bo Lin
声明：
本文仅对论文观点进行技术解读与金融应用前景探讨，版权归原作者所有。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行