展会资讯
【银河金工】财报附注结构拆解、数据提取与财务画像——银河金工附注系列研究
2026-05-07 12:31
【银河金工】财报附注结构拆解、数据提取与财务画像——银河金工附注系列研究

【报告导读】

1. 覆盖财报附注五大模块,拆解微观财务信息

2. 从财报下载到数据提取实现全流程自动化,实现财报附注数据批量提取

3. 引入LLM模型进行语义归纳,将管理层讨论与分析转化为结构化信息

4. 落地投研工具与因子,验证增量Alpha能力

核心观点

覆盖财报附注五大模块,拆解微观财务信息:相比传统合并报表中的总量数据,财报附注数据更能反映经济实质、有效提供增量信息。我们对资产负债表、利润表、现金流量表、表外特殊项目及管理层讨论与分析五大附注模块进行拆解,通过代码系统提取财报附注中23个核心科目、79个细分数据列,覆盖资产质量、盈利结构、现金流、研发与供应链等维度。

从财报下载到数据提取实现全流程自动化,实现财报附注数据批量提取:本报告财报PDF全部来自巨潮资讯爬虫,采用高频时间切片轮询策略多进程并发下载,保障财报获取效率。在数据提取阶段,我们建立了语义定位、结构清洗、文本提取的全流程自动化提取体系,用语义感知坐标精准锁定目标科目,用结构清洗修复PDF表格错位、跨页断裂问题,用标题锚定法提取管理层非结构化文本,解决附注非标准化带来的解析难题,实现批量财报的高效、精准数据提取

引入LLM模型进行语义归纳,将管理层讨论与分析转化为结构化信息:针对管理层讨论与分析的非结构化文本,我们引入LLM模型开展语义归纳测试,对经营情况、研发成果等预设字段做标准化提取,同时优化格式清洗与续写补全机制。其中gemma3:4b在信息完整度与运行效率间取得最优平衡,被确定为默认分析模型;整体LLM辅助提取流程稳定高效,可将长文本转化为结构化投研信息。

落地投研工具与因子,验证增量Alpha能力:我们将财报爬虫、数据提取与LLM分析等内容封装为FN Portrait Toolkit,实现财报自动下载、数据解析与可视化画像生成,此财务综合画像Skill可在ClawHub平台安装。同时,我们基于提取数据构建了财报附注基本面因子,在科创板测试显示因子完整度高、相关性低,可有效提供传统报表外的增量信息,为基本面量化模型挖掘超额Alpha提供核心支撑

风险提示

报告结论基于历史价格信息和统计规律,但二级市场受各种即时性政策影响易出现统计规律之外的走势,所以报告结论有可能无法正确预测市场发展,报告阅读者需审慎参考报告结论。历史收益不代表未来业绩表现,文中观点仅供参考,不构成投资建议。

正文

一、  财报附注结构

传统财务报表的三张主表虽然构建了企业财务状况和经营成果的宏观框架,但受限于高度聚合的列报格式,往往难以满足现代量化投资对高维度、精细化数据的需求。仅仅依靠主表静态的总额数据,极易被企业表面的高利润或高增长所掩盖,无法穿透至底层的真实业务运转与隐性风险。相比之下,财报附注作为对正表核心科目的深度解构与补充说明,蕴含着更加丰富的微观信息。通过解析附注,我们能够还原主表背后资产负债的真实状况、盈利质量的优劣以及现金流转的实质,从而获取传统财务比率无法提供的超额Alpha信号。

然而,与格式标准化的主表不同,财报附注的信息多以非结构化的长文本、嵌套表格以及多维数据矩阵的形式展示,排版上的相对自由与多变不仅使得人工梳理耗时费力,更对规模化、自动化的代码读取带来了较大的技术挑战。因此,在探讨如何运用前沿的语义感知与结构清洗技术进行高效信息提取之前,首要前提是必须理清各类财报附注的披露顺序与披露格式。

基于此,本报告将遵循企业财务报告的内在编制逻辑,依次从资产负债表项目、利润表项目、现金流量表项目、其他表外及特殊项目和管理层讨论与分析五大维度,全面梳理财报附注的典型排版结构与可得信息。我们将通过对各类核心科目(如应收账款账龄、存货物理形态、研发费用明细等)附注形态的解析,展示如何将合并报表中的宏观数字细化为微观的业务切片,从而为后续通过代码精准提取数据、进而搭建多维基本面量化模型奠定坚实的业务基石。

(一)资产负债表项目注释

在资产负债表的注释中,其结构严格按照资产与负债的流动性强弱与期限长短依次向下展开,核心在于对企业营运资本质量与底层资产结构的还原。

1.资产类项目

在流动资产端,货币资金拆分为库存现金、银行存款及其他货币资金等细分项,并展示因承兑汇票保证金、信用证保证金等导致使用权受限的具体明细。

对于应收款项(包含应收票据、应收账款、应收款项融资及预付款项),附注通常会从多角度展示应收账款的特征,包括账龄结构、按单项和信用风险特征组合计提坏账准备的金额与比例、期末余额前五名的应收账款与合同资产情况,等等。

存货的注释则将其物理形态拆解为原材料、在产品、库存商品、发出商品等明细项,并对应披露存货跌价准备的期初余额、本期计提与本期转销金额。

在非流动资产及负债端,附注的结构重点转向企业的资本沉淀与长期杠杆。固定资产与无形资产部分以“原值、累计折旧/摊销、减值准备、账面价值”的四行变动表形式,来展示期初余额、本期购置、在建工程转入、本期处置及期末余额的完整资产流转轨迹。

在建工程注释会穿透至具体的重大工程项目,披露其预算数、期初末余额、工程累计投入占预算比例以及利息资本化金额。

商誉部分则系统列示账面原值及其减值测试的核心参数。通过披露这些信息,有助于了解商誉减值测试的合理性和潜在风险,从而更全面地评估企业的资产质量和未来盈利能力。

2.负债与权益类项目

在负债端,附注依次拆解短期借款与长期借款的融资性质(信用、质押、保证等),披露应付债券的期限结构与利率水平,同时也列示应付职工薪酬中短期薪酬与离职后福利的计提发放情况。

在权益端,从未分配利润的附注表格中,我们可获取企业当年净利润提取盈余公积、提取风险准备与派发现金股利的具体情况。

(二)利润表项目注释

利润表项目的附注结构采用了从总额到明细的自上而下拆解法,其重点在于企业收入与成本的结构、期间费用的拆解与营业外收支等非日常经营活动带来的利润变化。

其中,营业收入和营业成本的披露是最核心的信息。附注通常要求将主营业务收入与成本按照产品类别、业务类型以及经营地区等维度进行多层次交叉拆分。例如,在经营地区维度上,收入还可以进一步区分为国内与国外(或其他国家和地区)来源。这些数据可穿透利润表中的汇总数据,拆解企业各项细分业务的规模体量、成本分布与毛利变动,也有助于识别不同区域市场的收入贡献及其经营表现差异。

在期间费用的披露中,附注实现了数据从“费用属性”向“经济实质”的转换。销售费用、管理费用、研发费用被详细拆解为职工薪酬、折旧摊销、物料消耗、差旅及业务招待费、广告宣传费等具体开支项目,我们可从中进一步了解企业期间费用中付现费用(包含人力成本与物料等投入)和非付现费用(折旧摊销)的构成。财务费用则被拆分为利息支出、利息收入、汇兑损益及手续费等子项。

此外,附注将非核心主业的收益单列并进行列明其来源,包括具体补助项目的政府补助(其他收益/营业外收入)、分类列示的公允价值变动收益与资产处置收益,以及细分到具体底层资产科目的信用减值损失和资产减值损失。

(三)现金流量表项目注释

现金流量表项目注释的核心结构是现金流量表的项目细分,其提供了连接利润表(应计制)与资产负债表(收付实现制)的完整数据调节链条。该部分附注详细披露了现金流量表的项目,包括与经营活动有关的现金、与投资活动有关的现金、与筹资活动有关的现金,以及现金和现金等价物的构成。

现金流量表项目中列示了现金流量表中各项重要收支的构成明细,包括与经营、投资及筹资活动相关的现金流入与流出等具体项目,并通过表格形式清晰呈现各项具体业务(如政府补助、各项费用支出、理财产品收支等)的本期发生额。同时,附注也单独披露了筹资活动产生的各项负债变动情况,细致划分了现金变动与非现金变动的影响,从而有效补充了现金流量主表的汇总数据,使得我们能够深度透视企业底层资金的真实流转轨迹与各项活动的实际资金消耗。

附注中也详细列示了现金及现金等价物的构成,包括库存现金、可随时用于支付的银行存款及其他货币资金等具体项目;同时,单独列出了母公司或集团内子公司使用的受限制现金和现金等价物,我们可依此对企业现金资源的真实流动性水平进行定量刻画。

(四)其他表外及特殊项目注释

这一部分附注涵盖了传统财务报表正表无法直接体现的结构化信息与异质性数据,揭示了企业的隐性特征与潜在敞口。

首先是“外币货币性项目”,该部分按照具体的原币币种(如美元、欧元、日元等),分类披露了各项外币资产(如外币存款、外币应收账款)和外币负债(如外币短期借款、外币应付账款)的期末外币原币余额、适用的折算汇率及折算后的人民币余额,直观呈现了企业的各类外汇敞口。

此外,该部分内容还包含了特殊项目披露,例如租赁业务中企业作为承租人与出租人的未折现租赁收款额与付款额结构。附注从两方视角出发,既披露了承租方的各项可变费用与现金流出总额,又通过期限结构表直观呈现了出租方未来五年及以上的未折现收款额分布。这些内容有效补充了企业表外资产负债的情况。

研发支出附注主要揭示企业研发投入的结构与资本化情况。利润表中的“研发费用”仅能反映当期费用化研发支出的状况,而“研发支出”还包含资本化研发支出的投入与结转状况,可更加全面地反映企业在研发活动上的投入水平。此外,研发支出资本化比例过高也可能存在降低费用、虚增利润之嫌,了解公司研发支出资本化的情况可从侧面反映企业财务报表的质量。

(五)管理层的讨论与分析

管理层的分析与讨论章节主要涵盖企业对行业趋势、经营情况、核心竞争力及风险因素的综合阐述,从更前瞻的视角补充了传统三大财务报表无法直接呈现的的经营逻辑、发展战略与潜在风险。

在研项目情况主要披露企业重点研发项目的投入规模、当前进展及成果转化预期,通常涵盖预计总投资、本期及累计投入金额、阶段性成果、拟达到目标、技术水平和应用前景等信息。该部分能够较为直观地反映企业的研发储备深度、技术推进节奏以及未来产业化落地潜力。

知识产权列表主要披露企业报告期内各类知识产权的新增与累计情况,包括发明专利、实用新型专利、外观设计专利及软件著作权等类别。该部分可从知识产权储备与成果产出的角度,反映企业的技术积累深度、自主创新能力及研发成果转化情况。

前五名客户与供应商部分主要披露企业报告期内核心销售对象和采购对象的金额、占比及关联关系情况。该部分能够从收入集中度、采购集中度及关联交易风险等维度,反映企业上下游结构稳定性、客户依赖程度与供应链安全状况。

此外,对于“核心技术及其先进性”部分,虽然其信息价值较高,能够较好地反映企业的技术储备与竞争优势来源,但由于不同公司年报在该类表格的字段设置、表头层级、描述口径等方面差异较大,当前难以基于统一规则实现稳定且高质量的批量提取。因此,本研究对该部分内容的提取结果仅在部分公司年报中生效,尚未覆盖全部样本。后续若需进一步提升该模块的适用范围与提取稳定性,仍需针对不同表格类型设计更细化的识别与适配规则。

例如下图中,澜起科技年报“核心技术及其先进性”部分全部为成段落的文字,而寒武纪年报“核心技术及其先进性”部分则以表格为主,同时也包含文字与图片,提取信息难度较大。针对这一问题,未来我们将根据具体数据需求,改善数据质量。

二、财报信息提取

(一)索引爬取与高并发下载

获取财报附注数据的第一步是获取财报PDF文件。在下载财报PDF文件这一步,我们面临着全市场公告数量庞大、服务器请求限制以及文件易损坏等问题。为此,我们设计了对接巨潮资讯(CNINFO)标准API的智能爬虫系统。

爬虫系统采用高频时间切片轮询策略,并引入了基于正则表达式的智能关键词过滤机制,在获取索引的环节即自动剔除标题中含有“摘要”、“英文版”、“已取消”等字样的无效公告,从而有效提升了目标文件池的纯度。

在文件下载环节,系统调用了多进程并发下载引擎(Multi-process Engine)以实现万级PDF文件的自动化存取。为了避免网站反爬,在常规的更新请求头等手段之外,下载引擎内置了三级重试与超时保护机制。同时,为了防止下载到因网络中断而产生的“空壳”或损坏文件,我们在数据流写入阶段直接对二进制文件进行了完整性校验。系统不仅会检查文件大小是否为零,还会严格读取文件头部的首字节(Bytes),验证其是否包含标准的“%PDF”标识。只有通过物理层完整性校验的文件,才会被放入后续的解析池中。

(二)语义感知坐标定位

一份标准的上市公司年报通常长达两三百页,附注信息仅为其中某几个大的章节,且完全缺乏统一的HTML或XML标签结构。为了在海量文本中精准锁定目标科目,我们采用了一套基于正则驱动的语义感知与边界锚定技术。

在解析具体PDF页面时,系统首先会测算页面高度,并自动剥离顶部和底部的页眉、页码等边缘干扰区域。随后,算法会全局快速扫描“财务报表项目注释”这一核心大章节的起始页码,避免无效的全文本遍历。

进入附注章节后,针对每一个目标提取科目,系统为其配置了“开始标题”与“结束标题(即下一个相邻科目)”的专属正则表达式。当算法逐行扫描并匹配到目标科目的开始标题时,会立即提取该文本在当前页面上的绝对Y轴物理坐标(Top值);同理,算法继续向下寻找结束标题并提取其Y轴坐标。通过这两个纵向坐标,系统在二维空间上框定了一个严格的物理边界,后续的表格提取将仅限于该边界内进行。此外,为了提升计算效率,系统在锁定科目标题后会向下快扫若干行,一旦识别到“□适用 √不适用”等特征表述,将触发全局阻断信号,直接跳过该科目的提取,以降低无效的算力开销。

(三)结构清洗修复

由于PDF中的表格本质上只是纯文本块和线条坐标的集合,在解析时极易发生行列错位、表头嵌套和跨页断裂。为此,我们融合了多种启发式规则进行表格的结构化重塑。

首先,在表格提取引擎的选择上,系统优先采用基于物理线框的识别策略;若遇到隐形边框排版,则自动降级触发基于文本坐标对齐的策略,并通过动态调整捕捉容差来兼容不同上市公司财报的排版风格。提取出的原始表格往往包含跨行、跨列的复杂多层表头(如“期初余额”下挂“账面余额”与“减值准备”)。系统通过自上而下的逻辑扫描,识别上下层表头的从属关系,利用跨列继承与字符串拼接技术,将多维度的复杂表头“压平”为一维的标准表头。

其次,针对被页面物理截断的长表格,我们开发了跨页断头表合并算法。该算法利用“红绿灯”机制,通过检测当前行第一列的特征来判断其数据属性。如果当前页表格的第一列为空白,或者缺乏“合计/总计”等终结性标识,系统会将其判定为上一页未完结数据的延续(黄灯或绿灯),进而触发跨页拼接逻辑,将当前行的数据与缓存中上一行的对应单元格进行文本融合,解决了长表格跨页导致的行断裂问题。对于列内出现空值导致的数据整体错位,系统亦会触发自适应挤压算法,将有效数值强制左对齐至正确的表头维度下。

(四)文本信息提取

与财务报表附注中大量以表格形式呈现的结构化数据不同,管理层讨论与分析部分往往以连续长文本为主,内容涵盖经营情况讨论与分析、行业发展趋势、核心竞争力分析以及风险因素等多个维度。这类信息虽然缺乏统一的表格边框与字段标签,却蕴含着对企业经营逻辑、战略方向与潜在风险的高密度语义表达。为实现对此类非结构化文本的规模化提取,系统在表格抽取链路之外,进一步构建了一套基于标题识别与边界截断的文本提取机制,将原本分散在年报正文中的文字段落切分为可直接存储和分析的独立文本单元。

在具体实现上,系统首先在年报前部页面中定位“管理层讨论与分析”章节的起始位置,并以此作为文本抽取的入口。随后,针对“经营情况讨论与分析”“报告期内新技术、新产业、新业态、新模式的发展情况和未来发展趋势”“核心竞争力分析”“风险因素”等目标项目,分别预设起始标题与下一相邻标题的正则匹配规则。算法在匹配到目标标题后,不再依赖坐标框选表格区域,而是沿页面文本流继续向下扫描,直至识别到下一个章节标题为止,从而完成当前文本区块的边界截断。通过这种“标题锚定—顺序扫描—相邻标题终止”的方式,系统能够较为稳健地从长篇叙述中抽离出语义完整、边界清晰的文本内容,避免不同主题段落之间的相互混入。

为了提升提取结果的可用性与稳定性,系统在文本抽取过程中还加入了轻量级清洗与有效性判断机制。一方面,程序会对原始文本中的换行符、回车符及非断行空格等噪声字符进行统一清理,尽可能保留文本语义的连续性;另一方面,系统会在目标标题附近检测“√适用 / □不适用”等标记,若识别为不适用,则直接跳过该项目,避免将空章节或模板性占位内容纳入结果集。此外,为防止页眉、页码或极短碎片化文本干扰正文语义,算法仅保留具有一定长度的有效文本行,从而提高输出文本的整体质量。

在输出层面,文本提取结果不再写入Excel表格,而是按照所属类别分别保存为txt文件,并在最终汇总表中同步记录项目名称、提取状态、提取类型、文本行数及输出路径等关键信息。相较于表格类数据直接服务于数值型因子构建,文本类结果更适合作为后续自然语言处理、主题归纳、风险标签识别及公司画像的原始语料来源。

三、信息提取结果与分析

基于前文所述的语义感知与结构清洗引擎,我们成功实现了对海量上市企业非结构化财报附注的深度解析与结构化重塑,并构建了一个较为完整的基本面量化特征库,提取范围覆盖资产负债表、利润表、现金流量表等3大核心报表区间。在提取维度上,系统共计精准锁定了23 个核心财务科目,并将其向下穿透拆解为79个底层细分数据列。财报附注数据有效丰富了传统基本面数据库的信息,为后续搭建多维度的基本面Alpha模型、精准识别企业盈余管理与财务风险提供了坚实的数据基础。

(一)资产负债表数据提取

资产负债表附注提取的重点在于透视企业的底层资产质量与真实债务杠杆。我们目前已提取到9个核心科目,细分32个底层数据列,包括按账龄划分的应收账款结构与对应的坏账计提情况、存货分类、固定资产情况、长短期借款的性质、职工薪酬列示等。未来我们可基于这些数据,构建账龄结构、存货结构、固定资产质量、潜在坏账风险、流动性风险、企业员工变动等多维基本面因子。

(二)利润表数据提取

利润表附注提取的核心在于拆解成本结构与提纯核心盈利。本部分包含销售费用、研发费用、资产减值损失等9个关键科目,提炼出31个细分数据列。从成本费用的角度,附注数据能够将期间费用划分为职工薪酬、折旧费及业务招待费等具有不同经济属性的成本单元,我们可依此剥离期间费用中折旧摊销等非付现成本,了解企业真实的费用支出状况;从收入利润的角度,一方面我们可以获得营业收入在不同业务、不同国家地区间的构成比例,另一方面也可剔除政府补助等偶发性收益,刻画核心业务的增长情况,有效规避因非经常性损益造成的业绩高增假象。

(三)现金流量表数据提取

对于现金流量表附注,我们围绕经营、投资与筹资三大活动,提取了3大关联科目及8个具体业务流向数据列。相较于主表的净额数据,附注进一步拆解了“其他与经营/筹资活动有关的现金”等项目,包含政府补助流入、理财产品收支及保证金变动等现金流变化。根据现金流量表的附注数据,我们可以从中了解企业真实的自由现金流创造能力,同时也可评估企业是否存在空转套利、过度金融化等异常风险。

(四)管理层分析与讨论数据提取

除三大财务报表及附注外,管理层讨论与分析中还包含一批以表格形式呈现、便于直接结构化提取的关键信息。本部分首先聚焦于以xlsx报表形式输出的项目,主要包括核心技术及其先进性、在研项目情况、知识产权列表、前五名客户以及前五名供应商等内容。这类数据具有字段清晰、口径相对标准化、横向可比性较强的特点,能够从技术储备、研发投入、知识产权积累以及上下游集中度等多个维度,对企业的核心竞争力进行量化刻画。其中,核心技术及其先进性、在研项目情况和知识产权列表有助于识别企业的技术壁垒与成长潜力,前五名客户和前五名供应商则能够反映企业收入结构、客户依赖度、采购集中度及供应链稳定性,可帮助我们量化识别企业的供应链风险。

(五)管理层的分析与讨论文本提取及分析

管理层讨论与分析中还包含大量以txt文本形式提取的文字类项目,主要包括新技术新产业发展趋势、经营情况讨论与分析、核心竞争力分析以及风险因素等内容。相较于表格类数据,这部分信息更偏向企业对外部行业环境、内部经营变化、竞争优势来源及潜在不确定性的综合阐述,具有较强的语义密度和前瞻属性。通过对相关文本进行结构化整理与语义归纳,可以进一步提炼企业所处赛道景气度、战略发展方向、主营业务变化、竞争壁垒来源以及主要经营风险暴露等关键内容,从而补充传统财务指标难以覆盖的定性信息。对于基本面研究而言,这类文字信息不仅能够增强对企业经营逻辑的理解深度,也有助于从行业趋势、竞争格局和风险预期等维度挖掘具有解释力的增量因子。

在完成管理层讨论与分析文本的原始抽取后,本报告进一步引入基于本地大语言模型的语义分析模块,对文字类项目进行标准化归纳,并以Excel形式展示不同模型的输出结果。相较于前述规则引擎主要解决年报PDF中目标文本的定位与切分问题,该模块的重点在于考察大语言模型在管理层文本归纳任务中的执行效果,并对不同模型的处理效率与输出表现进行横向比较。具体而言,程序读取前序环节输出的txt文本后,通过本地Ollama接口调用不同模型,分别对“经营情况讨论与分析”、“报告期内获得的研发成果”等文本开展字段约束下的语义归纳,最终将结果统一写入Excel文件中。

从分析方式看,系统为不同任务预设了明确的输出模式。其中,对于“经营情况讨论与分析”文本,模型被要求围绕“业务板块”“战略目标”“现状描述”“关键措施”四个维度进行归纳;对于“报告期内获得的研发成果”文本,我们要求模型归纳“技术/产品类别”“具体成果”“性能指标”“应用前景”“进展状态”等字段。通过设定统一的schema,并要求模型仅返回JSON数组,系统能够在相同输入口径下对不同模型的输出结果进行对照,从而提升多模型测试过程的一致性与可比性。

考虑到大语言模型在长文本输出场景下可能出现markdown包裹、引号异常、尾随逗号、括号缺失以及结果截断等问题,程序在解析层加入了相应的清洗与修复机制。具体包括对代码块标记、控制字符和异常符号的统一清理,以及括号补全、尾逗号修正和对象级恢复等处理;若检测到模型输出疑似因长度限制而中断,系统还会自动触发一次续写请求,以尽量补齐未完成内容。上述设计主要服务于多模型比较过程中的结果稳定输出,避免由于格式问题影响不同模型之间的横向评估。

在模型比较方面,本文构建了统一的测试流程,对不同本地模型在管理层文本归纳任务中的表现进行横向评估。评估内容主要包括经营文本与研发文本两个子任务的成功标记、输出记录条数、单模块耗时、总耗时以及最终Excel输出情况等。通过这一流程,可以较为直观地比较不同模型在响应速度、输出完整性与格式稳定性方面的差异,为后续模型选型和实验展示提供依据。

整体而言,轻量模型通常在推理时延上更具优势,而能力较强的模型在复杂文本归纳和字段完整性方面往往表现更为稳定;因此,模型优劣的判断并不应仅基于耗时指标,而应结合输出结果的完整程度与稳定性进行综合考量。

从多模型对比结果来看,gemma3:4b 在输出完整性与推理效率之间取得了较优平衡。一方面,该模型在经营情况与研发情况文本中均能给出较为充分的归纳结果;另一方面,其总耗时控制在相对较低水平,明显优于输出规模接近但耗时更高的qwen2.5:7b和glm4:9b。综合考虑分析完整度与运行成本,后续文本分析统一采用gemma3:4b作为默认模型。

(六)报告处理累计耗时分析

为进一步评估整套财报附注提取流程在大规模样本下的可行性,本文对科创板2025年半年报样本进行了批量处理耗时统计。整体流程采用多进程并行处理方式,通过在操作系统层面启动多个Python子进程,同时分发不同PDF报告的解析任务,从而提升批量年报处理效率。相较于串行逐份处理,多进程模型能够更充分利用多核CPU资源,在高并发下载、页面解析、表格提取与文本清洗等环节实现更高的整体吞吐能力。

从累计耗时曲线来看,随着已完成报告数量持续增加,累计处理时间整体呈近似线性上升,说明在批量运行过程中,程序处理节奏总体较为平稳,未出现明显的性能退化或大规模阻塞现象。结合图中结果可以看出,在多进程并行处理模式下,完成全部587份半年报样本的提取累计耗时约为 17分钟,表明该方法在面对大规模财报样本时仍具备较高的处理效率和较好的扩展能力。

四、财报附注数据应用示例

为进一步展示财报附注数据的实际应用价值,后文中,我们将从企业财报画像与基本面因子构建两个角度,具体展示财报附注数据可行的应用场景。从静态历史的角度,我们完成了金融财报画像生成Skill的封装,可实现年报自动下载与数据提取,最终输出包含多张图表与语义摘要的综合画像;从动态前瞻的角度,我们实现了财报附注基本面因子的初步构建,从结果来看,多数财报附注因子可以达到较高的数据覆盖度,其中部分因子具有较优的因子有效性表现,且财报附注因子整体相关度较低,表明财报附注数据可在合并报表之外,有效提供微观层面的增量信息。

(一)金融财报画像生成Skill

我们将前文中下载年报PDF、解析并提取财报附注数据、LLM文本分析等内容汇总并封装为Skill,命名为FN Portrait Toolkit。该工具可对某一指定上市公司,从巨潮资讯自动下载年报/半年报PDF并进行财报附注数据提取,最终输出关键财务指标的图表及财务趋势分析等内容,以长图形式直观展示该公司的财务变化趋势、技术发展水平与经营战略等核心信息。

1.系统概述

FN Portrait Toolkit是一个用于中国A股上市公司财务报告分析的自动化工具。系统能够从PDF年报中提取结构化财务数据,通过LLM进行智能分析,最终生成包含趋势分析和可视化图表的综合Portrait报告。其核心功能包括:

·PDF自动下载: 从巨潮资讯网自动下载上市公司年报PDF

·结构化数据提取: 从PDF中提取16项关键财务指标

·LLM智能分析:5维度趋势分析(营收/费用/资产/研发/供应链)

·Portrait可视化: 生成包含趋势头部、16张子图、语义摘要的综合图表

2.流程架构

FN Portrait Toolkit系统采用四步流水线架构,各步骤解耦,支持断点续跑。具体流程如下图所示。

3.使用指南

使用FN Portrait Toolkit有两种方式,一是通过OpenClaw Skill安装,二是运行源码,两种方式具体配置如下:

1)OpenClaw Skill安装

2)源码运行

在指定上市公司与统计时间区间时,需设置以下参数,详情如下表所示。

最终输出的结果包含结构化的Excel数据与长图形式的综合财务画像,输出文件名称如下:

·结构化Excel数据:output2/<代码>_<名称>/多个Excel文件

·综合财务画像:portraits/Portrait_<代码>_<名称>.png

综合财务画像输出结果的示例如下图所示。

(二)财报附注基本面因子构建示例

财报附注数据同样在量化策略中可得到有效应用,我们能够获取尚未充分定价的差异化因子,从财报附注因子中挖掘Alpha增量,这也是我们进行财报附属数据系列研究的初衷。目前我们已初步构建了一些计算较为简单的财报附注因子,下文中我们将展示部分示例,以验证财报附注因子在量化投资中的效果。在未来的系列报告中,我们将进一步在因子构建、因子预处理、有效性测试与回测等方面对财报附注因子进行深入的挖掘与改进。

在报告《主题选股策略系列:成长为矛基本面为盾,量化掘金科技股投资》中,我们曾详细拆解了研发费用财报附注的构成,并构建了研发费用折旧摊销占比、研发费用直接投入占比等因子,这是我们银河金工团队研究财报附注数据的开端。而在本报告中,我们进一步提取了在研项目、知识产权列表等数据,基于这些数据,我们构建了研发类财报附注因子,具体计算方法如下表所示。

由于在研项目、知识产权列表等数据仅在科创板范围内披露较为全面,下文所有示例及有效性测试结果等数据均仅在科创板范围内计算。

在科创板范围内,我们首先计算因子完整度。由下图可见,在未经任何填充空值等预处理的前提下,对于2025年半年报,除在研项目技术水平因子外,其他所有因子数据完整度均高于80%,其中半数以上因子数据完整度高于90%;从2019年报至2025半年报的均值来看,也有半数以上因子平均数据完整度在90%以上,表明研发类财报附注因子总体数据较为完整,可在科创板范围内进行后续的预处理与有效性测试。

在完成了填充空值、去极值、标准化、中性化等因子预处理后,我们首先计算了因子相关性结果,由下图可见,除了平均单项研发成本和在研项目平均投入金额等本身计算公式之间存在较高相似度的因子外,绝大多数因子两两之间相关系数都在±0.2之内,相关性较弱,也从侧面说明财报附注因子可有效提供增量信息。

更进一步,我们将半年频的财报附注因子转化为月频,并采用RankIC法测试了因子有效性。从结果来看,在研项目技术水平的ICIR最高,发明专利占比的ICIR次之,表明企业的技术水平确实与未来股价收益率存在较为显著的正相关;此外,本年新增申请知识产权占研发费用比的ICIR为负,表明该因子的倒数,即研发费用/本年新增申请知识产权的ICIR为正,这说明平均单个知识产权付出的研发费用越多,表明企业的研发投入力度越大,这也与公司未来股价收益率之间存在正相关关系。

总而言之,从前文的实例中,我们可以看出财报附注数据确实具有相关度低、可提供增量信息的优势,能够帮助我们挖掘未充分定价的差异化因子;且当前上市公司年报的披露日趋规范,财报附注数据完整度虽然不及合并报表数据,但总体缺失值较少,已达到可批量使用的水平。在未来的系列报告中,我们将基于本文的代码系统与财报附注数据,对数据库进行的补全,并从成本、盈利、研发、风险等多角度开发新的基本面因子,构建一个完善的银河金工基本面系列数据库与策略体系。

五、风险提示

报告结论基于历史价格信息和统计规律,但二级市场受各种即时性政策影响易出现统计规律之外的走势,所以报告结论有可能无法正确预测市场发展,报告阅读者需审慎参考报告结论。基金历史收益不代表未来业绩表现,文中观点仅供参考,不构成投资建议。

六、附录

FN Portrait Toolkit对配置的要求及支持的数据范围如下:

·系统要求:Python 3.9+, 8GB+ RAM, macOS/Linux/Windows

·依赖库:pandas, openpyxl, requests, matplotlib, numpy, pillow, pdfplumber, filelock

·支持板块:科创板、创业板、沪主板、深主板

·支持年份:2020年至今

如需获取报告全文,请联系您的客户经理,谢谢!

本文摘自:中国银河证券2026年5月1日发布的研究报告《【银河金工】财报附注系列研究:财报附注结构拆解、数据提取与财务画像

分析师:马普凡、刘璐

评级标准:

评级标准为报告发布日后的6到12个月行业指数(或公司股价)相对市场表现,其中:A股市场以沪深300指数为基准,新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准,北交所市场以北证50指数为基准,香港市场以恒生指数为基准。

行业评级

推荐:相对基准指数涨幅10%以上。

中性:相对基准指数涨幅在-5%~10%之间。

回避:相对基准指数跌幅5%以上。

公司评级

推荐:相对基准指数涨幅20%以上。

谨慎推荐:相对基准指数涨幅在5%~20%之间。

中性:相对基准指数涨幅在-5%~5%之间。

回避:相对基准指数跌幅5%以上。

法律申明:

本公众订阅号为中国银河证券股份有限公司(以下简称“银河证券”)研究院依法设立、运营的研究官方订阅号(“中国银河证券研究”“中国银河宏观”“中国银河策略”“中国银河固收”“中国银河科技”“中国银河先进制造”“中国银河消费”“中国银河能源周期”“中国银河证券新发展研究院”)。其他机构或个人在微信平台以中国银河证券股份有限公司研究院名义注册的,或含有“银河研究”,或含有与银河研究品牌名称等相关信息的其他订阅号均不是银河研究官方订阅号。

本订阅号不是银河证券研究报告的发布平台,本订阅号所载内容均来自于银河证券研究院已正式发布的研究报告,本订阅号所摘录的研究报告内容经相关流程及微信信息发布审核等环节后在本订阅号内转载,本订阅号不承诺在第一时间转载相关内容,如需了解详细、完整的证券研究信息,请参见银河证券研究院发布的完整报告,任何研究观点以银河证券发布的完整报告为准。

本订阅号旨在交流证券研究经验。本订阅号所载的全部内容只提供给订阅人做参考之用,订阅人须自行确认自己具备理解证券研究报告的专业能力,保持自身的独立判断,不应认为本订阅号的内容可以取代自己的独立判断。在任何情况下本订阅号并不构成对订阅人的投资建议,并非作为买卖、认购证券或其它金融工具的邀请或保证,银河证券不对任何人因使用本订阅号发布的任何内容所产生的任何直接或间接损失或与此有关的其他损失承担任何责任,订阅号所提及的任何证券均可能含有重大的风险,订阅人需自行承担依据订阅号发布的任何内容进行投资决策可能产生的一切风险。

本订阅号所载内容仅代表银河证券研究院在相关证券研究报告发布当日的判断,相关的分析结果及预测结论,会根据银河证券研究院后续发布的证券研究报告,在不发出预先通知的情况下做出更改,敬请订阅者密切关注后续研究报告的最新相关结论。

本订阅号所转发的研究报告,均只代表银河证券研究院的观点。本订阅号不保证银河证券其他业务部门或附属机构给出与本微信公众号所发布研报结论不同甚至相反的投资意见,敬请订阅者留意。

《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过微信订阅号发布的本图文消息仅面向银河证券客户中的机构专业投资者,请勿对本图文消息进行任何形式的转发。若您并非银河证券客户中的机构专业投资者,为保证服务质量、控制投资风险,请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。

本订阅号所载内容的版权归银河证券所有,银河证券对本订阅号保留一切法律权利。订阅人对本订阅号发布的所有内容(包括文字、影像等)的复制、转载,均需注明银河研究的出处,且不得对本订阅号所在内容进行任何有悖原意的引用、删节和修改。

投资有风险,入市请谨慎。

发表评论
0评