税收调查数据与上市公司数据的交叉对比
最近听到不少学界前辈聊到了税收调查数据的代表性和数据质量问题。今天抽了一点空,尝试做一些数据交叉对比工作以检验数据质量。
1.检验方法
基本思路是将2008-2016年的税调数据与同时期上市公司财务报表数据匹配,比较两套数据中相同变量的大小。我们首先匹配两套数据,在剔除变量缺失的样本后,保留了大约12000个观测值,具体分布如下:

受Brandt et al.(2023)的启发,可以比较两个数据库中同一家公司在相同年份的相同变量的大小以判断数据质量。以营业收入为例,构建营业收入变量比为
理想情形下,如果两套数据是真实的且不存在统计误差,变量比应该为1。
2.对比结果
根据匹配后的数据计算了利润表、资产负债表中的重要变量和企业所得税费用的变量比,结果如表1所示。可以看到,全部变量的变量比都要小于1,且绝大部分变量比的90分位数在1左右,意味着对于90%的观测值而言,税调数据变量的数字要小于上市公司财报数据的数字。

我们还可以进一步分析看哪些企业的税调数据变量更可能低于年报。图2描述了企业营收规模和变量比的关系,可以直观的看到营收规模越大的企业,税调数据变量相较于年报数据会越小。图3用总资产衡量企业规模,同样可以发现规模越大的企业变量比越小。


3.为什么
根据前述分析,对于绝大部分变量,税调数据中的数字都要显著低于财报中的数字。为什么会有这一结果?
我个人猜测有两种可能性。第一种可能性是税调数据的报告单位和上市公司年报数据有一定区别。税调数据更多地是以独立法人机构为数据上报基本单位。而上市公司年报是合并财务报表数据,涉及到母公司和子公司的合并报表调整,子公司数量越多,涉及到的调整越多。因此可以推测,母公司规模越大,越可能拥有更多的子公司,因而越可能和税调数据发生偏离(图2和图3)。当然,这只是我的一个猜测,后续还需要和税务系统的工作人员加以核实。
第二种可能性数据存在质量问题,如果我们认为经过严格审计的上市公司年报数据的质量更高的话,那么税调数据可能存在较大的质量问题。在目前税调数据得到越来越多的研究者(包括我在内)广泛使用的背景下,这是我们最不愿意看到的结论。
4.启示
根据目前的信息,在不知道具体调查对象的界定范围的前提下,我们不能够武断地认为税调数据或上市公司年报数据存在严重的质量问题。但可以肯定的是,二者的调查对象口径必然存在某种差异。因此,目前的分析至少能够给实证研究者带来一个重要的启示:如果使用税调数据来补充丰富上市公司的纳税行为信息,可能存在不能忽视的数据错误匹配问题,需要研究者倍加小心。