推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机型号  减速机  履带  带式称重给煤机  链式给煤机  无级变速机 

公共管理 | 中国政府工作报告文本数据库更新:多维指标,赋能深度研究

   日期:2026-01-30 23:50:18     来源:网络整理    作者:本站编辑    评论:0    
公共管理 | 中国政府工作报告文本数据库更新:多维指标,赋能深度研究

一、前言

政府工作报告作为我国政府行政运行过程中形成的文本材料,系统性地记录了国家治理的年度进程与政策发展脉络。作为具备法定效力的正式文件,它既是对外呈现政府履职成效、回应社会公众关切的重要窗口,也是对内部统一施政方向、部署关键工作的指导载体。

从学术研究的角度看,这一系列报告构成了观察当代中国政治经济变迁的珍贵文本资料。其内容既涵盖国家发展的宏观战略,也包含具体领域的政策安排,在体现制度连续性的同时,亦反映出与时俱进的改革动态。随着量化文本分析方法的日益成熟,这类具有系统性、历时性和多层次特征的标准化文本,为开展比较政治研究、政策话语分析等相关课题提供了高质量的基础语料。通过对报告中主题结构、表述方式等进行历时性追踪与分析,能够为深入理解中国政府的治理逻辑与发展转型路径,提供扎实的文本依据与理论参考。

二、数据库简介

中国政府工作报告文本数据库,系统收录了中央(1954–2025)、省级(2002–2025)及地市级(2003–2025)三级政府公开发布的政府工作报告全文。所有文本均直接来源于各级政府官方网站,采用自动化采集与人工校验相结合的方式完成数据获取与整理。受限于部分地区信息公开的完整性,数据库中个别年份或层级的报告存在缺失。经清洗与筛选,最终入库有效报告共计6931份,累计字符规模约1.1亿。

中国政府工作报告文本数据库,主要包含5个子库,每个子库分为中央、省、地市三个模块:

(1)工作报告基础指标库

基于工作报告文本全文,运用结巴分词等技术构建,系统呈现报告文本的基本统计特征,具体包括总词数(未剔除停用词)、总字符数(剔除停用词)等字段。

(2)工作报告情感指标库

基于工作报告文本全文,并结合现有国内外文献所提供的情感词典和计算方法所构建。现有文献中常用的文本情感语调词典包括清华大学李军的中文褒贬义词典、台湾大学NTUSD简体中文情感词典、Hownet中文情感词库、大连理工大学中文情感词汇本体和根据中文社交媒体通过机器学习方法构建的Boson中文情感词典。其中大连理工大学中文情感词汇本体库和Boson中文情感词典不仅有情感的正负方向,还有情感的强度。本数据库所构建的情感指标库主要基于NTUSD、Hownet和Boson三种文本情感语调词典。

(3)工作报告可读性指标库

基于工作报告文本全文,并结合现有国内外文献所提供的计算方法所构建。参照Li(2008),王克敏等(2018)和徐巍等(2021)的研究,该指标库构建了反映工作报告文本可读性的三种衡量方法,并统计了计算这三种可读性的基础指标,包括:常用词数、副词连词数和句均词数等指标。

(4)工作报告相似度指标库

基于工作报告文本全文所构建的反映工作报告文本内容调整幅度的指标库。参照Brown and Tucker(2020)的做法,该指标库包含了反映工作报告文本相似度的常用指标,包括文本之间的余弦相似度、杰卡德相似度、最小编辑距离和欧式距离等,同时考虑到常用词等因素的影响,该指标库同时区分了用TF-IDF加权后的文本相似度和未加权的文本相似度指标。

(5)工作报告其他文本指标库

基于工作报告文本全文所构建的反映工作报告文本特征的其他指标,主要包括数字个数、金额个数、百分比个数、数字占比以及金额和百分比占比等信息披露指标,以及名词、形容词占比等语言学指标。

数据下载指南
数据下载路径:学科专题-公共管理-政府工作报告-?中国政府工作报告文本数据库?
上述数据已在企研·社科大数据平台(机构版)(r.qiyandata.com)、企研·社科大数据平台(零售版)(m.qiyandata.com)、企研·社科大数据平台(云桌面版)(cloud.qiyandata.com)正式上线,欢迎大家下载使用!
科研党必看!企研云桌面版平台使用指南,从注册到数据外发一步到位
保姆级教程!3分钟玩转企研·社科大数据平台(机构版)
数据下载 | 校外访问企研·社科大数据平台
企研·中国公共管理(2026版)数据库框架(筹)

三、数据应用案例

政府工作报告可作为评估政府环境治理、数字政府建设、研发投入及民生政策导向等方面工作成效的重要文本依据。

(1)地方政府环境目标约束是否影响了产业转型升级(余泳泽等,2020)

本文整理了历年各省及地市级政府工作报告,并将其中明确设定了工业污染物排放数值控制目标的地市,界定为受到环境目标约束的样本。在此基础上,采用DID模型和工具变量法研究了地方政府环境目标约束对产业转型升级的影响。

(2)地方政府施政风格与经济高质量发展——基于股价崩盘风险的研究视角(游家兴等,2022)

本文基于手工整理的1585个积极词汇、575个消极词汇、73个不确定词汇、858个强语气词汇、99个弱语气词汇以及204个歧义词汇,对5663份政府工作报告的情感语调进行了量化计算。在此基础上,将政府工作报告的情感语调设为因变量,引入13个反映地级市社会、经济、文化及政府治理状况的解释变量,通过OLS回归分析,将回归估计所得的残差作为超出理论预期的异常值,用以衡量地方政府的施政风格。残差为正且数值越大,表明该地区政府的施政风格越趋向于激进。

(3)数“政”强贸:数字化政府建设与中国出口产品质量升级(刘文革等,2024)

本文综合参考了《“十四五”国家信息化规划》《关于加强数字政府建设的指导意见》《数字中国建设发展进程报告》《数字政府发展报告》等党中央重要政策文件及相关研究报告,从中提取出涉及“数字化政府”的102个关键词汇,并利用Jieba中文分词组件建立“数字化政府”关键词典。然后基于2001-2016年政府工作报告,对该词典中的所有词汇进行词频统计,进而得到数字化政府建设指数。

(4)数字经济政策何以影响家庭收入流动性?——基于CFPS和政府工作报告文本数据的分析(郭利华等,2025)

本文通过构建数字经济政策关键词词典,基于2012-2019年各城市政府工作报告文本,对词典中词汇进行词频统计,并以关键词总词频占报告文本总词数的比重,作为衡量地级市政府数字经济政策力度的指标。

(5)目标驱动创新:来自地方政府工作报告的微观证据(郑世林等,2023)

本文基于手工搜集的2008-2019年地级市政府工作报告中的研发投入目标数据,考察了地方政府研发投入目标设定对辖区内企业创新水平的影响。

(6)政策信号与流动人口长期居留意愿(张同斌和王蕾,2024)

通过阅读近10年国务院、省级及城市的政府工作报告文本,选取民生相关领域中5个方面(人才与就业、住房保障、教育医疗、城市与政府特征、户籍改革)最常用的词语确定为种子词。在确定种子词后,本文训练词向量(Word2Vec)模型从政府工作报告文本中学习扩充种子词,进而形成政府工作报告民生领域专用词典。在此基础上,本文使用信号单元法计算政府工作报告前瞻部分的信号含量,将政府工作报告的信号指数定义为每篇报告中所有信号单元分数之和除以该报告总词数。

五、参考文献

[1]郭利华,吴青岭,李大铭.数字经济政策何以影响家庭收入流动性?——基于CFPS和政府工作报告文本数据的分析[J].农村金融研究,2025,(04):50-63.DOI:10.16127/j.cnki.issn1003-1812.2025.04.004. 

[2]刘文革,耿景珠,杜明威.数“政”强贸:数字化政府建设与中国出口产品质量升级[J].数量经济技术经济研究,2024,41(06):67-87.DOI:10.13653/j.cnki.jqte.20240416.004. 

[3]余泳泽,孙鹏博,宣烨.地方政府环境目标约束是否影响了产业转型升级?[J].经济研究,2020,55(08):57-72. 

[4]游家兴,于明洋,伍翕婷.地方政府施政风格与经济高质量发展——基于股价崩盘风险的研究视角[J].经济学(季刊),2022,22(02):485-504.DOI:10.13821/j.cnki.ceq.2022.02.07. 

[5]郑世林,崔欣,姚守宇,等.目标驱动创新:来自地方政府工作报告的微观证据[J].世界经济,2023,46(08):55-79.DOI:10.19985/j.cnki.cassjwe.2023.08.003. 

[6]张同斌,王蕾.政策信号与流动人口长期居留意愿[J].世界经济,2024,47(07):97-122.DOI:10.19985/j.cnki.cassjwe.2024.07.003.

END

往期推荐

CCAD | 我们是怎么找到7万家强村公司的?

海洋经济 | 紧跟海洋强国战略,填补行业空白,企研涉海上市公司数据库踏浪而来

司法信息 | 助力裁判文书数据(1亿+)的挖掘和应用,中国裁判文书数据库上线

FERD | 这一杯,敬“学术”!全网独家茶产业企业数据上新!

AI版环保领域关键词词库上线,考察政府生态环境治理注意力变迁

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON