



一、数据介绍数据名称:政府工作报告-新质生产力词频
数据范围:286个地级市(包括直辖市),全国各省都有
数据年份:2002-2024年
数据来源:地方政府网
数据整理:马克数据网
数据说明:内含新质生产力相关的46个词频明细、文本长度、文本词频总数
更新时间:2024年5月
二、整理说明➤从地方政府网爬取工作报告原始文件
➤将报告文本整理为面板数据
➤去除停顿词,利用python的jieba库进行精确模式和全模式分词,统计词频和
(精确:\'推荐\', \'马克\', \'数据网\')
(全:\'推荐\', \'马克\', \'克数\', \'数据\', \'数据网\')
➤保留中英文、数字、标点符号,利用正则表达式统计46个词频
➤去除停顿词,统计精确词汇、扩展词汇数目
➤保留中英文、数字,统计全文文本总长度
➤保存文本词频总数、46个词频明细、文本长度
#新质生产力 #地级市新质生产力
数据范围:286个地级市(包括直辖市),全国各省都有
数据年份:2002-2024年
数据来源:地方政府网
数据整理:马克数据网
数据说明:内含新质生产力相关的46个词频明细、文本长度、文本词频总数
更新时间:2024年5月
二、整理说明➤从地方政府网爬取工作报告原始文件
➤将报告文本整理为面板数据
➤去除停顿词,利用python的jieba库进行精确模式和全模式分词,统计词频和
(精确:\'推荐\', \'马克\', \'数据网\')
(全:\'推荐\', \'马克\', \'克数\', \'数据\', \'数据网\')
➤保留中英文、数字、标点符号,利用正则表达式统计46个词频
➤去除停顿词,统计精确词汇、扩展词汇数目
➤保留中英文、数字,统计全文文本总长度
➤保存文本词频总数、46个词频明细、文本长度
#新质生产力 #地级市新质生产力


