

企业数据资产化221个词频统计(1999-2023年)
参考《中国工业经济》中何瑛(2024)的做法,团队统计了上市公司年报221个数据资产相关词频。以“信息”“网络”“数字”“数据”四个词作为种子词汇,构建相似词词集,并依据数据资产的具体用途,将其划分为自用型数据资产和交易型数据资产
一、数据介绍
数据名称:上市公司-数据资产化221个词频
数据范围:5630家上市公司
数据年份:1999-2023年
样本数量:63051条,233个变量
数据来源:上市公司年度报告
数据说明:内含数据资产化221个词频明细、文本统计面板
二、整理说明
➤爬取1999-2023年上市公司年报
➤将原始报告文本整理为面板数据
➤统计年报全文的文本长度
➤统计全文中,中英文部分的文本长度
➤构建数字化术语词典,将词汇扩充到python的jieba库
➤去除停顿词,统计各明细词汇数目
➤计算数据资产化词频和
➤保留数据资产化词频和、明细词频
三、指标说明
类别 年份 股票代码
公司简称 行业名称 行业代码
年报标题 全文-文本总长度 仅中英文-文本总长度
数据资产总词频 自用型数据资产总词频 交易型数据资产总词频
数字基础设施 数字设施 数字工厂
数字设备 数字经济 数字技术创新
MA20250313-2#论文
参考《中国工业经济》中何瑛(2024)的做法,团队统计了上市公司年报221个数据资产相关词频。以“信息”“网络”“数字”“数据”四个词作为种子词汇,构建相似词词集,并依据数据资产的具体用途,将其划分为自用型数据资产和交易型数据资产
一、数据介绍
数据名称:上市公司-数据资产化221个词频
数据范围:5630家上市公司
数据年份:1999-2023年
样本数量:63051条,233个变量
数据来源:上市公司年度报告
数据说明:内含数据资产化221个词频明细、文本统计面板
二、整理说明
➤爬取1999-2023年上市公司年报
➤将原始报告文本整理为面板数据
➤统计年报全文的文本长度
➤统计全文中,中英文部分的文本长度
➤构建数字化术语词典,将词汇扩充到python的jieba库
➤去除停顿词,统计各明细词汇数目
➤计算数据资产化词频和
➤保留数据资产化词频和、明细词频
三、指标说明
类别 年份 股票代码
公司简称 行业名称 行业代码
年报标题 全文-文本总长度 仅中英文-文本总长度
数据资产总词频 自用型数据资产总词频 交易型数据资产总词频
数字基础设施 数字设施 数字工厂
数字设备 数字经济 数字技术创新
MA20250313-2#论文


