推广 热搜: 采购方式  滤芯  带式称重给煤机  甲带  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

PyCharm|文本挖掘➡️企业数智化转型

   日期:2025-11-25 20:22:41     来源:网络整理    作者:本站编辑    评论:0    
PyCharm|文本挖掘➡️企业数智化转型

PyCharm|文本挖掘➡️企业数智化转型

基于上市公司企业年报和MD&A数据实现企业数智化转型测度,主要工作如下:
—— 1.数据挖掘 ——
从巨潮资讯网(cninfo)爬取A股上市公司PDF年报
过滤非年报内容(摘要,英文版,公告等)

—— 2.PDF文件处理 ——
将PDF转换为TXT格式
使用pdfminer提取文本内容
批量处理多个年份的PDF文件

—— 3.文本预处理与分词 ——
使用jieba进行中文分词,并去除停用词
过滤单字词和无关词汇
按句子分割文本,构建训练语料

—— 4.关键词扩展与语义建模 ——
使用Word2Vec模型训练词向量
基于初始数智化关键词,扩展相似词汇
通过词向量相似度筛选相关词汇
构建扩展后的数智化关键词库

—— 5.数智化测度 ——
统计六类关键词词频:人工智能,大数据,云计算,区块链技术,数字技术应用,智能化应用
计算总词频,词频占比及对数化指标
按年份和公司输出结果

其实思路类似于企业数字化转型的测度方法~
#论文写作 #统计学 #计量经济学 #数据挖掘 #爬虫 #Python #量化 #大模型 #大语言模型 #企业数字化
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON