复旦博士发顶刊!《金融研究》创新结合 Word2Vec 文本分析与复杂网络!

复旦大学经济学院的牛晓健、强皓凡，上海财经大学公共经济管理学院的吕斌，以及中山大学管理学院的王聪共同撰写了文章《企业跨界竞争与债务违约风险 —— 基于机器学习与复杂网络方法》，该研究发表于《金融研究》期刊。

研究核心亮点在于创新构建跨界竞争度量体系，突破传统多元化指标的局限。方法上，融合机器学习与复杂网络技术：通过 Word2Vec 词嵌入模型处理上市企业年报经营范围文本，转换为高维向量并计算余弦相似度，再剔除同行业关联后构建复杂网络，以度中心度、接近中心度、特征向量中心度作为跨界竞争代理变量，兼具高准确度与高时变性，解决了传统指标行业分解不足、缺乏动态性的问题。我们在课程《30个案例教你用大模型做研究，吃透顶刊新方法》中会分享Python大模型关于Word2Vec 词、余弦相似度、中心度等科研数据分析中的实际痛点难点，欢迎关注。

研究发现上，首次证实企业跨界竞争程度与债务违约风险呈显著正相关，且通过偿债承压（过度举债、波动加剧、融资成本上升）、资源靡费（资源侵占、过度投资、盈利下滑）、创新侵蚀（创新数量、质量、效率均下降）三大渠道发挥作用。此外，异质性分析揭示信贷资源充足、市场关注高、管理者状态欠佳时，该恶化效应更显著，经济后果层面会削弱企业全要素生产率与价值创造能力，研究结论兼具学术深度与现实指导意义。

文章来源：牛晓健,强皓凡,吕斌,等.企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J].金融研究,2024,(03):150-168.

我们面向科研学者推出《Python大语言模型数智实证：从0基础到顶刊复现》，集Python“数智实证”方法之精华，深度解析大模型在数据清洗、面板数据构建、文本分析、机器/深度学习、社会网络分析、多模态数据变量构建、知识图谱、ABM多主体建模、可视化等科研数据分析中的实际痛点难点。通过来自Management Science、Strategic Management Journal、Review of Finance、《经济研究》《管理世界》等26个顶刊方法案例（共30个案例，参考核心方法但不提供论文原文），帮助学员从0基础到能胜任顶刊方法的突破。

1. 课程概览

课程名称：Python大语言模型数智实证：从0基础到顶刊复现

课程时间：2026年1月31-2月2日、2月7-9号、2月28日-3月2号

授课形式：腾讯会议线上直播＋课后回放＋课程资料＋赠python基础课

报名方式：

扫码报名

2. 老师介绍

Simon博士，毕业于四川大学,科技公司技术总监,拥有丰富学术大模型开发、大规模数据采集、机器学习、因果推理经验。

3. 课程大纲

专题一：大模型前置基础之Python编程应用

专题二：大模型前置基础之Python实证数据分析（考虑到篇幅问题，专题一专题二大纲详情放在文末）

专题三：大模型前置基础之机器学习与深度学习

1. 机器学习基本概念

（1)什么是机器学习？监督学习 vs 无监督学习

（2)回归（Regression）与分类（Classification）的区别

（3)训练集、测试集、验证集

（4）常用机器学习模型评价指标

a）回归分析评价指标：MAE、MSE、RMSE、R²等

b）分类模型评价指标：准确率、精确率、召回率、F1值等

2. 数据准备与特征工程基础

（1)特征与标签

（2)使用 Pandas 构造特征矩阵 X 和目标向量 y

（3)简单缺失值处理与数据标准化

3. 常见回归模型介绍与Python实现

（1)线性回归（LinearRegression）Python实现

a)带正则化的回归：

b惩罚性回归（LassoL1 正则，自动特征选择；Ridge）

c)弹性网络（ElasticNet，L1+L2 混合）

（2)树模型Python实现

a)决策树

b)随机森林

c)梯度提升树（GBDT）

d）因果森林（causal forests）

e）广义随机森林（GRF）

4.深度学习基础Python实现

神经网络基础

深度神经网络（DNN）

卷积神经网络（CNN，主要用于图像处理领域）

循环神经网络（RNN，处理序列数据如文本、音频、视频等)

5.双重机器学习原理与应用

双重机器学习原理及优势

基于EconML库实现双重机器学习(DDML)

学术图表输出:Python直接导出回归结果三线表

实战案例6：正则化回归在变量选择中的应用

参考文献：

易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.

实战案例7：综合运用梯度提升回归树GBRT和随机森林构建预测模型

参考文献：

杨子晖,李东承,陈雨恬.风险偏好能否成为我国金融风险的前瞻性指标？——来自前沿机器学习方法的新证据[J].管理世界,2025,41(10):21-43.

实战案例8：双重机器学习进行因果推断

参考文献：

程中华,韩乐乐,李廉水.数据交易对企业数字创新的影响研究[J].科研管理,2025,46(10):31-39.

专题四：大模型前置基础之文本分析与NLP

1．文本的预处理

a)从pdf文件中提取文本和表格

b)jieba中文分词与深度学习分词模型pkuseg

c)nltk英文分词

d)文本断句

2．文本的表示方法与向量化

a)词频统计与句频统计

b)词云图

c)TF-IDF

d)词嵌入技术Word2Vec

e)Doc2vec句向量模型

f)Embedding模型：大语言模型和检索系统的核心技术基石

3．文本相似度计算（可计算信息含量差异性等）

a）基于字符串匹配的传统方法：余弦相似度、Jaccard 相似系数

b）基于统计与浅层语义的方法：TF-IDF 余弦相似度、Word Embedding加权平均

C）基于深度学习与深度语义的方法：Sentence Embeddings获取句子级别的向量表示

4．文本主题建模

a)LDA模型

b)DTM动态主题模型

c)BERTopic主题模型：超实用和强大的主题建模

5．文本情感分析

a)基于情感词典与规则的方法：词典法

b)基于机器学习的方法：SnowNLP，基于朴素贝叶斯、支持向量机、逻辑回归、随机森林等

c）基于深度学习的方法：Word2Vec、GloVe等预训练词向量作为输入

实战案例9：基于上市公司年报文本量化计算信息含量：综合应用文本向量化、回归等方法（有案例代码）

参考文献：

边江泽,余湄,秦淇林.注册制改革、信息披露与投资者行为——基于创业板定向增发的证据[J].管理世界,2025,41(11):81-114.

实战案例10：使用Word2Vec算法构建数字专利词库，采用有监督机器学习（GBDT模型）将划分数字专利，同时对比Word2Vec、Embedding模型效果

参考文献：

周鹏,王卓,谭常春等.数字技术创新的价值——基于并购视角和机器学习方法的分析[J].中国工业经济,2024,(02):137-154.

实战案例11:基于BERTopic的计算社会科学主题发现

参考文献：

Gupta P, Ding B, Guan C, Ding D. Generative AI: A systematic review using topic modelling techniques[J]. Data and Information Management, 2024, 8(1): 100066.

专题五：大模型相关基础之社会网络分析

1.社会网络分析Python核心库与高性能分布式计算库：Networkx、igraph、NetworKit、node2vec

2.网络数据表示：邻接矩阵、edgelist、nodelist

3.网络数据的可视化：PyVis交互式网络可视化、Gephi + Streaming 专业级可视化

4.网络结构分析：递归关系、社区划分（CDlib社区发现算法集合）、子群、模块度

5.网络节点分析

（1）常用指标：网络中心性（出/入度中心度、中介中心度、接近中心度、特征向量中心度）、网络密度、结构洞指数、PageRank、TextRank等

（2）拓展指标：最短路距离、离心度、自我中心网络指标、复杂性（水平/垂直/空间）、异质性（地理、行业等）

6.语义网络与知识图谱

7.图数据库：Neo4j核心机制和实操全解

实战案例12：使用2010-2022高铁开通线路数据构建城市高铁网络

参考文献：

陈旭,邱斌,纪展鹏.城市网络嵌入、信息可得性与企业创新边界[J].经济研究,2025,60(06):57-76.

实战案例13：上市公司供应链网络构建

参考文献：

陈雯,范茵子.企业供应链风险感知与合作关系稳定性[J].管理世界,2024,40(11):209-228.

实战案例14：新闻文本共现新闻情绪

参考文献：

范小云,王业东,王道平.基于新闻大数据与机器学习的中国银行业系统性风险研究[J].世界经济,2022,45(04):3-30.

实战案例15:基于GPT模型与neo4j图数据库构建人工智能专利知识图谱及分析

参考文献：

周贞云,黄昭昭,邱均平.基于LLM与可视化的图数据库专利知识图谱构建及分析[J].情报杂志,1-9.

专题六：大语言模型与Python数据应用

1.基于Transformer架构的大语言模型

a)Transformer的基本原理和结构、注意力机制；

b)编码器和解码器的结构；

c）Transformer大语言模型：Generative (decoder) models、Masked (encoder) language models

d）LinkTransformer：支持使用 Hugging Face 上可用的任何基础语言模型

2.大语言模型FT50及中文顶刊应用总结

3.顶刊中基础大模型特点及Python调用：GPT、通义千问qwen3 模型、deepseek

4.ollama本地部署大模型

5.Prompt工程技术：面向Python的AI高质量输出技巧

（1）精准输出技巧：如何人机结合用好AI，最大化减少偏误？

参考文献：Baumann, J., Röttger, P., Urman, A., Wendsjö, A., Plaza-del-Arco, F. M., Gruber, J. B., & Hovy, D. (2025).Large language model hacking: Quantifying the hidden risks of using LLMs for text annotation. arXiv. https://doi.org/10.48550/arXiv.2509.08825

（2）结构化输出技巧：输出Python代码可处理的数据结构

6.预训练模型的对比、训练及应用：BERT、Sentence BERT、Fin BERT、RoBERTa、DistilBERT、SciBERT、PatentSBERTa、HeBERT、ERNIE、RoBERTa large

7.检索增强技术RAG及实战应用

实战案例16:基于ERNIE模型测度企业数字化转型

参考文献：

金星晔,左从江,方明月,等.企业数字化转型的测度难题：基于大语言模型的新方法与新发现[J].经济研究,2024,59(03):34-53.

实战案例17:结构化数据的记录连接（匹配）

在不同数据集中匹配个体、地点、公司、组织、产品描述或学术论文等信息，大模型在记录连接方面表现出了巨大的潜力，以大语言模型完成大数据匹配任务：招聘数据与中国职业分类大典匹配为例进行讲解

参考文献：

张星民,张建清,刘小慧,等.外部技术断供、工作任务与企业劳动力需求结构——基于Transformer架构大数据文本挖掘的微观证据[J].数量经济技术经济研究,2025,42(09):72-93.

实战案例18:基于LangChain框架的个人知识库构建“提示工程+检索增强生成+超参数调整”

参考文献：

陈亚盛,蒋礼蔚,单敏,等.审计大模型的构建及应用研究——以员工违规经商办企业专项审计为例[J].审计研究,2024,(04):139-149.

专题七：大语言模型与多模态数据量化

1.大语言模型大语言模型进行文本大数据分类

实战案例19：基于BERT模型识别上市公司劳动节约型技术创新

参考文献：

刘青,肖柏高.劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据[J].经济研究,2023,58(02):74-90.

2.大语言模型构建实证变量

实战案例20：利用GPT模型从MD&A文本中构建制造业服务化变量

参考文献：

Yimeng, N., Jing, W., Shenyang, J., & Zhibin, J. (2024). The Bullwhip Effect in Servitized Manufacturers. Management Science, 71(1):1-20.03402.

3.多个大模型协作完成复杂任务

实战案例21：基于Fin BERT 和DeepSeek模型分析MD&A特定信息与数据标注任务

参考文献：

陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.

4.大语言模型进行情感分析

实战案例22：BERT识别讽刺评论，无需训练、适用场景灵活、可处理如反讽等复杂语言现象

核心方法参考文献：Li Q, Xu D J, Qian H, et al. A fusion pretrained approach for identifying the cause of sarcasm remarks[J]. INFORMS Journal on Computing, 2025, 37(2): 465-479.

5.大语言模型测量文本相似度

实战案例23：采用无监督词嵌入方法Sentence-BERT计算余弦距离

核心方法参考文献：Bao, Jiayi. "Do makerspaces affect entrepreneurship? If so, who, how, and when?." Strategic Management Journal 46.2 (2025): 502-533.

6.大语言模型从图片中提取结构化数据

实战案例24：大语言模型识别CEO面部表情

核心方法参考文献：Momtaz P P. CEO emotions and firm valuation in initial coin offerings: an artificial emotional intelligence approach[J]. Strategic Management Journal, 2021, 42(3): 558-578.

专题八：大语言模型与关系抽取

1.大模型因果关系提炼潜力

实战案例25：基于GPT模型对中国核心经管期刊中因果主张的初步挖掘与知识表示（含《管理世界》《经济研究》《管理科学学报》《金融研究》《会计研究》《世界经济》）

参考文献：

Garg, P and T Fetzer (2025), “Causal Claims in Economics”, arXiv preprint arXiv:2501.06873.

2.大语言模型构建语义网络

实战案例26：基于Embedding模型企业跨界竞争网络构建

参考文献：

牛晓健,强皓凡,吕斌,等.企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J].金融研究,2024,(03):150-168.

3.大语言模型动态生成节点重要性评估算法

实战案例27:LLM+结合进化算法分析上市公司供应链网络关键节点

参考文献：

Mao, Jinzhu, et al. "Identify critical nodes in complex network with large language models." arXiv preprint arXiv:2403.03962 (2024).

4.大语言模型+BERTopic+知识图谱综合应用

实战案例28:基于大语言模型的网络舆情事理图谱构建与演化分析

参考文献：

姜帆,郭顺利.基于大语言模型的网络舆情事理图谱构建与演化分析—以体育赛事为例[J].情报科学,1-21.

专题九：大语言模型与ABM建模

1.从社会学实验到行为仿真：系统、复杂系统，系统建模、复杂系统建模，主体建模（Agent-based Modeling，ABM）适用情境

2.python构建ABM模型简单地模拟玻尔兹曼财富模型：假设所有人生而平等，即持有相同的1单位资本，将1单位资本随机给一个其他的人，一个社会按这种规则不断演化产生的结果

3.ABM建模的一般方法

（1）构建环境：交互地图、数据收集器、智能体调度器

（2）构建智能体：智能体交互规则、智能体行为

（3）大语言模型和AI智能体在ABM建模中可以做什么

4.大语言模型模拟人类行为

实战案例29：大型语言模型在博弈论实验中复现并预测人类合作

核心方法参考文献：Palatsi, A. C., Martin-Gutierrez, S., Cardenal, A. S., & Pellert, M. (2024). Large language models replicate and predict human cooperation across experiments in game theory. arXiv. https://doi.org/10.48550/arXiv.2511.04500

5.大语言模型模拟社会网络

实战案例30：用大语言模型模拟社交网络中的虚假信息传播

核心方法参考文献：Maurya, R. G., Shukla, V., Dandekar, R. A., Dandekar, R., & Panat, S. (2024). Simulating misinformation propagation in social networks using large language models. arXiv. https://doi.org/10.48550/arXiv.2511.10384

专题一：大模型前置基础之Python编程应用

1.Python基础语法与科研编程入门

（1）Python 语言概述与科研应用场景

Python 语言特点：解释型、动态类型、强可读性、丰富生态

Python 在人文社科科研中的典型应用：问卷数据处理、访谈文本分析、文献整理、自动化统计、结果输出

（2）变量与基本数据类型

变量的概念、命名规范与赋值机制

基础数据类型常用方法：整型（int）、浮点型（float）、字符串（str）、布尔型（bool）

类型转换与类型检查

（3）表达式与运算符体系

算术运算符、比较运算符、逻辑运算符、赋值运算符、运算符优先级与表达式求值规则

（4）输入与输出

标准输入：input()

标准输出：print()

文本格式化：f-string、format()

2.Python 核心数据结构

（1）列表（list）

创建、索引、切片

常用方法：append()、extend()、insert()、pop()、remove()、sort()

（2）元组（tuple）

不可变序列特性

元组解包

（3）字典（dict）

键值映射结构

增删改查操作

常用方法：get()、keys()、values()、items()

（4）集合（set）

唯一性与无序性

并集、交集、差集运算

3.程序流程控制与基本算法思想

（1）条件控制结构

if / elif / else

条件表达式（三元表达式）

多条件逻辑判断策略

（2）循环控制结构

for 循环与可迭代对象

while 循环与循环终止条

循环嵌套结构

（3）循环控制语句

break / continue / pass

for-else 与 while-else

（4）列表推导式

列表推导式语法

条件筛选与嵌套推导式

4.函数、模块与面向对象编程基础

（1）函数与代码复用

函数定义与调用

参数类型：位置参数、关键字参数、默认参数

返回值机制

变量作用域：局部变量、全局变量

匿名函数：lambda

（2）模块与代码组织

模块导入方式

常用标准库讲解：math、random、os、time、datetime等

（3）面向对象编程思想（OOP）

面向对象的基本概念：类、对象、属性、方法

对象实例化与成员访问

（4）文件读写与科研实践案例

文件读写基础流程

上下文管理器安全读写

5.实操案例部分

实战案例1：数据批量高效处理技巧：自动化批量中文简繁转换

实战案例2：大规模文件读取技巧：批量读取文件夹省级政府工作报告文件

专题二：大模型前置基础之Python实证数据分析

1.NumPy 数值计算基础

（1）NumPy 与数值计算基础

NumPy 在科研数据处理中的作用与优势

数值计算与向量化思想简介

（2）ndarray对象与数组结构

ndarray 的概念、维度与形状（shape）

一维数组与多维数组

数组属性：ndim、shape、dtype

（3）数组创建与索引机制

常用创建方式：array()、zeros()、ones()、arange()、linspace()

基本索引与切片

布尔索引与条件筛选

（4）向量化运算与广播机制

数组间的逐元素运算

标量与数组运算

广播机制基本原理

向量化运算在科研计算中的效率优势

（5）常用统计与数学函数

描述性统计：mean()、sum()、std()、var()、min()、max()

线性代数基础：dot()、transpose()

2.Pandas 数据处理与分析

（1）Pandas 核心数据结构

Series 与 DataFrame 的概念与结构

索引（Index）与标签系统

数据类型系统（dtype）

（2）数据导入与导出

CSV、Excel 文件的读取与写入

常用参数设置与编码问题处理

（3）数据筛选与条件查询

基于标签与位置的索引（loc / iloc）

条件过滤与布尔索引

数据排序与重排

（4）数据清洗与预处理

缺失值检测与处理

重复值处理

数据类型转换与格式规范化

（5）数据分组与统计分析

分组操作：groupby()

聚合函数与多指标统计

分组结果的重塑与整理

（6）数据合并与重组

数据连接：merge()、join()

数据拼接：concat()

面板数据结构构建

（7）数据透视与多维统计

数据透视表

多维交叉统计分析

面板数据的构建与规范化处理

3.科研数据可视化

（1）Matplotlib 可视化基础

Matplotlib 绘图框架与基本使用流程

图形对象与坐标系统简介

（2）常用科研图表类型

折线图（时间序列与趋势分析）

柱状图（类别对比分析）

散点图（相关关系分析）

直方图（分布特征分析）

4.实战案例

实战案例3：基于专利数据计算利用式创新和探索式创新

方法复刻参考文献：Guan J, Liu N. Exploitative and exploratory innovations in knowledge network and collaboration network: A patent analysis in the technological field of nano-energy[J]. Research policy, 2016, 45(1): 97-112.

实战案例4：插值法——以地级市维度夜间灯光数据为例

实战案例5：DID面板数据构建：县域城乡融合发展试点DID数据2010-2025构建

4. 课程报名

课程价格

三人拼团价：1999元（人越多越优惠）；

早鸟价：2699元

原价：3999元

可按照实际支付金额开具电子发票

价格包含：直播课程+录播回放+课程资料+python赠课+课程答疑（仅开课前支付进答疑群）

如有以下优惠，购买前找“学知老师”领取优惠券。

优惠一

普通用户转发本推文到朋友圈/皮皮侠数据会员，私聊学知老师可获八折优惠券。

优惠二

尊享版超级课程会员可在直播结束后免费学习此录播课程；如需直播+答疑＋录播，超级课程会员可四折购买该课程；

扫码成为超级课程会员

4. 课程售后

课程发票/课程通知

联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。

课程退款

在课程未开始前，接受“7天无理由退款”，由于是知识付费，一旦直播课开始后，不接受退款。退款请联系“学知老师”。