复旦大学经济学院的牛晓健、强皓凡,上海财经大学公共经济管理学院的吕斌,以及中山大学管理学院的王聪共同撰写了文章《企业跨界竞争与债务违约风险 —— 基于机器学习与复杂网络方法》,该研究发表于《金融研究》期刊。
研究核心亮点在于创新构建跨界竞争度量体系,突破传统多元化指标的局限。方法上,融合机器学习与复杂网络技术:通过 Word2Vec 词嵌入模型处理上市企业年报经营范围文本,转换为高维向量并计算余弦相似度,再剔除同行业关联后构建复杂网络,以度中心度、接近中心度、特征向量中心度作为跨界竞争代理变量,兼具高准确度与高时变性,解决了传统指标行业分解不足、缺乏动态性的问题。我们在课程《30个案例教你用大模型做研究,吃透顶刊新方法》中会分享Python大模型关于Word2Vec 词、余弦相似度、中心度等科研数据分析中的实际痛点难点,欢迎关注。

研究发现上,首次证实企业跨界竞争程度与债务违约风险呈显著正相关,且通过偿债承压(过度举债、波动加剧、融资成本上升)、资源靡费(资源侵占、过度投资、盈利下滑)、创新侵蚀(创新数量、质量、效率均下降)三大渠道发挥作用。此外,异质性分析揭示信贷资源充足、市场关注高、管理者状态欠佳时,该恶化效应更显著,经济后果层面会削弱企业全要素生产率与价值创造能力,研究结论兼具学术深度与现实指导意义。
文章来源:牛晓健,强皓凡,吕斌,等.企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J].金融研究,2024,(03):150-168.
我们面向科研学者推出《Python大语言模型数智实证:从0基础到顶刊复现》,集Python“数智实证”方法之精华,深度解析大模型在数据清洗、面板数据构建、文本分析、机器/深度学习、社会网络分析、多模态数据变量构建、知识图谱、ABM多主体建模、可视化等科研数据分析中的实际痛点难点。通过来自Management Science、Strategic Management Journal、Review of Finance、《经济研究》《管理世界》等26个顶刊方法案例(共30个案例,参考核心方法但不提供论文原文),帮助学员从0基础到能胜任顶刊方法的突破。

课程名称:Python大语言模型数智实证:从0基础到顶刊复现
课程时间:2026年1月31-2月2日、2月7-9号、2月28日-3月2号
授课形式:腾讯会议线上直播+课后回放+课程资料+赠python基础课
报名方式:
扫码报名

Simon博士,毕业于四川大学,科技公司技术总监,拥有丰富学术大模型开发、大规模数据采集、机器学习、因果推理经验。
3. 课程大纲
专题一:大模型前置基础之Python编程应用
专题二:大模型前置基础之Python实证数据分析(考虑到篇幅问题,专题一专题二大纲详情放在文末)
专题三:大模型前置基础之机器学习与深度学习
1. 机器学习基本概念
(1)什么是机器学习?监督学习 vs 无监督学习
(2)回归(Regression)与分类(Classification)的区别
(3)训练集、测试集、验证集
(4)常用机器学习模型评价指标
a)回归分析评价指标:MAE、MSE、RMSE、R²等
b)分类模型评价指标:准确率、精确率、召回率、F1值等
2. 数据准备与特征工程基础
(1)特征与标签
(2)使用 Pandas 构造特征矩阵 X 和目标向量 y
(3)简单缺失值处理与数据标准化
3. 常见回归模型介绍与Python实现
(1)线性回归(LinearRegression)Python实现
a)带正则化的回归:
b惩罚性回归(LassoL1 正则,自动特征选择;Ridge)
c)弹性网络(ElasticNet,L1+L2 混合)
(2)树模型Python实现
a)决策树
b)随机森林
c)梯度提升树(GBDT)
d)因果森林(causal forests)
e)广义随机森林(GRF)
4.深度学习基础Python实现
神经网络基础
深度神经网络(DNN)
卷积神经网络(CNN,主要用于图像处理领域)
循环神经网络(RNN,处理序列数据如文本、音频、视频等)
5.双重机器学习原理与应用
双重机器学习原理及优势
基于EconML库实现双重机器学习(DDML)
学术图表输出:Python直接导出回归结果三线表
实战案例6:正则化回归在变量选择中的应用
参考文献:
易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.
实战案例7:综合运用梯度提升回归树GBRT和随机森林构建预测模型
参考文献:
杨子晖,李东承,陈雨恬.风险偏好能否成为我国金融风险的前瞻性指标?——来自前沿机器学习方法的新证据[J].管理世界,2025,41(10):21-43.
实战案例8:双重机器学习进行因果推断
参考文献:
程中华,韩乐乐,李廉水.数据交易对企业数字创新的影响研究[J].科研管理,2025,46(10):31-39.
专题四:大模型前置基础之文本分析与NLP
1.文本的预处理
a)从pdf文件中提取文本和表格
b)jieba中文分词与深度学习分词模型pkuseg
c)nltk英文分词
d)文本断句
2.文本的表示方法与向量化
a)词频统计与句频统计
b)词云图
c)TF-IDF
d)词嵌入技术Word2Vec
e)Doc2vec句向量模型
f)Embedding模型:大语言模型和检索系统的核心技术基石
3.文本相似度计算(可计算信息含量差异性等)
a)基于字符串匹配的传统方法:余弦相似度、Jaccard 相似系数
b)基于统计与浅层语义的方法:TF-IDF 余弦相似度、Word Embedding加权平均
C)基于深度学习与深度语义的方法:Sentence Embeddings获取句子级别的向量表示
4.文本主题建模
a)LDA模型
b)DTM动态主题模型
c)BERTopic主题模型:超实用和强大的主题建模
5.文本情感分析
a)基于情感词典与规则的方法:词典法
b)基于机器学习的方法:SnowNLP,基于朴素贝叶斯、支持向量机、逻辑回归、随机森林等
c)基于深度学习的方法:Word2Vec、GloVe等预训练词向量作为输入
实战案例9:基于上市公司年报文本量化计算信息含量:综合应用文本向量化、回归等方法(有案例代码)
参考文献:
边江泽,余湄,秦淇林.注册制改革、信息披露与投资者行为——基于创业板定向增发的证据[J].管理世界,2025,41(11):81-114.
实战案例10:使用Word2Vec算法构建数字专利词库,采用有监督机器学习(GBDT模型)将划分数字专利,同时对比Word2Vec、Embedding模型效果
参考文献:
周鹏,王卓,谭常春等.数字技术创新的价值——基于并购视角和机器学习方法的分析[J].中国工业经济,2024,(02):137-154.
实战案例11:基于BERTopic的计算社会科学主题发现
参考文献:
Gupta P, Ding B, Guan C, Ding D. Generative AI: A systematic review using topic modelling techniques[J]. Data and Information Management, 2024, 8(1): 100066.
专题五:大模型相关基础之社会网络分析
1.社会网络分析Python核心库与高性能分布式计算库:Networkx、igraph、NetworKit、node2vec
2.网络数据表示:邻接矩阵、edgelist、nodelist
3.网络数据的可视化:PyVis交互式网络可视化、Gephi + Streaming 专业级可视化
4.网络结构分析:递归关系、社区划分(CDlib社区发现算法集合)、子群、模块度
5.网络节点分析
(1)常用指标:网络中心性(出/入度中心度、中介中心度、接近中心度、特征向量中心度)、网络密度、结构洞指数、PageRank、TextRank等
(2)拓展指标:最短路距离、离心度、自我中心网络指标、复杂性(水平/垂直/空间)、异质性(地理、行业等)
6.语义网络与知识图谱
7.图数据库:Neo4j核心机制和实操全解
实战案例12:使用2010-2022高铁开通线路数据构建城市高铁网络
参考文献:
陈旭,邱斌,纪展鹏.城市网络嵌入、信息可得性与企业创新边界[J].经济研究,2025,60(06):57-76.
实战案例13:上市公司供应链网络构建
参考文献:
陈雯,范茵子.企业供应链风险感知与合作关系稳定性[J].管理世界,2024,40(11):209-228.
实战案例14:新闻文本共现新闻情绪
参考文献:
范小云,王业东,王道平.基于新闻大数据与机器学习的中国银行业系统性风险研究[J].世界经济,2022,45(04):3-30.
实战案例15:基于GPT模型与neo4j图数据库构建人工智能专利知识图谱及分析
参考文献:
周贞云,黄昭昭,邱均平.基于LLM与可视化的图数据库专利知识图谱构建及分析[J].情报杂志,1-9.
专题六:大语言模型与Python数据应用
1.基于Transformer架构的大语言模型
a)Transformer的基本原理和结构、注意力机制;
b)编码器和解码器的结构;
c)Transformer大语言模型:Generative (decoder) models、Masked (encoder) language models
d)LinkTransformer:支持使用 Hugging Face 上可用的任何基础语言模型
2.大语言模型FT50及中文顶刊应用总结
3.顶刊中基础大模型特点及Python调用:GPT、通义千问qwen3 模型、deepseek
4.ollama本地部署大模型
5.Prompt工程技术:面向Python的AI高质量输出技巧
(1)精准输出技巧:如何人机结合用好AI,最大化减少偏误?
参考文献:Baumann, J., Röttger, P., Urman, A., Wendsjö, A., Plaza-del-Arco, F. M., Gruber, J. B., & Hovy, D. (2025).Large language model hacking: Quantifying the hidden risks of using LLMs for text annotation. arXiv. https://doi.org/10.48550/arXiv.2509.08825
(2)结构化输出技巧:输出Python代码可处理的数据结构
6.预训练模型的对比、训练及应用:BERT、Sentence BERT、Fin BERT、RoBERTa、DistilBERT、SciBERT、PatentSBERTa、HeBERT、ERNIE、RoBERTa large
7.检索增强技术RAG及实战应用
实战案例16:基于ERNIE模型测度企业数字化转型
参考文献:
金星晔,左从江,方明月,等.企业数字化转型的测度难题:基于大语言模型的新方法与新发现[J].经济研究,2024,59(03):34-53.
实战案例17:结构化数据的记录连接(匹配)
在不同数据集中匹配个体、地点、公司、组织、产品描述或学术论文等信息,大模型在记录连接方面表现出了巨大的潜力,以大语言模型完成大数据匹配任务:招聘数据与中国职业分类大典匹配为例进行讲解
参考文献:
张星民,张建清,刘小慧,等.外部技术断供、工作任务与企业劳动力需求结构——基于Transformer架构大数据文本挖掘的微观证据[J].数量经济技术经济研究,2025,42(09):72-93.
实战案例18:基于LangChain框架的个人知识库构建“提示工程+检索增强生成+超参数调整”
参考文献:
陈亚盛,蒋礼蔚,单敏,等.审计大模型的构建及应用研究——以员工违规经商办企业专项审计为例[J].审计研究,2024,(04):139-149.
专题七:大语言模型与多模态数据量化
1.大语言模型大语言模型进行文本大数据分类
实战案例19:基于BERT模型识别上市公司劳动节约型技术创新
参考文献:
刘青,肖柏高.劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据[J].经济研究,2023,58(02):74-90.
2.大语言模型构建实证变量
实战案例20:利用GPT模型从MD&A文本中构建制造业服务化变量
参考文献:
Yimeng, N., Jing, W., Shenyang, J., & Zhibin, J. (2024). The Bullwhip Effect in Servitized Manufacturers. Management Science, 71(1):1-20.03402.
3.多个大模型协作完成复杂任务
实战案例21:基于Fin BERT 和DeepSeek模型分析MD&A特定信息与数据标注任务
参考文献:
陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.
4.大语言模型进行情感分析
实战案例22:BERT识别讽刺评论,无需训练、适用场景灵活、可处理如反讽等复杂语言现象
核心方法参考文献:Li Q, Xu D J, Qian H, et al. A fusion pretrained approach for identifying the cause of sarcasm remarks[J]. INFORMS Journal on Computing, 2025, 37(2): 465-479.
5.大语言模型测量文本相似度
实战案例23:采用无监督词嵌入方法Sentence-BERT计算余弦距离
核心方法参考文献:Bao, Jiayi. "Do makerspaces affect entrepreneurship? If so, who, how, and when?." Strategic Management Journal 46.2 (2025): 502-533.
6.大语言模型从图片中提取结构化数据
实战案例24:大语言模型识别CEO面部表情
核心方法参考文献:Momtaz P P. CEO emotions and firm valuation in initial coin offerings: an artificial emotional intelligence approach[J]. Strategic Management Journal, 2021, 42(3): 558-578.
专题八:大语言模型与关系抽取
1.大模型因果关系提炼潜力
实战案例25:基于GPT模型对中国核心经管期刊中因果主张的初步挖掘与知识表示(含《管理世界》《经济研究》《管理科学学报》《金融研究》《会计研究》《世界经济》)
参考文献:
Garg, P and T Fetzer (2025), “Causal Claims in Economics”, arXiv preprint arXiv:2501.06873.
2.大语言模型构建语义网络
实战案例26:基于Embedding模型企业跨界竞争网络构建
参考文献:
牛晓健,强皓凡,吕斌,等.企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J].金融研究,2024,(03):150-168.
3.大语言模型动态生成节点重要性评估算法
实战案例27:LLM+结合进化算法分析上市公司供应链网络关键节点
参考文献:
Mao, Jinzhu, et al. "Identify critical nodes in complex network with large language models." arXiv preprint arXiv:2403.03962 (2024).
4.大语言模型+BERTopic+知识图谱综合应用
实战案例28:基于大语言模型的网络舆情事理图谱构建与演化分析
参考文献:
姜帆,郭顺利.基于大语言模型的网络舆情事理图谱构建与演化分析—以体育赛事为例[J].情报科学,1-21.
专题九:大语言模型与ABM建模
1.从社会学实验到行为仿真:系统、复杂系统,系统建模、复杂系统建模,主体建模(Agent-based Modeling,ABM)适用情境
2.python构建ABM模型简单地模拟玻尔兹曼财富模型:假设所有人生而平等,即持有相同的1单位资本,将1单位资本随机给一个其他的人,一个社会按这种规则不断演化产生的结果
3.ABM建模的一般方法
(1)构建环境:交互地图、数据收集器、智能体调度器
(2)构建智能体:智能体交互规则、智能体行为
(3)大语言模型和AI智能体在ABM建模中可以做什么
4.大语言模型模拟人类行为
实战案例29:大型语言模型在博弈论实验中复现并预测人类合作
核心方法参考文献:Palatsi, A. C., Martin-Gutierrez, S., Cardenal, A. S., & Pellert, M. (2024). Large language models replicate and predict human cooperation across experiments in game theory. arXiv. https://doi.org/10.48550/arXiv.2511.04500
5.大语言模型模拟社会网络
实战案例30:用大语言模型模拟社交网络中的虚假信息传播
核心方法参考文献:Maurya, R. G., Shukla, V., Dandekar, R. A., Dandekar, R., & Panat, S. (2024). Simulating misinformation propagation in social networks using large language models. arXiv. https://doi.org/10.48550/arXiv.2511.10384
专题一:大模型前置基础之Python编程应用
1.Python基础语法与科研编程入门
(1)Python 语言概述与科研应用场景
Python 语言特点:解释型、动态类型、强可读性、丰富生态
Python 在人文社科科研中的典型应用:问卷数据处理、访谈文本分析、文献整理、自动化统计、结果输出
(2)变量与基本数据类型
变量的概念、命名规范与赋值机制
基础数据类型常用方法:整型(int)、浮点型(float)、字符串(str)、布尔型(bool)
类型转换与类型检查
(3)表达式与运算符体系
算术运算符、比较运算符、逻辑运算符、赋值运算符、运算符优先级与表达式求值规则
(4)输入与输出
标准输入:input()
标准输出:print()
文本格式化:f-string、format()
2.Python 核心数据结构
(1)列表(list)
创建、索引、切片
常用方法:append()、extend()、insert()、pop()、remove()、sort()
(2)元组(tuple)
不可变序列特性
元组解包
(3)字典(dict)
键值映射结构
增删改查操作
常用方法:get()、keys()、values()、items()
(4)集合(set)
唯一性与无序性
并集、交集、差集运算
3.程序流程控制与基本算法思想
(1)条件控制结构
if / elif / else
条件表达式(三元表达式)
多条件逻辑判断策略
(2)循环控制结构
for 循环与可迭代对象
while 循环与循环终止条
循环嵌套结构
(3)循环控制语句
break / continue / pass
for-else 与 while-else
(4)列表推导式
列表推导式语法
条件筛选与嵌套推导式
4.函数、模块与面向对象编程基础
(1)函数与代码复用
函数定义与调用
参数类型:位置参数、关键字参数、默认参数
返回值机制
变量作用域:局部变量、全局变量
匿名函数:lambda
(2)模块与代码组织
模块导入方式
常用标准库讲解:math、random、os、time、datetime等
(3)面向对象编程思想(OOP)
面向对象的基本概念:类、对象、属性、方法
对象实例化与成员访问
(4)文件读写与科研实践案例
文件读写基础流程
上下文管理器安全读写
5.实操案例部分
实战案例1:数据批量高效处理技巧:自动化批量中文简繁转换
实战案例2:大规模文件读取技巧:批量读取文件夹省级政府工作报告文件
专题二:大模型前置基础之Python实证数据分析
1.NumPy 数值计算基础
(1)NumPy 与数值计算基础
NumPy 在科研数据处理中的作用与优势
数值计算与向量化思想简介
(2)ndarray对象与数组结构
ndarray 的概念、维度与形状(shape)
一维数组与多维数组
数组属性:ndim、shape、dtype
(3)数组创建与索引机制
常用创建方式:array()、zeros()、ones()、arange()、linspace()
基本索引与切片
布尔索引与条件筛选
(4)向量化运算与广播机制
数组间的逐元素运算
标量与数组运算
广播机制基本原理
向量化运算在科研计算中的效率优势
(5)常用统计与数学函数
描述性统计:mean()、sum()、std()、var()、min()、max()
线性代数基础:dot()、transpose()
2.Pandas 数据处理与分析
(1)Pandas 核心数据结构
Series 与 DataFrame 的概念与结构
索引(Index)与标签系统
数据类型系统(dtype)
(2)数据导入与导出
CSV、Excel 文件的读取与写入
常用参数设置与编码问题处理
(3)数据筛选与条件查询
基于标签与位置的索引(loc / iloc)
条件过滤与布尔索引
数据排序与重排
(4)数据清洗与预处理
缺失值检测与处理
重复值处理
数据类型转换与格式规范化
(5)数据分组与统计分析
分组操作:groupby()
聚合函数与多指标统计
分组结果的重塑与整理
(6)数据合并与重组
数据连接:merge()、join()
数据拼接:concat()
面板数据结构构建
(7)数据透视与多维统计
数据透视表
多维交叉统计分析
面板数据的构建与规范化处理
3.科研数据可视化
(1)Matplotlib 可视化基础
Matplotlib 绘图框架与基本使用流程
图形对象与坐标系统简介
(2)常用科研图表类型
折线图(时间序列与趋势分析)
柱状图(类别对比分析)
散点图(相关关系分析)
直方图(分布特征分析)
4.实战案例
实战案例3:基于专利数据计算利用式创新和探索式创新
方法复刻参考文献:Guan J, Liu N. Exploitative and exploratory innovations in knowledge network and collaboration network: A patent analysis in the technological field of nano-energy[J]. Research policy, 2016, 45(1): 97-112.
实战案例4:插值法——以地级市维度夜间灯光数据为例
实战案例5:DID面板数据构建:县域城乡融合发展试点DID数据2010-2025构建
4. 课程报名
课程价格
三人拼团价:1999元(人越多越优惠);
可按照实际支付金额开具电子发票
价格包含:直播课程+录播回放+课程资料+python赠课+课程答疑(仅开课前支付进答疑群)
如有以下优惠,购买前找“学知老师”领取优惠券。
优惠一
扫码成为超级课程会员

4. 课程售后
课程发票/课程通知
联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。

课程退款
在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款。退款请联系“学知老师”。


