推广 热搜: 采购方式  滤芯  甲带  带式称重给煤机  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

复旦博士发顶刊!《金融研究》创新结合 Word2Vec 文本分析与复杂网络!

   日期:2026-01-13 16:42:24     来源:网络整理    作者:本站编辑    评论:0    
复旦博士发顶刊!《金融研究》创新结合 Word2Vec 文本分析与复杂网络!

复旦大学经济学院的牛晓健、强皓凡,上海财经大学公共经济管理学院的吕斌,以及中山大学管理学院的王聪共同撰写了文章《企业跨界竞争与债务违约风险 —— 基于机器学习与复杂网络方法》,该研究发表于《金融研究》期刊。

研究核心亮点在于创新构建跨界竞争度量体系,突破传统多元化指标的局限。方法上,融合机器学习与复杂网络技术:通过 Word2Vec 词嵌入模型处理上市企业年报经营范围文本,转换为高维向量并计算余弦相似度,再剔除同行业关联后构建复杂网络,以度中心度、接近中心度、特征向量中心度作为跨界竞争代理变量,兼具高准确度与高时变性,解决了传统指标行业分解不足、缺乏动态性的问题。我们在课程30个案例教你用大模型做研究,吃透顶刊新方法》中会分享Python大模型关于Word2Vec 词、余弦相似度、中心度等科研数据分析中的实际痛点难点,欢迎关注。

研究发现上,首次证实企业跨界竞争程度与债务违约风险呈显著正相关,且通过偿债承压(过度举债、波动加剧、融资成本上升)、资源靡费(资源侵占、过度投资、盈利下滑)、创新侵蚀(创新数量、质量、效率均下降)三大渠道发挥作用。此外,异质性分析揭示信贷资源充足、市场关注高、管理者状态欠佳时,该恶化效应更显著,经济后果层面会削弱企业全要素生产率与价值创造能力,研究结论兼具学术深度与现实指导意义。

文章来源:牛晓健,强皓凡,吕斌,等.企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J].金融研究,2024,(03):150-168.

我们面向科研学者推出《Python大语言模型数智实证:从0基础到顶刊复现》,集Python“数智实证”方法之精华,深度解析大模型在数据清洗、面板数据构建、文本分析、机器/深度学习、社会网络分析、多模态数据变量构建、知识图谱、ABM多主体建模、可视化等科研数据分析中的实际痛点难点。通过来自Management Science、Strategic Management Journal、Review of Finance、《经济研究》《管理世界》等26个顶刊方法案例(共30个案例,参考核心方法但不提供论文原文),帮助学员从0基础到能胜任顶刊方法的突破。

1. 课程概览

课程名称:Python大语言模型数智实证:从0基础到顶刊复现

课程时间:2026年1月31-2月2日、2月7-9号、2月28日-3月2号

授课形式:腾讯会议线上直播+课后回放+课程资料+赠python基础课

报名方式:

扫码报名

2. 老师介绍

Simon博士,毕业于四川大学,科技公司技术总监,拥有丰富学术大模型开发、大规模数据采集、机器学习、因果推理经验。

3. 课程大纲

专题一:大模型前置基础之Python编程应用

专题二:大模型前置基础之Python实证数据分析(考虑到篇幅问题,专题一专题二大纲详情放在文末)

专题三:大模型前置基础之机器学习与深度学习

1. 机器学习基本概念

1)什么是机器学习?监督学习 vs 无监督学习

2)回归(Regression)与分类(Classification)的区别

3)训练集、测试集、验证集

4)常用机器学习模型评价指标

a)回归分析评价指标:MAE、MSE、RMSE、R²等

b)分类模型评价指标:准确率、精确率、召回率、F1值等

2. 数据准备与特征工程基础

1)特征与标签

2)使用 Pandas 构造特征矩阵 X 和目标向量 y

3)简单缺失值处理与数据标准化

3. 常见回归模型介绍与Python实现

1)线性回归(LinearRegression)Python实现

a)带正则化的回归:

b惩罚性回归(LassoL1 正则,自动特征选择Ridge)

c)弹性网络(ElasticNet,L1+L2 混合)

2)树模型Python实现

a)决策树

b)随机森林

c)梯度提升树GBDT

d)因果森林(causal forests)

e)广义随机森林(GRF)

4.深度学习基础Python实现

神经网络基础

深度神经网络(DNN)

卷积神经网络(CNN主要用于图像处理领域

循环神经网络(RNN处理序列数据如文本、音频、视频等)

5.双重机器学习原理与应用

双重机器学习原理及优势

基于EconML库实现双重机器学习(DDML)

学术图表输出:Python直接导出回归结果三线表

实战案例6正则化回归在变量选择中的应用

参考文献

易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.

实战案例7综合运用梯度提升回归树GBRT和随机森林构建预测模型

参考文献:

杨子晖,李东承,陈雨恬.风险偏好能否成为我国金融风险的前瞻性指标?——来自前沿机器学习方法的新证据[J].管理世界,2025,41(10):21-43.

实战案例8双重机器学习进行因果推断

参考文献:

程中华,韩乐乐,李廉水.数据交易对企业数字创新的影响研究[J].科研管理,2025,46(10):31-39.

专题四:大模型前置基础之文本分析与NLP

1.文本的预处理

a)从pdf文件中提取文本和表格

b)jieba中文分词与深度学习分词模型pkuseg

c)nltk英文分词

d)文本断句

2.文本的表示方法与向量化

a)词频统计与句频统计

b)词云图

c)TF-IDF

d)词嵌入技术Word2Vec

e)Doc2vec句向量模型

f)Embedding模型大语言模型和检索系统的核心技术基石

3.文本相似度计算(可计算信息含量差异性等)

a)基于字符串匹配的传统方法余弦相似度Jaccard 相似系数

b)基于统计与浅层语义的方法TF-IDF 余弦相似度Word Embedding加权平均

C)基于深度学习与深度语义的方法Sentence Embeddings获取句子级别的向量表示

4.文本主题建模

a)LDA模型

b)DTM动态主题模型

c)BERTopic主题模型超实用和强大的主题建模

5.文本情感分析

a)基于情感词典与规则的方法词典法

b)基于机器学习的方法SnowNLP基于朴素贝叶斯、支持向量机、逻辑回归、随机森林等

c)基于深度学习的方法Word2Vec、GloVe等预训练词向量作为输入

实战案例9基于上市公司年报文本量化计算信息含量:综合应用文本向量化、回归等方法(有案例代码)

参考文献:

边江泽,余湄,秦淇林.注册制改革、信息披露与投资者行为——基于创业板定向增发的证据[J].管理世界,2025,41(11):81-114.

实战案例10使用Word2Vec算法构建数字专利词库,采用有监督机器学习(GBDT模型)将划分数字专利,同时对比Word2Vec、Embedding模型效果

参考文献:

周鹏,王卓,谭常春等.数字技术创新的价值——基于并购视角和机器学习方法的分析[J].中国工业经济,2024,(02):137-154.

实战案例11:基于BERTopic的计算社会科学主题发现

参考文献:

Gupta P, Ding B, Guan C, Ding D. Generative AI: A systematic review using topic modelling techniques[J]. Data and Information Management, 2024, 8(1): 100066.

专题五:大模型相关基础之社会网络分析

1.社会网络分析Python核心库与高性能分布式计算库:Networkx、igraph、NetworKit、node2vec

2.网络数据表示:邻接矩阵、edgelist、nodelist

3.网络数据的可视化:PyVis交互式网络可视化、Gephi + Streaming 专业级可视化

4.网络结构分析:递归关系、社区划分(CDlib社区发现算法集合)、子群、模块度

5.网络节点分析

1)常用指标:网络中心性(出/入度中心度、中介中心度、接近中心度、特征向量中心度)、网络密度、结构洞指数、PageRank、TextRank等

2)拓展指标:最短路距离、离心度、自我中心网络指标、复杂性(水平/垂直/空间)、异质性(地理、行业等)

6.语义网络与知识图谱

7.图数据库:Neo4j核心机制和实操全解

实战案例12使用2010-2022高铁开通线路数据构建城市高铁网络

参考文献:

陈旭,邱斌,纪展鹏.城市网络嵌入、信息可得性与企业创新边界[J].经济研究,2025,60(06):57-76.

实战案例13上市公司供应链网络构建

参考文献:

陈雯,范茵子.企业供应链风险感知与合作关系稳定性[J].管理世界,2024,40(11):209-228.

实战案例14新闻文本共现新闻情绪

参考文献:

范小云,王业东,王道平.基于新闻大数据与机器学习的中国银行业系统性风险研究[J].世界经济,2022,45(04):3-30.

实战案例15:基于GPT模型与neo4j图数据库构建人工智能专利知识图谱及分析

参考文献:

周贞云,黄昭昭,邱均平.基于LLM与可视化的图数据库专利知识图谱构建及分析[J].情报杂志,1-9.

专题六:大语言模型与Python数据应用

1.基于Transformer架构的大语言模型

a)Transformer的基本原理和结构注意力机制

b)编码器和解码器的结构;

c)Transformer大语言模型Generative (decoder) models、Masked (encoder) language models

d)LinkTransformer:支持使用 Hugging Face 上可用的任何基础语言模型

2.大语言模型FT50及中文顶刊应用总结

3.顶刊中基础大模型特点及Python调用:GPT、通义千问qwen3 模型、deepseek

4.ollama本地部署大模型

5.Prompt工程技术:面向Python的AI高质量输出技巧

1)精准输出技巧:如何人机结合用好AI,最大化减少偏误?

参考文献:Baumann, J., Röttger, P., Urman, A., Wendsjö, A., Plaza-del-Arco, F. M., Gruber, J. B., & Hovy, D. (2025).Large language model hacking: Quantifying the hidden risks of using LLMs for text annotation. arXiv. https://doi.org/10.48550/arXiv.2509.08825

2)结构化输出技巧:输出Python代码可处理的数据结构

6.预训练模型的对比、训练及应用:BERT、Sentence BERT、Fin BERT、RoBERTa、DistilBERT、SciBERT、PatentSBERTa、HeBERT、ERNIERoBERTa large

7.检索增强技术RAG及实战应用

实战案例16:基于ERNIE模型测度企业数字化转型

参考文献:

金星晔,左从江,方明月,等.企业数字化转型的测度难题:基于大语言模型的新方法与新发现[J].经济研究,2024,59(03):34-53.

实战案例17:结构化数据的记录连接(匹配)

在不同数据集中匹配个体、地点、公司、组织、产品描述或学术论文等信息,大模型在记录连接方面表现出了巨大的潜力,以大语言模型完成大数据匹配任务:招聘数据与中国职业分类大典匹配为例进行讲解

参考文献:

张星民,张建清,刘小慧,等.外部技术断供、工作任务与企业劳动力需求结构——基于Transformer架构大数据文本挖掘的微观证据[J].数量经济技术经济研究,2025,42(09):72-93.

实战案例18:基于LangChain框架的个人知识库构建“提示工程+检索增强生成+超参数调整”

参考文献:

陈亚盛,蒋礼蔚,单敏,等.审计大模型的构建及应用研究——以员工违规经商办企业专项审计为例[J].审计研究,2024,(04):139-149.

专题七:大语言模型与多模态数据量化

1.大语言模型大语言模型进行文本大数据分类

实战案例19基于BERT模型识别上市公司劳动节约型技术创新

参考文献:

刘青,肖柏高.劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据[J].经济研究,2023,58(02):74-90.

2.大语言模型构建实证变量

实战案例20利用GPT模型从MD&A文本中构建制造业服务化变量

参考文献:

Yimeng, N., Jing, W., Shenyang, J., & Zhibin, J. (2024). The Bullwhip Effect in Servitized Manufacturers. Management Science, 71(1):1-20.03402.

3.多个大模型协作完成复杂任务

实战案例21基于Fin BERT 和DeepSeek模型分析MD&A特定信息与数据标注任务

参考文献

陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.

4.大语言模型进行情感分析

实战案例22:BERT识别讽刺评论,无需训练、适用场景灵活、可处理如反讽等复杂语言现象

核心方法参考文献Li Q, Xu D J, Qian H, et al. A fusion pretrained approach for identifying the cause of sarcasm remarks[J]. INFORMS Journal on Computing, 2025, 37(2): 465-479.

5.大语言模型测量文本相似度

实战案例23:采用无监督词嵌入方法Sentence-BERT计算余弦距离

核心方法参考文献Bao, Jiayi. "Do makerspaces affect entrepreneurship? If so, who, how, and when?." Strategic Management Journal 46.2 (2025): 502-533.

6.大语言模型从图片中提取结构化数据

实战案例24:大语言模型识别CEO面部表情

核心方法参考文献:Momtaz P P. CEO emotions and firm valuation in initial coin offerings: an artificial emotional intelligence approach[J]. Strategic Management Journal, 2021, 42(3): 558-578.

专题八:大语言模型与关系抽取

1.大模型因果关系提炼潜力

实战案例25基于GPT模型对中国核心经管期刊中因果主张的初步挖掘与知识表示(含《管理世界》《经济研究》《管理科学学报》《金融研究》《会计研究》《世界经济》)

参考文献:

Garg, P and T Fetzer (2025), “Causal Claims in Economics”, arXiv preprint arXiv:2501.06873.

2.大语言模型构建语义网络

实战案例26基于Embedding模型企业跨界竞争网络构建

参考文献:

牛晓健,强皓凡,吕斌,等.企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J].金融研究,2024,(03):150-168.

3.大语言模型动态生成节点重要性评估算法

实战案例27:LLM+结合进化算法分析上市公司供应链网络关键节点

参考文献:

Mao, Jinzhu, et al. "Identify critical nodes in complex network with large language models." arXiv preprint arXiv:2403.03962 (2024).

4.大语言模型+BERTopic+知识图谱综合应用

实战案例28:基于大语言模型的网络舆情事理图谱构建与演化分析

参考文献:

姜帆,郭顺利.基于大语言模型的网络舆情事理图谱构建与演化分析—以体育赛事为例[J].情报科学,1-21.

专题九:大语言模型与ABM建模

1.从社会学实验到行为仿真:系统、复杂系统,系统建模、复杂系统建模,主体建模(Agent-based Modeling,ABM)适用情境

2.python构建ABM模型简单地模拟玻尔兹曼财富模型:假设所有人生而平等,即持有相同的1单位资本,将1单位资本随机给一个其他的人,一个社会按这种规则不断演化产生的结果

3.ABM建模的一般方法

1)构建环境:交互地图、数据收集器、智能体调度器

2)构建智能体:智能体交互规则、智能体行为

3)大语言模型和AI智能体在ABM建模中可以做什么

4.大语言模型模拟人类行为

实战案例29大型语言模型在博弈论实验中复现并预测人类合作

核心方法参考文献:Palatsi, A. C., Martin-Gutierrez, S., Cardenal, A. S., & Pellert, M. (2024). Large language models replicate and predict human cooperation across experiments in game theory. arXiv. https://doi.org/10.48550/arXiv.2511.04500

5.大语言模型模拟社会网络

实战案例30用大语言模型模拟社交网络中的虚假信息传播

核心方法参考文献:Maurya, R. G., Shukla, V., Dandekar, R. A., Dandekar, R., & Panat, S. (2024). Simulating misinformation propagation in social networks using large language models. arXivhttps://doi.org/10.48550/arXiv.2511.10384

专题一:大模型前置基础之Python编程应用

1.Python基础语法与科研编程入门

1Python 语言概述与科研应用场景

Python 语言特点:解释型、动态类型、强可读性、丰富生态

Python 在人文社科科研中的典型应用:问卷数据处理、访谈文本分析、文献整理、自动化统计、结果输出

(2)变量与基本数据类型

变量的概念、命名规范与赋值机制

基础数据类型常用方法:整型(int)、浮点型(float)、字符串(str)、布尔型(bool)

类型转换与类型检查

(3)表达式与运算符体系

算术运算符、比较运算符、逻辑运算符、赋值运算符、运算符优先级与表达式求值规则

4输入与输出

标准输入:input()

标准输出print()

文本格式化:f-string、format()

2.Python 核心数据结构

1列表(list)

创建、索引、切片

常用方法:append()、extend()、insert()、pop()、remove()、sort()

2元组(tuple)

不可变序列特性

元组解包

3字典(dict)

键值映射结构

增删改查操作

常用方法:get()、keys()、values()、items()

4集合(set)

唯一性与无序性

并集、交集、差集运算

3.程序流程控制与基本算法思想

1)条件控制结构

if / elif / else

条件表达式(三元表达式)

多条件逻辑判断策略

2)循环控制结构

for 循环与可迭代对象

while 循环与循环终止条

循环嵌套结构

3)循环控制语句

break / continue / pass

for-else 与 while-else

4)列表推导式

列表推导式语法

条件筛选与嵌套推导式

4.函数、模块与面向对象编程基础

1)函数与代码复用

函数定义与调用

参数类型:位置参数、关键字参数、默认参数

返回值机制

变量作用域:局部变量、全局变量

匿名函数:lambda

2)模块与代码组织

模块导入方式

常用标准库讲解:math、random、os、time、datetime等

3)面向对象编程思想(OOP)

面向对象的基本概念:类、对象、属性、方法

对象实例化与成员访问

4)文件读写与科研实践案例

文件读写基础流程

上下文管理器安全读写

5.实操案例部分

实战案例1数据批量高效处理技巧:自动化批量中文简繁转换

实战案例2大规模文件读取技巧:批量读取文件夹省级政府工作报告文件

专题二:大模型前置基础之Python实证数据分析

1.NumPy 数值计算基础

1NumPy 与数值计算基础

NumPy 在科研数据处理中的作用与优势

数值计算与向量化思想简介

2ndarray对象与数组结构

ndarray 的概念、维度与形状(shape)

一维数组与多维数组

数组属性:ndim、shape、dtype

3数组创建与索引机制

常用创建方式:array()、zeros()、ones()、arange()、linspace()

基本索引与切片

布尔索引与条件筛选

4向量化运算与广播机制

数组间的逐元素运算

标量与数组运算

广播机制基本原理

向量化运算在科研计算中的效率优势

5常用统计与数学函数

描述性统计:mean()、sum()、std()、var()、min()、max()

线性代数基础:dot()、transpose()

2.Pandas 数据处理与分析

1Pandas 核心数据结构

Series 与 DataFrame 的概念与结构

索引(Index)与标签系统

数据类型系统(dtype)

2数据导入与导出

CSV、Excel 文件的读取与写入

常用参数设置与编码问题处理

3数据筛选与条件查询

基于标签与位置的索引(loc / iloc)

条件过滤与布尔索引

数据排序与重排

4数据清洗与预处理

缺失值检测与处理

重复值处理

数据类型转换与格式规范化

5数据分组与统计分析

分组操作:groupby()

聚合函数与多指标统计

分组结果的重塑与整理

6数据合并与重组

数据连接:merge()、join()

数据拼接:concat()

面板数据结构构建

7数据透视与多维统计

数据透视表

多维交叉统计分析

面板数据的构建与规范化处理

3.科研数据可视化

1Matplotlib 可视化基础

Matplotlib 绘图框架与基本使用流程

图形对象与坐标系统简介

2常用科研图表类型

折线图(时间序列与趋势分析)

柱状图(类别对比分析)

散点图(相关关系分析)

直方图(分布特征分析)

4.实战案例

实战案例3基于专利数据计算利用式创新和探索式创新

方法复刻参考文献:Guan J, Liu N. Exploitative and exploratory innovations in knowledge network and collaboration network: A patent analysis in the technological field of nano-energy[J]. Research policy, 2016, 45(1): 97-112.

实战案例4插值法——以地级市维度夜间灯光数据为例

实战案例5DID面板数据构建县域城乡融合发展试点DID数据2010-2025构建

4. 课程报名

课程价格

三人拼团价:1999元(人越多越优惠);

早鸟价:2699元
原价:3999元

可按照实际支付金额开具电子发票

价格包含:直播课程+录播回放+课程资料+python赠课+课程答疑(仅开课前支付进答疑群)

如有下优惠,购买前找“学知老师”领取优惠券。

优惠一

普通用户转发本推文到朋友圈/皮皮侠数据会员,私聊学知老师可获八折优惠券。
优惠二
尊享版超级课程会员可在直播结束后免费学习录播课程;如需直播+答疑+录播,超级课程会员可四折购买该课程;

扫码成为超级课程会员

4. 课程售后

课程发票/课程通知

联系“学知老师”可领取课程开课通知、结课证书、可报销发票等证明。

课程退款

在课程未开始前,接受“7天无理由退款”,由于是知识付费,一旦直播课开始后,不接受退款。退款请联系学知老师”。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON