文本描述
学校代码:11482
密级:
ZHEJIANG UNIVERSITY OF FINANCE AND ECONOMICS
硕士学位论文
MASTER THESIS
论文题目基于情感分析视角的上市企业财务危机预警研究
——以沪深A 股制造业为例
作者姓名王昕怡
专业金融
所在学院浙江财经大学-中国社会科学院大学浙江研究院
指导教师徐建军
完成日期2023年12月
硕士学位论文
基于情感分析视角的上市企业财务危
机预警研究——以沪深A 股制造业为例
2023年12月
MASTER THESIS
A Study on Financial Crisis Warning
of Listed Companies Based on
Emotional Analysis --Taking the
Manufacturing Industry of Shanghai
and Shenzhen A-shares as an Example
December 2023
浙江财经大学硕士学位论文
摘要
近年来,我国制造业外部受中美地缘政治博弈的冲击,美国甚至高举“脱钩”大
旗对其进行打压,内部随着我国人口红利的消失,我国制造业传统的竞争优势正在减
弱。作为经济发展的中流砥柱,制造业急需转型升级,但规模的急剧扩张与要素成本
的日益上涨使得其财务风险不断累积,到一定程度不仅影响自身的生产经营活动,还
给利益相关者带来巨大损失。因此,构建一个合理的财务危机预警模型,及时有效地
对企业财务风险采取相应的控制措施十分重要。在当前线上交易普及和网民数量增加
的背景下,文本信息由于其表达直接、内涵丰富、样本具有代表性和时效性的特点,
能够更加直观和前瞻地反映出企业在生产经营过程中的潜在风险,当前已被广泛应用
于企业财务危机预警体系。
本文以2012-2021年827家沪深A 股制造业公司作为研究对象,在对企业财务危
机影响因素分析的基础上,从财务角度和非财务角度共选取了34个定量指标并进行
特征筛选,而后通过Python 爬虫技术和人工手动筛选的方法,从东方财富网下的股
吧论坛获取了上述时间间隔内的实时评论文本数据,结合从CSMAR 数据库下载的上
市企业年报“管理层讨论与分析”部分,基于词典法和两种计算公式分别构建了社交媒
体情绪和信息报告情绪两类情感指标。再对样本数据进行Borderline-SMOTE 过采样
和训练集80%、测试集20%的方式进行划分,构建逻辑回归、K 近邻、支持向量机、
神经网络、决策树、极端梯度提升决策树、轻量级梯度提升机7个基础模型,同时考
虑到单个模型较难拟合复杂的数据且抗干扰能力差,为提升模型的预测效果和性能,
本文采用Stacking 集成学习算法将多个机器学习模型进行组合,并通过各个指标数据
对比模型在不同数据划分方式、不同采样方式和不同生命周期下的预测效果。
理论分析表明:信息报告情绪和社交媒体情绪一方面是企业生产经营以及财务状
况直接简明的体现;另一方面会通过影响投资者的投资决策行为,影响企业股票收益、
价格走势以及流动性水平,进而影响企业的融资能力和盈利能力,最终体现在企业的
财务状况上。通过实证发现以下结论:第一、使用单个模型和Stacking 融合模型进行
财务危机预测时,结合词频法计算的情感指标由于没有考虑程度词和否定词的影响,
可能对情感倾向造成误判,使得模型预测性能不仅没有提升,反而还降低其预测效果;
而采用加总法计算的情感值大多情况下模型的预测性能优于单独考虑定量指标时的
模型预测效果;第二、稳健性检验中词频法计算情感指标的预测效果不稳定;而使用
加总法量化情感时,无论使用哪一类机器学习模型、何种数据划分方式和采样方式,
模型的预测能力在加入该情感指标后都达到了一定程度的提升;第三、Stacking 集成
I
浙江财经大学硕士学位论文
学习算法构建的融合模型比单一弱学习器具有更强的预测性能,且分析样本数据在融
合模型一层分类器下的特征重要性,得出企业偿债能力和盈利能力是影响企业财务危
机最重要的内部因素。
基于上述实证结果,本文认为情感指标可以纳入企业财务危机预警框架,一方面
文本所传达出的增量信息有助于企业及时采取控制措施,从源头把控财务风险;另一
方面可以帮助投资者评估公司潜在价值,理性地做出投资决策行为,及时规避投资风
险以保护自身利益;同时相关部门应进一步规范上市企业的年报文本披露和社交媒体
的信息传播行为,提高信息的可靠性和相关性,使得文本披露更加合规、合理、合法,
并对企业财务进行差异化管理,加强企业偿债能力和盈利能力方面的监管。
关键词:财务危机;情感指标;Borderline-SMOTE;Stacking 集成算法;预警模型
II