文本描述
证券研究报告
金工
人工智能57:文本FADT选股
华泰研究研究员林晓明
SACNo.S0570516010001linxiaoming@htsc
2022年7月01日│中国内地深度研究SFCNo.BPY421+(86)75582080134
研究员李子钰
对分析师盈利预测调整研报文本进行挖掘,构建FADT选股组合SACNo.S0570519110003liziyu@htsc
本文对分析师盈利预测及评级调整中的文本数据进行挖掘,构建的SFCNo.BRV743+(86)75523987436
forecast_adj_txt因子表现较为优秀:从因子视角来看,该因子分十层回测
研究员何康,PhD
严格单调,多头端收益显著,且与传统的forecast_adj因子相关性低;从主SACNo.S0570520080004hekang@htsc
动选股的视角来看,以该因子多头第一层为基础池进行进一步股票精选,构SFCNo.BRB318+(86)2128972039
建出的主动量化FADT选股组合在回测期20090123~20220630内年化收
联系人陈伟
益达到44.13%,夏普比率1.48,年化双边换手16倍。参数稳健性测试结SACNo.S0570121070169chenwei018440@htsc
果表明,模型受各组参数影响较小,文本因子过拟合程度较低。+(86)2128972228
盈利预测调整是“催化剂”事件的间接表达,使用机器学习识别相关文本
本文的初衷是找出对股价有重要影响的“催化剂”事件,通过分析师盈利预FADT选股组合回测净值
测及评级调整等间接的方式可以对“催化剂”事件进行分析,因此我们的目最大回撤(右轴)
标转换为对盈利预测调整的文本进行识别,找出分析师情感偏正向的调整事增强组合回测净值
1500%
件。在构建模型时,输入特征为分析师研报文本转换成的词频矩阵,预测标
-20%
签为研报发布前后两天对应个股的超额收益。在样本外根据模型预测得分构100
-40%
建forecast_adj_txt因子。测试结果表明该因子多头收益显著,分层效果严
-60%
格单调,同时与传统方法构建的因子相关性低。50
forecast_adj-80%
0-100%
对各参数进行稳健性测试,模型大概率不存在过度调参导致的过拟合问题
2018
201020112012201320142015201620172019202020212022
对模型中的各组参数进行稳健性测试,主要讨论了以下参数:训练使用的非2009
线性模型、研报标题和摘要采用的词数、样本内窗口长度、样本标签的时间资料来源:Wind,朝阳永续,华泰研究,回测期:
区间、标签分类数量等。测试结果表明,文本因子对各组参数均不敏感,不20090123-20220630
同参数下forecast_adj_txt因子均具有较为稳定的分层效果,多头端绝对年
选股组合相对中证超额净值
化收益在21%~23%之间,模型大概率不存在人为过度调参导致的过拟合FADT500
问题,参数敏感性较低,这可能提示我们分析师盈利预测调整研报文本的情超额最大回撤(右轴)
相对中证500净值
感识别是信噪比较高且规律不易随时间改变的场景。500%
40-10%
基础池的构建方式多样,在基础池内进行股票精选构建FADT选股组合30-20%
基础池的构建方式较为多样,可以直接以forecast_adj_txt多头第一层为基20-30%
础池;也可以将forecast_adj_txt多头第一层与SUE_txt多头第一层或10-40%
forecast_adj多头第一层进行合并,使得基础池收益没有明显削弱的同时股0-50%
票数量有所扩充。进一步考虑基本面的ROE、净利润、营业收入、经营活
20122013
20102011201420152016201720182019202020212022
动现金流、市值以及技术面的反转、换手、尾盘成交占比等因子,我们对基2009
础池进行精选,构建每期25只股票等权持有的FADT选股组合。该组合在资料来源:Wind,朝阳永续,华泰研究,回测期:
回测期~内年化收益,夏普比率,年化20090123-20220630
200901232022063044.13%1.48
双边换手16倍,相对中证500年化超额约30%。
关于策略容量与模型层面的更多思考
最后我们对策略容量以及模型改进进行更多思考。策略容量层面,我们提出
三点可能提升策略容量的思路:1)降低调仓频率,增加调仓时间,数据实
证表明月频调仓降低为双月频调仓,FADT组合仍然表现优秀;2)增加FADT
组合的持股数量;3)修改回测框架,提高“资金使用效率”,严格预设固定
频率调仓的方案未必是最优解。模型层面,词语组合的逻辑解释尚存瑕疵,
或许可以尝试NLP中更高阶的模型来使得文本的识别逻辑更为自洽。
风险提示:通过机器学习模型构建选股策略是历史经验的总结,存在失效的
可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观
环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1
金工研究
正文目录
研究导读..........................5
分析师研报文本挖掘框架.......................7
研究回顾...................7
分析师盈利预测及评级调整...................9
盈利预测及评级调整文本建模...............11
数据实证及参数讨论.....................13
基础模型实证........................13
参数讨论........................15
分析师评级调整测试结果.....................22
因子扩展讨论及组合增强.....................24
因子扩展讨论........................24
基础池的构建........................26
基础池增强:FADT选股组合...............28
组合分析........................30
总结与思考.....................33
本文总结........................33
思考与展望.....................34
风险提示........................35
图表目录
图表1:FADT选股组合回测净值................6
图表2:FADT选股组合相对中证500超额净值...............6
图表3:SUE.txt因子构建示意图................7
图表4:三类公告合并的SUE.txt因子分10层回测净值(回测期:20090123-20220630)......7
图表5:三类公告合并的SUE.txt因子分10层回测超额净值(基准中证500,回测期:20090123-20220630)...8
图表6:SUE.txt因子覆盖度................8
图表7:分层1相对于分层10多空对冲净值.............8
图表8:SUE.txt因子分层1分年度业绩(基准中证500,回测期:20090123-20220630)......8
图表9:盈利预测调整及评级调整分月份平均数量统计............9
图表10:业绩公告披露场景下的盈利预测调整...............10
图表11:经营事件披露带来的盈利预测调整...................10
图表12:股权激励带来的盈利预测调整..................10
图表13:分词示意图...................11
图表14:词域生成示意图...................11
图表15:训练特征和训练标签的生成示意图..................12
图表16:滚动训练示意图..................12
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2
金工研究
图表17:基准模型参数选择......................13
图表18:基准模型forecast_adj_txt因子分10层回测(回测期:20090123-20220630).......13
图表19:基准模型forecast_adj_txt因子分10层回测超额净值(基准中证500,回测期:20090123-20220630).....14
图表20:基础模型因子覆盖度..................14
图表21:分层1相对于分层10多空对冲净值................14
图表22:基础模型forecast_adj_txt因子分层1分年度业绩(基准中证500,回测期:20090123-20220630)...14
图表23:基础模型forecast_adj_txt因子分10层回测各层业绩(基准中证500,回测期:20090123-20220630).....15
图表24:标签参数1:T-1~T+7分层回测净值................15
图表25:标签参数1:T-1~T+7分层年化收益与年化超额............15
图表26:标签参数2:T-1~T+20分层回测净值..............15
图表27:标签参数2:T-1~T+20分层年化收益与年化超额..........15
图表28:标签参数3:T-7~T+1分层回测净值................16
图表29:标签参数3:T-7~T+1分层年化收益与年化超额............16
图表30:标签参数4:T-20~T+1分层回测净值..............16
图表31:标签参数4:T-20~T+1分层年化收益与年化超额..........16
图表32:各模型超参数选择......................17
图表33:模型参数:ElasticNet回测净值................17
图表34:模型参数:ElasticNet分层年化收益与年化超额............17
图表35:模型参数:随机森林回测净值..................17
图表36:模型参数:随机森林分层年化收益与年化超额...............17
图表37:模型参数:GBDT回测净值...............18
图表38:模型参数:GBDT分层年化收益与年化超额...........18
图表39:模型参数:LightGBM回测净值................18
图表40:模型参数:LightGBM分层年化收益与年化超额.............18
图表41:模型参数:Stacking回测净值..................18
图表42:模型参数:Stacking分层年化收益与年化超额...............18
图表43:不同样本内窗口长度的分层绝对年化收益对比(T=6/12/24).............19
图表44:标题和摘要不同词数分层绝对年化收益对比(T=6/12/24)..........20
图表45:不同标签分类数的分层绝对年化收益对比(分两类/三类/五类)..........20
图表46:回溯6个月单因子分层回测净值...............21
图表47:回溯6个月单因子覆盖度..................21
图表48:回溯4个月单因子分层回测净值...............21
图表49:回溯4个月单因子覆盖度..................21
图表50:回溯3个月单因子分层回测净值...............21
图表51:回溯3个月单因子覆盖度..................21
图表52:不同回溯月份长度的因子分层绝对年化收益对比(回溯6/4/3个月).........22
图表53:forecast_scor