首页 > 资料专栏 > IT > IT技术 > 人工智能 > 2022年华泰证券-人工智能57:文本FADT选股PDF

2022年华泰证券-人工智能57:文本FADT选股PDF

东海环保
V 实名认证
内容提供者
资料大小:2864KB(压缩后)
文档格式:PDF
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2023/5/21(发布于山东)
阅读:3
类型:积分资料
积分:15分 (VIP无积分限制)
推荐:升级会员

   点此下载 ==>> 点击下载文档


相关下载
推荐资料
“2022年华泰证券-人工智能57:文本FADT选股PDF”第1页图片 “2022年华泰证券-人工智能57:文本FADT选股PDF”第2页图片 图片预览结束,如需查阅完整内容,请下载文档!
文本描述
证券研究报告
金工
人工智能57:文本FADT选股
华泰研究研究员林晓明
SACNo.S0570516010001linxiaoming@htsc
2022年7月01日│中国内地深度研究SFCNo.BPY421+(86)75582080134
研究员李子钰
对分析师盈利预测调整研报文本进行挖掘,构建FADT选股组合SACNo.S0570519110003liziyu@htsc
本文对分析师盈利预测及评级调整中的文本数据进行挖掘,构建的SFCNo.BRV743+(86)75523987436
forecast_adj_txt因子表现较为优秀:从因子视角来看,该因子分十层回测
研究员何康,PhD
严格单调,多头端收益显著,且与传统的forecast_adj因子相关性低;从主SACNo.S0570520080004hekang@htsc
动选股的视角来看,以该因子多头第一层为基础池进行进一步股票精选,构SFCNo.BRB318+(86)2128972039
建出的主动量化FADT选股组合在回测期20090123~20220630内年化收
联系人陈伟
益达到44.13%,夏普比率1.48,年化双边换手16倍。参数稳健性测试结SACNo.S0570121070169chenwei018440@htsc
果表明,模型受各组参数影响较小,文本因子过拟合程度较低。+(86)2128972228
盈利预测调整是“催化剂”事件的间接表达,使用机器学习识别相关文本
本文的初衷是找出对股价有重要影响的“催化剂”事件,通过分析师盈利预FADT选股组合回测净值
测及评级调整等间接的方式可以对“催化剂”事件进行分析,因此我们的目最大回撤(右轴)
标转换为对盈利预测调整的文本进行识别,找出分析师情感偏正向的调整事增强组合回测净值
1500%
件。在构建模型时,输入特征为分析师研报文本转换成的词频矩阵,预测标
-20%
签为研报发布前后两天对应个股的超额收益。在样本外根据模型预测得分构100
-40%
建forecast_adj_txt因子。测试结果表明该因子多头收益显著,分层效果严
-60%
格单调,同时与传统方法构建的因子相关性低。50
forecast_adj-80%
0-100%
对各参数进行稳健性测试,模型大概率不存在过度调参导致的过拟合问题
2018
201020112012201320142015201620172019202020212022
对模型中的各组参数进行稳健性测试,主要讨论了以下参数:训练使用的非2009
线性模型、研报标题和摘要采用的词数、样本内窗口长度、样本标签的时间资料来源:Wind,朝阳永续,华泰研究,回测期:
区间、标签分类数量等。测试结果表明,文本因子对各组参数均不敏感,不20090123-20220630
同参数下forecast_adj_txt因子均具有较为稳定的分层效果,多头端绝对年
选股组合相对中证超额净值
化收益在21%~23%之间,模型大概率不存在人为过度调参导致的过拟合FADT500
问题,参数敏感性较低,这可能提示我们分析师盈利预测调整研报文本的情超额最大回撤(右轴)
相对中证500净值
感识别是信噪比较高且规律不易随时间改变的场景。500%
40-10%
基础池的构建方式多样,在基础池内进行股票精选构建FADT选股组合30-20%
基础池的构建方式较为多样,可以直接以forecast_adj_txt多头第一层为基20-30%
础池;也可以将forecast_adj_txt多头第一层与SUE_txt多头第一层或10-40%
forecast_adj多头第一层进行合并,使得基础池收益没有明显削弱的同时股0-50%
票数量有所扩充。进一步考虑基本面的ROE、净利润、营业收入、经营活
20122013
20102011201420152016201720182019202020212022
动现金流、市值以及技术面的反转、换手、尾盘成交占比等因子,我们对基2009
础池进行精选,构建每期25只股票等权持有的FADT选股组合。该组合在资料来源:Wind,朝阳永续,华泰研究,回测期:
回测期~内年化收益,夏普比率,年化20090123-20220630
200901232022063044.13%1.48
双边换手16倍,相对中证500年化超额约30%。
关于策略容量与模型层面的更多思考
最后我们对策略容量以及模型改进进行更多思考。策略容量层面,我们提出
三点可能提升策略容量的思路:1)降低调仓频率,增加调仓时间,数据实
证表明月频调仓降低为双月频调仓,FADT组合仍然表现优秀;2)增加FADT
组合的持股数量;3)修改回测框架,提高“资金使用效率”,严格预设固定
频率调仓的方案未必是最优解。模型层面,词语组合的逻辑解释尚存瑕疵,
或许可以尝试NLP中更高阶的模型来使得文本的识别逻辑更为自洽。
风险提示:通过机器学习模型构建选股策略是历史经验的总结,存在失效的
可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观
环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1
金工研究
正文目录
研究导读..........................5
分析师研报文本挖掘框架.......................7
研究回顾...................7
分析师盈利预测及评级调整...................9
盈利预测及评级调整文本建模...............11
数据实证及参数讨论.....................13
基础模型实证........................13
参数讨论........................15
分析师评级调整测试结果.....................22
因子扩展讨论及组合增强.....................24
因子扩展讨论........................24
基础池的构建........................26
基础池增强:FADT选股组合...............28
组合分析........................30
总结与思考.....................33
本文总结........................33
思考与展望.....................34
风险提示........................35
图表目录
图表1:FADT选股组合回测净值................6
图表2:FADT选股组合相对中证500超额净值...............6
图表3:SUE.txt因子构建示意图................7
图表4:三类公告合并的SUE.txt因子分10层回测净值(回测期:20090123-20220630)......7
图表5:三类公告合并的SUE.txt因子分10层回测超额净值(基准中证500,回测期:20090123-20220630)...8
图表6:SUE.txt因子覆盖度................8
图表7:分层1相对于分层10多空对冲净值.............8
图表8:SUE.txt因子分层1分年度业绩(基准中证500,回测期:20090123-20220630)......8
图表9:盈利预测调整及评级调整分月份平均数量统计............9
图表10:业绩公告披露场景下的盈利预测调整...............10
图表11:经营事件披露带来的盈利预测调整...................10
图表12:股权激励带来的盈利预测调整..................10
图表13:分词示意图...................11
图表14:词域生成示意图...................11
图表15:训练特征和训练标签的生成示意图..................12
图表16:滚动训练示意图..................12
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2
金工研究
图表17:基准模型参数选择......................13
图表18:基准模型forecast_adj_txt因子分10层回测(回测期:20090123-20220630).......13
图表19:基准模型forecast_adj_txt因子分10层回测超额净值(基准中证500,回测期:20090123-20220630).....14
图表20:基础模型因子覆盖度..................14
图表21:分层1相对于分层10多空对冲净值................14
图表22:基础模型forecast_adj_txt因子分层1分年度业绩(基准中证500,回测期:20090123-20220630)...14
图表23:基础模型forecast_adj_txt因子分10层回测各层业绩(基准中证500,回测期:20090123-20220630).....15
图表24:标签参数1:T-1~T+7分层回测净值................15
图表25:标签参数1:T-1~T+7分层年化收益与年化超额............15
图表26:标签参数2:T-1~T+20分层回测净值..............15
图表27:标签参数2:T-1~T+20分层年化收益与年化超额..........15
图表28:标签参数3:T-7~T+1分层回测净值................16
图表29:标签参数3:T-7~T+1分层年化收益与年化超额............16
图表30:标签参数4:T-20~T+1分层回测净值..............16
图表31:标签参数4:T-20~T+1分层年化收益与年化超额..........16
图表32:各模型超参数选择......................17
图表33:模型参数:ElasticNet回测净值................17
图表34:模型参数:ElasticNet分层年化收益与年化超额............17
图表35:模型参数:随机森林回测净值..................17
图表36:模型参数:随机森林分层年化收益与年化超额...............17
图表37:模型参数:GBDT回测净值...............18
图表38:模型参数:GBDT分层年化收益与年化超额...........18
图表39:模型参数:LightGBM回测净值................18
图表40:模型参数:LightGBM分层年化收益与年化超额.............18
图表41:模型参数:Stacking回测净值..................18
图表42:模型参数:Stacking分层年化收益与年化超额...............18
图表43:不同样本内窗口长度的分层绝对年化收益对比(T=6/12/24).............19
图表44:标题和摘要不同词数分层绝对年化收益对比(T=6/12/24)..........20
图表45:不同标签分类数的分层绝对年化收益对比(分两类/三类/五类)..........20
图表46:回溯6个月单因子分层回测净值...............21
图表47:回溯6个月单因子覆盖度..................21
图表48:回溯4个月单因子分层回测净值...............21
图表49:回溯4个月单因子覆盖度..................21
图表50:回溯3个月单因子分层回测净值...............21
图表51:回溯3个月单因子覆盖度..................21
图表52:不同回溯月份长度的因子分层绝对年化收益对比(回溯6/4/3个月).........22
图表53:forecast_score_adj_txt因子分10层回测(回测期:20090123-20220630)...........22
图表54:forecast_score_adj_txt因子分10层回测超额净值(基准中证500,回测期:20090123-20220630).23
图表55:forecast_score_adj_txt因子覆盖度.................23
图表56:分层1相对于分层10多空对冲净值................23
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3
aZ9ZeYPBrRtQ6M9RbRtRpPmOoMfQmMyRlOqQoP9PrQuMMYmMtPxNnOpN
金工研究
图表57:forecast_score_adj_txt因子分层1分年度业绩(基准中证500,回测期:20090123-20220630).......23
图表58:基础模型forecast_adj_txt因子分10层回测各层业绩(基准中证500,回测期:20090123-20220630).....23
图表59:forecast_adj因子分10层回测.................24
图表60:forecast_adj因子分层年化收益与年化超额.............24
图表61:forecast_adj_txt_res_1因子分10层回测...............24
图表62:forecast_adj_txt_res_1因子分层年化收益与年化超额..........24
图表63:forecast_adj_txt与forecast_adj因子相关性...........25
图表64:forecast_adj_txt_res_1因子分10层回测...............25
图表65:forecast_adj_txt_res_1因子分层年化收益与年化超额..........25
图表66:forecast_adj_txt与forecast_adj因子相关性...........25
图表67:各因子IC对比....................26
图表68:基础股票池1回测净值(回测期:20090123-20220630)...........26
图表69:基础股票池1股票数量...............26
图表70:基础股票池1分年度业绩(基准中证500,回测期:20090123-20220630)...........27
图表71:基础股票池2回测净值(回测期:20090123-20220630)...........27
图表72:基础股票池2股票数量...............27
图表73:基础股票池2分年度业绩(基准中证500,回测期:20090123-20220630)...........27
图表74:用于基础股票池增强的因子...............28
图表75:基本面因子在基础股票池内分层回测年化收益...............28
图表76:技术面因子在基础股票池内分层回测年化收益...............28
图表77:增强组合回测业绩(回测期:20090123-20220630)...........28
图表78:增强组合回测超额净值(基准中证500,回测期:20090123-20220630)........29
图表79:增强组合分年度业绩(基准中证500,回测期:20090123-20220630)...........29
图表80:FADT选股组合各截面期板块分布情况............30
图表81:FADT选股组合各截面期宽基指数覆盖度情况................30
图表82:FADT组合在市值因子上的暴露程度................31
图表83:FADT组合在Beta因子上的暴露程度..............31
图表84:FADT组合在动量因子上的暴露程度................31
图表85:FADT组合在残差波动率因子上的暴露程度............31
图表86:FADT组合在非线性市值因子上的暴露程度............31
图表87:FADT组合在BP因子上的暴露程度................31
图表88:FADT组合在流动性因子上的暴露程度............32
图表89:FADT组合在盈利因子上的暴露程度................32
图表90:FADT组合在成长因子上的暴露程度................32
图表91:FADT组合在杠杆因子上的暴露程度................32
图表92:FADT选股组合策略容量...................32
图表93:双月频FADT选股组合回测净值(基准中证500,回测期:20090123-20220630)........34
图表94:双月频FADT选股组合分年度业绩(基准中证500,回测期:20090123-20220630)....34
图表95:复盘FADT历史持仓示例:英科医疗(300677.SZ)............35
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4
金工研究
研究导读
MarkMinervini在《股票魔法师》中提出过一个观点:明星股票的背后大多数都存在着某种
“催化剂”事件,这些催化剂事件可能是连续靓眼的业绩、某款热销产品的出现,可能是
新合同的签订,甚至可能是新CEO的任职。这些“催化剂”事件使得那些默默无闻、不为
人知的股票开始得到机构投资者的关注,从而有机会向明星股票迈进。本文受上述观点启
发,希望能找到对股价正向影响较大的“催化剂”,那么从量化的视角来看,有没有某种方
法能对类似的“催化剂”事件进行监测?分析师盈利预测及评级调整或是一条可能的路径。
本文是华泰金工人工智能系列文本挖掘主题的第五篇报告,我们继续将视野聚焦于分析师
研报文本,探究分析师盈利预测及评级调整这一场景下研报文本中的情感识别。本文的研
究动机如上所述,我们希望找到对股价具有正向影响的“催化剂”事件,并将其数量化。
由于“催化剂”没有某种特定的模式,不同的行业“催化剂”事件可能千差万别,如果从
遍历的思路出发很难对所有事件进行系统监测。
现在我们尝试从另一个角度出发进行研究。由于行业研究员对个股进行覆盖,对个股的跟
踪及时性更强,当个股出现了影响较大的“催化剂”事件以后,分析师大多会及时撰写点
评报告,并可能对盈利预测及评级进行调整。这为我们提供了监测“催化剂”事件的间接
思路,因此我们可以将目标转换为对分析师盈利预测及评级调整的研报文本进行情感识别,
进而找出正向催化较强的个股。
参考前期报告《人工智能51:文本PEAD选股策略》(20220107)中对分析师业绩点评研
报文本的研究思路,我们对盈利预测及评级调整的研报文本使用类似的方法论进行挖掘。
令研报文本用词的词频矩阵作为输入特征,分析师研报发布前后两天的个股超额收益作为
预测标签,使用机器学习模型进行交叉验证训练,在样本外根据模型预测得分构建
forecast_adj_txt因子,该因子十层严格单调,多头端收益显著,且与传统的forecast_adj
因子相关性较低。
在正文中我们花了比较多的篇幅来讨论整个模型构建过程中的参数敏感性问题,核心结论
是:文本因子的构建基本不存在人为过度调参导致的过拟合问题,模型参数稳健性较高,
分析师盈利预测调整研报文本的情感识别是信噪比较低且规律不易随时间改变的场景。在
测试过程中,我们主要讨论了以下参数:训练使用的非线性模型、研报标题和摘要采用的
词数、样本内窗口长度、样本标签的时间区间、标签分类数量等。
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5