【国盛证券】GPT4展望：多模态，chatGPT下一站PDF -管理资源网

首页 > 资料专栏 > 财税 > 有价证券 > 证券债券 > 【国盛证券】GPT4展望：多模态，chatGPT下一站PDF

【国盛证券】GPT4展望：多模态，chatGPT下一站PDF

往事如梦: V 实名认证

内容提供者

联系反馈

热门搜索

证券国盛证券

资料大小：2838KB(压缩后)
文档格式：PDF
资料语言：中文版/英文版/日文版
解压密码：m448
更新时间：2023/6/8(发布于四川)
阅读：5
类型：积分资料
积分：15分 (VIP无积分限制)
推荐：升级会员

下载地址

文档软件 | 转换工具

==>> 点击下载文档

相关下载

推荐资料

文本描述

证券研究报告|行业点评
2023 年 02 月 28 日
计算机
GPT4 展望：多模态，CHATGPT 下一站
GPT4 有望于 2023 年发布。根据《财富》杂志报道，OpenAI还有更多创新蓄势增持（维持）
待发，OpenAI在贝塔测试版 GPT-4 中采用了更强大的大语言模型，预计该版本
将于今年甚至很快发布。关于 GPT4 的猜测众说纷纭，尘嚣甚上，且公开信息较
为有限，我们在此总结各路信息、展望未来，供各位投资者参考：行业走势
相较前代，GPT4 可能不会有参数量上的巨幅提升，而是在其他方向寻求提高。
在 2023 年 1 月 18 日的一场公开采访中，当 OpenAI 的 CEO Sam Altman 被问及计算机沪深300
一张在推特上被疯转的图表时（该图表称 GPT-3 拥有 1750 亿参数，而 GPT-4 可 16%
能拥有 100 万亿参数），Altman 称其“完全是胡说”。这证明了即将到来的 GPT4 0%
可能不会往一味巨幅扩大参数量的方向去走，而可能向其他方向寻求提升。
-16%
GPT4 有可能是一个多模态模型，可用于图像等领域。根据 The Seattle Times 新 -32%
闻报道，GPT4可能是一个很像 ChatGPT 的系统，只生成文本；或者它也可以把
-48%
图像和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况，但是
2022-02 2022-06 2022-10 2023-02
OpenAI 还没有确定新系统是否会发布涉及图像的功能。此外，根据财富杂志报
道，OpenAI 也确实在开发一款通过文字能生成视频的 AI 模型。
若 GPT4 转向多模态，未来输入输出可能出现图像、视频等形态，有望打开下游作者
千行百业应用空间。NLP只是大模型的应用领域之一，未来大模型的输入输出可
以不仅限于文字，虽然当前影响力最强的 ChatGPT 是 NLP 模型，还可以包括图分析师刘高畅
像、视频等多种形式，成为多模态模型，例如OpenAI 的绘画 AI 模型 DALL-E2，执业证书编号：S0680518090001
在 AIGC 界引起过巨大反响的Stable Diffusion 等等。邮箱：liugaochang@gszq
传统的演绎下视觉应用解决问题都是单点模式，多模态有望带相关研究
CNNCHATGPT
来通用模式。传统 CNN 模式下，视觉 AI 公司倾向于采用单点方式，在各个碎片 1、《计算机：ChatGPT 技术篇：智能背后的秘密》2023-
场景中做客制化落地，定制化程度相对较高；若转向大模型模式，GPT4 的多模态
02-26
能力有望带来通用化的模式，显著提升 AI 模型生产效率。例如，商汤科技的
SenseCore AI 大装置中，模型层的模型工厂可以大幅降低人工智能生产要素的成 2、《计算机：首批Azure OpenAI 服务落地万科，大模
本，提高人工智能的生产效率，实现人工智能以自动化、自适应的方式进行生产型商业化进程持续加速》2023-02-21
和落地，模型工厂已开发超过 49000 个商用人工智能模型。我们认为，若 GPT4
3、《计算机：ChatGPT 算力需求是如何扩张的》2023-
转向多模态，图像、视频等应用将层出不穷涌现。其使用场景将远远不仅限于文
02-19
字、问答与办公，打开有望未来AI 在下游千行百业的应用空间，进一步打开市
场想象力。
投资建议。建议关注：1）视频场景：当虹科技、网达软件；2）视觉场景：海康
威视、大华股份、云从科技、商汤科技。
风险提示：AI技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。
请仔细阅读本报告末页声明扫码进群领取
1、优质研报免费获取，行业报告定期打包
2、每日推送行业最新深度研报（精选10篇）
3、最新行业报告、公司研究、专业大咖分享2023 年 02 月 28 日
内容目录
1、GPT4 展望：发力未必在规模，有望转向多模态 ............... 3
2、投资建议 ..................... 7
3、风险提示 ..................... 7
图表目录
图表１：ＯｐｅｎＡＩ掌舵人称推特上被疯转的此图“完全是胡说” ......... 3
图表１：用ＤＡＬＬ－Ｅ２生成宇航员骑马图 ............... 4
图表 2：Stable Diffusion 生成的图像 ..................... 5
图表 3：Stable diffusion 训练成本估算 .................. 5
P.2请仔细阅读本报告末页声明
2023 年 02 月 28 日
1、GPT4 展望：发力未必在规模，有望转向多模态
GPT4 有望于 2023 年发布。根据《财富》杂志报道，OpenAI 还有更多创新蓄势待发，
OpenAI 在贝塔测试版GPT-4 中采用了更强大的大语言模型，预计该版本将于今年甚至
很快发布。关于 GPT4 的猜测众说纷纭，尘嚣甚上，且公开信息较为有限，我们在此总
结各路信息、展望未来，供各位投资者参考：
相较前代，GPT4 可能不会有参数量上的巨幅提升，而是在其他方向寻求提高。在
2023 年 1 月 18 日的一场公开采访中，当OpenAI 的 CEO Sam Altman 被问及一张
在推特上被疯转的图表时（该图表称 GPT-3 拥有 1750 亿参数，而GPT-4 可能拥有
100 万亿参数），Altman称其“完全是胡说”。这证明了即将到来的 GPT4 可能不
会往一味巨幅扩大参数量的方向去走，而可能向其他方向寻求提升。
图表 1：OpenAI 掌舵人称推特上被疯转的此图“完全是胡说”
资料来源：推特，国盛证券研究所
GPT4 有可能是一个多模态模型，可用于图像等领域。根据 The Seattle Times 新闻
报道，GPT4 可能是一个很像 ChatGPT 的系统，只生成文本；或者它也可以把图像
和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况，但是 OpenAI
还没有确定新系统是否会发布涉及图像的功能。此外，根据财富杂志报道，OpenAI
也确实在开发一款通过文字能生成视频的AI 模型。
实际上，NLP只是大模型的应用领域之一，图像、视频等领域也可使用Transformer
P.3请仔细阅读本报告末页声明
2023 年 02 月 28 日
大模型这一技术路径。Transformer 虽然最早提出之时，用于NLP 领域，但随着这一技
术路径不断普及流行，图像、视频、音乐等领域也开始使用 Transformer 的技术路线，
探索各类跨类别任务。（比如根据文字指令输出图像等）
未来大模型的输入输出可以不仅限于文字，还可以包括图像、视频等多种形式，成为多
模态模型。虽然当前影响力最强的 ChatGPT 是 NLP 模型，但大模型的能力远远不仅限于
文字。输入文字生成图像、输入文字生成音乐、输入图像生成图像……此类功能现在已
经可以通过AI 大模型一定程度上实现，这类模型被称为多模态模型，实际上 OpenAI
的绘画 AI 模型 DALL-E2 就是目前最知名的多模态模型之一。除此之外，其他知名多模
态模型还包括在 AIGC 界引起过巨大反响的 Stable Diffusion，以及谷歌推出的音乐生成
AI 模型 MusicLM 等。
1）DALL-E 2：OpenAI 推出的 AI 绘画模型，在前代 DALL-E 的基础之上有了很大提升，
可以直接根据文字生成图像，也可以输入图像后、子现成图像上根据文字指令进行部分
修改，功能强大。
图表 2：用 DALL-E2 生成宇航员骑马图
资料来源：OpenAI 官网，国盛证券研究所
2）Stable diffusion：由 stability.ai 公司在去年开源的 AI 绘画模型，可以通过输入文
字生成对应图像。由于效果极佳，模型一经开源即在AIGC 界引起极大反响。
P.4请仔细阅读本报告末页声明