首页 > 资料专栏 > 财税 > 有价证券 > 证券债券 > 【国盛证券】GPT4展望:多模态,chatGPT下一站PDF

【国盛证券】GPT4展望:多模态,chatGPT下一站PDF

往事如梦
V 实名认证
内容提供者
热门搜索
证券 国盛证券
资料大小:2838KB(压缩后)
文档格式:PDF
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2023/6/8(发布于四川)
阅读:5
类型:积分资料
积分:15分 (VIP无积分限制)
推荐:升级会员

   点此下载 ==>> 点击下载文档


相关下载
推荐资料
“【国盛证券】GPT4展望:多模态,chatGPT下一站PDF”第1页图片 图片预览结束,如需查阅完整内容,请下载文档!
文本描述
证券研究报告|行业点评
2023 年 02 月 28 日
计算机
GPT4 展望:多模态,CHATGPT 下一站
GPT4 有望于 2023 年发布。根据《财富》杂志报道,OpenAI还有更多创新蓄势 增持(维持)
待发,OpenAI在贝塔测试版 GPT-4 中采用了更强大的大语言模型,预计该版本
将于今年甚至很快发布。关于 GPT4 的猜测众说纷纭,尘嚣甚上,且公开信息较
为有限,我们在此总结各路信息、展望未来,供各位投资者参考: 行业走势
相较前代,GPT4 可能不会有参数量上的巨幅提升,而是在其他方向寻求提高。
在 2023 年 1 月 18 日的一场公开采访中,当 OpenAI 的 CEO Sam Altman 被问及 计算机 沪深300
一张在推特上被疯转的图表时(该图表称 GPT-3 拥有 1750 亿参数,而 GPT-4 可 16%
能拥有 100 万亿参数),Altman 称其“完全是胡说”。这证明了即将到来的 GPT4 0%
可能不会往一味巨幅扩大参数量的方向去走,而可能向其他方向寻求提升。
-16%
GPT4 有可能是一个多模态模型,可用于图像等领域。根据 The Seattle Times 新 -32%
闻报道,GPT4可能是一个很像 ChatGPT 的系统,只生成文本;或者它也可以把
-48%
图像和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况,但是
2022-02 2022-06 2022-10 2023-02
OpenAI 还没有确定新系统是否会发布涉及图像的功能。此外,根据财富杂志报
道,OpenAI 也确实在开发一款通过文字能生成视频的 AI 模型。
若 GPT4 转向多模态,未来输入输出可能出现图像、视频等形态,有望打开下游作者
千行百业应用空间。NLP只是大模型的应用领域之一,未来大模型的输入输出可
以不仅限于文字,虽然当前影响力最强的 ChatGPT 是 NLP 模型,还可以包括图 分析师 刘高畅
像、视频等多种形式,成为多模态模型,例如OpenAI 的绘画 AI 模型 DALL-E2, 执业证书编号:S0680518090001
在 AIGC 界引起过巨大反响的Stable Diffusion 等等。 邮箱:liugaochang@gszq
传统的 演绎下视觉应用解决问题都是单点模式, 多模态有望带 相关研究
CNNCHATGPT
来通用模式。传统 CNN 模式下,视觉 AI 公司倾向于采用单点方式,在各个碎片 1、《计算机:ChatGPT 技术篇:智能背后的秘密》2023-
场景中做客制化落地,定制化程度相对较高;若转向大模型模式,GPT4 的多模态
02-26
能力有望带来通用化的模式,显著提升 AI 模型生产效率。例如,商汤科技的
SenseCore AI 大装置中,模型层的模型工厂可以大幅降低人工智能生产要素的成 2、《计算机:首批Azure OpenAI 服务落地万科,大模
本,提高人工智能的生产效率,实现人工智能以自动化、自适应的方式进行生产 型商业化进程持续加速》2023-02-21
和落地,模型工厂已开发超过 49000 个商用人工智能模型。我们认为,若 GPT4
3、《计算机:ChatGPT 算力需求是如何扩张的》2023-
转向多模态,图像、视频等应用将层出不穷涌现。其使用场景将远远不仅限于文
02-19
字、问答与办公,打开有望未来AI 在下游千行百业的应用空间,进一步打开市
场想象力。
投资建议。建议关注:1)视频场景:当虹科技、网达软件;2)视觉场景:海康
威视、大华股份、云从科技、商汤科技。
风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。
请仔细阅读本报告末页声明扫码进群领取
1、优质研报免费获取,行业报告定期打包
2、每日推送行业最新深度研报(精选10篇)
3、最新行业报告、公司研究、专业大咖分享2023 年 02 月 28 日
内容目录
1、GPT4 展望:发力未必在规模,有望转向多模态 ............... 3
2、投资建议 ..................... 7
3、风险提示 ..................... 7
图表目录
图表1:OpenAI掌舵人称推特上被疯转的此图“完全是胡说” ......... 3
图表1:用DALL-E2生成宇航员骑马图 ............... 4
图表 2:Stable Diffusion 生成的图像 ..................... 5
图表 3:Stable diffusion 训练成本估算 .................. 5
P.2请仔细阅读本报告末页声明
2023 年 02 月 28 日
1、GPT4 展望:发力未必在规模,有望转向多模态
GPT4 有望于 2023 年发布。根据《财富》杂志报道,OpenAI 还有更多创新蓄势待发,
OpenAI 在贝塔测试版GPT-4 中采用了更强大的大语言模型,预计该版本将于今年甚至
很快发布。关于 GPT4 的猜测众说纷纭,尘嚣甚上,且公开信息较为有限,我们在此总
结各路信息、展望未来,供各位投资者参考:
相较前代,GPT4 可能不会有参数量上的巨幅提升,而是在其他方向寻求提高。在
2023 年 1 月 18 日的一场公开采访中,当OpenAI 的 CEO Sam Altman 被问及一张
在推特上被疯转的图表时(该图表称 GPT-3 拥有 1750 亿参数,而GPT-4 可能拥有
100 万亿参数),Altman称其“完全是胡说”。这证明了即将到来的 GPT4 可能不
会往一味巨幅扩大参数量的方向去走,而可能向其他方向寻求提升。
图表 1:OpenAI 掌舵人称推特上被疯转的此图“完全是胡说”
资料来源:推特,国盛证券研究所
GPT4 有可能是一个多模态模型,可用于图像等领域。根据 The Seattle Times 新闻
报道,GPT4 可能是一个很像 ChatGPT 的系统,只生成文本;或者它也可以把图像
和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况,但是 OpenAI
还没有确定新系统是否会发布涉及图像的功能。此外,根据财富杂志报道,OpenAI
也确实在开发一款通过文字能生成视频的AI 模型。
实际上,NLP只是大模型的应用领域之一,图像、视频等领域也可使用Transformer
P.3请仔细阅读本报告末页声明
2023 年 02 月 28 日
大模型这一技术路径。Transformer 虽然最早提出之时,用于NLP 领域,但随着这一技
术路径不断普及流行,图像、视频、音乐等领域也开始使用 Transformer 的技术路线,
探索各类跨类别任务。(比如根据文字指令输出图像等)
未来大模型的输入输出可以不仅限于文字,还可以包括图像、视频等多种形式,成为多
模态模型。虽然当前影响力最强的 ChatGPT 是 NLP 模型,但大模型的能力远远不仅限于
文字。输入文字生成图像、输入文字生成音乐、输入图像生成图像……此类功能现在已
经可以通过AI 大模型一定程度上实现,这类模型被称为多模态模型,实际上 OpenAI
的绘画 AI 模型 DALL-E2 就是目前最知名的多模态模型之一。除此之外,其他知名多模
态模型还包括在 AIGC 界引起过巨大反响的 Stable Diffusion,以及谷歌推出的音乐生成
AI 模型 MusicLM 等。
1)DALL-E 2:OpenAI 推出的 AI 绘画模型,在前代 DALL-E 的基础之上有了很大提升,
可以直接根据文字生成图像,也可以输入图像后、子现成图像上根据文字指令进行部分
修改,功能强大。
图表 2:用 DALL-E2 生成宇航员骑马图
资料来源:OpenAI 官网,国盛证券研究所
2)Stable diffusion:由 stability.ai 公司在去年开源的 AI 绘画模型,可以通过输入文
字生成对应图像。由于效果极佳,模型一经开源即在AIGC 界引起极大反响。
P.4请仔细阅读本报告末页声明