首页 > 资料专栏 > 财税 > 财税审计 > 预算核算 > 2023年电子设备-电子AI+系列专题报告(一):AI大语言模型的原理、演进及算力测算-国信证券PDF

2023年电子设备-电子AI+系列专题报告(一):AI大语言模型的原理、演进及算力测算-国信证券PDF

百派数码
V 实名认证
内容提供者
资料大小:2786KB(压缩后)
文档格式:PDF
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2023/5/27(发布于广东)
阅读:7
类型:积分资料
积分:15分 (VIP无积分限制)
推荐:升级会员

   点此下载 ==>> 点击下载文档


“2023年电子设备-电子AI+系列专题报告(一):AI大语言模型的原理、演进及算力测算-国信证券PDF”第1页图片 “2023年电子设备-电子AI+系列专题报告(一):AI大语言模型的原理、演进及算力测算-国信证券PDF”第2页图片 图片预览结束,如需查阅完整内容,请下载文档!
文本描述
证券研究报告 | 2023年04月24日
电子AI+系列专题报告(一)
AI大语言模型的原理、演进及算力测算
行业研究 · 行业专题
电子
投资评级:超配(维持评级)
证券分析师:胡剑 证券分析师:胡慧 证券分析师:周靖翔 证券分析师:李梓澎 联系人:詹浏洋
021-60893306021-60871321021-60375402 0755-81981181 010-88005307
hujian1@guosen huhui2@guosen zhoujingxiang@guosen lizipeng@guosen zhanliuyang@guosen
S0980521080001 S0980521080002 S0980522100001 S0980522090001
请务必阅读正文之后的免责声明及其项下所有内容AI大语言模型的原理、演进及算力测算
l 机器学习中模型及数据规模增加有利于提高深度神经网络性能。
人工智能致力于研究能够模拟、延伸和扩展人类智能的理论方法及技术,并开发相关应用系统;其最终目标是使计算机能够模拟人的思维方
式和行为。机器学习是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改
善自身性能的学科,广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。深度学习是机器学习的子集,主要由人工神经网络组成。与
传统算法及中小型神经网络相比,大规模的神经网络及海量的数据支撑将有效提高深度神经网络的表现性能。
l Transformer模型架构是现代大语言模型所采用的基础架构。
Transformer模型是一种非串行的神经网络架构,最初被用于执行基于上下文的机器翻译任务。Transformer模型以Encoder-Decoder架构为基
础,能够并行处理整个文本序列,同时引入“注意机制”(Attention),使其能够在文本序列中正向和反向地跟踪单词之间的关系,适合在
大规模分布式集群中进行训练,因此具有能够并行运算、关注上下文信息、表达能力强等优势。Transformer模型以词嵌入向量叠加位置编码
作为输入,使得输入序列具有位置上的关联信息。编码器(Encoder)由Self-Attention(自注意力层)和 Feed Forward Network(前馈网
络)两个子层组成,Attention使得模型不仅关注当前位置的词语,同时能够关注上下文的词语。解码器(Decoder)通过Encoder-Decoder
Attention层,用于解码时对于输入端编码信息的关注;利用掩码(Mask)机制,对序列中每一位置根据之前位置的输出结果循环解码得到当
前位置的输出结果。
请务必阅读正文之后的免责声明及其项下所有内容AI大语言模型的原理、演进及算力测算
l GPT是基于Transformer架构的大语言模型,近年迭代演进迅速。
构建语言模型是自然语言处理中最基本和最重要的任务之一。GPT是基于Transformer架构衍生出的生成式预训练的单向语言模型,通过对大
量语料数据进行无监督学习,从而实现文本生成的目的;在结构上仅采用Transformer架构的Decoder部分。自2018年6月OpenAI发布GPT-1模
型以来,GPT模型迭代演进迅速。GPT-1核心思想是采用“预训练+微调”的半监督学习方法,服务于单序列文本的生成式任务;GPT-2在预训
练阶段引入多任务学习机制,将多样化的自然语言处理任务全部转化为语言模型问题;GPT-3大幅增加了模型参数,更能有效利用上下文信息,
性能得到跨越式提高;GPT-3.5引入人类反馈强化学习机制,通过使用人类反馈的数据集进行监督学习,能够使得模型输出与人类意图一致。
l 大语言模型的训练及推理应用对算力需求带来急剧提升。
以GPT-3为例,GPT-3参数量达1750亿个,训练样本token数达3000亿个。考虑采用精度为32位的单精度浮点数数据来训练模型及进行谷歌级访
问量推理,假设GPT-3模型每次训练时间要求在30天完成,对应GPT-3所需运算次数为3.15*10^23FLOPs,所需算力为121.528PFLOPS,以A100
PCle芯片为例,训练阶段需要新增A100 GPU芯片1558颗,价值量约2337万美元;对应DGX A100服务器195台,价值量约3880.5万美元。假设推
理阶段按谷歌每日搜索量35亿次进行估计,则每日GPT-3需推理token数达7.9万亿个,所需运算次数为4.76*10^24FLOPs,所需算力为
55EFLOPs,则推理阶段需要新增A100 GPU芯片70.6万颗,价值量约105.95亿美元;对应DGX A100服务器8.8万台,价值量约175.12亿美元。
l 产业链相关公司:工业富联、沪电股份、寒武纪、海光信息、国芯科技、全志科技。
l 风险提示:宏观AI推广不及预期,AI投资规模低于预期,AI服务器渗透率提升低于预期 ,AI监管政策收紧等。
请务必阅读正文之后的免责声明及其项下所有内容目录
01人工智能、机器学习与神经网络简介
02Transformer模型结构分析
03大规模语言模型算力需求测算(以GPT-3为例)
04产业链相关公司
05风险提示
请务必阅读正文之后的免责声明及其项下所有内容 一、人工智能、机器学习与神经网络简介
请务必阅读正文之后的免责声明及其项下所有内容