计算机行业:解析ChatGPT背后的技术演进-20230322-方正证券-39页.pdf-百度网盘下载
行业专题报告
行业研究
计算机行业
2023.03.22/推荐
自然语言处理(Natural LanguageProcessingNLP)的发展
历程可分为三个阶段;
1)上世纪 80年代之前,人工智能开始萌芽,基于规则的语言
系统占据主导,出现了机器翻译以及语言对话的初级产品:
2)1980年之后,机器学习在全球范围内兴起,自然语言处理
走向纯粹的统计学,90年代后神经网络引入,NLP进入了快速
发展期,并在2000年后逐渐开启了商业化进程:
3)2017 年,Google 发布著名论文《Attention is All You
Need》 提出了基于Attention 注意力机制构建的Transformer
模型。2018年OpenAl的GPT模型以及Google的BERT模型均
是在Transformer的基础上构建,大语言模型时代正式开启。
Attention注意力机制与Transformer是大语言模型的基石。
1)Attention 机制在并行计算(效率更高)以及解决长距离信
息依赖的能力(效果更好)上优于过去的神经网络模型。
2)Transformer模型没有使用传统的GNN和RNN结构,其完全
是由Attention机制组成,其中Self-Attention(自注意力)
是Transformer的核心。
3)OpenAl 的GPT模型和Google的BERT模型虽然都是基于
Transformer 所构建,但GPT模型仅使用了解码器的部分,而
BERT 仅使用了编码器的部分,二者在技术路线上也走向了两条
不同的道路。
GPT模型的神续进化与能力突变:从CPT-1到CPT-4
1)GPT-1:有监督学习和无监督学习的结合,模型的语言泛化
能力不够,更接近于处理特定语言任务的专家模型。而非通用
的语言模型:
2)GPT-2:舍弃了模型微调,让多个不同的任务在同一个模型
上学习,构建了换一个泛化能力更强的语言模刑,开始让语言
模型的通用性得到了更加充分的展现:
3)GPT-3:在训练方法上则采取了In-context学习,参数量相
较于GPT-2提升了两个教量级,达到了1750亿。数据集在处理
前容量达到了45TB,是真正意义上的超大语言模型。
4)ChatGPT:引入人类反馈的强化学习(RLHF)及近端策略优
化算法(PPO)等新的训练方式后,语言生成能力大幅提升,并
且涌现出了思维链及逻辑推理等多种能力。
5)GPT-4:在推理能力、文本生成能力、对话能力等方面有了
进一步提升的同时,实现了从大语言模型向多模态模型进化的
第一步。
图表目录
图表 1:NLP技术发展的主要阶段….….………..........
图表 2:人类视觉的注意力机制..................................................7
图表 3:RNN 主要用于序列数据处理….........................................................................8
图表 4:RNN的基本结构.…..................9
图表 5:LTSM的基本结构…
图表 6:CNN的基本结构................11
图表 7:Attention 的基本结构12
图表 8:计算机视觉中的感受野1
图表 9:Attention 用于表示词与词的相关程度....13
图表 10:Self-Attention的计算过程…..15
图表 11:语言理解与生成的基本原理16
图表 12:Transformer由编码器和解码器两部分构成...........................................16
图表 13:Transformer的基本结构.17
图表 14:Masked Self-attention 机制..18
图表 15:不带Masked的Self-attention机制…..18
图表 16:GPT模型的语言生成模式1
图表 17:Transformer是大语言模型的基石..….…..................................20
图表 18:针对不同下游任务进行训练….......................................................................................21
图表 19:GPT-2舍弃了模型微调部分…22
图表20:GPT-3的In-context方式与传统微调方式的对比…....................................................23
图表21:训练不同模型所需要的算力对比...............................…….............24
图表22:GPT-3在Few-shot 上有很好的表现.24
图表 23:从GPT-3到ChatGPT的迭代路径..................25
图表 24:ChatGPT在文本生成方面展现出了强大的能力...............26
图表 25:强化学习的基本原理…………………27
图表 26:ChatGPT的训练过程.......………....28
图表 27:ChatGPT 人工标注团队........29
图表 28:GPT-4模型性能要显著优于 GP-.
图表 29:GPT模型演进的5 个阶段..30
图表 30:海外大语言模型整体情况.32
图表 31:国内大模型现状33
图表 32:生成算法、大模型、多模态是AIGC的底层技术...............................................................34
图表 33:AIGC的应用场景.35
图表 34:GPT-4 嵌入 Offcie…………………………............
...................................36
图表 35:百度文心大模型全景图
.........37
评论0