ChatGPT发展历程、原理、技术架构详解和产业未来思维导图

笔灵AI论文写作三步搞定，GO>>

当前位置:树图

思维导图模板

创意模板

表格

ChatGPT发展历程、原理、技术架构详解和产业未来思维导图

免费下载

免费使用文件

王小二

浏览量：46

2023-02-08 21:22:07

已被使用12次

查看详情

ChatGPT发展历程、原理、技术架构详解和产业未来的介绍

树图思维导图提供 ChatGPT发展历程、原理、技术架构详解和产业未来在线思维导图免费制作，点击“编辑”按钮，可对 ChatGPT发展历程、原理、技术架构详解和产业未来进行在线思维导图编辑，本思维导图属于思维导图模板主题，文件编号是：c5ac67b48306ee6745e6e055e1780ae0

ChatGPT ChatGPT产业未来原理发展历程

举报/反馈

思维导图大纲

ChatGPT发展历程、原理、技术架构详解和产业未来思维导图模板大纲

1、ChatGPT的传承与特点

1.1 OpenAI家族

OpenAI总部位于旧金山，由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立，目标是开发造福全人类的AI技术。

此前，OpenAI 因推出 GPT系列自然语言处理模型而闻名。

每一代GPT模型的参数量都爆炸式增长，堪称“越大越好”。

1.2 ChatGPT的主要特点和特征

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架构开发的对话AI模型，是InstructGPT 的兄弟模型。

OpenAI使用 RLHF（Reinforcement Learning from Human Feedbac，人类反馈强化学习）技术对 ChatGPT 进行了训练，且加入了更多人工监督进行微调。

特征

1）可以主动承认自身错误。若用户指出其错误，模型会听取意见并优化答案

2）ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时，机器人会说明哥伦布不属于这一时代并调整输出结果。

3）ChatGPT 可以承认自身的无知，承认对专业技术的不了解。

4）支持连续多轮对话。

2、ChatGPT/GPT的原理

2.1 NLP

NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解，以及对上下文短语的误解。

对于人类或AI，通常需接受多年的训练才能正常对话。

NLP技术的应用领域，本质上，作为ChatGPT基础的GPT-3或GPT-3.5 是一个超大的统计语言模型或顺序文本预测模型。

2.2 GPT v.s.BERT

与BERT模型类似，ChatGPT或GPT-3.5都是根据输入语句，根据语言/语料概率来自动生成回答的每一个字（词语）。

ChatGPT 使用来自人类反馈的强化学习进行训练，这种方法通过人类干预来增强机器学习以获得更好的效果。

由于ChatGPT更强的性能和海量参数，它包含了更多的主题的数据，能够处理更多小众主题。

BERT与GPT的技术架构（图中En为输入的每个字，Tn为输出回答的每个字）

3、ChatGPT的技术架构

3.1 GPT家族的演进

说到ChatGPT，就不得不提到GPT家族。

ChatGPT之前有几个知名的兄弟，包括GPT-1、GPT-2和GPT-3。

GPT家族与BERT模型都是知名的NLP模型，都基于Transformer技术。

3.2 人类反馈强化学习

InstructGPT/GPT3.5（ChatGPT的前身）与GPT-3的主要区别在于，新加入了被称为RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）。

在InstructGPT中，以下是“goodness of sentences”的评价标准。

真实性：是虚假信息还是误导性信息？无害性：它是否对人或环境造成身体或精神上的伤害？有用性：它是否解决了用户的任务？

3.3 TAMER框架

这里不得不提到TAMER（Training an Agent Manually via Evaluative Reinforcement，评估式强化人工训练代理）这个框架。

TAMER框架论文

引入人类标记者的主要目的是加快训练速度。

而TAMER则可以将人类标记者的知识，以奖励信反馈的形式训练Agent，加快其快速收敛。

TAMER架构在强化学习中的应用

具体实现上，人类标记者扮演对话的用户和人工智能助手，提供对话样本，让模型生成一些回复，然后标记者会对回复选项打分排名，将更好的结果反馈回模型中

在此基础上，ChatGPT 可以比 GPT-3 更好的理解和完成人类语言或指令，模仿人类，提供连贯的有逻辑的文本信息的能力。

3.4 ChatGPT的训练

第一阶段：训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果。

此时的SFT模型在遵循指令/对话方面已经优于 GPT-3，但不一定符合人类偏好

第二阶段：训练奖励模型（Reward Mode，RM）

这个阶段的主要是通过人工标注训练数据（约33K个数据），来训练回报模型。辅导。

接下来，使用这个排序结果数据来训练奖励模型。

第三阶段：采用PPO（Proximal Policy Optimization，近端策略优化）强化学习来优化策略。

PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习，这个转化过程被称之为Importance Sampling。

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

4、ChatGPT的局限

1）ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力，甚至会一本正经的“胡说八道”。

2）ChatGPT无法处理复杂冗长或者特别专业的语言结构

3）ChatGPT需要非常大量的算力（芯片）来支持其训练和部署

4）ChatGPT还没法在线的把新知识纳入其中，而出现一些新知识就去重新预训练GPT模型也是不现实的，无论是训练时间或训练成本，都是普通训练者难以接受的

5）ChatGPT仍然是黑盒模型

5、ChatGPT的未来改进方向

5.1 减少人类反馈的RLAIF

2020年底，OpenAI前研究副总裁Dario Amodei带着10名员工创办了一个人工智能公司Anthropic

2022年12月，Anthropic再次发表论文《Constitutional AI: Harmlessness from AI Feedback》介绍人工智能模型Claude。（arxiv.org/pdf/2212.0807）

Claude 和 ChatGPT 都依赖于强化学习(RL)来训练偏好（preference）模型

CAI用人工智能反馈来代替人类对表达无害性的偏好，即RLAIF，人工智能根据一套constitution原则来评价回复内容。

5.2 补足数理短板

ChatGPT虽然对话能力强，但是在数理计算对话中容易出现一本正经胡说八道的情况。

计算机学家Stephen Wolfram 为这一问题提出了解决方案

ChatGPT与Wolfram | Alpha结合处理梳理问题

5.3 ChatGPT的小型化

第一种方法是量化（quantization），即降低单个权重的数值表示的精度。

第二种模型压缩方法是剪枝（pruning），即删除网络元素，包括从单个权重（非结构化剪枝）到更高粒度的组件如权重矩阵的通道

第三种模型压缩方法是稀疏化

6 、ChatGPT的产业未来与投资机会

6.1 AIGC

说到ChaGPT不得不提AIGC。

AIGC即利用人工智能技术来生成内容

ChatGPT 模型的出现对于文字/语音模态的 AIGC 应用具有重要意义，会对AI产业上下游产生重大影响。

6.2 受益场景

从下游相关受益应用来看，包括但不限于无代码编程、小说生成、对话类搜索引擎、语音陪伴、语音工作助手、对话虚拟人、人工智能客服、机器翻译、芯片设计等

大模型呈爆发态势（更多的参数/更大的算力芯片需求）

相关思维导图模板

904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查

免费使用模版

U633687664

3.9

树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查在线思维导图免费制作，点击“编辑”按钮，可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查进行在线思维导图编辑，本思维导图属于思维导图模板主题，文件编号是：10b9a8a2dd2fb4593f8130ef16c320fc