TreeMind树图在线AI思维导图
当前位置:树图思维导图模板创意模板表格ChatGPT发展历程、原理、技术架构详解和产业未来思维导图

ChatGPT发展历程、原理、技术架构详解和产业未来思维导图

  收藏
  分享
免费下载
免费使用文件
王小二 浏览量:462023-02-08 21:22:07
已被使用12次
查看详情ChatGPT发展历程、原理、技术架构详解和产业未来思维导图

ChatGPT发展历程、原理、技术架构详解和产业未来的介绍

树图思维导图提供 ChatGPT发展历程、原理、技术架构详解和产业未来 在线思维导图免费制作,点击“编辑”按钮,可对 ChatGPT发展历程、原理、技术架构详解和产业未来  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:c5ac67b48306ee6745e6e055e1780ae0

思维导图大纲

ChatGPT发展历程、原理、技术架构详解和产业未来思维导图模板大纲

1、ChatGPT的传承与特点

1.1 OpenAI家族

OpenAI总部位于旧金山,由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立,目标是开发造福全人类的AI技术。

此前,OpenAI 因推出 GPT系列自然语言处理模型而闻名。

每一代GPT模型的参数量都爆炸式增长,堪称“越大越好”。

1.2 ChatGPT的主要特点和特征

ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架构开发的对话AI模型,是InstructGPT 的兄弟模型。

OpenAI使用 RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习) 技术对 ChatGPT 进行了训练,且加入了更多人工监督进行微调。

特征

1)可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案

2)ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。

3)ChatGPT 可以承认自身的无知,承认对专业技术的不了解。

4)支持连续多轮对话。

2、ChatGPT/GPT的原理

2.1 NLP

NLP/NLU领域已知局限包括对重复文本、对高度专业的主题的误解,以及对上下文短语的误解。

对于人类或AI,通常需接受多年的训练才能正常对话。

NLP技术的应用领域 ,本质上,作为ChatGPT基础的GPT-3或GPT-3.5 是一个超大的统计语言模型或顺序文本预测模型。

2.2 GPT v.s.BERT

与BERT模型类似,ChatGPT或GPT-3.5都是根据输入语句,根据语言/语料概率来自动生成回答的每一个字(词语)。

ChatGPT 使用来自人类反馈的强化学习进行训练,这种方法通过人类干预来增强机器学习以获得更好的效果。

由于ChatGPT更强的性能和海量参数,它包含了更多的主题的数据,能够处理更多小众主题。

BERT与GPT的技术架构(图中En为输入的每个字,Tn为输出回答的每个字)

3、ChatGPT的技术架构

3.1 GPT家族的演进

说到ChatGPT,就不得不提到GPT家族。

ChatGPT之前有几个知名的兄弟,包括GPT-1、GPT-2和GPT-3。

GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。

3.2 人类反馈强化学习

InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。

在InstructGPT中,以下是“goodness of sentences”的评价标准。

真实性:是虚假信息还是误导性信息? 无害性:它是否对人或环境造成身体或精神上的伤害? 有用性:它是否解决了用户的任务?

3.3 TAMER框架

这里不得不提到TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)这个框架。

TAMER框架论文

引入人类标记者的主要目的是加快训练速度。

而TAMER则可以将人类标记者的知识,以奖励信反馈的形式训练Agent,加快其快速收敛。

TAMER架构在强化学习中的应用

具体实现上,人类标记者扮演对话的用户和人工智能助手,提供对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中

在此基础上,ChatGPT 可以比 GPT-3 更好的理解和完成人类语言或指令,模仿人类,提供连贯的有逻辑的文本信息的能力。

3.4 ChatGPT的训练

第一阶段:训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。

此时的SFT模型在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好

第二阶段:训练奖励模型(Reward Mode,RM)

这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型。辅导。

接下来,使用这个排序结果数据来训练奖励模型。

第三阶段:采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。

PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为Importance Sampling。

如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。

4、ChatGPT的局限

1)ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力,甚至会一本正经的“胡说八道”。

2)ChatGPT无法处理复杂冗长或者特别专业的语言结构

3)ChatGPT需要非常大量的算力(芯片)来支持其训练和部署

4)ChatGPT还没法在线的把新知识纳入其中,而出现一些新知识就去重新预训练GPT模型也是不现实的,无论是训练时间或训练成本,都是普通训练者难以接受的

5)ChatGPT仍然是黑盒模型

5、ChatGPT的未来改进方向

5.1 减少人类反馈的RLAIF

2020年底,OpenAI前研究副总裁Dario Amodei带着10名员工创办了一个人工智能公司Anthropic

2022年12月,Anthropic再次发表论文《Constitutional AI: Harmlessness from AI Feedback》介绍人工智能模型Claude。(arxiv.org/pdf/2212.0807)

Claude 和 ChatGPT 都依赖于强化学习(RL)来训练偏好(preference)模型

CAI用人工智能反馈来代替人类对表达无害性的偏好,即RLAIF,人工智能根据一套constitution原则来评价回复内容。

5.2 补足数理短板

ChatGPT虽然对话能力强,但是在数理计算对话中容易出现一本正经胡说八道的情况。

计算机学家Stephen Wolfram 为这一问题提出了解决方案

ChatGPT与Wolfram | Alpha结合处理梳理问题

5.3 ChatGPT的小型化

第一种方法是量化(quantization),即降低单个权重的数值表示的精度。

第二种模型压缩方法是剪枝(pruning),即删除网络元素,包括从单个权重(非结构化剪枝)到更高粒度的组件如权重矩阵的通道

第三种模型压缩方法是稀疏化

6 、ChatGPT的产业未来与投资机会

6.1 AIGC

说到ChaGPT不得不提AIGC。

AIGC即利用人工智能技术来生成内容

ChatGPT 模型的出现对于文字/语音模态的 AIGC 应用具有重要意义,会对AI产业上下游产生重大影响。

6.2 受益场景

从下游相关受益应用来看,包括但不限于无代码编程、小说生成、对话类搜索引擎、语音陪伴、语音工作助手、对话虚拟人、人工智能客服、机器翻译、芯片设计等

大模型呈爆发态势(更多的参数/更大的算力芯片需求)

相关思维导图模板

904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查思维导图

树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 在线思维导图免费制作,点击“编辑”按钮,可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:10b9a8a2dd2fb4593f8130ef16c320fc

9.战斗的基督教思维导图

树图思维导图提供 9.战斗的基督教 在线思维导图免费制作,点击“编辑”按钮,可对 9.战斗的基督教  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:33d168acd0cd9f767f809c7a5df86e3a