GPT概念: Generative Pre-trained Transformer,大规模预训练语言模型
树图思维导图提供 ChatGPT核心知识 在线思维导图免费制作,点击“编辑”按钮,可对 ChatGPT核心知识 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:e913b7c907cb98963a0f71ed5759c3fa
ChatGPT核心知识思维导图模板大纲
ChatGPT 概要知识
GPT是一个模型,chatGPT是一款产品
GPT概念: Generative Pre-trained Transformer,大规模预训练语言模型
GPT是 LLM (Large Language Models) 分支之一大型语言模型
ChatGPT是OPEN AI公司开发的产品
目前ChatGPT 基于 GPT 35 微调而成
GPT 初代模型发布于 2018 年
GPT-3 第三代,发布于2020年5月,于2020年9月被微软采用。GPT-3包括3000亿单词语料+1750亿参数,人类有史以来数据量最大的人工智能模型。
GTP3.5“三代半",训练完成于2022年初。
ChatGPT说明其核心用途: 生成对话
ChatGPT = 对抗网络 (GAN) + 注意力机制 + 文本生成
ChatGPT说明其核心用途: 生成对话
ChatGPT = 对抗网络 (GAN) + 注意力机制 + 文本生成
ChatGPT工作原理
通过输入数据,学习并理解语言
通过[预测,方式,基于问题生成文本答案
监督调优模型
有监督的调优:收集数据,以训练有监督的策略模型
问题
监督学习步骤具有高可扩展性成本。
策略
让人工标注者对 SFT 模型的不同输出进行排序以创建 RM 模型
数据收集:选择一个提示列表,标注人员按要求写下预期的输出。对于 ChatGPT,使用了两种不同的 prompt 来源。
一些是直接使用标注人员或研究人员准备的
另一些是从 OpenAI 的 API 请求(即从 GPT-3 用户那里)获取的
模型选择:ChatGPT 的开发人员选择了 GPT-3.5 系列中的预训练模型,而不是对原始 GPT-3 模型进行调优。使用的基线模型是最新版的 text-davinci-003(通过对程序代码调优的 GPT-3 模型)。
训练回报模型
模拟人类偏好:目标是直接从数据中学习目标函数
为 SFT 模型输出进行打分,这代表这些输出对于人类来说可取程度有多大。这强有力地反映了选定的人类标注者的具体偏好以及他们同意遵循的共同准则。最后,这个过程将从数据中得到模仿人类偏好的系统。
使用 PPO 模型微调 SFT 模型
近端策略优化(PPO)
强化学习被应用于通过优化 RM 模型来调优 SFT 模型。所使用的特定算法称为近端策略优化(PPO),而调优模型称为近段策略优化模型
树图思维导图提供 Linux 网络基础知识 在线思维导图免费制作,点击“编辑”按钮,可对 Linux 网络基础知识 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:199680f0e48eac8a1aeaadb90447d4f4
树图思维导图提供 掌握竞品分析的核心方法 在线思维导图免费制作,点击“编辑”按钮,可对 掌握竞品分析的核心方法 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:1287e7dc411446868eb1de211f1543ec