ChatGPT原理
树图思维导图提供 ChatGPT工作原理 在线思维导图免费制作,点击“编辑”按钮,可对 ChatGPT工作原理 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:014eb1563df800492cce46be2e2361aa
ChatGPT工作原理思维导图模板大纲
选自Assembly AI 作者:Marco Ramponi 机器之心编译
ChatGPT 是 OpenAI 发布的最新语言模型,比其前身 GPT-3 有显著提升。
ChatGPT代表了 OpenAI 最新一代的大型语言模型,并且在设计上非常注重交互性。
OpenAI 使用监督学习和强化学习的组合来调优 ChatGPT,其中的强化学习组件使 ChatGPT 独一无二。
OpenAI 使用了「人类反馈强化学习」(RLHF)的训练方法,该方法在训练中使用人类反馈,以最小化无益、失真或偏见的输出。
表现为
提供无效帮助
没有遵循用户的明确指示。
内容胡编乱造
虚构不存在或错误事实的模型。
缺乏可解释性
人们很难理解模型是如何得出特定决策或预测的。
内容偏见有害
一个基于有偏见、有害数据训练的语言模型可能会在其输出中出现这种情况,即使它没有明确指示这样做。
从人类反馈中进行强化学习
监督调优模型
有监督的调优:收集数据,以训练有监督的策略模型
问题
监督学习步骤具有高可扩展性成本。
策略
让人工标注者对 SFT 模型的不同输出进行排序以创建 RM 模型
数据收集:选择一个提示列表,标注人员按要求写下预期的输出。对于 ChatGPT,使用了两种不同的 prompt 来源。
一些是直接使用标注人员或研究人员准备的
另一些是从 OpenAI 的 API 请求(即从 GPT-3 用户那里)获取的
模型选择:ChatGPT 的开发人员选择了 GPT-3.5 系列中的预训练模型,而不是对原始 GPT-3 模型进行调优。使用的基线模型是最新版的 text-davinci-003(通过对程序代码调优的 GPT-3 模型)。
训练回报模型
模拟人类偏好:目标是直接从数据中学习目标函数
为 SFT 模型输出进行打分,这代表这些输出对于人类来说可取程度有多大。这强有力地反映了选定的人类标注者的具体偏好以及他们同意遵循的共同准则。最后,这个过程将从数据中得到模仿人类偏好的系统。
使用 PPO 模型微调 SFT 模型
近端策略优化(PPO)
强化学习被应用于通过优化 RM 模型来调优 SFT 模型。所使用的特定算法称为近端策略优化(PPO),而调优模型称为近段策略优化模型
模型性能评估
帮助性
判断模型遵循用户指示以及推断指示的能力。
真实性
判断模型在封闭领域任务中有产生虚构事实的倾向。
无害性
标注者评估模型的输出是否适当、是否包含歧视性内容。