TreeMind树图在线AI思维导图
当前位置:树图思维导图模板生活娱乐时事热点ChatGPT的核心训练模式思维导图

ChatGPT的核心训练模式思维导图

  收藏
  分享
免费下载
免费使用文件
龙龙哥 浏览量:142023-02-14 17:02:10
已被使用0次
查看详情ChatGPT的核心训练模式思维导图

ChatGPT的核心训练模式

树图思维导图提供 ChatGPT的核心训练模式 在线思维导图免费制作,点击“编辑”按钮,可对 ChatGPT的核心训练模式  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:4140eb6ce08f206227cacfb28f134e22

思维导图大纲

ChatGPT的核心训练模式思维导图模板大纲

第一阶段:训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果

为了让GPT 3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5模型

此时的SFT模型在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好。

第二阶段:训练奖励模型(Reward Mode,RM)

这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型

在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答

人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。

接下来,使用这个排序结果数据来训练奖励模型

对多个排序结果,两两组合,形成多个训练数据对。

RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。

第三阶段:采用PPO强化学习来优化策略

PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为Importance Sampling

这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数

在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。

把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。

来源——百度科普

思维导图模板大纲

思维导图模板大纲

相关思维导图模板

904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查思维导图

树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 在线思维导图免费制作,点击“编辑”按钮,可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:10b9a8a2dd2fb4593f8130ef16c320fc

9.战斗的基督教思维导图

树图思维导图提供 9.战斗的基督教 在线思维导图免费制作,点击“编辑”按钮,可对 9.战斗的基督教  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:33d168acd0cd9f767f809c7a5df86e3a