ChatGPT的核心训练模式
树图思维导图提供 ChatGPT的核心训练模式 在线思维导图免费制作,点击“编辑”按钮,可对 ChatGPT的核心训练模式 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:4140eb6ce08f206227cacfb28f134e22
ChatGPT的核心训练模式思维导图模板大纲
GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果
为了让GPT 3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5模型
此时的SFT模型在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好。
这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型
在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答
人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。
接下来,使用这个排序结果数据来训练奖励模型
对多个排序结果,两两组合,形成多个训练数据对。
RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。
PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为Importance Sampling
这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数
在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。
把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。
如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。
来源——百度科普
思维导图模板大纲
思维导图模板大纲
树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 在线思维导图免费制作,点击“编辑”按钮,可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:10b9a8a2dd2fb4593f8130ef16c320fc
树图思维导图提供 9.战斗的基督教 在线思维导图免费制作,点击“编辑”按钮,可对 9.战斗的基督教 进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:33d168acd0cd9f767f809c7a5df86e3a