笔灵AI论文写作三步搞定，GO>>

当前位置:树图

思维导图模板

ChatGPT的核心训练模式思维导图

ChatGPT的核心训练模式思维导图

收藏

分享

免费下载

免费使用文件

龙龙哥

浏览量：14

2023-02-14 17:02:10

已被使用0次

查看详情

ChatGPT的核心训练模式思维导图

ChatGPT的核心训练模式

树图思维导图提供 ChatGPT的核心训练模式在线思维导图免费制作，点击“编辑”按钮，可对 ChatGPT的核心训练模式进行在线思维导图编辑，本思维导图属于思维导图模板主题，文件编号是：4140eb6ce08f206227cacfb28f134e22

思维导图 ChatGPT的核心训练模式 AI聊天器

思维导图大纲

ChatGPT的核心训练模式思维导图模板大纲

第一阶段：训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图，也很难判断生成内容是否是高质量的结果

为了让GPT 3.5初步具备理解指令的意图，首先会在数据集中随机抽取问题，由人类标注人员，给出高质量答案，然后用这些人工标注好的数据来微调 GPT-3.5模型

此时的SFT模型在遵循指令/对话方面已经优于 GPT-3，但不一定符合人类偏好。

第二阶段：训练奖励模型（Reward Mode，RM）

这个阶段的主要是通过人工标注训练数据（约33K个数据），来训练回报模型

在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答

人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。

接下来，使用这个排序结果数据来训练奖励模型

对多个排序结果，两两组合，形成多个训练数据对。

RM模型接受一个输入，给出评价回答质量的分数。这样，对于一对训练数据，调节参数使得高质量回答的打分比低质量的打分要高。

第三阶段：采用PPO强化学习来优化策略

PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy，即将在线学习转化为离线学习，这个转化过程被称之为Importance Sampling

这一阶段利用第二阶段训练好的奖励模型，靠奖励打分来更新预训练模型参数

在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数。

把回报分数依次传递，由此产生策略梯度，通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段，通过迭代，会训练出更高质量的ChatGPT模型。

来源——百度科普

思维导图模板大纲

思维导图模板大纲

相关思维导图模板

904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查思维导图

904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查

免费使用模版

U633687664

U633687664

3.9

树图思维导图提供 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查在线思维导图免费制作，点击“编辑”按钮，可对 904名中国成年人第三磨牙相关知识、态度、行为和病史的横断面调查进行在线思维导图编辑，本思维导图属于思维导图模板主题，文件编号是：10b9a8a2dd2fb4593f8130ef16c320fc

9.战斗的基督教思维导图

9.战斗的基督教

免费使用模版

U582679646

U582679646

3.63

树图思维导图提供 9.战斗的基督教在线思维导图免费制作，点击“编辑”按钮，可对 9.战斗的基督教进行在线思维导图编辑，本思维导图属于思维导图模板主题，文件编号是：33d168acd0cd9f767f809c7a5df86e3a

相关思维导图专辑

张天天高中地理微专题24海水的运动合集-1

张天天高中地理微专题24海水的运动合集-2

张天天高中地理微专题24海水的运动合集-3

张天天高中地理微专题24海水的运动合集-4

张天天高中地理微专题24海水的运动合集

免费

张天天高中地理微专题23海水的性质合集-1

张天天高中地理微专题23海水的性质合集-2

张天天高中地理微专题23海水的性质合集-3

张天天高中地理微专题23海水的性质合集-4

张天天高中地理微专题23海水的性质合集

免费

张天天高中地理微专题22湖泊的开发合集-1

张天天高中地理微专题22湖泊的开发合集-2

张天天高中地理微专题22湖泊的开发合集-3

张天天高中地理微专题22湖泊的开发合集-4

张天天高中地理微专题22湖泊的开发合集

免费

张天天高三地理第一轮复习专题05自然地理环境的整体性与差异性合集-1

张天天高三地理第一轮复习专题05自然地理环境的整体性与差异性合集-2

张天天高三地理第一轮复习专题05自然地理环境的整体性与差异性合集

免费

相似思维导图模板

新冠康复常备用药竖屏思维导图新冠轻症药物推荐及禁忌表思维导图流感传染病之流脑（瘀点瘀斑）思维导图夏日防晒思维导图党的二十大报告思维导图生活中的防疫措施竖屏思维导图

思维导图模板推荐

绩效工资标准是怎样规定的思维导图股东出资不实的举证责任思维导图公司成立条件需要哪些思维导图公司改制是什么意思思维导图股份有限公司设立的方式有几种思维导图公司对外投资的限制有哪些思维导图

关于首页我的文件关于我们更新历史
帮助中心帮助中心用户协议隐私协议儿童信息保护上传协议会员介绍
模板资源模板知识库热门搜索
联系方式客服邮箱：shutu@shutu.cn
商务合作请扫码联系
扫码加入微信群

Copyright©2022-2024 树图网shutu.cn 版权所有|上海聚石塔网络科技有限公司|网站备案号：沪ICP备2021036420号-3|沪公网安备 31011502019485号| 工商备案 Icon 上海工商

算法备案号：网信算备310115002419201240015号