TreeMind树图在线AI思维导图
当前位置:树图思维导图模板生活娱乐生活知识ChatGPT的核心技术架构思维导图

ChatGPT的核心技术架构思维导图

  收藏
  分享
免费下载
免费使用文件
龙龙哥 浏览量:1312023-02-14 17:20:06
已被使用41次
查看详情ChatGPT的核心技术架构思维导图

ChatGPT的核心技术架构

树图思维导图提供 ChatGPT的核心技术架构 在线思维导图免费制作,点击“编辑”按钮,可对 ChatGPT的核心技术架构  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:3cae66f50b74a28b8ef8e33c497d157a

思维导图大纲

ChatGPT的核心技术架构思维导图模板大纲

GPT家族的演进

ChatGPT之前有几个知名的兄弟,包括GPT-1、GPT-2和GPT-3

这几个兄弟一个比一个个头大,ChatGPT与GPT-3更为相近。

GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术

GPT-1只有12个Transformer层,而到了GPT-3,则增加到96层。

人类反馈强化学习

InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)

这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。

“goodness of sentences”的评价标准

真实性:是虚假信息还是误导性信息?

无害性:它是否对人或环境造成身体或精神上的伤害?

有用性:它是否解决了用户的任务?

TAMER框架

TAMER框架论文

引入人类标记者的主要目的是加快训练速度

特别是现实世界中,许多任务的探索成本或数据获取成本很高

尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点

TAMER架构在强化学习中的应用

人类标记者扮演对话的用户和人工智能助手,提供对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中

Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。

来源——百度科普

相关思维导图模板

学习回顾与规划思维导图

树图思维导图提供 学习回顾与规划 在线思维导图免费制作,点击“编辑”按钮,可对 学习回顾与规划  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:5334fe5a080528ab6e52747e4173af1c

网络营销思维导图

树图思维导图提供 网络营销 在线思维导图免费制作,点击“编辑”按钮,可对 网络营销  进行在线思维导图编辑,本思维导图属于思维导图模板主题,文件编号是:5b5efdb68b9cc051f54d612f12c626c0