Yes365's Garden

Recent Notes

wireshark 分析艺术
Jan 07, 2025
- dev/network
网络基础：MTU 和 MSS
Jan 07, 2025
- dev/network
windows 设置 mtu
Jan 07, 2025
- dev/network
- all/windows

See 509 more →

❯

❯

❯

ChatGPT 训练方式

ChatGPT 训练方式

share, May 08, 20231 min read

ai

525
ChatGPT 的训练可以分成 3 步，其中第 2 步和第 3 步是的奖励模型和强化学习的 SFT 模型可以反复迭代优化。

根据采集的 SFT 数据集对 GPT-3 进行 有监督微调 （Supervised FineTune，SFT）；
收集人工标注的对比数据，训练 奖励模型 （Reword Model，RM）；
使用 RM 作为强化学习的优化目标，利用 强化学习模型 (Proximal Policy Optimization, PPO) 算法微调 SFT 模型。

Graph View

Created with Quartz v4.4.0 © 2025

GitHub
Discord Community