新闻中心
DeepSeek GRPO或致模型崩溃,Qwen3新范式GSPO能否成新标准?
大型语言模型的训练一般分为“预训练”和“后训练”两个阶段。“预训练”阶段,开发者借助大规模文本数据集对模型进行训练,使其学会预测句子中的下一个词;“后训练”阶段,则致力于让模型更好地理解和执行人类指令,此阶段似乎是强化学习的一种特殊形式。
用于大语言模型(LLMs)微调的强化学习(RL)算法正不断演进。起初,OpenAI开创了基于人类反馈的强化学习(RLHF)技术来改进ChatGPT。该技术让人类标注员对模型生成的多种响应打分,选出最优答案作为训练参考。不过,这一过程耗时、昂贵且依赖人力,通常需要一支专业的数据标注团队。
DeepSeek用RL技术自动化了这一环节,算法让模型在探索中通过获得“奖励信号”自主学习正确行为,降低了成本,提高了效率。OpenAI在ChatGPT训练中采用了近端策略优化(Proximal Policy Optimization, PPO),而DeepSeek团队提出了组相对策略优化(Group Relative Policy Optimization, GRPO)算法,这也是DeepSeek - R1中的核心技术。GRPO的核心创新在于消除了对计算密集型价值模型的依赖。它采用群组生成和相对评估机制,对于给定输入提示,系统生成G个不同响应构成群组,奖励模型对群组内所有响应评分,再计算群组内分数的均值和标准差,为每个响应计算相对优势值。优于群组平均水平的响应获正向优势,反之获负向优势。这种设计降低了强化学习训练的内存占用和计算复杂度,让大规模模型训练更高效可行。
Qwen3首次亮相时,其旗舰模型性能就与DeepSeek - R1、o3 - mini、Gemini 2.5 Pro等顶级模型相当。Qwen3系列模型覆盖MoE模型和密集模型,还有众多细分版本,且仍在不断迭代更新,如Qwen3 - 235B - A22B - Instruct - 2507 - FP8在知识数学、编程、人类偏好对齐、Agent能力等测评中表现出色,超过了Kimi - K2、DeepSeek - V3等顶级开源模型以及Claude - Opus4 - Non - thinking等领先闭源模型。
最近,Qwen团队发布论文,揭示了Qwen3模型成功的核心技术细节——组序列策略优化(Group Sequence Policy Optimization, GSPO)算法。有分析指出,使用GRPO训练大语言模型存在严重稳定性问题,会导致模型崩溃。GRPO将重要性采样权重应用于每个token,而非整个生成序列。
在强化学习中,重要性采样用于校正行为策略与目标策略的差异,当两者不一致时,为已有数据样本赋予权重,使样本更能代表目标策略,提升训练稳定性和有效性。但GRPO在每个token生成步骤单独计算重要性权重,在训练目标中应用此类权重时,因每个token比值独立计算,会导致高方差累积,破坏梯度稳定性,引发模型崩溃。同时,这种做法会将高方差噪声引入训练梯度,在长序列上累积,存在“裁剪机制”时,不稳定性问题会加剧。在专家混合模型(Mixture - of - Experts, MoE)中,GRPO的问题更严重,因为token级别的路由变化会加剧不稳定性,基于GRPO的训练流程通常需依赖“路由重放”等额外策略。Qwen团队通过实验验证了理论分析。在所有实验场景中,新提出的GSPO算法均比GRPO有更高的训练效率。
GoEnhance
全能AI视频制作平台:通过GoEnhance AI让视频创作变得比以往任何时候都更简单。
347
查看详情
在CodeForces任务中,GRPO最终得分收敛于2000分以下,而GSPO随训练计算量增加持续提升成绩,展现出更强的“可扩展性”。那么,GSPO是如何解决这些问题的呢?GSPO将重要性采样从t
oken级转移至序列级,其重要性比值基于整个序列的似然度计算。这种采样权重设计缓解了逐token方差的累积问题,提升了训练稳定性。
由于MoE模型具有稀疏激活特性,使用GRPO会加剧训练不稳定性。在使用GRPO训练48层的Qwen3 - 30B - A3B - Base模型时,每次强化学习梯度更新后,相同rollout样本新策略激活的专家约有10%与旧策略不同,这是低效的训练方式。而GSPO无需使用“路由重放”就能稳定收敛,消除了不必要的训练复杂性,保留了MoE架构的全部潜力。
总结来看,GSPO有诸多优势。
它将重要性采样从token级别提升到序列级别,并进行序列长度归一化处理;降低了方差,消除了对“路由技巧”等辅助策略的依赖。业界普遍认为,在大语言模型后训练阶段引入强化学习对提升推理能力至关重要。大量实验结果证实,GRPO的“逐token重要性采样”方法存在不稳定性和低效性问题。因此,GSPO提出的“序列级重要性采样”很可能成为未来后训练强化学习的新标准。
以上就是DeepSeek GRPO或致模型崩溃,Qwen3新范式GSPO能否成新标准?的详细内容,更多请关注其它相关文章!
# 开源
# 宜昌网络营销推广费用
# 阳泉商城网站建设贵吗
# 宽城满族自治县网站优化
# 高端网站建设公司排名
# 安徽外贸网站推广
# 廊坊教育培训网站建设
# 广东营销推广剪辑招聘网
# seo的基础是链接建设
# 天津综合网站建设差异
# 漳州网站建设招聘
# 中国
# 成新
# 降低了
# 两款
# 来势汹汹
# qwen3
# 这一
# 多模
# 官网
# 群组
# q
# deepseek
# gemini
# 内存占用
# claude
# gpt
# openai
# 路由
# chatgpt
# ai
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
如何在昇腾Ascend 910B上运行Qwen2.5教程
linux如何使用db2命令
如何用dos命令启动u盘
为什么都做折叠屏手机呢
系统如何装进固态硬盘
calm是什么意思
固态硬盘如何检查
如何拍屏幕不出条纹详细方法
meet是什么意思
j*a对数组怎么使用
企业征信不好如何恢复 企业征信不好怎么恢复步骤
苹果16多有哪些功能
一秒是多少毫秒
系统如何装在固态硬盘
ai文件里无法找到链接文件怎么解决
干股是什么意思
苹果16配置参数有哪些
市盈率ttm写的亏损是什么意思
记录仪power灯亮是什么意思
苹果16颜色有哪些
怎么在typescript写原型链
为什么用typescript
阿里云盘扩容是什么_扩容阿里云盘方法是什么教程
市盈率pe是什么意思
单片机显存怎么设置最佳
苹果16更新了哪些功能
苹果16会有哪些更新
excel中datediff函数怎么用
更换固态硬盘如何检查
j*a数组对象怎么取
苹果16改进了哪些
2025年哪个局域网聊天软件好用
苹果16关闭哪些功能好
折叠屏手机选择哪个好
什么是泛域名解析
固态硬盘颗粒如何修理
花呗征信不好如何恢复 如何修复不良的花呗征信
市盈率是什么意思高好还是低好
j*a怎么读取char数组
固态硬盘损坏如何修复
360f4怎么取消百变壁纸
照相机上面power是什么意思
play的三人称单数和过去式
苹果16日发售哪些机型
html怎么使用typescript
typescript能开发什么
电脑命令如何删除账号
单片机蜂鸣器响了怎么停
路亚竿上的power是什么意思
建伍遥控器power是什么意思


2025-09-19
浏览次数:次
返回列表