新闻中心

DeepSeek GRPO或致模型崩溃,Qwen3新范式GSPO能否成新标准?

2025-09-19
浏览次数:
返回列表

大型语言模型的训练一般分为“预训练”和“后训练”两个阶段。“预训练”阶段,开发者借助大规模文本数据集对模型进行训练,使其学会预测句子中的下一个词;“后训练”阶段,则致力于让模型更好地理解和执行人类指令,此阶段似乎是强化学习的一种特殊形式。

用于大语言模型(LLMs)微调的强化学习(RL)算法正不断演进。起初,OpenAI开创了基于人类反馈的强化学习(RLHF)技术来改进ChatGPT。该技术让人类标注员对模型生成的多种响应打分,选出最优答案作为训练参考。不过,这一过程耗时、昂贵且依赖人力,通常需要一支专业的数据标注团队。

DeepSeek用RL技术自动化了这一环节,算法让模型在探索中通过获得“奖励信号”自主学习正确行为,降低了成本,提高了效率。OpenAI在ChatGPT训练中采用了近端策略优化(Proximal Policy Optimization, PPO),而DeepSeek团队提出了组相对策略优化(Group Relative Policy Optimization, GRPO)算法,这也是DeepSeek - R1中的核心技术。

GRPO的核心创新在于消除了对计算密集型价值模型的依赖。它采用群组生成和相对评估机制,对于给定输入提示,系统生成G个不同响应构成群组,奖励模型对群组内所有响应评分,再计算群组内分数的均值和标准差,为每个响应计算相对优势值。优于群组平均水平的响应获正向优势,反之获负向优势。这种设计降低了强化学习训练的内存占用和计算复杂度,让大规模模型训练更高效可行。

Qwen3首次亮相时,其旗舰模型性能就与DeepSeek - R1、o3 - mini、Gemini 2.5 Pro等顶级模型相当。Qwen3系列模型覆盖MoE模型和密集模型,还有众多细分版本,且仍在不断迭代更新,如Qwen3 - 235B - A22B - Instruct - 2507 - FP8在知识数学、编程、人类偏好对齐、Agent能力等测评中表现出色,超过了Kimi - K2、DeepSeek - V3等顶级开源模型以及Claude - Opus4 - Non - thinking等领先闭源模型。

最近,Qwen团队发布论文,揭示了Qwen3模型成功的核心技术细节——组序列策略优化(Group Sequence Policy Optimization, GSPO)算法。有分析指出,使用GRPO训练大语言模型存在严重稳定性问题,会导致模型崩溃。GRPO将重要性采样权重应用于每个token,而非整个生成序列。

在强化学习中,重要性采样用于校正行为策略与目标策略的差异,当两者不一致时,为已有数据样本赋予权重,使样本更能代表目标策略,提升训练稳定性和有效性。但GRPO在每个token生成步骤单独计算重要性权重,在训练目标中应用此类权重时,因每个token比值独立计算,会导致高方差累积,破坏梯度稳定性,引发模型崩溃。同时,这种做法会将高方差噪声引入训练梯度,在长序列上累积,存在“裁剪机制”时,不稳定性问题会加剧。

在专家混合模型(Mixture - of - Experts, MoE)中,GRPO的问题更严重,因为token级别的路由变化会加剧不稳定性,基于GRPO的训练流程通常需依赖“路由重放”等额外策略。Qwen团队通过实验验证了理论分析。在所有实验场景中,新提出的GSPO算法均比GRPO有更高的训练效率。

GoEnhance GoEnhance

全能AI视频制作平台:通过GoEnhance AI让视频创作变得比以往任何时候都更简单。

GoEnhance 347 查看详情 GoEnhance

在CodeForces任务中,GRPO最终得分收敛于2000分以下,而GSPO随训练计算量增加持续提升成绩,展现出更强的“可扩展性”。那么,GSPO是如何解决这些问题的呢?GSPO将重要性采样从token级转移至序列级,其重要性比值基于整个序列的似然度计算。这种采样权重设计缓解了逐token方差的累积问题,提升了训练稳定性。

指数中的因子用于“长度归一化”,若不进行长度归一化,几个token的似然变化就可能导致序列级重要性比值剧烈波动,不同长度生成响应在目标函数中需不同裁剪范围,会增加训练不稳定性。针对专家混合模型(MoE)的专项实验凸显了GSPO的优势。

由于MoE模型具有稀疏激活特性,使用GRPO会加剧训练不稳定性。在使用GRPO训练48层的Qwen3 - 30B - A3B - Base模型时,每次强化学习梯度更新后,相同rollout样本新策略激活的专家约有10%与旧策略不同,这是低效的训练方式。而GSPO无需使用“路由重放”就能稳定收敛,消除了不必要的训练复杂性,保留了MoE架构的全部潜力。

总结来看,GSPO有诸多优势。

它将重要性采样从token级别提升到序列级别,并进行序列长度归一化处理;降低了方差,消除了对“路由技巧”等辅助策略的依赖。

业界普遍认为,在大语言模型后训练阶段引入强化学习对提升推理能力至关重要。大量实验结果证实,GRPO的“逐token重要性采样”方法存在不稳定性和低效性问题。因此,GSPO提出的“序列级重要性采样”很可能成为未来后训练强化学习的新标准。

以上就是DeepSeek GRPO或致模型崩溃,Qwen3新范式GSPO能否成新标准?的详细内容,更多请关注其它相关文章!


# 开源  # 宜昌网络营销推广费用  # 阳泉商城网站建设贵吗  # 宽城满族自治县网站优化  # 高端网站建设公司排名  # 安徽外贸网站推广  # 廊坊教育培训网站建设  # 广东营销推广剪辑招聘网  # seo的基础是链接建设  # 天津综合网站建设差异  # 漳州网站建设招聘  # 中国  # 成新  # 降低了  # 两款  # 来势汹汹  # qwen3  # 这一  # 多模  # 官网  # 群组  # q  # deepseek  # gemini  # 内存占用  # claude  # gpt  # openai  # 路由  # chatgpt  # ai 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何在昇腾Ascend 910B上运行Qwen2.5教程  linux如何使用db2命令  如何用dos命令启动u盘  为什么都做折叠屏手机呢  系统如何装进固态硬盘  calm是什么意思  固态硬盘如何检查  如何拍屏幕不出条纹详细方法  meet是什么意思  j*a对数组怎么使用  企业征信不好如何恢复 企业征信不好怎么恢复步骤  苹果16多有哪些功能  一秒是多少毫秒  系统如何装在固态硬盘  ai文件里无法找到链接文件怎么解决  干股是什么意思  苹果16配置参数有哪些  市盈率ttm写的亏损是什么意思  记录仪power灯亮是什么意思  苹果16颜色有哪些  怎么在typescript写原型链  为什么用typescript  阿里云盘扩容是什么_扩容阿里云盘方法是什么教程  市盈率pe是什么意思  单片机显存怎么设置最佳  苹果16更新了哪些功能  苹果16会有哪些更新  excel中datediff函数怎么用  更换固态硬盘如何检查  j*a数组对象怎么取  苹果16改进了哪些  2025年哪个局域网聊天软件好用  苹果16关闭哪些功能好  折叠屏手机选择哪个好  什么是泛域名解析  固态硬盘颗粒如何修理  花呗征信不好如何恢复 如何修复不良的花呗征信  市盈率是什么意思高好还是低好  j*a怎么读取char数组  固态硬盘损坏如何修复  360f4怎么取消百变壁纸  照相机上面power是什么意思  play的三人称单数和过去式  苹果16日发售哪些机型  html怎么使用typescript  typescript能开发什么  电脑命令如何删除账号  单片机蜂鸣器响了怎么停  路亚竿上的power是什么意思  建伍遥控器power是什么意思 

搜索