DeepSeek GRPO或致模型崩溃，Qwen3新范式GSPO能否成新标准？

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

DeepSeek GRPO或致模型崩溃，Qwen3新范式GSPO能否成新标准？

2025-09-19

浏览次数：次

返回列表

大型语言模型的训练一般分为“预训练”和“后训练”两个阶段。“预训练”阶段，开发者借助大规模文本数据集对模型进行训练，使其学会预测句子中的下一个词；“后训练”阶段，则致力于让模型更好地理解和执行人类指令，此阶段似乎是强化学习的一种特殊形式。

用于大语言模型（LLMs）微调的强化学习（RL）算法正不断演进。起初，OpenAI开创了基于人类反馈的强化学习（RLHF）技术来改进ChatGPT。该技术让人类标注员对模型生成的多种响应打分，选出最优答案作为训练参考。不过，这一过程耗时、昂贵且依赖人力，通常需要一支专业的数据标注团队。

DeepSeek用RL技术自动化了这一环节，算法让模型在探索中通过获得“奖励信号”自主学习正确行为，降低了成本，提高了效率。OpenAI在ChatGPT训练中采用了近端策略优化（Proximal Policy Optimization, PPO），而DeepSeek团队提出了组相对策略优化（Group Relative Policy Optimization, GRPO）算法，这也是DeepSeek - R1中的核心技术。

GRPO的核心创新在于消除了对计算密集型价值模型的依赖。它采用群组生成和相对评估机制，对于给定输入提示，系统生成G个不同响应构成群组，奖励模型对群组内所有响应评分，再计算群组内分数的均值和标准差，为每个响应计算相对优势值。优于群组平均水平的响应获正向优势，反之获负向优势。这种设计降低了强化学习训练的内存占用和计算复杂度，让大规模模型训练更高效可行。

Qwen3首次亮相时，其旗舰模型性能就与DeepSeek - R1、o3 - mini、Gemini 2.5 Pro等顶级模型相当。Qwen3系列模型覆盖MoE模型和密集模型，还有众多细分版本，且仍在不断迭代更新，如Qwen3 - 235B - A22B - Instruct - 2507 - FP8在知识数学、编程、人类偏好对齐、Agent能力等测评中表现出色，超过了Kimi - K2、DeepSeek - V3等顶级开源模型以及Claude - Opus4 - Non - thinking等领先闭源模型。

最近，Qwen团队发布论文，揭示了Qwen3模型成功的核心技术细节——组序列策略优化（Group Sequence Policy Optimization, GSPO）算法。有分析指出，使用GRPO训练大语言模型存在严重稳定性问题，会导致模型崩溃。GRPO将重要性采样权重应用于每个token，而非整个生成序列。

在强化学习中，重要性采样用于校正行为策略与目标策略的差异，当两者不一致时，为已有数据样本赋予权重，使样本更能代表目标策略，提升训练稳定性和有效性。但GRPO在每个token生成步骤单独计算重要性权重，在训练目标中应用此类权重时，因每个token比值独立计算，会导致高方差累积，破坏梯度稳定性，引发模型崩溃。同时，这种做法会将高方差噪声引入训练梯度，在长序列上累积，存在“裁剪机制”时，不稳定性问题会加剧。

在专家混合模型（Mixture - of - Experts, MoE）中，GRPO的问题更严重，因为token级别的路由变化会加剧不稳定性，基于GRPO的训练流程通常需依赖“路由重放”等额外策略。Qwen团队通过实验验证了理论分析。在所有实验场景中，新提出的GSPO算法均比GRPO有更高的训练效率。

GoEnhance

全能AI视频制作平台：通过GoEnhance AI让视频创作变得比以往任何时候都更简单。

347 查看详情 GoEnhance

在CodeForces任务中，GRPO最终得分收敛于2000分以下，而GSPO随训练计算量增加持续提升成绩，展现出更强的“可扩展性”。那么，GSPO是如何解决这些问题的呢？GSPO将重要性采样从token级转移至序列级，其重要性比值基于整个序列的似然度计算。这种采样权重设计缓解了逐token方差的累积问题，提升了训练稳定性。

指数中的因子用于“长度归一化”，若不进行长度归一化，几个token的似然变化就可能导致序列级重要性比值剧烈波动，不同长度生成响应在目标函数中需不同裁剪范围，会增加训练不稳定性。针对专家混合模型（MoE）的专项实验凸显了GSPO的优势。

由于MoE模型具有稀疏激活特性，使用GRPO会加剧训练不稳定性。在使用GRPO训练48层的Qwen3 - 30B - A3B - Base模型时，每次强化学习梯度更新后，相同rollout样本新策略激活的专家约有10%与旧策略不同，这是低效的训练方式。而GSPO无需使用“路由重放”就能稳定收敛，消除了不必要的训练复杂性，保留了MoE架构的全部潜力。

总结来看，GSPO有诸多优势。

它将重要性采样从token级别提升到序列级别，并进行序列长度归一化处理；降低了方差，消除了对“路由技巧”等辅助策略的依赖。

业界普遍认为，在大语言模型后训练阶段引入强化学习对提升推理能力至关重要。大量实验结果证实，GRPO的“逐token重要性采样”方法存在不稳定性和低效性问题。因此，GSPO提出的“序列级重要性采样”很可能成为未来后训练强化学习的新标准。

以上就是DeepSeek GRPO或致模型崩溃，Qwen3新范式GSPO能否成新标准？的详细内容，更多请关注其它相关文章！

# 开源 # 宜昌网络营销推广费用 # 阳泉商城网站建设贵吗 # 宽城满族自治县网站优化 # 高端网站建设公司排名 # 安徽外贸网站推广 # 廊坊教育培训网站建设 # 广东营销推广剪辑招聘网 # seo的基础是链接建设 # 天津综合网站建设差异 # 漳州网站建设招聘 # 中国 # 成新 # 降低了 # 两款 # 来势汹汹 # qwen3 # 这一 # 多模 # 官网 # 群组 # q # deepseek # gemini # 内存占用 # claude # gpt # openai # 路由 # chatgpt # ai

相关栏目：【行业资讯67740 】【技术百科0 】【网络运营39195 】

上一篇：StableDiffusion怎么生成3D渲染风格_StableDiffusion3D渲染风格教程

下一篇：2025年3月Mureka全球访问量333万，环比增86.5%增速全球AI音乐第一

首页

关于我们

产品展示

咨询研究

新闻中心

留言板

联系我们

新闻中心 NEWS CENTER

DeepSeek GRPO或致模型崩溃，Qwen3新范式GSPO能否成新标准？