Qwen3 技术报告

Category： Paper

一、训练流程

Qwen3 的训练分为两个主要阶段：预训练（Pre-training） 和 后训练（Post-training）。

整个训练流程包括 四个阶段，其中前两个阶段专注于“思考”能力的培养，后两个阶段则强化“非思考”能力。

1. 预训练（Pre-training）

✅ 训练数据规模

使用约 36 万亿 token 的大规模语料库。
数据来源包括：
- 多模态文本提取（如 PDF 文档）
- 合成数据生成（使用 Qwen2.5-Math 和 Qwen2.5-Coder 生成数学和代码内容）

✅ 预训练三阶段策略

阶段	目标	内容
Stage 1 (General)	构建通用知识基础	训练超过 30T tokens，学习基本的语言理解能力
Stage 2 (Knowledge-intensive)	强化逻辑推理能力	增强 STEM（科学、技术、工程、数学）和编程能力
Stage 3 (Long-context)	提升上下文长度	将最大上下文长度从 4,096 扩展到 32,768 tokens

⚠️ 第三阶段使用了长上下文训练数据，使模型能处理更复杂的文档摘要、对话历史追踪等任务。

2. 后训练（Post-training）

目标是让模型既能进行深度推理（Thinking Mode），也能快速响应（Non-Thinking Mode），并提升其与人类偏好对齐的能力。

Paper Image

四个后训练阶段

阶段	目标	方法
Stage 1	思维冷启动	使用 Long Chain-of-Thought（CoT）微调
Stage 2	强化学习（RL）	在数学和编程任务上应用 RL，提升推理能力
Stage 3	融合思维与非思维数据	混合 CoT 与非 CoT 数据，统一训练
Stage 4	全领域强化学习	提升模型在各类下游任务中的表现

Stage 3 中的数据融合采用了基于实例级别的混合策略（instance-level data mixing），通过在代理模型上进行大量消融实验来优化数据分布。

二、模型架构设计

Qwen3 系列包含多个模型版本，覆盖从轻量级到超大规模场景。

Paper Image

三、推理模式控制机制（Thinking/Non-Thinking Mode）

Qwen3 支持两种推理模式：

1. Thinking Mode（思考模式）

用于复杂任务如逻辑推理、数学计算、编程等。
使用 CoT 进行深度思考。
可通过 /think 指令手动启用。

2. Non-Thinking Mode（非思考模式）

用于快速响应简单指令、日常对话等。
不使用 CoT，直接输出简洁结果。
默认模式，可通过 /no think 显式指定。

📊 实验表明，在 128K 上下文长度下，Thinking 模式的接受率略低于 Non-Thinking 模式，但仍在合理范围。

四、小模型蒸馏策略（Strong-to-Weak Distillation）

为了提升小模型的性能，Qwen3 采用了一种高效的蒸馏策略：

📉 方法概述

利用大模型（Teacher Model）的知识指导小模型（Student Model）训练。
- Off-policy 蒸馏：利用 Teacher 模型的历史输出作为监督信号。
- On-policy 蒸馏：结合 Reinforcement Learning 进行动态调整。

📈 效果对比

指标	四阶段训练	蒸馏方法
Pass@1	基准	提升明显
Pass@64	基准	探索能力增强
GPU 时间	高	减少至 1/10

✅ 蒸馏方法显著优于四阶段独立训练，尤其在训练效率和探索能力上。

五、训练效率优化手段（RL + Entropy Control）

🔄 强化学习（Reinforcement Learning）

使用 RL 来提升模型的长期奖励。
在 AIME’24 数学竞赛任务中，Qwen3-235B-A22B 的得分从 70.1 提高到 85.1，共经历 170 步训练。

🔁 控制探索与利用的平衡

通过控制模型熵（Entropy）来调节探索与利用的比率。
实现自动调整，无需人工干预超参数。

六、实验结果与性能评估

🧮 数学与推理能力

模型	MATH-500	GPQA-Diamond	LiveCodeBench v5
Qwen3-235B-A22B	93.4	40.1	70.7
Qwen3-32B	89.1	27.9	70.6
GPT-4o-2024-1120	83.9	33.8	67.5

✅ Qwen3-235B-A22B 表现出接近甚至超越主流闭源模型的数学推理能力。

🌐 多语言支持

Qwen3 支持 119 种语言和方言，在 Belebele 测试中表现优异：

语系	Qwen3-32B (Thinking)	Qwen3-32B (Non-Thinking)
Indo-European	90.7	89.1
Sino-Tibetan	89.7	88.0
Afro-Asiatic	84.8	82.3
Austronesian	86.7	83.7

总结与研究建议

✅ Qwen3 的核心优势

双模式推理机制（Thinking/Non-Thinking）
多阶段训练流程（4-stage post-training）
支持超长上下文（128K token）
多语言与跨文化支持
高效的小模型蒸馏策略
强大的数学与代码生成能力

🔬 研究建议

探索性训练策略优化
- 结合 RL与熵控制机制，实现自适应探索与利用平衡。
多阶段蒸馏机制改进
- 设计更细粒度的 logits distillation 方案，提升小模型性能。
长上下文 KV 缓存管理
- 结合 QuantSpec 技术，探索分层量化 KV 缓存以提升推理效率。
多模态下的 Thinking Mode 扩展
- 探索视觉、音频输入下的深度推理路径构建。

上篇A Survey on Inference Engines for Large Language Models

下篇一种面向LLM推理的极简方法-从拒绝采样到Reinforce