一种面向LLM推理的极简方法-从拒绝采样到Reinforce
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce
摘要
强化学习(RL)已成为在复杂推理任务上微调大型语言模型(LLMs)的主要方法。在近期的方法中,GRPO 因其在训练如 DeepSeek-R1 等模型上的实证成功而脱颖而出,但其有效性来源仍不明确。在这项工作中,本文从类似 Reinforce 的算法角度重新审视 GRPO,并分析其核心组件。
作者发现一个简单的拒绝采样基线 RAFT,在仅使用正样本训练的情况下,其性能与 GRPO 和 PPO 相当甚至更优。本文的消融实验表明,GRPO 的主要优势来自于丢弃所有生成回答都错误的提示(prompt),而不是其奖励归一化机制。受此...
Qwen3 技术报告
一、训练流程
Qwen3 的训练分为两个主要阶段:预训练(Pre-training) 和 后训练(Post-training)。
整个训练流程包括 四个阶段,其中前两个阶段专注于“思考”能力的培养,后两个阶段则强化“非思考”能力。
1. 预训练(Pre-training)
✅ 训练数据规模
使用约 36 万亿 token 的大规模语料库。
数据来源包括:
多模态文本提取(如 PDF 文档)
合成数据生成(使用 Qwen2.5-Math 和 Qwen2.5-Coder 生成数学和代码内容)
✅ 预训练三阶段策略
阶段
目标
内容
...
A Survey on Inference Engines for Large Language Models
随着大型语言模型(Large Language Models, LLMs)的参数规模持续增长,其推理(inference)阶段的计算和内存需求也急剧上升。为了在有限的硬件资源下实现高效、低延迟、高吞吐量的部署,LLM推理优化 成为关键研究方向。本文将从多个维度详细解析当前主流的LLM推理优化技术。
一、LLM推理流程简述
在深入优化技术前,先回顾一下LLM的推理流程:
Prefill阶段
输入提示(prompt)被编码为token序列。
模型一次性处理所有输入token,生成初始上下文(context)。
计算并缓存注意力机制中的Key 和 Value 向量(KV Cache),用于后续解码阶段。
Decode阶段
逐个生成输出toke...
A Survey on Efficient Inference for Large Language Models
本文系统性地总结了大型语言模型(LLMs)高效推理的各种优化策略,旨在解决 LLMs 在部署和推理过程中面临的计算资源消耗大、延迟高、成本高等问题。文章从三个维度对现有研究进行了分类与分析:
数据级优化(Data-Level Optimization)
模型级优化(Model-Level Optimization)
系统级优化(System-Level Optimization)
🧩 一、背景介绍
📌 什么是 LLM?
LLM(Large Language Model)是指参数规模达到数十亿甚至数千亿级别的语言模型。
它们在多个 NLP 任务上表现出色,如问答、摘要、翻译、代码生成等。
典型代表:GPT、BERT、LLaMA、ChatGLM、PaLM...
Memo:Fine-grained Tensor Management For Ultra-long Context LLM Training
本文主要探讨了在长序列训练时如何通过精细的激活内存管理来解决长序列训练中的挑战,为此提出了一种名为MEMo的新框架,旨在实现高效的激活内存管理和碎片优化。
1. 问题
由于LLM需要大量的计算资源和存储空间,因此在长序列训练时会遇到很多问题,如GPU内存不足、计算效率低下等。在长上下文训练中,线性增长的激活内存仍然是主要的挑战。例如,在训练一个具有32 layer和4096个隐藏单元的7B GPT模型时,仅使用单个长度为1MB的序列就需要消耗4096GB的内存,这远远超过了GPU显存的容量限制。
目前主要采用recompute和swap方式减少显存占用,其中recompute技术通过选择性存储某些层输入而不是所有中间激活的方法,可以在反向传播过程中重新计算所需的激活, swap方式通...
Fire-Flyer File System:3FS
3FS是DeepSeek开源的高性能分布式文件系统,全称Fire-Flyer File System。3FS采用存算分离设计,支持数据强一致以及标准文件接口。
1. 整体架构
主要分为四个组件,client 和cluster manager,meta service,storage service,组件都通过 RDMA 网络连接
cluster manager:管理集群配置,采用主备保证高可用(etcd等管理);
meta service:无状态,多个meta service支持高扩展,meta信息持久化到DB层(FoundationDB);
client:基于Fuse的客户端,支持连接任意的meta service,根据获取到的信息找到相应的storage server...
A Survey on Multimodal Large Language Models
多模态大语言模型(Multimodal Large Language Model,MLLM)是一种结合多种数据模态(如文本、图像、音频、视频等)的大型人工智能模型。它在传统大语言模型的基础上,扩展了对非文本模态的理解和生成能力,能够更全面地感知和交互复杂的世界信息,本文是中科大和腾讯合作发表的MLLM领域的综述论文。
1. MLLM架构
MLLM的架构如下所示,主要由Encoder,connector和LLM三部分构成;
Encoder输入图像、音频或视频并输出特征,它是接收和预处理光学/声学信号的人类眼睛/耳朵;
Connector:模态接口用于对不同模态进行对齐,处理Encoder输出的特征以便于LLM更好地理解;
LLM: 理解并推理经过处理的信号的人类大脑。
...
FAST 2025 数据一览
FAST‘25共收到167篇论文投稿,共计接收36篇, 录取率为21.5%。其中国内23篇(第一单位),以下是按照高校和研究机构分类的论文详情(仅考虑第一单位):
国内
高校
清华大学 (1)
浙江大学 (2)
华中科技大学 (5)
电子科技大学 (1)
厦门大学 (1)
北京工业大学 (1)
山东大学 (1)
南开大学 (1)
华东师范大学 (1)
上海交通大学 (1)
吉林大学 (1)
南京理工大学 (1)
哈尔滨工业大学深圳校区 (1)
香港中文大学 (2)
研究机构/企业
...
共计 11 篇文章,2 页。
您是Lancer的第 个小伙伴
Hits