主页

PyTorch Mega-Cache 实现深度解读

概述 PyTorch Mega-Cache 是一个统一的编译缓存框架,通过多层缓存策略显著提升 PyTorch 编译性能。该系统能够缓存从自动微分到 Triton 内核调优等各个编译阶段的结果。 核心架构 三层缓存体系 AOTAutograd 缓存(最高层) 缓存自动微分编译结果 避免重复的前向/反向图构建 FX 图缓存(中间层) 缓存优化后的计算图 跳过图优化和代码生成阶段 Triton 自动调优缓存(底层) 缓存最优内核配置参数 避免重复的基准测试过程 关键组件 1. 缓存管理器 (torch/compil...

阅读更多

PyTorch DDP梯度同步机制详解

PyTorch DDP梯度同步机制详解 概述 PyTorch的DistributedDataParallel (DDP)通过高效的梯度同步机制实现分布式训练。该机制采用分桶(bucket)策略和异步通信来优化性能,确保所有worker的模型参数保持同步。 核心架构 1. 分桶机制 (Bucket-based Gradient Aggregation) DDP将多个参数的梯度合并到同一个桶中进行集体通信,减少通信次数: // 桶结构定义 struct Bucket { at::Tensor gradients; // 桶的梯度张量 std::vector<at::Tensor> bucket_views_in; // 输入视...

阅读更多

一种面向LLM推理的极简方法-从拒绝采样到Reinforce

A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce 摘要 强化学习(RL)已成为在复杂推理任务上微调大型语言模型(LLMs)的主要方法。在近期的方法中,GRPO 因其在训练如 DeepSeek-R1 等模型上的实证成功而脱颖而出,但其有效性来源仍不明确。在这项工作中,本文从类似 Reinforce 的算法角度重新审视 GRPO,并分析其核心组件。 作者发现一个简单的拒绝采样基线 RAFT,在仅使用正样本训练的情况下,其性能与 GRPO 和 PPO 相当甚至更优。本文的消融实验表明,GRPO 的主要优势来自于丢弃所有生成回答都错误的提示(prompt),而不是其奖励归一化机制。受此...

阅读更多

Qwen3 技术报告

一、训练流程 Qwen3 的训练分为两个主要阶段:预训练(Pre-training) 和 后训练(Post-training)。 整个训练流程包括 四个阶段,其中前两个阶段专注于“思考”能力的培养,后两个阶段则强化“非思考”能力。 1. 预训练(Pre-training) ✅ 训练数据规模 使用约 36 万亿 token 的大规模语料库。 数据来源包括: 多模态文本提取(如 PDF 文档) 合成数据生成(使用 Qwen2.5-Math 和 Qwen2.5-Coder 生成数学和代码内容) ✅ 预训练三阶段策略 阶段 目标 内容 ...

阅读更多

A Survey on Inference Engines for Large Language Models

随着大型语言模型(Large Language Models, LLMs)的参数规模持续增长,其推理(inference)阶段的计算和内存需求也急剧上升。为了在有限的硬件资源下实现高效、低延迟、高吞吐量的部署,LLM推理优化 成为关键研究方向。本文将从多个维度详细解析当前主流的LLM推理优化技术。 一、LLM推理流程简述 在深入优化技术前,先回顾一下LLM的推理流程: Prefill阶段 输入提示(prompt)被编码为token序列。 模型一次性处理所有输入token,生成初始上下文(context)。 计算并缓存注意力机制中的Key 和 Value 向量(KV Cache),用于后续解码阶段。 Decode阶段 逐个生成输出toke...

阅读更多

A Survey on Efficient Inference for Large Language Models

本文系统性地总结了大型语言模型(LLMs)高效推理的各种优化策略,旨在解决 LLMs 在部署和推理过程中面临的计算资源消耗大、延迟高、成本高等问题。文章从三个维度对现有研究进行了分类与分析: 数据级优化(Data-Level Optimization) 模型级优化(Model-Level Optimization) 系统级优化(System-Level Optimization) 🧩 一、背景介绍 📌 什么是 LLM? LLM(Large Language Model)是指参数规模达到数十亿甚至数千亿级别的语言模型。 它们在多个 NLP 任务上表现出色,如问答、摘要、翻译、代码生成等。 典型代表:GPT、BERT、LLaMA、ChatGLM、PaLM...

阅读更多

Memo:Fine-grained Tensor Management For Ultra-long Context LLM Training

本文主要探讨了在长序列训练时如何通过精细的激活内存管理来解决长序列训练中的挑战,为此提出了一种名为MEMo的新框架,旨在实现高效的激活内存管理和碎片优化。 1. 问题 由于LLM需要大量的计算资源和存储空间,因此在长序列训练时会遇到很多问题,如GPU内存不足、计算效率低下等。在长上下文训练中,线性增长的激活内存仍然是主要的挑战。例如,在训练一个具有32 layer和4096个隐藏单元的7B GPT模型时,仅使用单个长度为1MB的序列就需要消耗4096GB的内存,这远远超过了GPU显存的容量限制。 目前主要采用recompute和swap方式减少显存占用,其中recompute技术通过选择性存储某些层输入而不是所有中间激活的方法,可以在反向传播过程中重新计算所需的激活, swap方式通...

阅读更多

Fire-Flyer File System:3FS

3FS是DeepSeek开源的高性能分布式文件系统,全称Fire-Flyer File System。3FS采用存算分离设计,支持数据强一致以及标准文件接口。 1. 整体架构 主要分为四个组件,client 和cluster manager,meta service,storage service,组件都通过 RDMA 网络连接 cluster manager:管理集群配置,采用主备保证高可用(etcd等管理); meta service:无状态,多个meta service支持高扩展,meta信息持久化到DB层(FoundationDB); client:基于Fuse的客户端,支持连接任意的meta service,根据获取到的信息找到相应的storage server...

阅读更多

Total views.
您是Lancer的第 个小伙伴
Hits