Memo:Fine-grained Tensor Management For Ultra-long Context LLM Training
本文主要探讨了在长序列训练时如何通过精细的激活内存管理来解决长序列训练中的挑战,为此提出了一种名为MEMo的新框架,旨在实现高效的激活内存管理和碎片优化。
1. 问题
由于LLM需要大量的计算资源和存储空间,因此在长序列训练时会遇到很多问题,如GPU内存不足、计算效率低下等。在长上下文训练中,线性增长的激活内存仍然是主要的挑战。例如,在训练一个具有32 layer和4096个隐藏单元的7B GPT模型时,仅使用单个长度为1MB的序列就需要消耗4096GB的内存,这远远超过了GPU显存的容量限制。
目前主要采用recompute和swap方式减少显存占用,其中recompute技术通过选择性存储某些层输入而不是所有中间激活的方法,可以在反向传播过程中重新计算所需的激活, swap方式通...
Fire-Flyer File System:3FS
3FS是DeepSeek开源的高性能分布式文件系统,全称Fire-Flyer File System。3FS采用存算分离设计,支持数据强一致以及标准文件接口。
1. 整体架构
主要分为四个组件,client 和cluster manager,meta service,storage service,组件都通过 RDMA 网络连接
cluster manager:管理集群配置,采用主备保证高可用(etcd等管理);
meta service:无状态,多个meta service支持高扩展,meta信息持久化到DB层(FoundationDB);
client:基于Fuse的客户端,支持连接任意的meta service,根据获取到的信息找到相应的storage server...
A Survey on Multimodal Large Language Models
多模态大语言模型(Multimodal Large Language Model,MLLM)是一种结合多种数据模态(如文本、图像、音频、视频等)的大型人工智能模型。它在传统大语言模型的基础上,扩展了对非文本模态的理解和生成能力,能够更全面地感知和交互复杂的世界信息,本文是中科大和腾讯合作发表的MLLM领域的综述论文。
1. MLLM架构
MLLM的架构如下所示,主要由Encoder,connector和LLM三部分构成;
Encoder输入图像、音频或视频并输出特征,它是接收和预处理光学/声学信号的人类眼睛/耳朵;
Connector:模态接口用于对不同模态进行对齐,处理Encoder输出的特征以便于LLM更好地理解;
LLM: 理解并推理经过处理的信号的人类大脑。
...
FAST 2025 数据一览
FAST‘25共收到167篇论文投稿,共计接收36篇, 录取率为21.5%。其中国内23篇(第一单位),以下是按照高校和研究机构分类的论文详情(仅考虑第一单位):
国内
高校
清华大学 (1)
浙江大学 (2)
华中科技大学 (5)
电子科技大学 (1)
厦门大学 (1)
北京工业大学 (1)
山东大学 (1)
南开大学 (1)
华东师范大学 (1)
上海交通大学 (1)
吉林大学 (1)
南京理工大学 (1)
哈尔滨工业大学深圳校区 (1)
香港中文大学 (2)
研究机构/企业
...
GDS cuFile
1. 介绍
cuFile API 是 NVIDIA 为支持 GPUDirect Storage (GDS) 而提供的接口集,它是 CUDA Driver C API 的一部分。
2. 基本接口及其功能描述
cuFileDriverOpen:
初始化驱动程序会话,以支持后续的GDS I/O操作。成功调用此函数后,将建立起与内核驱动的通信
cuFileDriverClose: 关闭驱动程序会话并释放所有与GDS相关的资源。这个步骤通常是在进程结束时隐式完成的,但在某些情况下也可能需要显式地调用它来确保资源的及时释放
cuFileHandleRegister: 将操作系统级别的文件句柄注册到CUDA环境中,这使得应用程序能够通过GPU直接访问文件数据
cuFileHandleDere...
CUDA Graph
将一系列 CUDA 内核被定义和封装为一个单元,即一个算子图,而不是一系列单独启动的算子。它提供了一种通过单个 CPU 操作 launch 多个 GPU 算子的机制,从而减少 launch 开销。
// 不使用cuda graph
for(int istep=0; istep<NSTEP; istep++){
for(int ikrnl=0; ikrnl<NKERNEL; ikrnl++){
shortKernel<<<blocks, threads, 0, stream>>>(out_d, in_d);
}
cudaStreamSynchronize(stream);
}
// 使用cuda graph
bo...
Burstable Cloud Block Storage with Data Processing Units
本文是北京大学和阿里云合作的工作,发表在OSDI2024上,介绍了一种名为BurstCBS的软硬协同设计的I/O调度系统,旨在解决CBS服务中的负载不平衡和租户干扰问题。
1. 摘要
本文观察到,在CBS中,连接用户虚拟机和后端存储的数据处理单元(DPU)上的存储代理(SA)是性能波动的主要来源。因此,提出了BurstCBS系统,利用高性能队列扩展实现了近乎完美的线速负载平衡,并设计了一个新的可扩展burstable I/O调度器,优先分配基础级别的资源,同时支持突发操作。
实验结果表明,BurstCBS可以将平均延迟降低高达85%,在拥堵情况下为基本级别租户提供高达5倍的吞吐量,并且具有最小的开销。此外,该文还通过验证一个内部依赖于CBS的数据库服务的工作负载,验证B...
您是Lancer的第 个小伙伴
Hits