GDS cuFile
1. 介绍
cuFile API 是 NVIDIA 为支持 GPUDirect Storage (GDS) 而提供的接口集,它是 CUDA Driver C API 的一部分。
2. 基本接口及其功能描述
cuFileDriverOpen:
初始化驱动程序会话,以支持后续的GDS I/O操作。成功调用此函数后,将建立起与内核驱动的通信
cuFileDriverClose: 关闭驱动程序会话并释放所有与GDS相关的资源。这个步骤通常是在进程结束时隐式完成的,但在某些情况下也可能需要显式地调用它来确保资源的及时释放
cuFileHandleRegister: 将操作系统级别的文件句柄注册到CUDA环境中,这使得应用程序能够通过GPU直接访问文件数据
cuFileHandleDere...
CUDA Graph
将一系列 CUDA 内核被定义和封装为一个单元,即一个算子图,而不是一系列单独启动的算子。它提供了一种通过单个 CPU 操作 launch 多个 GPU 算子的机制,从而减少 launch 开销。
// 不使用cuda graph
for(int istep=0; istep<NSTEP; istep++){
for(int ikrnl=0; ikrnl<NKERNEL; ikrnl++){
shortKernel<<<blocks, threads, 0, stream>>>(out_d, in_d);
}
cudaStreamSynchronize(stream);
}
// 使用cuda graph
bo...
Burstable Cloud Block Storage with Data Processing Units
本文是北京大学和阿里云合作的工作,发表在OSDI2024上,介绍了一种名为BurstCBS的软硬协同设计的I/O调度系统,旨在解决CBS服务中的负载不平衡和租户干扰问题。
1. 摘要
本文观察到,在CBS中,连接用户虚拟机和后端存储的数据处理单元(DPU)上的存储代理(SA)是性能波动的主要来源。因此,提出了BurstCBS系统,利用高性能队列扩展实现了近乎完美的线速负载平衡,并设计了一个新的可扩展burstable I/O调度器,优先分配基础级别的资源,同时支持突发操作。
实验结果表明,BurstCBS可以将平均延迟降低高达85%,在拥堵情况下为基本级别租户提供高达5倍的吞吐量,并且具有最小的开销。此外,该文还通过验证一个内部依赖于CBS的数据库服务的工作负载,验证B...
共计 11 篇文章,2 页。
您是Lancer的第 个小伙伴
Hits