容器云使用指南最佳实践使用指南RTX5090使用指南

容器云RTX5090资源-使用指南

1. 概述

RTX5090 是 NVIDIA 推出的一款高性能 GPU,具有强大的计算能力和优秀的图形处理能力。在智算云平台上,我们提供了 RTX5090 资源,供用户进行深度学习和图形处理等任务。本指南将介绍如何在容器云实例上使用 RTX5090 资源的使用事项。

2. 使用指南

cuda 、nccl 版本依赖

cuda版本:cuda12.8以上版本 (已默认安装)

nccl版本:nccl 2.26 以上版本 (已默认安装)

pytorch 安装建议

默认的 python 环境已包含 pytorch ,可以直接使用,如果需要自行配置环境需要注意如下事项:

由于 RTX5090 依赖 cuda12.8 以上,所以必须安装依赖 cuda12.8以上的 pytorch,目前仅有 2.7.0 版本能够兼容。环境配置方法是在 requirements.txt 中注释掉 torch torchvision torchaudio 然后执行

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

注意1:Pytorch2.7.0 依赖 python3.9 以上版本

注意2:使用 pip 安装的 pytorch 时依赖安装的 nccl 2.26.2 版本是使用 cuda12.2 编译的(nccl2.26.2+cuda12.2) 无法正常使用,必须手动使用 cuda12.8 编译 nccl 2.26.2 得到libnccl.so.2 库然后覆盖 conda 环境里的 libnccl.so.2 文件。

cp /shared-public/lib/nccl/2.26.2_cu128/libnccl.so.2 /path/to/condaenv/lib/python3.x/site-packages/nvidia/nccl/lib/

GPU arch

RTX5090 GPU的 gpu-arch 是 sm_120 ,编译程序时注意修改该设置。