Ubuntu-8*H20服务器升级nvidia驱动+cuda版本

type
status
date
slug
summary
tags
category
icon
password
 

契机

看到qwen3-vl-30b开源了,想测试下性能+资源占用,奈何部署sglang需要12.7版本的cuda?我目前手里的H20的服务器cuda版本最高只支持12.2所以需要升级驱动以及cuda版本,随使用官方.run还有apt install xx进行升级。之前用的火山官方ubuntu镜像,默认驱动535,后升级驱动550,570,580后,cuda也对应升级后,cuda都无法使用无论是在conda中,还是直接在宿主机上测试,最后发现是nvidia-fabricmanager问题,NVIDIA-Fabric—Manager主要用于支持多GPU之间的高速通信(如NVLink),遂记录下升级历程。

关联

  • 显卡8*H20的Ubuntu服务器在cuda不可用
  • 升级nvidia驱动580失败
  • Detected GPU count: 0,No GPU detected!
  • 驱动的 GPU 访问库(libcuda.so)未被 CUDA 程序正确识别
  • cuInit 失败:system not yet initialized

服务器初始配置

火山服务器镜像:Ubuntu22.04 with GPU Driver 535.230.02 如果是新的服务器的话推荐安装Ubuntu 22.04,不带gpu版本,免去卸载之前相关驱动

升级/安装

卸载之前

选择驱动

  • 多显卡服务器一定要先选择fabricmanager,找到合适的fabricmanager,再去找对应版本驱动
  • ubuntu2204对应fabricmanager+驱动查询网址:https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2204/x86_64/
  • 截止25年10月16日,最新为cuda-drivers-fabricmanager_575.57.08-1_amd64.deb
  • 对应去选择相应的驱动:cuda-drivers_575.57.08-0ubuntu1_amd64.deb 
  • 截止当前虽然nvidia线上发行版本为580,由于fabricmanager版本限制,不考虑源码编译安装等情况,还是最高只能安装575版本的驱动
  • 官方网站驱动下载(可忽略,用作保底下载):https://developer.nvidia.com/cuda-toolkit-archive
notion image

安装驱动

安装cuda

测试cuda程序

conda环境测试

总结

  • CUDA12.9可向下兼容PyTorch依赖的CUDA12.1,无需额外安装低版本CUDA
  • 多GPU场景下,fabricmanager版本决定驱动最高版本,必须匹配!

写到最后

notion image
是在往前走就好 bothsavage.github.io
 
notion image
 
Qwen3-VL-8B-Instruct推理测试transformer+sglang双版本Java获取被nginx代理的emqx客户端真实ip