國內GPU服務器如何安裝顯卡驅動、CUDA和cuDNN?
國內GPU服務器如何安裝顯卡驅動、CUDA和cuDNN?
在國內GPU服(fu)務器上安裝顯卡驅動(dong)、CUDA 和 cuDNN,通(tong)常需(xu)要按照(zhao)以下步驟(zou)進行,以確(que)保(bao)環境穩定兼容:
第一步:確認 GPU 型號和操作系統
在安(an)裝驅動前,先(xian)確(que)認(ren) GPU 型號和系統版(ban)本,以確(que)保下載正確(que)的驅動和 CUDA 版(ban)本。
檢查 GPU 型號
lspci | grep -i nvidia
或
nvidia-smi
檢查操作系統版本
cat /etc/os-release
uname -r
第二步:安裝 NVIDIA 驅動
方法 1:使用 NVIDIA 官方驅動安裝
卸載舊驅動(dong)(如(ru)果有)
sudo apt-get remove --purge '^nvidia-.*'
sudo apt-get autoremove
sudo apt-get autoclean
對(dui)于 CentOS:
sudo yum remove -y nvidia*
禁用 Nouveau(避(bi)免沖突)
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
添加以下內容:
blacklist nouveau
options nouveau modeset=0
保存退出后,運行:
sudo update-initramfs -u
reboot
下(xia)載(zai) NVIDIA 驅(qu)動
訪問(wen) NVIDIA 官(guan)方驅(qu)動頁面
根據 GPU 型(xing)號選(xuan)擇合(he)適的驅動版本并下載
安裝驅動
chmod +x NVIDIA-Linux-x86_64-XXX.run
sudo ./NVIDIA-Linux-x86_64-XXX.run
選擇 "Yes",等(deng)待(dai)安(an)裝完成。
驗證驅動是否(fou)安(an)裝成功
nvidia-smi
如果(guo)成功,會顯(xian)示 GPU 詳細信息。
第三步:安裝 CUDA
方法 1:官方 DEB/YUM 安裝
下載 CUDA
訪問(wen) CUDA 官方下載頁面
選擇對應的 Linux 版本 并獲(huo)取安裝命(ming)令
執行安(an)裝(zhuang) 以(yi) Ubuntu 22.04(CUDA 12.1)為例:
wget //developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo apt-get update
sudo apt-get install -y cuda
對(dui)于(yu) CentOS:
sudo yum install -y cuda
配置環境變量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
驗證 CUDA
nvcc --version
第四步:安裝 cuDNN
下載 cuDNN
訪(fang)問 NVIDIA cuDNN 下(xia)載頁面
選擇適(shi)配(pei) CUDA 版本的 cuDNN 并下(xia)載(需要(yao) NVIDIA 賬號)
安(an)裝 cuDNN 以 Ubuntu 為例:
tar -xzvf cudnn-linux-x86_64-*.tgz
sudo cp cuda/include/cudnn*.h /usr/local/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
驗證 cuDNN
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
第五步:測試 GPU 計算環境
檢查 GPU 狀態
nvidia-smi
運(yun)行 CUDA 示(shi)例
cd /usr/local/cuda/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
如果顯示 "Result = PASS",說明 CUDA 運行正常。
總結
顯卡驅動(dong):確(que)保下(xia)載(zai)并安(an)裝正確(que)的驅動(dong)版(ban)本。
CUDA:選擇適配(pei)操作系統的 CUDA 版本,并配(pei)置環境變量。
cuDNN:安裝適配 CUDA 版本的 cuDNN,并驗證是否正確安裝。
最終測試:運行 nvidia-smi 和(he) deviceQuery 以(yi)驗證環境是否正常。
這(zhe)樣(yang)就可以在國內 GPU 服務(wu)器(qi)上順(shun)利安裝并(bing)運行 NVIDIA 驅動、CUDA 和(he) cuDNN 了(le)!