NVIDIA最新發(fā)布的RTX 5090和RTX PRO 6000顯卡近日被曝存在嚴(yán)重虛擬化漏洞。據(jù)wccftech報(bào)道,該漏洞會(huì)導(dǎo)致顯卡完全無(wú)響應(yīng),必須物理重啟主機(jī)系統(tǒng)才能恢復(fù)。
GPU云服務(wù)商CloudRift率先在生產(chǎn)環(huán)境中發(fā)現(xiàn)了這一問(wèn)題。他們?cè)诙嗯_(tái)搭載Blackwell芯片的系統(tǒng)上復(fù)現(xiàn)了該故障后,發(fā)布了詳細(xì)的技術(shù)分析報(bào)告,并設(shè)立1000美元獎(jiǎng)金公開(kāi)征集解決方案。
技術(shù)分析顯示,該漏洞出現(xiàn)在GPU通過(guò)KVM和VFIO傳遞給虛擬機(jī)后。當(dāng)虛擬機(jī)關(guān)閉或GPU重新分配時(shí),主機(jī)系統(tǒng)發(fā)出的PCIe功能級(jí)重置(FLR)無(wú)法使顯卡恢復(fù)正常狀態(tài)。系統(tǒng)日志顯示"FLR后65535毫秒仍未就緒;放棄"的錯(cuò)誤提示,此時(shí)顯卡完全失去響應(yīng),甚至無(wú)法被lspci工具識(shí)別。
值得注意的是,AI初創(chuàng)公司Tiny Corp也獨(dú)立驗(yàn)證了這一漏洞,并質(zhì)疑Blackwell架構(gòu)是否存在硬件缺陷。社區(qū)討論中,多位RTX 5090早期用戶報(bào)告了類(lèi)似問(wèn)題,包括Windows虛擬機(jī)關(guān)閉后導(dǎo)致整個(gè)主機(jī)系統(tǒng)掛起等異常情況。
目前測(cè)試表明,調(diào)整PCIe ASPM或ACS設(shè)置均無(wú)法解決該問(wèn)題。值得慶幸的是,舊款顯卡如RTX 4090尚未出現(xiàn)類(lèi)似報(bào)告,暗示該漏洞可能僅限于NVIDIA Blackwell系列產(chǎn)品。