英偉達詳解GPU集群監(jiān)控方案:可追蹤功耗等,無后門與終止開關(guān)-今日視點
來源:IT之家
?
2025-12-14 15:26:37
(資料圖片僅供參考)
IT之家 12 月 14 日消息,英偉達官方本周(12 月 10 日)在官網(wǎng)發(fā)布博文,詳細介紹正在開發(fā)的可視化 GPU 集群監(jiān)控方案,可幫助云服務(wù)合作伙伴計算 GPU 的正常運行時間。
IT之家在此援引官方新聞稿,該方案由用戶自愿選擇、客戶自行安裝,可用于監(jiān)控 GPU 的使用情況、配置以及錯誤信息,內(nèi)含開源的客戶端軟件代理,旨在幫助客戶充分發(fā)揮 GPU 系統(tǒng)的價值。
這套軟件能進行以下操作:
- 追蹤功耗峰值,在控制能耗預(yù)算的同時最大化每瓦性能
- 監(jiān)控整個 GPU 集群的利用率、內(nèi)存帶寬以及互聯(lián)狀況
- 盡早發(fā)現(xiàn)熱控制問題,避免因過熱出現(xiàn)降頻、組件老化等風(fēng)險
- 確認(rèn)軟件配置與設(shè)置的一致性,確保結(jié)果可復(fù)現(xiàn)、運行可靠
- 識別錯誤與異常,提早發(fā)現(xiàn)潛在故障部件
官方表示,這套軟件可幫助企業(yè)和云服務(wù)提供商直觀了解其 GPU 集群運行狀況,解決系統(tǒng)瓶頸,優(yōu)化生產(chǎn)力,整套服務(wù)通過實時監(jiān)控實現(xiàn),每個 GPU 系統(tǒng)會與外部云服務(wù)通信并共享 GPU 指標(biāo)。
同時英偉達強調(diào),他們的 GPU 不包含任何硬件追蹤技術(shù)、遠程終止開關(guān)或后門。
此外,英偉達計劃將客戶端軟件代理開源,提供更高的透明度和可審計性,整套軟件可提供企業(yè) GPU 資產(chǎn)的可視化信息,無法修改 GPU 配置或底層運作方式,只能夠提供只讀的遙測數(shù)據(jù),交由客戶自行管理并可按需定制。