Nvidia CUDA的護城河

來源: study169 2024-02-25 08:12:46 [] [舊帖] [給我悄悄話] 本文已被閱讀: 次 (44895 bytes)

https://medium.com/@1kg/cuda-vs-rocm-the-ongoing-battle-for-gpu-computing-supremacy-82eb916fbe18

CUDA vs ROCm: The Ongoing Battle for GPU Computing Supremacy

1kg
 

GPU 計算已成為現代人工智能不可或缺的一部分。顯卡的龐大並行處理能力使得神經網絡能夠比以往任何時候都更快地在龐大的數據集上進行訓練。但在這一領域,一家公司占據主導地位 —— Nvidia,以其專有的 CUDA 平台為中心。AMD 多年來一直在努力提供其開源 ROCm 軟件作為替代品。這場戰鬥目前處於什麽狀態?

簡史回顧 CUDA 在 2007 年爆發,為開發者提供了一種方式,解鎖 Nvidia GPU 的功效,用於通用計算。這被證明是革命性的,因為 CUDA 在並行工作負載上的性能超過了 CPU 數個數量級。它引發了 GPU 計算革命,使得在 AI 方麵的突破成為可能。

AMD 在 2008 年迅速響應,推出了其“接近金屬”(Close to Metal)計劃,但這項專有技術未能獲得關注。2014 年,AMD 再次嚐試,宣布了異構係統架構(HSA),一個開放標準,用於 GPU 計算。但由於行業采納有限,HSA 未能流行起來。

終於在 2016 年,AMD 推出了 ROCm —— 一個在 Linux 上進行 GPU 計算的開源平台。ROCm 提供了諸如編譯器、庫和 HIP 編程語言等工具。HIP 被設計為一個“可移植性平台” —— 一個 CUDA 克隆,允許開發者以最小的更改遷移他們的 CUDA 代碼。

ROCm 的當前狀態 幾年後,ROCm 與 CUDA 的關係如何?讓我們深入開發者體驗、文檔、性能和采納情況。

開發者體驗 立即顯現的是,ROCm 揭示了一個碎片化的開發者體驗。ROCrand 文檔將開發者指向兩個不同的平台 —— ROCm 本身,和一個叫做“HIP-CPU”的東西。

HIP 已經是一個 CUDA 模仿層。將其分為 HIP 和 HIP-CPU 似乎是多餘的,當像 SYCL 和 Kokkos 這樣的替代品可以從單一代碼庫跨平台運行時。

HIP-CPU 的 GitHub 頁麵已經在開發中停滯了 3 年多。這描繪了 AMD 在多個相互競爭的平台上過於分散自己的畫麵。

文檔 不幸的是,ROCm 的文檔仍然非常貧乏。ROCrand 文檔幾乎完全由截斷的函數文檔組成,這些文檔被一次又一次地複製粘貼。

ROCrand Python API 文檔令人震驚地稀疏 —— 字麵上隻有一頁,沒有詳細指導。C++ API 文檔大多重複同樣模糊的關於隨機數生成器算法的信息。

這讓人感覺文檔的存在僅僅是為了“勾選一個框”,沒有任何真正的努力來幫助開發者。尤其是考慮到 GPU 編程的複雜性,出色的文檔至關重要。

性能 在 Nvidia V100 GPU 上,將 ROCrand 與 CUDA 進行基準測試,揭示了在真實工作負載如光線追蹤上有 30–50% 的性能差距。

有些人可能會認為,這個基準測試對 AMD 硬件不公平。但是,一個更簡單的 Philox 實現達到了與 CUDA 相當的水平,表明差異在於 ROCrand 的實現質量 —— 而不是缺乏 GPU 特定的優化。

采納 盡管是開源的,ROCm 未能實現廣泛的采納。這很可能是由於其在性能、文檔和兼容性方麵的限製。

最新的 StackOverflow 開發者調查發現,CUDA 的使用量遠遠超過 OpenCL 和 ROCm。在 HPC 方麵,Nvidia 繼續主導 Top500 超級計算機列表。

話雖如此,AMD GPU 在如 Frontier 和 El Capitan 這樣的高規格超級計算項目中取得了顯著的成功。然而,這似乎更多是由於競爭采購,而非開發者偏好。

前方的漫長道路 雖然 AMD 在 ROCm 上確實取得了進展,但該平台在文檔、性能和采納等關鍵方麵仍遠遠落後於 CUDA。

實際上,鑒於 Nvidia 的巨大領先優勢,AMD 將很難實現平等,更不用說超越 Nvidia 了。Nvidia 每年都在 CUDA 的開發和生態係統擴展上投入數十億美元。

這為新的挑戰者如 Intel 留下了機會,其財力可與 Nvidia 媲美。Intel 的 SYCL 技術在文檔方麵遠遠優於 ROCm。如果 Intel 在軟件方麵執行到位,他們可能會構成威脅。

AMD 要真正挑戰 CUDA,必須加倍關注 ROCm 的文檔、性能和兼容性。近期事件表明,對 ROCm 的承諾在增加。但實現這一願景將需要大量資源。

GPU 計算領域仍然由 Nvidia 的專有 CUDA 主導。AMD 在 ROCm 上有一座大山要攀登。雖然他們設想的開放生態係統很有吸引力,但要實現這一目標需要巨大的專注。這場戰鬥遠未結束。

所有跟帖: 

用chatGPT4 翻譯的,大家湊合著看 -study169- 給 study169 發送悄悄話 (0 bytes) () 02/25/2024 postreply 08:14:56

CUDA簡介 -study169- 給 study169 發送悄悄話 (6133 bytes) () 02/25/2024 postreply 08:21:46

個人感覺 -study169- 給 study169 發送悄悄話 (618 bytes) () 02/25/2024 postreply 08:43:27

主要歸功於領軍人物的vision -飛天的花無缺- 給 飛天的花無缺 發送悄悄話 (107 bytes) () 02/25/2024 postreply 08:49:15

是的,老黃很執著,而且掌控人事政治局麵也絕對超一流 -CatcherInTheRye- 給 CatcherInTheRye 發送悄悄話 (66 bytes) () 02/25/2024 postreply 08:53:48

CUDA搞了很多年了,就像OS一樣,技術不難 -CatcherInTheRye- 給 CatcherInTheRye 發送悄悄話 (185 bytes) () 02/25/2024 postreply 08:51:48

比如微軟, 最後壟斷Windows ? -飛天的花無缺- 給 飛天的花無缺 發送悄悄話 (297 bytes) () 02/25/2024 postreply 08:55:50

2萬人的企業市值第三太牛了 -基因編輯師- 給 基因編輯師 發送悄悄話 (0 bytes) () 02/25/2024 postreply 09:14:08

類似與我們學的C調機器語言,隻不過調用CUDA-C和GPU device Code... -va168- 給 va168 發送悄悄話 va168 的博客首頁 (14153 bytes) () 02/25/2024 postreply 09:04:40

這個算是Firmware 編程? -飛天的花無缺- 給 飛天的花無缺 發送悄悄話 (0 bytes) () 02/25/2024 postreply 09:07:31

CS os 係統開發,底層邏輯沒有什麽大的變化, 硬軟集成應用日新月異... -va168- 給 va168 發送悄悄話 va168 的博客首頁 (0 bytes) () 02/25/2024 postreply 09:10:26

現在學CUDA搞AI還來得及嗎? -伯克希爾哈薩維- 給 伯克希爾哈薩維 發送悄悄話 (0 bytes) () 02/25/2024 postreply 11:00:16

請您先登陸,再發跟帖!

發現Adblock插件

如要繼續瀏覽
請支持本站 請務必在本站關閉/移除任何Adblock

關閉Adblock後 請點擊

請參考如何關閉Adblock/Adblock plus

安裝Adblock plus用戶請點擊瀏覽器圖標
選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標
選擇“don't run on pages on this domain”