馬克談天下(432) 聊聊輝達的崛起和未來預測

上周,如果說科技界最熱門的新聞是OPENAI發布SORA,那科技財經界都能同時上頭條的無疑是“NVDA股價飆升,市值突破2T”,作為一個NVDA股票的擁有者,也因為NVDA發了一點小財,我也來聊聊輝達的崛起和未來預測。

Nvidia (NVDA) Stock Q4 2023 Earnings Preview: What to Expect | tastylive

先簡單回顧一下最新的輝達的財報,以及它給投資人帶來的回報吧。

AI晶片大廠輝達(Nvidia)第4季財報顯示營收成長265%,創歷史新高,刺激輝達盤後股價飆漲10%,執行長黃仁勳並指出,「加速運算和生成式人工智慧已經達到臨界點(tipping point),世界各地的公司、行業和國家的需求都在飆升。」有美媒試算若10年前甚至更早投資輝達1000美元,那麼現在擁有的價值,投報率相當驚人。

根據美國財經媒體《CNBC》報導,今年到目前為止,輝達的股價一直呈現上升趨勢,儘管該公司股價在週三交易時段下跌近3%,但自年初以來已飆升近40%,過去12個月則飆升了225%以上。

《CNBC》並進一步試算,如果1年前投資輝達1000美元,截至2月20日,投資價值增長225%至3248美元;如果是5年前投資1000美元,截至2月20日的投資價值將增加1015%至17542美元;10年前投資1000美元,那麽截至2月20日,這筆投資已膨脹到22340%至148226美元。若是,在輝達於1999年1月22日首次上市時就買進1000美元,那截至2月20日,這筆投資增長277708%,價值接近278萬4065美元。
Nvidia Stock (NASDAQ:NVDA) Hits 2T Market Cap, Analysts Are Bullish -  TipRanks.com
我個人的投資是,2016年10月以 17美元左右每股買入300股,到2024年2月底,原來投入的五千多美元,2021年一拆四,合計有1200股,現在已經高達 94萬美元,投資回報率高達170倍左右。當年是因為NVDA是少有的有分發股息的高科技股票,而且價格不貴才買入的。

而有關輝達的發展曆史,估計很多人都知道一二,我們也就簡單聊一下。

創建 NVIDIA 之前,黃仁勳曾經是 AMD 公司的芯片設計師,那時候的他或許想不到,二十年後,自己創立的公司會成為老東家最強勁的競爭對手。

在 AMD 公司,黃仁勳打下了結實的技術基礎,之後他又跳槽到了芯片公司 LSI-Logic,在那裏,黃仁勳完成了從技術崗到銷售崗的轉型。1993 年,三十而立的黃仁勳和兩位好友共同創建了 NVIDIA,主攻當時仍處在萌芽階段的圖形芯片市場。

NVIDIA 做的第一件大事,就是花兩年時間研發了一款與市麵上所有圖形芯片都不同的產品NV1,它集成了顯卡、聲卡、手柄驅動等多種功能,瞄準的並不是 PC 市場,而是遊戲主機。

可惜,NVIDIA 傾盡全力研發出來的第一款產品,卻始終沒有打進主流遊戲市場,NVIDIA 花光了投資,幾近破產。

在走投無路之際,遊戲公司世嘉伸出了援手——當時世嘉正在開發新一代的主機“土星”,他們認為 NVIDIA 芯片的高集成度能夠更好地在遊戲機上發揮性能,因此投入了 700 萬美金支持 NVIDIA 研發新一代的產品。

雖然世嘉跟 NVIDIA 的合作最終沒有成功,研發中的 NV2 芯片也因此流產,但靠著這 700 萬美金,黃仁勳終於摸到了市場的脈象——當時微軟發布了 Direct X 接口,可市麵上支持這一標準的圖像芯片卻寥寥無幾,所有的圖像芯片廠商都在忙著推廣自己的接口。

顯卡是電腦係統必備的裝置,它負責將CPU送來的影像資料(data)處理成顯示器(monitor)可以了解的格式,再送到顯示屏(screen)上形成影像。它是我們從電腦獲取資訊最重要的管道。因此顯示卡及顯示器是電腦最重要的部份之一。我們在監視器上看到的圖像是由很多個小點組成的,這些小點稱為“像素”。在最常用的分辨率設置下,屏幕顯示一百多萬個像素,電腦必須決定如何處理每個像素,以便生成圖像。為此,它需要一位“翻譯”,負責從CPU獲得二進製數據,然後將這些數據轉換成人眼可以看到的圖像。除非電腦的主板內置了圖形功能,否則這一轉換是在顯卡上進行的。我們都知道,計算機是二進製的,也就是0和1,但是總不見的直接在顯示器上輸出0和1,所以就有了顯卡,將這些0和1轉換成圖像顯示出來。

黃仁勳決定,放棄部分已有的專利,轉而全麵支持微軟的 Direct X 接口。同時,NVIDIA 全麵提升了開發速度,每六個月就研發一款新產品。

轉型後的 NVIDIA 推出了 Riva 128 芯片,不僅性能足夠強大,而且造價也要比同類產品低廉不少,加上對 Direct X 的良好支持,成為不少 ODM 廠商的首選。之後,找對產品思路的 NVIDIA 開始奮起直追,於 1999 年推出了世界上首款 GPU(Graphics Processing Unit,圖形處理器)GeForce 256,與同時代的其他圖像芯片相比,GeForce 256 的創新之處在於,大大減少了對 CPU 的依賴,強化了對 3D 圖像的渲染功能,性能上遠遠地甩開了同期的對手。

得益於 GeForce 256 的出色表現,NVIDIA 拿到了微軟 Xbox 遊戲機的訂單,輾轉多年以後,NVIDIA 又回到了他們最初想攻占的遊戲機市場。其實,黃仁勳一直都知道,NVIDIA 的 GPU 絕不隻是為電子遊戲服務的,但是讓他想不到的是,GPU 居然還能在“深度學習”領域大放異彩。其實,黃仁勳一直都知道,NVIDIA 的 GPU 絕不隻是為電子遊戲服務的,但是讓他想不到的是,GPU 居然還能在“深度學習”領域大放異彩。

在前任顯卡巨頭3dfx被NVIDIA正麵擊敗後,顯卡消費市場就進入了大家熟知的NVIDIA和ATI雙雄爭霸時代,在這兩者對抗期間又淘汰了不少小廠商,最後獨立顯卡就隻剩下A卡和N卡了。雖說是雙雄爭霸,但實際上ATI基本是節節敗退的,其中最著名的就是ATI顯卡在DX9末期的潰敗。

Nvidia GeForce 256 - World's first GPU and GeForce graphics card - YouTube

NVIDIA在DX9時期投入了數百個研發人員和數億美金研發GeForce 6係列顯卡,該係列顯卡一個最大的特點就是高端型號支持SM3.0技術。SM3.0技術是DirectX 9.0C級別顯卡全麵支持的一項特效。

SM3.0在很大程度上豐富了遊戲研發時的編程模型,方便遊戲開發商更簡單的做效果更好的遊戲,確有不少優勢,而ATI顯卡都無法提供此功能。隨著支持SM3.0技術的遊戲越來越多,ATI顯卡的地位就越來越尷尬,最後演變成在中高端顯卡市場的潰敗,隻能占據部分中低端顯卡市場份額的ATI最後被06年如日中天的AMD收購。自此獨顯市場變成了AMD和NVIDIA的對抗。

DX9時期的大勝讓老黃對A卡放鬆了警惕,認為被收購的A卡不過是苟延殘喘,但HD4800係列顯卡的誕生改變了NVIDIA的認知,AMD高頻小核心低成本顯卡的策略取得了極大的成功,顯卡市場又重新回到雙雄爭霸的局麵。

曾經有段時間業界形容AMD、NVIDA在GPU策略上的不同是“AMD擅長小核心,性能適中,但是低功耗、NVIDIA偏重大核心,性能強,但功耗高、成本更貴”,NVIDIA在GT200核心上確實是大核心策略,在GF100核心上達到了巔峰,從SP單精度、DP雙精度配比上大家應該可以看出來,這時候NVIDIA已經在大幅提升GPU的計算性能了。

在40nm Fermi費米架構中,NVIDIA一下子將CUDA核心數提升到了512個,是GT200核心的兩倍,而且單雙精度達到了1:2,大量核心用於雙精度計算。但是第一代費米核心的GTX 480顯卡也因此翻車了,還記得那個著名的顯卡紅外溫度100°C+的圖片嗎?說的就是GTX 480時代的事。GTX 480在功耗、發熱上的翻車教訓導致NVIDIA一度很難堪,直到後來推出了GTX 580顯卡才有所緩解,總的來說,40nm費米架構這一代,NVIDIA在GPU設計上有了一次飛躍,規格大幅提升,不僅注重遊戲性能,也重視計算性能,為此塞入了更多的雙精度計算單元,但也因此帶來了諸多問題,GTX 480翻車事故帶給NVIDIA很多教訓,多多少少都影響了後來的GPU架構設計。

距離GTX 580顯卡發布一年半時間後,2012年3月22日NVIDIA推出了GTX 680顯卡,由此28nm工藝的Kepler架構閃亮登場。這時候AMD基於全新GCN架構的HD 7970顯卡已經發布將近3個月了(海外市場2011年12月底發布,國內是次年1月初),後者當時光芒萬丈,GCN架構同時融合了計算及遊戲的優點,性能比之前的VLIW架構顯卡有了明顯進步,而且還首發了台積電28nm工藝、PCIe 3.0等等。NVIDIA在Kepler架構中還做了一項重要改變——從Kepler開始,NVIDIA以往堅持的Core:Shader=1:2的分頻模式已經沒有了,以前采用這種方式是因為核心頻率不能大幅提高,為了提高性能就必須讓CUDA的核心頻率增加一倍,但是這也意味著更高的能耗。戰術核顯卡這個梗也是當時出現的。

GALAXY GTX 680 2GB 4G Graphics Cards GeForce GPU GTX680 2GD5 Video Card  256Bit GDDR5 GTX680 2G for NVIDIA GK104 Map Hdmi Dvi VGA - AliExpress

2012年NVIDIA發布了開普勒架構的GTX680顯卡,顯卡不僅幫助NVIDIA奪回單芯顯卡卡皇的寶座,還是NV遊戲顯卡發展方向的轉折點。開普勒架構拋棄了以往“純通用運算處理器”理念來設計GPU,而是大幅加強的GPU的圖形遊戲性能,成為了純粹為遊戲設計的GPU,這一設計理念也讓GPU能縮減掉大量與遊戲無關的結構,達到能效比大幅提升的目的。

計算卡和遊戲卡分開發展算是N卡發展曆史上一個重要的轉折點,自此NVIDIA遊戲顯卡的發展就像坐上了高達,把A卡越甩越遠,這項策略也被廣泛認為是明智的,而直到2019年AMD才宣布也會采取遊戲卡和計算卡分開設計的策略。

到了10係NVIDIA顯卡所采用的帕斯卡架構,,再加上16nm新製程的加持,在工藝製程雙升級的加持下顯卡性能提升幅度達到前所未有的70%!中端甜點顯卡在性能上齊平上代次旗艦GTX 980,也因此GTX 1060成為了N卡曆史上最為暢銷的顯卡。

在中端顯卡上A卡還能利用堆核策略用設計出較大的核心更大的規模北極星係列顯卡和帕斯卡中端顯卡打得有來有回,但是在高端顯卡上就完全招架不住了,旗艦RX VEGA 64比GTX 1080晚了一年半才發布,性能上基本持平但功耗差不多是GTX 1080兩倍,對比帕斯卡的旗艦GTX 1080 Ti更是隻能仰望。在傳統性能上徹底甩開對手後,NVIDIA顯然不滿足於此,他不僅要做行業的領頭羊,還要做遊戲規則的製定者。NVIDIA在18年推出圖靈架構顯卡,顯卡最大的特點就是通過特殊的計算單元RT Core和Tensor Core讓顯卡的算力達到支持實時光線追蹤的要求。

第二代RTX架構”Ampere“架構——GeForceRTX30係列GPU(旗艦型號為RTX3090TI):2020年發布的Ampere架構是在Turing基礎上的改良,加入了部分整數、浮點運算單元共享的設計,同時升級了RTCore和TensorCore並優化配比,將光線追蹤和AI運算的性能和效率提升到了新的高度,是NVIDIA第二代RTX產品。

With the GeForce RTX 30 Series, Buying a Gaming Laptop Just Got More  Complicated | PCMag
2021年RTX推出了一係列新產品,包括GeForceRTX3050、RTX3050Ti、RTX3060、RTX3060Ti以及RTX3070Ti成功降低了RTX的門檻,NVIDIA聯合OEM品牌推出了大量RTX30係列的筆記本產品,將遊戲筆記本和創作類筆記本的性能提升到全新的高度,同時也將更多人工智能的算法和技術應用在產品上。

2022年NVIDIA延續GeForceRTX30係列GPU:推出旗艦級GPUGeForceRTX3090Ti,GeForceRTX3090Ti刷新了GPU性能的新紀錄,並將ECC顯存應用在了GeForce上,標誌著GeForce產品線的進一步擴大化,遊戲和專業領域開始出現融合跡象,而Titan係列也完全並入了GeForce產品線中,以GeForce產品線的命名方式命名。

ZOTAC GAMING Announces the GeForce RTX 40 Series Powered by the Next  Generation GPU Architecture | ZOTAC
北京時間2022年9月20日,NVIDIA發布了最新的RTX 40係顯卡,進一步提升了顯卡性能。在現代遊戲中,RTX 4090的性能提升高達2倍,同時保持了相同的450W功耗。 RTX4090搭載AD102-300 GPU,啟用16384個CUDA內核,比RTX 3090 Ti多出52%,但性能提升幅度卻更大。 GPU頻率高達2520MHz,搭載24GB 21 Gbps GDDR6X顯存,達到1TB/s的帶寬,450W默認TGP。在台積電4N工藝加持下,加速頻率超過了2.5GHz,比上代的三星8nm工藝有大幅提升。

而NVDA的發展,遠遠不是GPU顯卡那樣簡單,打造一個超級AI基礎設施帝國的三個要素包括:

1. 優異的晶片
「經濟學人」(The Economist)報導,輝達的AI晶片最初是為電玩遊戲設計的繪圖處理器(GPU)加速器,原理是採用平行處理方式,將每道運算拆成更小單位後,再分配給晶片中的多個「核心」(即處理器的大腦)來同時處理。

這意味GPU運算速度比依序來完成任務要快許多。這種運算方法非常適合用在遊戲顯示,因為要出現逼真的圖像,必須讓數不盡的像素同時顯示在螢幕上。輝達的高效能晶片目前在遊戲GPU的市占率高達4/5。

令輝達可喜的是,其晶片還出現更廣泛的用途,包括加密貨幣挖曠、車輛自動駕駛及最重要的AI模型訓練。

AI利用機器學習演算法來運作,這種演算法以深度學習中的類神經網路(artificial neural network,ANN)為架構,電腦透過這個架構從大量資料中找出規則和模式。

而訓練一個類神經網路需要大規模運算,由於這項任務可拆分為較小單位,因此若要加快運算速度,平行處理是理想方式。一顆高效能GPU可含有1000多個核心,因此可以同時處理數千道運算。

當輝達意識到其GPU在訓練AI模型上能提供高效能後,便專注將產品朝這一方麵優化。因此即使AI模型日益複雜,輝達的晶片也一直能跟上腳步;2023年輝達晶片的運算速度,已是其10年前產品的1000倍。

2. 網路連結能力
令輝達市值飆升的因素,不隻是更快速的晶片。其競爭優勢還延伸到另2個領域,其一是網路連結。

隨著AI模型不斷發展,使用這些模型來運作的資料中心為了提高處理能力,有必要動用數以千計顆串聯在一起的GPU,不同於大多數電腦隻需用到少數幾顆。

而輝達用來串聯其GPU的高效能網路,是以網通技術供應商邁倫(Mellanox)的產品為基礎。輝達早在2019年便以70億美元(約新台幣2212億元)價格買下邁倫,這讓輝達能以競爭對手無可比擬的方式,來優化其晶片網的表現。

3. 軟件開發平台 CUDA
輝達的客戶可透過這個平台來微調其採購的處理器效能。輝達從2000年代中期以來就不斷投資發展CUDA,長期以來也一直鼓勵開發人員利用它來打造及測試AI應用程式,這些做法已使得CUDA成為實際上的業界標準。

專家預估,AI晶片市場規模至2027年將達到4000億美元。輝達豐厚的利潤加上AI晶片市場的快速成長,已吸引競爭對手目光。

CUDACast #1 - Installing the CUDA Toolkit on Windows 7 - YouTube

亞馬遜(Amazon)和Google(穀歌)母公司Alphabet都正在為自家資料中心打造AI晶片,其他晶片大廠或新創公司也想分一杯羹。其中超微(AMD)已在去年12月推出一款晶片,且從某些標準來看性能已約是輝達最先進晶片的2倍。

然而,即使推出更好的硬體產品,可能也還不夠。輝達之所以能稱霸AI晶片市場,是因為同時提供了最好的晶片、最好的網路連結工具及最好的軟體。任何希望取而代之的競爭對手,都得在這3個領域能擊敗輝達,這將是一項艱钜的挑戰。

英偉達最近發佈的第四季度財報顯示出色的業績,超出市場預期。英偉達首席執行官黃仁勳向投資者保證,公司預見到2025年之前的持續強勁增長,這對維持英偉達股價上漲至關重要。

在之前的文章中,Nexus研究簡要討論了英偉達的HGX平臺。英偉達通過這個平臺巧妙地將其各種數據中心解決方案作爲一個大的捆綁產品銷售,而不是單獨銷售各個芯片。這一策略帶來了巨大的優勢,例如更好地控製產品性能和客戶體驗,使英偉達能夠將客戶納入其生態係統並加強其市場壁壘。因此,Nexus研究給予英偉達“買入”等級。

此外,鑑於半導體巨頭的精明軟件策略既能增強客戶忠誠度也能擴大利潤空間,並使英偉達在AI革命的下一階段繼續保持領導地位,該機構再次重申對英偉達股票的“買入”評級。

當前,英偉達提供市場上最優秀的AI芯片,這是公認的事實,其數據中心收入在過去一年中增長了三倍多,達到了2024財年的475億美元。

Top NVIDIA Alternatives, Competitors

英偉達已經透露,其擁有“數億臺GPU的安裝基礎”,現在公司正尋求在這個龐大的安裝基礎上建立一個蓬勃發展的軟件業務。這一軟件機會正是支持股票持續看漲論點的下一步增長。

爲了理解英偉達的軟件驅動看漲案例,重要的是要理解其“多實例GPU”[MIG]芯片設計。“實例”在GPU上是指令,而MIG允許單個GPU被分割成七個獨立的實例。這種技術本質上允許在單個GPU上同時運行更多的實例,這意味著可以在每個芯片上同時運行更多的軟件應用程序。

每個GPU運行更多軟件服務的更大容量確實使英偉達能夠向其客戶銷售更多的軟件服務。考慮到英偉達擁有“數億臺GPU的安裝基礎”,軟件機會是巨大的。事實上,英偉達估計其‘英偉達 AI企業’軟件和DGX雲的長期年度市場機會爲1500億美元。

英偉達作爲AI芯片市場的領先者,在訓練領域取得了巨大成功,但市場對其在AI推理領域的表現提出了質疑。據估計,到2030年,全球AI推理芯片市場的價值將從2023年的158億美元增長到906億美元。批評者認爲,在推理階段,客戶可能會選擇AMD和英特爾等公司的性能較弱、成本較低的芯片,而不是英偉達昂貴的高性能芯片。

然而,英偉達的H100 GPU既適用於訓練,也適用於推理,這反駁了市場對英偉達在推理市場能力的質疑。英偉達在2024年第四季度的財報電話會議中透露,大約40%的數據中心收入來自AI推理。此外,英偉達的HGX係統,結合高級GPU和優化的軟件環境,被設計用於支持訓練和推理任務,進一步增強了其產品的吸引力。

除此之外,英偉達的CUDA軟件包也爲Nvidia GPU上的計算任務提供了基礎,幫助加速深度學習框架,並支持AI推理應用程序的開發和部署。這促使更多第三方開發者爲Nvidia GPU開發兼容的AI推理應用,進一步豐富了英偉達的軟件生態係統。到2023年底,CUDA軟件包已累計下載4800萬次,證明了其廣泛的用戶基礎和開發者社區的活躍度。

儘管英偉達在推理市場中的地位受到挑戰,但其多功能GPU和豐富的軟件生態係統爲其在AI行業的轉型提供了強有力的支持。然而,競爭對手如AMD和英特爾也在加強其AI推理領域的努力,客戶在選擇供應商時趨向於多樣化,以避免對單一供應商過度依賴。這表明,儘管英偉達在AI推理市場中佔據優勢,市場競爭仍然激烈。

最後做一下有關輝達的未來預測吧。

股價方麵,NVDA應該已經短期內會見頂,畢竟AI的發展現在已經到了一個關鍵節點,同時,大客戶的投資也到達了一個關鍵的高峰,基於競爭對手的能力加強和AI訓練用GPU的市場會逐漸飽和,NVDA的盈利能力應該在2025年到達頂峰,股價也會在2025年有回落。

市場競爭能力方麵,除了傳統上的芯片巨頭,包括AMD,INTEL等等,還有互聯網的巨頭,包括GOOGLE,META,AMAZON等等,還有OPENAI這種後起之秀。但是從輝達自己的報告來看,NVDA是把華為作為一個全麵的競爭對手的,這個觀察非常到位。

AI and Semiconductors: Nvidia vs Huawei the new Chip Battle - YouTube

Nvidia英偉達(NVDA)周三(2月22日)提交給美國證券交易委員會(SEC)的文件中,首次將華為列為包括人工智能(AI)芯片在內幾個項目的主要競爭對手。英偉達表示,公司在供應顯示適配器(GPU)、處理器(CPU)、網絡芯片等AI芯片方麵,與華為存在競爭性關係,英偉達將華為視為雲端服務公司,可自主設計軟件和硬件,以改善AI運算功能。

華為的升騰(Ascend)係列芯片是英偉達AI芯片的競爭對手,華為去年推出升騰910B芯片,被視為英偉達三年前推出的A100芯片的中國替代品。分析師預估,中國AI芯片市場總值70億美元。

除華為外,英偉達列出的其他競爭對手包括英特爾Intel(INTC)、AMD(AMD)、博通Broadcom(AVGO)、高通Qualcomm(QCOM)、亞馬遜(AMZN)、微軟(MSFT)、阿裏巴巴(BABA)、百度(BIDU)等。

總結一下吧,輝達(NVDA)就如同當年的INTEL在CPU的地位一樣,在AI時代無疑是一個不可替代的巨頭,但是它的領導地位會持續多久,尤其是它的優異的盈利能力是否能持續,都是一個問號,從最近公布的一些新聞來看,NVDA已經加大了在AI領域的布局,AI的高潮才是剛剛開始,未來還是可期,競爭不可避免地加劇,期待NVDA有更多地盈利增長點,成為AI開發的終極平台。

 




更多我的博客文章>>>

所有跟帖: 

多謝這麽具體的分享。希望 NVIDIA 在巔峰的時間比當年Intel 長。創新領域領導者的vision 很關鍵。 -慢悠日子- 給 慢悠日子 發送悄悄話 (69 bytes) () 03/05/2024 postreply 16:55:53

吃一塹,長一智 -慢悠日子- 給 慢悠日子 發送悄悄話 (325 bytes) () 03/05/2024 postreply 17:14:45

好文章。 -荷煦547- 給 荷煦547 發送悄悄話 (0 bytes) () 03/05/2024 postreply 17:31:15

抄襲的文章,東拚西湊,沒有自己的理解,好意思發出 -cnrhm2017- 給 cnrhm2017 發送悄悄話 cnrhm2017 的博客首頁 (0 bytes) () 03/05/2024 postreply 17:40:53

這個樓主一直這樣,無所不知無所不曉,不過都是熱點而且基本上是抄來的LOL -玻璃坊- 給 玻璃坊 發送悄悄話 玻璃坊 的博客首頁 (62 bytes) () 03/06/2024 postreply 07:32:03

人家願意分享一些知識, 有什麽不好 -jhw20008- 給 jhw20008 發送悄悄話 jhw20008 的博客首頁 (0 bytes) () 03/06/2024 postreply 15:09:48

NVDA能到今天前麵靠挖礦,現在靠AI -小丹尼NA- 給 小丹尼NA 發送悄悄話 (0 bytes) () 03/06/2024 postreply 21:11:52

請您先登陸,再發跟帖!