一文讀懂英偉達發布會:黃仁勳曬“AI核彈”

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
(被閱讀 次)

牢牢掌握算力分配權的英偉達是人工智能領域當仁不讓的“炸子雞”。

通過為包括OpenAI、Meta等人工智能企業提供包括H200、H100、A100等不同規格的GPU,英偉達一躍成為全球市值增速最快的企業之一,也因此被外界稱之為人工智能時代的“賣水人”。以至於黃仁勳和他的財務團隊,會在財報中,通過直觀的圖表來說明英偉達對於業績的自信。

在向SEC提交的文件中,英偉達表示,2019年1月27日投資100美元(我們)的股票,2024年1月28日價值達到1536.28美元。而對應投資100美元標準普爾500指數和納斯達克100指數基金,價值均在200美元以下。

今年的GTC2024上,黃仁勳的AI“核武庫”正式上新,B200將成為科技巨頭們追逐的“算力明星”——它不僅會成為新的AI算力底座,也將成為英偉達市值繼續攀升的業績底座。

作為NVIDIABlackwell架構首款新產品,B200采用雙芯片設計,晶體管數量達到2080億個,基於Blackwell架構的B200,英偉達還提供了包括GB200、DGXGB200NVL72,以及基於GB200和B200打造的DGXSuperPOD超算平台。

軟件服務方麵,英偉達發布了集成AI開發軟件微服務係統NIM,通過直接提供多行業、多模態的專有模型,以及基於NeMoRetriver的專有數據注入係統,企業可借由NIM快捷部署公司級專有模型。

除了通過軟硬件賦能AI技術之外,英偉達也推出了加速AI仿生機器人落地的解決方案——GR00T機器人項目——世界首款人形機器人模型,支持通過語言、視頻和人類演示,為機器人的生成行動指令。

以下為核心要點:

●B200芯片:采用雙芯片設計,晶體管數量達到2080億個。單GPUAI性能達20PFLOPS(即每秒2萬萬億次)。內存192GB,基於第五代NVLink,帶寬達到1.8TB/s。

●DGXGB200NVL72:內置36顆GRACECPU和72顆Blackwell架構GPU,AI訓練性能可達720PFLOPs(即每秒72萬萬億次),推理性能為1440PFLOPs(每秒144萬萬億次)。

●基於GB200的DGXSuperPOD超算:搭載8顆DGXGB200,即288顆GraceCPU和576顆B200GPU,內存達到240TB,FP4精度計算性能達到11.5EFLOPs(每秒11.5百億億次)

●ProjectGR00T:人型機器人項目——包含了人型機器人基礎模型,ISAACLab開發工具庫和JetsonThorSoC片上係統開發硬件,帶寬達到100GB/s,AI計算性能達到800TFLOPs。

●NIM軟件:針對AI推理係統的新軟件,開發人員可以在其中直接選擇模型來構建利用自己數據的人工智能應用程序。

01算力核彈B200

英偉達最近幾代架構,在名稱上都有致敬科學家的慣例。

上一代產品Hopper架構則是致敬格蕾絲·霍珀,這一代架構Blackwel則是致敬的是統計學家兼數學家大衛·布萊克韋威爾。

黃仁勳展示Blackwell和Hopper架構GPU對比,左邊為Blackwell架構的B200芯片

在新一代的GPU正式亮相之前,關於架構、雙芯片設計等已經有不少傳聞,關注點在於,黃仁勳會把手中的“AI核彈”性能提升到多少?

現在,官方的答案給出來了——基於Blackwell架構的B200采用雙芯片設計,基於台積電4nm工藝,晶體管數量達到2080億個,上一代Hopper架構的H100同樣是4nm工藝,但由於沒有上雙芯片設計,晶體管數量隻有800億。

B200搭配8顆HBM3e內存(比Hopper架構的H200多了2顆),內存達到192GB,基於第五代NVLink,帶寬達到1.8TB/s,相比Hopper架構和Ampere架構,有了巨幅提升,最大可支持10萬億參數的模型的訓練。

作為對比,OpenAI的GPT-3由1750億個參數組成,GPT-4參數為1.8萬億。

B200官方圖

黃仁勳還介紹稱,B200平台可以向下兼容,支持與上一代Hopper架構的H100/H200HGX係統硬件適配。

此前,被稱之為OpenAI勁敵的InflectionAI,官宣建立了一套22000顆英偉達H100GPU的世界最大人工智能數據中心集群,接下來要看看OpenAI,能不能借助B200反超了。

這裏再插一句英偉達的NVLink和NVLinkSwitch技術。

其中NVLink是英偉達開發的CPU和GPU之間高速互聯通道,在內存牆無法突破的情況下,最大化提升CPU和GPU之間通信的效率,於2016年在基於Pascal架構的GP100芯片和P100運算卡上率先采用,當時的帶寬為160GB/s,到H100采用的第四代NVLink,其帶寬已經達到900GB/s,而B200采用的第五代NVLink帶寬已經突破1.8TB/s。

NVLinkSwitch支持與多個NVLink連接,實現NVLink在單節點、節點之間互聯,進而創建更高帶寬的GPU集群,基於最新的NVLinkSwitch芯片(台積電4nm工藝,500億個晶體管),可實現576顆GPU組成計算集群,上一代產品僅支持到256個GPU。

根據官方公布的數據,B200支持第二代Transformer引擎,Tensor核支持FP4、FP6精度計算,單顆B200GPU的AI性能達20PFLOPs(即每秒2億億次)。

DGX版GB200NVL72

另外,英偉達還在主題演講中展示了全新的加速計算平台DGXGB200NVL72,擁有9個機架,總共搭載18個GB200加速卡,即36顆GRACECPU和72顆Blackwell架構GPU(英偉達也提供了HGXB200版本,簡單來說就是用Intel的XeonCPU,替換了GraceCPU)。

黃仁勳說,一套DGX版GB200NVL72總共內置了5000條NVLink銅製線纜,總長度達到2公裏,可以減少20kW的計算能耗。

舉個例子,8000個GPU組成的GH100係統,90天內可以訓練一個1.8萬億參數的GPT-Moe模型,功耗15兆瓦,而使用一套2000顆GPU的GB200NVL72加速卡,隻需要4兆瓦。

據介紹,DGX版GB200NVL72加速計算平台AI訓練性能(FP8精度計算)可達720PFLOPs(即每秒72億億次),FP4精度推理性能為1440PFLOPs(每秒144億億次)。官方稱GB200的推理性能在Hopper平台的基礎上提升6倍,尤其是采用相同數量的GPU,在萬億參數Moe模型上進行基準測試,GB200的性能是Hopper平台的30倍。

演講環節,黃仁勳還公布了搭載64個800Gb/s端口、且配備RoCE自適應路由的NVIDIAQuantum-X800InfiniBand交換機,以及搭載144個800Gb/s端口,網絡內計算性能達到14.4TFLOPs(每秒14.4萬億次)的Spectrum-X800交換機。兩者應對的客戶需求群體略有差異,如果追求超大規模、高性能可采用NVLink+InfiniBand網絡;如果是多租戶、工作負載多樣性,需融入生成式AI,則用高性能Spectrum-X以太網架構。

另外,英偉達還推出了基於GB200的DGXSuperPod一站式AI超算解決方案,采用高效液冷機架,搭載8套DGXGB200係統,即288顆GraceCPU和576顆B200GPU,內存達到240TB,FP4精度計算性能達到11.5ELOPs(每秒11.5百億億次),相比上一代產品的推理性能提升30倍,訓練性能提升4倍。

黃仁勳說,如果你想獲得更多的性能,也不是不可以——發揮鈔能力——在DGXSuperPod中整合更多的機架,搭載更多的DGXGB200加速卡。

02 NIM+NeMo:構建英偉達版企業用GPTs

英偉達的另一個殺手鐧就是它的軟件,它構成了這一萬億帝國至少半條護城河。

誕生於2006年的CUDA被認為是英偉達在GPU上建立霸權的關鍵功臣——它使得GPU從調用GPU計算和GPU硬件加速第一次成為可能,讓GPU擁有了解決複雜計算問題的能力。在它的加持下,GPU從圖形處理器這一單一功能發展成了通用的並行算力設備,也因此AI的開發才有可能。

但談論NVIDIA時,許多人都傾向於使用“CUDA”作為NVIDIA提供的所有軟件的簡寫。這是一種誤導,因為NVIDIA的軟件護城河不僅僅是CUDA開發層,還包含了其上的一係列連通軟硬件的軟件程序,比如英偉達開發的用於運行C++推理框架,去兼容Pytorch等模型訓練框架的TensorRT;使團隊能夠部署來自多個深度學習和機器學習框架的任何AI模型的TritonInferenceServer。

雖然有如此豐富的軟件生態,但對於缺乏AI基礎開發能力的傳統行業來講,這些分散的係統還是太難掌握。

看準了這個給傳統企業賦能的賽道,在今天的發布會上,英偉達推出了集成過去幾年所做的所有軟件於一起的新的容器型微服務:NVIDIANIM。它集成到了不給中間商活路的地步,可以讓傳統企業直接簡單部署完全利用自己數據的專屬行業模型。

這一軟件提供了一個從最淺層的應用軟件到最深層的硬件編程體係CUDA的直接通路。構成GenAI應用程序的各種組件(模型、RAG、數據等)都可以完成直達NVIDIAGPU的全鏈路優化。

它讓缺乏AI開發經驗的傳統行業可以通過在NVIDIA的安裝基礎上運行的經過打包和優化的預訓練模型,一步到位部署AI應用,直接享受到英偉達GPU帶來的最優部署時效,繞過AI開發公司或者模型公司部署調優的成本。Nvidia企業計算副總裁ManuvirDas表示,不久前,需要數據科學家來構建和部署這些類型的GenAI應用程序。但有了NIM,任何開發人員現在都可以構建聊天機器人之類的東西並將其部署給客戶。

整合在Kubernets上的一攬子軟件係統

這一切都建立在Kubernetes這一容器化應用程序之上。NVIDIA通過Kubernetes創建了一個單一的架構,可以運行所有這些軟件。Nim作為預構建的容器(containers),開發人員可以在其中直接選擇模型來構建利用自己數據的人工智能應用程序。在容器中配備了適用於語言和藥物發現等人工智能領域的行業標準應用程序編程接口以適應各類專有模型。

英偉達在博客文章中表示:“NIM針對每個模型和硬件設置利用優化的推理引擎,在加速基礎設施上提供最佳的延遲和吞吐量。”“除了支持優化的社區模型之外,開發人員還可以通過使用永遠不會離開數據中心邊界的專有數據源來調整和微調模型,從而獲得更高的準確性和性能。”

在模型支持方麵,NIM微服務的可選項也很多。它支持Nvidia自己的模型合作庫,來自AI21Labs,Cohere等合作夥伴的模型,以及來自Meta、HuggingFace、StabilityAI和Google的開源模型。同時客戶可以通過NvidiaAIEnterprise平台以及MicrosoftAzureAI、GoogleCloudVertexAI、GoogleKubernetesEngine和AmazonSageMaker訪問NIM微服務,並與包括LangChain、LlamaIndex和Deepset在內的AI框架集成。這基本上就等於對所有市麵上主流模型都完成了覆蓋。

在Nim的搭建過程中,利用NvidiaNeMoRetriever技術,公司的專有數據都可以被集成到這個微服務裏以供使用。最終用戶會得到一個個NVIDIANeMo,這就是針對每個公司的專有Copilit。這個專有的NeMo會用對話機器人的形式幫助你檢索公司數據,如PPT,提供相關領域的技術支持。

NvidiaNeMoRetriever與微服務的結合

在發布會上,黃仁勳就展示了基於英偉達數據(Event)和芯片行業信息形成的NvidiaChipNeMo,它構建在開源的Llama2模型之上。利用英偉達的專有數據,它可以回答隻有英偉達公司內部使用的CTL實驗細節問題。

這些NeMo還可以跨公司共用,也就是這套係統可以被視為工業大模型的GPTStore,行業公司可以使用其他公司或英偉達提供的行業基礎NeMo添加自己的數據即可獲得專有大模型。為此,英偉達還特意上線了ai.nvidia.com去承載這些NeMO。

這一微服務使得傳統企業AI轉型變得極為易得,不論是構築專有模型,還是直接通過模型連接企業私有數據都變得快速方便。黃仁勳表示“成熟的企業平台坐擁數據金礦,他們掌握了大量可以轉化為副駕駛的數據,當你準備好運行這些人工智能聊天機器人時,你將需要一個人工智能鑄造廠”。NIM正是這樣一個鑄造廠。它幫助構建企業AI轉型的Copilot級產品,可以被視為公司AI化所需的基石。

NeMo微服務的整體架構

這一產品將首先在即將發布的NVIDIAAI企業版第五版中搭載。對於NVIDIAAI企業版的現有客戶來說這隻是一個軟件升級。這項新功能不會額外收費。當然企業版價格本身並不低,單GPU的企業版使用權限包年就需要4500美金,小時租金為1美金每小時。

目前英偉達全公司已經都用上了Nim,包括Box、Cloudera、Cohesity、Datastax、Dropbox等合作夥伴也都已經參與Nim的使用和優化過程。

03ProjectGR00T機器人

英偉達的上一個萬億市值來自GPU與算力,下一個萬億市值增幅空間可能體現在對機器人開發的賦能上。

年初,英偉達資深科學家JimFan就宣布建立GEAR工作室,相關研究成果以及研究基礎環境成為了英偉達新機器人解決方案的基礎。

據了解,英偉達目前正在構建包括NVIDIAIAI、Omniverse、ISAAC三大平台,三大平台均與機器人產業高度關聯。其中NVIDIAIAI搭載DGX係列產品,用於模擬物理世界,Omnivese搭載RTX和OVX係列產品,用於驅動數字孿生的計算係統,ISAAC搭載AGX係列,用於驅動人工智能機器人。

黃仁勳在現場介紹基於英偉達解決方案開發的人形機器人產品

本次GTC大會上,英偉達還推出了ProjectGR00T人型機器人項目——人型機器人基礎模型。

英偉達表示,基於GR00T人型機器人基礎模型,可以實現通過語言、視頻和人類演示,來理解自然語言,模仿人類動作,進而快速學習協調性、靈活性以及其他的技能,進而能夠融入現實世界並與人類進行互動。

除了基礎模型,該項目還包括基於NVIDIAThorSoC係統的開發套件JetsonThor,內置了下一代BlackwellGPU(此前英偉達也推出個針對汽車的DRIVEThor套件),帶寬達到100GB/s,AI計算性能達到800TFLOPs。

為了給ProjectGR00T項目提供軟件支持,基於英偉達Omniverse構建的ISAACLab也進行了同步更新,允許開發者利用該平台模擬機器人學習技能、與物理世界模擬互動,支持數千個機器人同步訓練與模擬。

與此同時,ISAACLab還整合了用於輔助提升機械臂的靈敏度與精確度的加速庫平台ISAACMANIPULATOR,以及用於提升服務機器人感知能力的ISAACPERCEPTOR軟件庫。

現場演示基於Isaac Lab開發庫實現的人機交互

按照慣例,英偉達也不免俗的用了客戶的例子為自家解決方案背書——比亞迪倉庫機器人。

黃仁勳表示,英偉達過去和比亞迪基於Omniverse構建汽車和工廠數字孿生上有了良好的合作,當然也還包括汽車自動駕駛業務方麵的合作,現在則開始基於英偉達的ISSAC,展開倉庫自動機器人研發方麵的合作。

在英偉達的願景當中,未來Omniverse將成為機器人係統的誕生地和AI的虛擬訓練場,你可以將其理解為“機器人產房”、“AI駕校”。

04氣象觀測、計算光刻與6G

Omniverse的模擬不僅僅體現在機器人、數字孿生領域,在一些新技術的研發上,比如代表未來通信的6G技術研發也將派上用場。

根據官方公布的信息,英偉達將推出6G研究雲平台,其中包括為開發人員提供神經無線電仿真框架能力的NVIDIAAerial,以及提供模擬城市規模網絡的Omniverse數字孿生係統,以及提供加速的無線接入網絡堆棧,從係統層麵為開發者模擬一個具有城市規模的6G網絡係統。

基於英偉達6G雲平台,開發者可以模擬城市大規模無線網絡環境

除了6G研究,英偉達希望將Omniverse帶到氣候和天氣預測方麵。

官方表示,極端事件每年為全球帶來了1400億美元的經濟損失,而目前高性價比的氣候模擬高度不能滿足需求,雖然千米級的模擬可以幫助人類模擬預測氣候和天氣,但這個計算量相比高空模擬要超出100萬倍,進而成本高昂。

為此,英偉達公布了地球氣候數字孿生套件NVIDIAEarth2,它具有可交互的特點,支持通過高分辨率模擬來加速氣候、天氣預測。作為一個支持千米級天氣預測的AI擴散模型,Earth2在天氣預報的計算預測上效率提升達到1000倍,而能效則提升了2000倍。

GTC2023大會上,英偉達推出計算光刻CuLitho軟件庫,按照當初的設想,單就晶圓廠部分的提效即可以實現,每天利用1/9的電力,生產3-5倍的光掩膜,今年的大會上,黃仁勳也補充了計算光刻CuLitho的進展。

官方表示,過去12個月內與TSMC和Synopsys緊密合作,已經將CuLitho集成這些客戶的工作流當中,包括芯片的設計工具和生產製造。