簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 一家芯片初創公司,單挑Nvidia和Intel

一家芯片初創公司,單挑Nvidia和Intel

文章來源: 半導體行業觀察 於 2025-10-22 20:57:34 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

在2024 年 10 月推出隱身模式的時候,以色列芯片初創公司NextSilicon 表示,其即將推出的Maverick-2 是世界上第一款智能計算加速器 (ICA:Intelligent Compute Accelerator),旨在滿足高性能計算人工智能 (HPC-AI) 應用的需求,是一種“新穎且原創的計算架構”,可在降低功耗和成本的同時提高性能。

剛剛。經過八年時間、3.03 億美元的種子資金和三輪風險投資的NextSilicon 終於推出了其 64 位數據流引擎的多個版本。與此同時,該公司還將推出一款名為 Arbel 的自主研發 RISC-V 處理器,該芯片或將與 Maverick-2 搭配使用,打造諸如英偉達“Superchip”類型的產品。

一家芯片初創公司,單挑Nvidia和Intel

從左到右:NextSilicon Arbel RISC-V CPU、Maverick-1 DFP、Maverick-2 DFP 和用於 OAM 插座的雙芯片 Maverick-2。

NextSilicon 成立於 2017 年,遠早於 GenAI 熱潮興起之時,但當時人們已經意識到 HPC 和 AI 計算引擎架構即將分道揚鑣——而且不利於專注於 64 位和 32 位浮點計算的 HPC 仿真和建模領域。即使沒有像 Cerebras Systems、Graphcore、Groq、Habana Labs、Nervana Systems、SambaNova Systems 等公司那樣直接進軍 AI 市場的初步計劃,NextSilicon 也已在三輪融資中籌集了 2.026 億美元,其中 C 輪融資於 2021 年 6 月完成,融資金額為 1.2 億美元。

當時,NextSilicon 的估值約為 15 億美元,這筆資金和原型設計工作的完成意味著美國能源部可以了解 NextSilicon 的動向。彼時,桑迪亞國家實驗室還和 NextSilicon 合作設計和測試了 Maverick-1 數據流引擎,目前桑迪亞正在構建一款名為“Spectra”的新型架構超級計算機,這是其 Vanguard-II 計劃的一部分。據推測,這台超級計算機將使用今天發布的 Maverick-2 數據流引擎構建。

一條全新的道路

在英偉達已經牢牢把持市場的當下,為什麽需要構建一個新的芯片?“這主要是因為沒有專門用於高性能計算的加速器,”NextSilicon 創始人兼首席執行官 Elad Raz在去年接受媒體采訪的時候如此說。他指出,我們有數百家公司在為人工智能和機器學習做加速,大多數大型供應商都在轉向人工智能機器學習。你可以看到大型超級計算機對他們意味著什麽——他們隻需構建一個新的 GPU 集群,成本是原來的兩倍,功耗是原來的兩倍,但得到的卻是相同的 FP64 浮點運算能力。而NextSilicon 是一家以高性能計算 (HPC) 為先的公司。”

他們打算走上的是一條全新的道路。

眾所周知,盡管 GPU 和 CPU 助力了高性能計算 (HPC) 和人工智能 (AI) 領域的重大科學和社會突破,但它們正麵臨著收益遞減的未來。NextSilicon 的創始人沒有繼續走老路,沒有投入巨資打造規模越來越大的人工智能工廠,配備越來越強大的 GPU(以及更先進的電源和冷卻係統),而是決定嚐試一條不同的道路。

Elad Raz 指出,盡管擁有 80 年曆史的馮·諾依曼架構為我們提供了通用可編程的計算基礎,但它也帶來了巨大的開銷。他表示,98% 的芯片用於控製開銷任務,例如分支預測、亂序邏輯和指令處理,而隻有 2% 的芯片用於執行應用程序核心的實際計算。



於是,Raz 和他的團隊構想了一種名為“智能計算架構”(ICA)的新架構,該架構使芯片能夠自我重構,以適應不斷變化的工作負載,從而將開銷降至最低,並最大限度地提升計算能力,用於處理高要求的 AI 和 HPC 應用背後的數學運算。這便是 NextSilicon 專利“可重構硬件的運行時優化”的基礎,也是其 Maverick-2 處理器中使用的非馮·諾依曼數據流架構的指導原則。

“NextSilicon 的宗旨是使用軟件來加速你的應用程序,”Raz 解釋道。“其核心是一種複雜的軟件算法,它能夠理解代碼中的重要內容並對其進行加速。相比之下,大多數 CPU 和 GPU 都是某種形式的處理器核心組。它們接收指令,並試圖構建複雜的流水線和矢量指令集,並采用亂序執行來減少延遲。我們認為這是錯誤的方法。更好的方法是應用帕累托原則,看看哪些 20% 的代碼占用了 80% 的運行時間。為什麽我們不對計算和內存應用 80/20 規則呢?為什麽我們不能自動識別重要的計算內核並嚐試隻關注它們呢?”

Raz 隨後描述了其中的秘訣:“應用程序開始在主機上運行,然後我們會自動識別代碼中計算密集型的部分。我們保留計算圖的中間表示。我們不會將計算圖轉換為指令。你需要將其視為硬件的即時編譯器。我們保留程序的計算圖,並將其放置在數據流硬件上。我們從硬件獲取遙測數據,並以遞歸方式進行,因此我們始終在程序運行時優化計算和內存。”



“先進的軟件分析器就像一個精準定位係統,持續監控您的應用程序。它會精準定位出那些占用性能的關鍵代碼片段,然後以納秒級的粒度重新配置硬件本身,構建針對該特定代碼優化的自定義數據流水線。這種非對稱執行模型能夠將卓越的效率精準地引導到能夠發揮最大效能的地方,同時讓您的大部分代碼保持正常運行。”Raz總結說。

Raz同時指出,英偉達的CUDA生態,也在將大家綁死在其GPU上,喪失了主動性和議價權。為此,NextSilicon 製定了不是迭代的願景,而是推動一場革命。公司不會墨守成規,而是構建一個全新的遊戲規則,其中計算基礎設施:

1、運行一切,毫不妥協:您現有的 CPU 代碼、複雜的 GPU 內核、要求苛刻的 HPC 任務以及尖端的 AI/ML 模型——無需修改代碼即可運行它們。

2、提供極致速度:體驗高達 10 倍的加速,功耗僅為原來的四分之一。如何實現?通過實時動態優化芯片,優化應用程序最熱門、資源最密集的代碼路徑。

3、消除供應商鎖定:告別專有領域特定語言 (DSL)。告別繁瑣的移植流程。告別框架維護的噩夢。您的代碼,您的語言,加速開發。

4、讓您的創新永不過時: ICA 能夠隨著工作負載的演變而不斷調整。您再也不會遇到“重寫瓶頸”。



總結而言,NextSilicon 的數據流架構建立在圖形結構之上。數據流處理器並非像馮·諾依曼那樣逐條處理指令,而是由一係列計算單元(稱為 ALU)組成,這些單元以圖形結構互連。每個 ALU 處理特定類型的函數,例如乘法或邏輯運算。當輸入數據到達時,計算會自動觸發,結果將流向圖形中的下一個單元。與串行數據處理相比,這種新方法具有很大的優勢,因為芯片不再需要處理數據提取、解碼或調度,這些是消耗計算周期的開銷任務。

在預告Maverick-2 一年之後,NextSilicon終於帶來了這顆革命性芯片的詳細細節披露。

一顆與眾不同的芯片

如下圖所示,Maverick-2 芯片有四個計算區域,32 個 RISC-V E 核位於芯片左右兩側的外緣。據統計,計算塊網格由七列組成,每列八個計算塊,芯片上總共有 224 個計算塊。每個計算塊有數百個 ALU,因此可以輕鬆獲得數萬到近十萬個 ALU。對於這顆采用台積電 5 納米工藝製造,擁有540 億個晶體管的 Maverick-2 芯片來說,這樣的數據似乎並不合理。

但如果我們按照 NextSilicon 的圖表所示做一個 14 x 14 的網格,那麽每個計算塊有 196 個 ALU;我們不知道一個計算塊中有多少個浮點單元。每個 ALU 都有一個 FPU 是有道理的。



作為對比,英偉達的“Ampere” A100 GPU 采用台積電 7 納米工藝製造,擁有 542 億個晶體管和 6912 個 FP32 CUDA 核心;而“Hopper” H100 和 H200 GPU 采用 4 納米工藝製造,擁有 800 億個晶體管和 18432 個 FP32 核心。Blackwell B200 插槽有兩個芯片組,每個芯片組包含 1040 億個晶體管,但每個芯片組僅包含 16896 個 CUDA 核心,采用 4 納米工藝製造。我們推測,ALU 比 CUDA 核心更小,並且 Maverick-2 芯片上的 ALU 數量比英偉達 GPU 上的 CUDA 核心數量更多。

歸根結底,ALU 數量不如一組 mill 核心所能支持的線程數量重要。NextSilicon 聯合創始人兼架構副總裁、前 Mellanox(現為 Nvidia 網絡部門)軟件總監 Ilan Tayari 表示,典型的 CPU 有兩個線程,GPU 有 32 到 64 個線程,但一個 mill 核心可以同時支持數百個線程。當然,mill 核心的大小和形狀會有所不同,但每個計算塊可能有數十個 mill 核心,每個 Maverick-2 有 224 個計算塊,因此可以輕鬆支持數千個線程,所有線程都以 1.5 GHz 的頻率運行——大約相當於一個慢速 CPU 或一個普通 GPU 的速度——並且所有線程都連接到 HBM3E 顯存以獲得快速帶寬。



如上圖右側所示,這個主邏輯單元連接到一條內存總線,該總線上有一個保留站,用於在 ALU 調用數據之前臨時存儲數據。(NextSilicon 已獲得這種保留站、調度器和數據流計算塊組合的專利。)與常規 CPU 一樣,Maverick ICA 也使用內存管理單元和表後備緩衝區,但這些單元的使用頻率很低,並且僅在 ALU 調用特定數據時才會使用。它不進行推測或預測,隻進行數據提取。

Tayari 自豪地說:“NextSilicon 的數據流架構使我們能夠顯著降低與傳統 CPU 和 GPU 相比的開銷。我們調整了矽片的分配比例。我們將大部分資源用於實際計算,而不是控製開銷。我們獨特的方法消除了指令處理開銷。我們最大限度地減少了不必要的數據移動,從而使計算單元保持充分利用。我們並非試圖隱藏延遲,而是通過設計來容忍並最小化延遲。”

當應用程序為數據流引擎編譯時,它實際上被映射到數據流引擎上,形成一個稱為 mill core(看起來像一個圖)的東西。它看起來像程序在編譯之前的中間表示圖,並被放置在 ALU 上。NextSilicon 聯合創始人兼首席執行官 Elad Raz 表示,多個 mill core 可以像俄羅斯方塊一樣放置在同一個計算塊上,並且可以根據工作負載的需要,在幾納秒內加載和刪除 mill core。

據介紹,Maverick-2 提供單芯片和雙芯片兩種配置。單芯片 Maverick-2 擁有 32 個 RISC-V 核心,采用台積電 5nm 納米工藝製造,主頻為 1.5GHz。該卡支持 PCIe Gen5x16,配備 96GB HBM3E 內存,內存帶寬高達每秒 3.2TB。它擁有 128MB 的一級緩存,配備 100GbE 網卡,熱設計功耗 (TDP) 為 400W,並采用風冷散熱。雙芯片 Maverick-2 則有效地將所有這些功能翻倍,但它需要接入 OAM(OCP 加速器模塊)總線,配備兩個 100GbE 網卡,支持風冷或液冷散熱,熱設計功耗為 750W。



NextSilicon 還分享了 Maverick-2 的一些內部基準測試數據。就每秒千兆次更新 (GUPS) 而言,Maverick-2 能夠以 460 瓦的功耗提供 32.6 GUPS,據稱這比 CPU 快 22 倍,比 GPU 快近 6 倍。在 HPCG(高性能共軛梯度)類別中,Maverick-2 以 750 瓦的功耗實現了 600 GFLOPS 的計算能力,據稱這與領先的 GPU 相當,但功耗僅為後者的一半。



NextSilicon 研發副總裁 Eyal Nagar 表示:“我們今天詳細討論的不僅僅是芯片,而是一個基礎,一種思考計算的新方式。它為工程師和科學家打開了一個充滿可能性和優化的全新世界。”

一顆意外的RISC-V芯片

NextSilicon 在發布會上,還同時披露了一顆名為Arbel 的RISC-V CPU。該公司對 RISC-V CPU 設計其實並不陌生。如上麵提到的Maverick-2 就使用了一個定製的 RISC-V 內核來處理難以並行化的串行代碼。該芯片性能出色,因此該公司選擇采用獨立內核。



NextSilicon 表示,該核心顯然已經在台積電 5nm 工藝中實現,將支持高達 2.5 GHz 的時鍾速度,具有 10 寬的發射管道、480 條目的重新排序緩衝區,支持 16 條縮放器指令,並集成四個 128 位矢量單元用於單指令多數據 (SIMD) 工作負載。



具體而言,Arbel 核心在整數端擁有一個 10 位寬的發射解碼器和 6 個 ALU,在矢量端擁有 4 個 128 位 FPU。該核心可以並行支持 16 條標量指令。它擁有靠近 ALU 的 64 KB L1 指令緩存和 64 KB L1 數據緩存,以及靠近 FPU 的 1 MB L2 緩存。(這兩個緩存顯然都與所有計算單元交叉鏈接。)每個核心有 2 MB 的緩存,但同樣,我們不知道 Arbel 芯片上有多少個核心。

NextSilicon 表示 Arbel 核心可以與英特爾的“LionCove”Xeon 核心和 AMD 的“Zen5”Epyc 核心“相媲美”。



NextSilicon 強調,能實現這樣的突破,主要歸功於Arbel 通過四項關鍵架構創新:

1、大規模指令流水線具有 10 寬的發射寬度和 480 條目的重新排序緩衝區,使 Arbel 能夠一次發現更多問題並最大限度地提高核心利用率。

2、2.5 GHz 的核心頻率可提供高單線程性能,同時保持功率效率。

3、寬執行單元支持並行 16 條標量指令,加上四個集成的 128 位矢量單元,可在數據並行工作負載上實現卓越的性能。

4、先進的內存子係統具有 64KB L1 緩存和大型共享 L3,可保持數據接近且核心持續供電 - 解決限製現代應用程序的內存帶寬和延遲瓶頸。

5、Elite TAGE 分支預測器可確保更快、更準確的決策,減少錯誤預測和浪費的工作。

“這是基於台積電 5 納米工藝打造的真正矽片——這是我們自主研發的專利 IP,並非授權或借用。由 NextSilicon 工程師打造,旨在實現 NextSilicon 的未來願景。”他們強調。

那麽,這是否意味著NextSilicon 將會成為一家 CPU 公司?

該公司回應道:“不完全是,但我們正在探索一些更有趣的東西。”

NextSilicon表示,公司看到客戶對 Arbel 表現出濃厚的興趣,這讓其看到了 AMD 和 NVIDIA 所意識到的機遇:CPU 和加速器技術之間垂直整合的強大力量。當你同時掌控通用計算和專用加速時,你就能以依賴其他 CPU 架構時無法實現的方式優化整個堆棧。

這種做法類似於 Nvidia 在其 GH200 和 GB200 超級芯片中對 Grace CPU 所做的那樣。

“當你同時控製通用計算和專用加速時,你可以優化整個堆棧,而當你依賴其他人的 CPU 架構時,這是不可能的,”Raz 解釋道。

NextSilicon聲稱,對於正在應對現代人工智能和高性能計算 (HPC) 基礎設施複雜性的企業來說,計算難題已不再是不可避免的。Maverick-2 代表了最佳平衡:工作負載優化的性能與通用可編程性、ASIC 級效率(無需多年的開發周期)以及即時加速,無需數十年來困擾業界的供應商鎖定。

Maverick-2 的數據流架構已經徹底改變了計算領域,而 Arbel 也展現了我們從零開始設計世界一流芯片的能力,我們正在證明,計算的未來並不需要你做出妥協,而是需要從頭開始重新思考架構。

*免責聲明:本文由作者原創。文章內容係作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯係半導體行業觀察。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(2)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

他從未去過美國,但他成了“中國特朗普”
一家芯片初創公司,單挑Nvidia和Intel
金價驚魂一夜後:“囤金大爺大媽”擠爆金店
河南話魔性爆紅,河南人自己都沒想通
特朗普:計劃有變,取消會麵,準備製裁普京




24小時討論排行

對普丁好失望!川普止戰下一步,轉向習近平"聯中製俄"
僅兩個月新增一萬億 美國國債總額首次突破38萬億
中國國家安全部披露:吳石將軍在台灣就義後......
WSJ:特朗普赦免了被定罪的幣安創始人趙長鵬
廚師大賽沒結束 作品已被大媽們撲上搶光 參賽者傻眼
北京再次大抓捕地下教會,家屬求救,海外華人到中領館抗議
習近平頂住55%高關稅最狂籌碼:對美出口1天10億
加州州長硬剛白宮:敢派兵,一納秒內起訴!
特朗普:料下周能同中國達成多項協議,包括恢複采購大豆等
若開戰炸不炸中國港口?美軍官提“可修複式打擊”
“川習會”確定了!白宮公布正式時間、地點
ICE掃蕩紐約唐人街:拘4美國公民 民主黨議員怒斥
川普狠招?美擬禁軟件售中國 筆電、噴射引擎入列
經濟學人:為何說中國正在贏得這場貿易戰
美硬起來!2大手段反製俄 普京玩弄川普老招恐失效
“進口藥”活不下去了,這次卻沒人叫好了?
文學城新聞
切換到網頁版

一家芯片初創公司,單挑Nvidia和Intel

半導體行業觀察 2025-10-22 20:57:34

在2024 年 10 月推出隱身模式的時候,以色列芯片初創公司NextSilicon 表示,其即將推出的Maverick-2 是世界上第一款智能計算加速器 (ICA:Intelligent Compute Accelerator),旨在滿足高性能計算人工智能 (HPC-AI) 應用的需求,是一種“新穎且原創的計算架構”,可在降低功耗和成本的同時提高性能。

剛剛。經過八年時間、3.03 億美元的種子資金和三輪風險投資的NextSilicon 終於推出了其 64 位數據流引擎的多個版本。與此同時,該公司還將推出一款名為 Arbel 的自主研發 RISC-V 處理器,該芯片或將與 Maverick-2 搭配使用,打造諸如英偉達“Superchip”類型的產品。

一家芯片初創公司,單挑Nvidia和Intel

從左到右:NextSilicon Arbel RISC-V CPU、Maverick-1 DFP、Maverick-2 DFP 和用於 OAM 插座的雙芯片 Maverick-2。

NextSilicon 成立於 2017 年,遠早於 GenAI 熱潮興起之時,但當時人們已經意識到 HPC 和 AI 計算引擎架構即將分道揚鑣——而且不利於專注於 64 位和 32 位浮點計算的 HPC 仿真和建模領域。即使沒有像 Cerebras Systems、Graphcore、Groq、Habana Labs、Nervana Systems、SambaNova Systems 等公司那樣直接進軍 AI 市場的初步計劃,NextSilicon 也已在三輪融資中籌集了 2.026 億美元,其中 C 輪融資於 2021 年 6 月完成,融資金額為 1.2 億美元。

當時,NextSilicon 的估值約為 15 億美元,這筆資金和原型設計工作的完成意味著美國能源部可以了解 NextSilicon 的動向。彼時,桑迪亞國家實驗室還和 NextSilicon 合作設計和測試了 Maverick-1 數據流引擎,目前桑迪亞正在構建一款名為“Spectra”的新型架構超級計算機,這是其 Vanguard-II 計劃的一部分。據推測,這台超級計算機將使用今天發布的 Maverick-2 數據流引擎構建。

一條全新的道路

在英偉達已經牢牢把持市場的當下,為什麽需要構建一個新的芯片?“這主要是因為沒有專門用於高性能計算的加速器,”NextSilicon 創始人兼首席執行官 Elad Raz在去年接受媒體采訪的時候如此說。他指出,我們有數百家公司在為人工智能和機器學習做加速,大多數大型供應商都在轉向人工智能機器學習。你可以看到大型超級計算機對他們意味著什麽——他們隻需構建一個新的 GPU 集群,成本是原來的兩倍,功耗是原來的兩倍,但得到的卻是相同的 FP64 浮點運算能力。而NextSilicon 是一家以高性能計算 (HPC) 為先的公司。”

他們打算走上的是一條全新的道路。

眾所周知,盡管 GPU 和 CPU 助力了高性能計算 (HPC) 和人工智能 (AI) 領域的重大科學和社會突破,但它們正麵臨著收益遞減的未來。NextSilicon 的創始人沒有繼續走老路,沒有投入巨資打造規模越來越大的人工智能工廠,配備越來越強大的 GPU(以及更先進的電源和冷卻係統),而是決定嚐試一條不同的道路。

Elad Raz 指出,盡管擁有 80 年曆史的馮·諾依曼架構為我們提供了通用可編程的計算基礎,但它也帶來了巨大的開銷。他表示,98% 的芯片用於控製開銷任務,例如分支預測、亂序邏輯和指令處理,而隻有 2% 的芯片用於執行應用程序核心的實際計算。



於是,Raz 和他的團隊構想了一種名為“智能計算架構”(ICA)的新架構,該架構使芯片能夠自我重構,以適應不斷變化的工作負載,從而將開銷降至最低,並最大限度地提升計算能力,用於處理高要求的 AI 和 HPC 應用背後的數學運算。這便是 NextSilicon 專利“可重構硬件的運行時優化”的基礎,也是其 Maverick-2 處理器中使用的非馮·諾依曼數據流架構的指導原則。

“NextSilicon 的宗旨是使用軟件來加速你的應用程序,”Raz 解釋道。“其核心是一種複雜的軟件算法,它能夠理解代碼中的重要內容並對其進行加速。相比之下,大多數 CPU 和 GPU 都是某種形式的處理器核心組。它們接收指令,並試圖構建複雜的流水線和矢量指令集,並采用亂序執行來減少延遲。我們認為這是錯誤的方法。更好的方法是應用帕累托原則,看看哪些 20% 的代碼占用了 80% 的運行時間。為什麽我們不對計算和內存應用 80/20 規則呢?為什麽我們不能自動識別重要的計算內核並嚐試隻關注它們呢?”

Raz 隨後描述了其中的秘訣:“應用程序開始在主機上運行,然後我們會自動識別代碼中計算密集型的部分。我們保留計算圖的中間表示。我們不會將計算圖轉換為指令。你需要將其視為硬件的即時編譯器。我們保留程序的計算圖,並將其放置在數據流硬件上。我們從硬件獲取遙測數據,並以遞歸方式進行,因此我們始終在程序運行時優化計算和內存。”



“先進的軟件分析器就像一個精準定位係統,持續監控您的應用程序。它會精準定位出那些占用性能的關鍵代碼片段,然後以納秒級的粒度重新配置硬件本身,構建針對該特定代碼優化的自定義數據流水線。這種非對稱執行模型能夠將卓越的效率精準地引導到能夠發揮最大效能的地方,同時讓您的大部分代碼保持正常運行。”Raz總結說。

Raz同時指出,英偉達的CUDA生態,也在將大家綁死在其GPU上,喪失了主動性和議價權。為此,NextSilicon 製定了不是迭代的願景,而是推動一場革命。公司不會墨守成規,而是構建一個全新的遊戲規則,其中計算基礎設施:

1、運行一切,毫不妥協:您現有的 CPU 代碼、複雜的 GPU 內核、要求苛刻的 HPC 任務以及尖端的 AI/ML 模型——無需修改代碼即可運行它們。

2、提供極致速度:體驗高達 10 倍的加速,功耗僅為原來的四分之一。如何實現?通過實時動態優化芯片,優化應用程序最熱門、資源最密集的代碼路徑。

3、消除供應商鎖定:告別專有領域特定語言 (DSL)。告別繁瑣的移植流程。告別框架維護的噩夢。您的代碼,您的語言,加速開發。

4、讓您的創新永不過時: ICA 能夠隨著工作負載的演變而不斷調整。您再也不會遇到“重寫瓶頸”。



總結而言,NextSilicon 的數據流架構建立在圖形結構之上。數據流處理器並非像馮·諾依曼那樣逐條處理指令,而是由一係列計算單元(稱為 ALU)組成,這些單元以圖形結構互連。每個 ALU 處理特定類型的函數,例如乘法或邏輯運算。當輸入數據到達時,計算會自動觸發,結果將流向圖形中的下一個單元。與串行數據處理相比,這種新方法具有很大的優勢,因為芯片不再需要處理數據提取、解碼或調度,這些是消耗計算周期的開銷任務。

在預告Maverick-2 一年之後,NextSilicon終於帶來了這顆革命性芯片的詳細細節披露。

一顆與眾不同的芯片

如下圖所示,Maverick-2 芯片有四個計算區域,32 個 RISC-V E 核位於芯片左右兩側的外緣。據統計,計算塊網格由七列組成,每列八個計算塊,芯片上總共有 224 個計算塊。每個計算塊有數百個 ALU,因此可以輕鬆獲得數萬到近十萬個 ALU。對於這顆采用台積電 5 納米工藝製造,擁有540 億個晶體管的 Maverick-2 芯片來說,這樣的數據似乎並不合理。

但如果我們按照 NextSilicon 的圖表所示做一個 14 x 14 的網格,那麽每個計算塊有 196 個 ALU;我們不知道一個計算塊中有多少個浮點單元。每個 ALU 都有一個 FPU 是有道理的。



作為對比,英偉達的“Ampere” A100 GPU 采用台積電 7 納米工藝製造,擁有 542 億個晶體管和 6912 個 FP32 CUDA 核心;而“Hopper” H100 和 H200 GPU 采用 4 納米工藝製造,擁有 800 億個晶體管和 18432 個 FP32 核心。Blackwell B200 插槽有兩個芯片組,每個芯片組包含 1040 億個晶體管,但每個芯片組僅包含 16896 個 CUDA 核心,采用 4 納米工藝製造。我們推測,ALU 比 CUDA 核心更小,並且 Maverick-2 芯片上的 ALU 數量比英偉達 GPU 上的 CUDA 核心數量更多。

歸根結底,ALU 數量不如一組 mill 核心所能支持的線程數量重要。NextSilicon 聯合創始人兼架構副總裁、前 Mellanox(現為 Nvidia 網絡部門)軟件總監 Ilan Tayari 表示,典型的 CPU 有兩個線程,GPU 有 32 到 64 個線程,但一個 mill 核心可以同時支持數百個線程。當然,mill 核心的大小和形狀會有所不同,但每個計算塊可能有數十個 mill 核心,每個 Maverick-2 有 224 個計算塊,因此可以輕鬆支持數千個線程,所有線程都以 1.5 GHz 的頻率運行——大約相當於一個慢速 CPU 或一個普通 GPU 的速度——並且所有線程都連接到 HBM3E 顯存以獲得快速帶寬。



如上圖右側所示,這個主邏輯單元連接到一條內存總線,該總線上有一個保留站,用於在 ALU 調用數據之前臨時存儲數據。(NextSilicon 已獲得這種保留站、調度器和數據流計算塊組合的專利。)與常規 CPU 一樣,Maverick ICA 也使用內存管理單元和表後備緩衝區,但這些單元的使用頻率很低,並且僅在 ALU 調用特定數據時才會使用。它不進行推測或預測,隻進行數據提取。

Tayari 自豪地說:“NextSilicon 的數據流架構使我們能夠顯著降低與傳統 CPU 和 GPU 相比的開銷。我們調整了矽片的分配比例。我們將大部分資源用於實際計算,而不是控製開銷。我們獨特的方法消除了指令處理開銷。我們最大限度地減少了不必要的數據移動,從而使計算單元保持充分利用。我們並非試圖隱藏延遲,而是通過設計來容忍並最小化延遲。”

當應用程序為數據流引擎編譯時,它實際上被映射到數據流引擎上,形成一個稱為 mill core(看起來像一個圖)的東西。它看起來像程序在編譯之前的中間表示圖,並被放置在 ALU 上。NextSilicon 聯合創始人兼首席執行官 Elad Raz 表示,多個 mill core 可以像俄羅斯方塊一樣放置在同一個計算塊上,並且可以根據工作負載的需要,在幾納秒內加載和刪除 mill core。

據介紹,Maverick-2 提供單芯片和雙芯片兩種配置。單芯片 Maverick-2 擁有 32 個 RISC-V 核心,采用台積電 5nm 納米工藝製造,主頻為 1.5GHz。該卡支持 PCIe Gen5x16,配備 96GB HBM3E 內存,內存帶寬高達每秒 3.2TB。它擁有 128MB 的一級緩存,配備 100GbE 網卡,熱設計功耗 (TDP) 為 400W,並采用風冷散熱。雙芯片 Maverick-2 則有效地將所有這些功能翻倍,但它需要接入 OAM(OCP 加速器模塊)總線,配備兩個 100GbE 網卡,支持風冷或液冷散熱,熱設計功耗為 750W。



NextSilicon 還分享了 Maverick-2 的一些內部基準測試數據。就每秒千兆次更新 (GUPS) 而言,Maverick-2 能夠以 460 瓦的功耗提供 32.6 GUPS,據稱這比 CPU 快 22 倍,比 GPU 快近 6 倍。在 HPCG(高性能共軛梯度)類別中,Maverick-2 以 750 瓦的功耗實現了 600 GFLOPS 的計算能力,據稱這與領先的 GPU 相當,但功耗僅為後者的一半。



NextSilicon 研發副總裁 Eyal Nagar 表示:“我們今天詳細討論的不僅僅是芯片,而是一個基礎,一種思考計算的新方式。它為工程師和科學家打開了一個充滿可能性和優化的全新世界。”

一顆意外的RISC-V芯片

NextSilicon 在發布會上,還同時披露了一顆名為Arbel 的RISC-V CPU。該公司對 RISC-V CPU 設計其實並不陌生。如上麵提到的Maverick-2 就使用了一個定製的 RISC-V 內核來處理難以並行化的串行代碼。該芯片性能出色,因此該公司選擇采用獨立內核。



NextSilicon 表示,該核心顯然已經在台積電 5nm 工藝中實現,將支持高達 2.5 GHz 的時鍾速度,具有 10 寬的發射管道、480 條目的重新排序緩衝區,支持 16 條縮放器指令,並集成四個 128 位矢量單元用於單指令多數據 (SIMD) 工作負載。



具體而言,Arbel 核心在整數端擁有一個 10 位寬的發射解碼器和 6 個 ALU,在矢量端擁有 4 個 128 位 FPU。該核心可以並行支持 16 條標量指令。它擁有靠近 ALU 的 64 KB L1 指令緩存和 64 KB L1 數據緩存,以及靠近 FPU 的 1 MB L2 緩存。(這兩個緩存顯然都與所有計算單元交叉鏈接。)每個核心有 2 MB 的緩存,但同樣,我們不知道 Arbel 芯片上有多少個核心。

NextSilicon 表示 Arbel 核心可以與英特爾的“LionCove”Xeon 核心和 AMD 的“Zen5”Epyc 核心“相媲美”。



NextSilicon 強調,能實現這樣的突破,主要歸功於Arbel 通過四項關鍵架構創新:

1、大規模指令流水線具有 10 寬的發射寬度和 480 條目的重新排序緩衝區,使 Arbel 能夠一次發現更多問題並最大限度地提高核心利用率。

2、2.5 GHz 的核心頻率可提供高單線程性能,同時保持功率效率。

3、寬執行單元支持並行 16 條標量指令,加上四個集成的 128 位矢量單元,可在數據並行工作負載上實現卓越的性能。

4、先進的內存子係統具有 64KB L1 緩存和大型共享 L3,可保持數據接近且核心持續供電 - 解決限製現代應用程序的內存帶寬和延遲瓶頸。

5、Elite TAGE 分支預測器可確保更快、更準確的決策,減少錯誤預測和浪費的工作。

“這是基於台積電 5 納米工藝打造的真正矽片——這是我們自主研發的專利 IP,並非授權或借用。由 NextSilicon 工程師打造,旨在實現 NextSilicon 的未來願景。”他們強調。

那麽,這是否意味著NextSilicon 將會成為一家 CPU 公司?

該公司回應道:“不完全是,但我們正在探索一些更有趣的東西。”

NextSilicon表示,公司看到客戶對 Arbel 表現出濃厚的興趣,這讓其看到了 AMD 和 NVIDIA 所意識到的機遇:CPU 和加速器技術之間垂直整合的強大力量。當你同時掌控通用計算和專用加速時,你就能以依賴其他 CPU 架構時無法實現的方式優化整個堆棧。

這種做法類似於 Nvidia 在其 GH200 和 GB200 超級芯片中對 Grace CPU 所做的那樣。

“當你同時控製通用計算和專用加速時,你可以優化整個堆棧,而當你依賴其他人的 CPU 架構時,這是不可能的,”Raz 解釋道。

NextSilicon聲稱,對於正在應對現代人工智能和高性能計算 (HPC) 基礎設施複雜性的企業來說,計算難題已不再是不可避免的。Maverick-2 代表了最佳平衡:工作負載優化的性能與通用可編程性、ASIC 級效率(無需多年的開發周期)以及即時加速,無需數十年來困擾業界的供應商鎖定。

Maverick-2 的數據流架構已經徹底改變了計算領域,而 Arbel 也展現了我們從零開始設計世界一流芯片的能力,我們正在證明,計算的未來並不需要你做出妥協,而是需要從頭開始重新思考架構。

*免責聲明:本文由作者原創。文章內容係作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點讚同或支持,如果有任何異議,歡迎聯係半導體行業觀察。