
消耗了DeepSeekV3 的 263 倍的算力的 Grok3,就這?
北京時間 2 月 18 日,馬斯克與 xAI 團隊,在直播中正式發布了 Grok 最新版本 Grok3。
早在本次發布會之前,依靠著種種相關信息的拋出,加上馬斯克本人 24/7 不間斷的預熱炒作,讓全球對 Grok3 的期待值被拉到了空前的程度。在一周前,馬斯克在直播中評論 DeepSeek R1 時,還信心滿滿地表示「xAI 即將推出更優秀的 AI 模型」。
從現場展示的數據來看,Grok3 在數學、科學與編程的基準測試上已經超越了目前所有的主流模型,馬斯克甚至宣稱 Grok 3 未來將用於 SpaceX 火星任務計算,並預測「三年內將實現諾貝爾獎級別突破」。
但這些目前都隻是馬斯克的一家之言。筆者在發布後,就測試了最新的 Beta 版 Grok3,並提出了那個經典的用來刁難大模型的問題:「9.11 與 9.9 哪個大?」
遺憾的是,在不加任何定語以及標注的情況下,號稱目前最聰明的 Grok3,仍然無法正確回答這個問題。

Grok3 並沒準確識別出這個問題的含義 | 圖片來源:極客公園
在這個測試發出之後,很短的時間內迅速引發了不少朋友的關注,無獨有偶,在海外也有很多類似問題的測試,例如「比薩斜塔上兩個球哪個先落下」這些基礎物理/數學問題,Grok3 也被發現仍然無法應對。因此被戲稱為「天才不願意回答簡單問題」。

Grok3 在實際測試中的許多常識問題上出現「翻車」| 圖片來源:X
除了網友自發測試的這些基礎知識上 Grok3 出現了翻車,在 xAI 發布會直播中,馬斯克演示使用 Grok3 來分析他號稱經常玩的 Path of Exile 2 (流放之路 2) 對應的職業與升華效果,但實際上 Grok3 給出的對應答案絕大部分都是錯誤的。直播中的馬斯克並沒有看出這個明顯的問題。

Grok3 在直播中也出現給出數據大量錯誤的情況| 圖片來源:X
因此這個失誤不僅成為了海外網友再次嘲諷馬斯克打遊戲「找代練」的實錘證據,同時也為 Grok3 在實際應用中的可靠性,再次打上了一個大大的問號。
對於這樣的「天才」,無論實際能力幾何,未來被用於火星探索任務這樣的極度複雜的應用場景,其可靠性都要打上一個大大的問號。
目前,眾多在幾周前獲得 Grok3 測試資格、以及昨天剛剛用上幾個小時的模型能力測試者,對於 Grok3 當前的表現,都指向了一個相同的結論:
「Grok3 是很好,但它並不比 R1 或 o1-Pro 更好」

「Grok3 是很好,但它並不比 R1 或 o1-Pro 更好」| 圖片來源:X
Grok3 在發布中官方的 PPT 中,在大模型競技場 Chatbot Arena 中實現「遙遙領先」,但這其實也應用了一些小小的作圖技巧:榜單的縱軸僅列出了 1400-1300 分段的排名,讓原本 1% 的測試結果差距,在這個 PPT 展示中都變得異常明顯。

官方發布 PPT 中的「遙遙領先」效果 | 圖片來源:X
而實際的模型跑分結果,Grok3 其實也隻比 DeepSeek R1 以及 GPT4.0 實現了不到 1-2% 的差距:這對應了不少用戶在實際測試中「並無明顯差別」的體感效果。

實際上的 Grok3,隻比後來者高了 1%-2%| 圖片來源:X
此外雖然在分數上,Grok3 超過了目前公開測試的所有模型,但這一點並不被很多人買賬:畢竟 xAI 在 Grok2 時代就有在這個榜單中「刷分」,隨著榜單對回答長度風格做降權處理而大幅降低分數的情況,因此經常被業內人士詬病「高分低能」。
無論是榜單「刷分」,還是配圖設計上的「小技巧」,都展示出的是 xAI 以及馬斯克本人對於模型能力「遙遙領先」這件事的執念。
而為了這些差距,馬斯克所付出的代價堪稱高昂:在發布會中,馬斯克用近乎炫耀的口吻表示,用了 20 萬張 H100(馬斯克直播中表示使用「超過 10 萬」張) 訓練 Grok3,總訓練小時數達到兩億小時。這讓一部分人覺得這是對 GPU 行業的又一個重大利好,並認為 DeepSeek 給行業帶來的震動是「愚蠢」的。

不少人認為堆砌算力將會是模型訓練的未來| 圖片來源:X
但實際上,有網友對比了使用 2000 張 H800 訓練兩個月得出的 DeepSeek V3,計算出 Grok3 其實際的訓練算力消耗是 V3 的 263 倍。而 DeeSeek V3 在大模型競技場榜單上與得分 1402 分的 Grok3 的差距,甚至還不到 100 分而已。
從這些數據出爐之後,就有不少人快速意識到,在 Grok3 登頂「世界最強」的背後,其實是模型越大,性能越強的邏輯,已經出現了明顯的邊際效應。
即使是「高分低能」的 Grok2,其背後也有著 X(Twitter)平台內海量的高質量第一方數據作為支撐來使用。而到了 Grok3 的訓練中,xAI 自然也會遇到OpenAI當前同樣遇到的「天花板」——優質訓練數據的不足,讓模型能力的邊際效應迅速曝光。
對於這些事實,最早意識到並且也是最深刻理解的人,肯定是 Grok3 的開發團隊與馬斯克,因此馬斯克也在社交媒體上不斷表示當前用戶體驗到的版本「還僅僅隻是測試版」「完整版將在未來幾個月推出」。馬斯克本人更是化身 Grok3 產品經理,建議用戶直接在評論區反饋使用時所遇到的各種問題。

他大概是地球上粉絲數量最多的產品經理| 圖片來源:X
但不到一天之內,Grok3 的表現,無疑給寄希望依靠「大力飛磚」訓練出能力更強的大模型的後來者敲響了警鍾:根據微軟公開的信息推測,OpenAI GPT4 參數體積為 1.8 萬億參數,相比 GPT3 已經提升了超過 10 倍,而傳聞中的 GPT4.5 的參數體積甚至還會更大。

模型參數體積飛漲的同時訓練成本也在飆升| 圖片來源:X
有 Grok3 在前,GPT4.5 以及更多想要繼續「燒錢」,以參數體積來獲得更好模型性能的選手,都不得不考慮到已經近在眼前的天花板,應該怎樣突破。
此時此刻,OpenAI 的前首席科學家 Ilya Sutskever 在去年 12 月曾表示「我們所熟悉的預訓練將會結束」,又被人重新記起來,並試圖從中找到大模型訓練的真正出路。

Ilya 的觀點,已經為行業敲響了警鍾| 圖片來源:X
彼時, Ilya 準確預見到了可用的新數據接近枯竭,模型難以再繼續通過獲取數據來提升性能的情況,並將這種情況形容為化石燃料的消耗,表示「正如石油是有限資源一樣,互聯網中由人類生成的內容也是有限的」。
在 Sutskever 預測中,預訓練模型之後的下一代模型將會有「真正的自主性」。同時將具備「類似人腦」的推理能力。
與如今預訓練模型主要依賴的內容匹配(基於模型此前學習的內容)不同,未來的 AI 係統將能夠以類似於人腦「思維」的方式,來逐步學習並建立起解決問題的方法論。
人類對某一個學科做到基本的精通,隻需要基本專業書籍即可實現,但 AI 大模型卻需要學習數以百萬計的數據才能實現最基礎的入門效果,甚至當你換了個問法之後,這些基礎的問題也無法正確理解,模型在真正的智能上並沒有得到提升:文章開頭提到的那些基礎但 Grok3 仍然無法正確回答的問題,就是這種現象的直觀體現。
但在「力大飛磚」之外,Grok3 如果真的能向行業揭示「預訓練模型即將走到盡頭」這個事實,那它對行業仍然稱得上有著重要的啟發意義。
或許,在 Grok3 的狂潮逐漸褪去之後,我們也能看到,更多類似李飛飛「在特定數據集的基礎上 50 美元微調出高性能模型」的案例出現。並在這些探索中,最終找到真正通向AGI的道路。