9.11和9.9哪個大？

這是一個曾讓不少大模型“翻車”的數學題。北京時間2月19日，在馬斯克發布自稱“ 世界上最聰明的人工智能”Grok-3後，有用戶嚐試測試版本，發現該模型在不加任何定語及標注的情況下，無法正確回答刁難AI大模型的經典問題。

第一財經向Grok-3提問後，AI回答稱“9.11比9.9大”，直接“翻車”。不過，也有獲得測試資格的用戶表示，Grok-3的性能很好，肯定處於行業第一梯隊。

昨日，xAI的Grok-3正式發布，馬斯克稱之為“世界上最聰明的人工智能。”Grok-3誕生於超大型AI智算中心之上，該AI智算中心起初配有10萬塊英偉達高端顯卡，後續擴容至20萬塊。此前DeepSeek-V3模型官方宣布僅用2000餘塊英偉達顯卡，以及600萬美元預算。

同一天，DeepSeek官方在海外社交平台X上發布了一篇純技術論文報告，主要內容關於NSA （Natively Sparse Attention，原生稀疏注意力），進一步展示了DeepSeek團隊在軟硬件優化，降本增效方麵的追求。

xAI團隊在直播中表示：“為了研發下一代更高性能的AI，我們正在研究下一個AI智算中心，這將比目前的強大約5倍。”不僅僅是xAI，近期穀歌、微軟、Meta、亞馬遜四家國外大廠極大提高了2025年資本開支，總計達到數千億美元，並稱大部分資本開支將用於AI智算中心建設。另外，今年初公布的星際之門計劃投資5000億美元用於AI智算中心建設。

達觀數據聯合創始人張健對記者說：“Grok-3依然遵循大力出奇跡的縮放定律，通過堆疊大量算力和增大模型規模，追求極致性能提升。這種方式短期內可能在特定評測指標上取得領先，但性價比相對較低，更像是在探索模型性能的上限。”

但也有從業者表示“大力出奇跡”的思路還有較長的路要走，並認為成立時間不久的xAI，能夠在短時間內實現一流的性能水平，說明卷算力，卷投資仍有價值。

韋豪創芯合夥人王智此前向記者表示，AI向未來演進，更多新架構和算法，長期而言，足夠算力的支持必不可少。

不過越來越多人開始質疑這種“大力出奇跡”的方向。有評論稱單看基準測試，雖然Grok-3各項數據領先，但是提升幅度並不大，尤其考慮到xAI已經花費巨額資金用來訓練Grok-3。

“馬斯克的AI智算集群方案非常激進，不僅要求大規模的資金投入，而且要求快速部署快速上馬。”Omdia分析師王珅告訴記者。

張健認為，不管是DeepSeek還是Grok3，兩種方向並非完全對立，而是各有側重，可能長期並存，並在技術發展中逐漸融合。“Grok 3 代表著對性能極限的探索，Deepseek 則代表著對實用性和效率的追求。兩者共同推動AI技術進步，最終目標都是構建更強大、更智能、更實用的AI係統。”張健表示。

王珅認為，這兩種方向的側重可能有著先後順序。“我們團隊判斷，在2026年至2027年間，AI智算中心的堆算力高峰會過去，然後是各種硬件和模型的深度優化打磨。中國由於硬件限製，會更早強調優化。”

上海市人工智能行業協會秘書長鍾俊浩告訴記者：“兩種方向都重要，但有著優先級的差異，對性能極限探索是基礎，而追求實用性和效率的方向要站在前者基礎之上。”

切換到網頁版

9.9和9.11哪個大？馬斯克的Grok-3也翻車了

第一財經 2025-02-19 07:35:57