9.11和9.9哪個大?
這是一個曾讓不少大模型“翻車”的數學題。北京時間2月19日,在馬斯克發布自稱“
世界上最聰明的人工智能”Grok-3後,有用戶嚐試測試版本,發現該模型在不加任何定語及標注的情況下,無法正確回答刁難AI大模型的經典問題。
第一財經向Grok-3提問後,AI回答稱“9.11比9.9大”,直接“翻車”。不過,也有獲得測試資格的用戶表示,Grok-3的性能很好,肯定處於行業第一梯隊。
昨日,xAI的Grok-3正式發布,馬斯克稱之為“世界上最聰明的人工智能。”Grok-3誕生於超大型AI智算中心之上,該AI智算中心起初配有10萬塊英偉達高端顯卡,後續擴容至20萬塊。此前DeepSeek-V3模型官方宣布僅用2000餘塊英偉達顯卡,以及600萬美元預算。
同一天,DeepSeek官方在海外社交平台X上發布了一篇純技術論文報告,主要內容關於NSA (Natively Sparse
Attention,原生稀疏注意力),進一步展示了DeepSeek團隊在軟硬件優化,降本增效方麵的追求。
xAI團隊在直播中表示:“為了研發下一代更高性能的AI,我們正在研究下一個AI智算中心,這將比目前的強大約5倍。”不僅僅是xAI,近期穀歌、微軟、Meta、亞馬遜四家國外大廠極大提高了2025年資本開支,總計達到數千億美元,並稱大部分資本開支將用於AI智算中心建設。另外,今年初公布的星際之門計劃投資5000億美元用於AI智算中心建設。
達觀數據聯合創始人張健對記者說:“Grok-3依然遵循大力出奇跡的縮放定律,通過堆疊大量算力和增大模型規模,追求極致性能提升。這種方式短期內可能在特定評測指標上取得領先,但性價比相對較低,更像是在探索模型性能的上限。”
但也有從業者表示“大力出奇跡”的思路還有較長的路要走,並認為成立時間不久的xAI,能夠在短時間內實現一流的性能水平,說明卷算力,卷投資仍有價值。
韋豪創芯合夥人王智此前向記者表示,AI向未來演進,更多新架構和算法,長期而言,足夠算力的支持必不可少。
不過越來越多人開始質疑這種“大力出奇跡”的方向。有評論稱單看基準測試,雖然Grok-3各項數據領先,但是提升幅度並不大,尤其考慮到xAI已經花費巨額資金用來訓練Grok-3。
“馬斯克的AI智算集群方案非常激進,不僅要求大規模的資金投入,而且要求快速部署快速上馬。”Omdia分析師王珅告訴記者。
張健認為,不管是DeepSeek還是Grok3,兩種方向並非完全對立,而是各有側重,可能長期並存,並在技術發展中逐漸融合。“Grok
3 代表著對性能極限的探索,Deepseek
則代表著對實用性和效率的追求。兩者共同推動AI技術進步,最終目標都是構建更強大、更智能、更實用的AI係統。”張健表示。
王珅認為,這兩種方向的側重可能有著先後順序。“我們團隊判斷,在2026年至2027年間,AI智算中心的堆算力高峰會過去,然後是各種硬件和模型的深度優化打磨。中國由於硬件限製,會更早強調優化。”
上海市人工智能行業協會秘書長鍾俊浩告訴記者:“兩種方向都重要,但有著優先級的差異,對性能極限探索是基礎,而追求實用性和效率的方向要站在前者基礎之上。”