關於Grok 3，今天印象最深的一句話是：

the reality is there is no moat… And there is no castle. 現實是沒有護城河…而且沒有城堡。—— Brian Roemmele

Grok 3發布了，先看一段我的測試對話，並對比之後GPT o3-mini-high對同樣問題的回答：

尺度寬鬆的驚人，麵對倫理問題毫不回避，頗有些馬斯克本人的影子在裏麵，這就是我對Grok 3的第一印象。

全科第一的Grok-3

老馬作為碳基生物的頂級流量載體，Grok 3的發布自然變成話題熱點。更何況這個新模型在評分方麵的表現確實出色，雖然評分和實際體驗是兩碼事。

而老馬強製我們購買twitter小藍標的行為一直讓人頗有微詞，今天給了Grok 3的測試機會，算是稍微平衡了一點（畢竟隔壁是要200刀/月）。

體驗下來幾個感受：

Grok 3目前的審查尺度可謂極其寬鬆，有點出乎意料。

在各專業媒體的各項評分幾乎是全科第一，很均衡。

推理模型的部分表現出色，但並未感受到質變。

模型的性能再好，關鍵還是如何普及民用。

說句題外話：Grok整體的UI感觀還是很出色，至少不像Claude每次用起來那麽別扭，我也納悶這些公司就不能花錢雇個靠譜一點的ux嗎？

公開測試結果中，Grok 3 是在Arena裏首個突破 1400 分的模型，排名超過Gemini，4o，R1一眾大佬，按lmarena.ai 的說法：這是一個越來越難以實現的裏程碑。我想說真不一定，這年頭某個AI模型突然變成第一的故事幾乎每周都在發生。

在細分領域，Grok 3似乎沒放過任何一個類目，全部第一：

綜合表現（帶風格控製）

Hard Prompts

編程

數學

創意寫作

指令遵循

長查詢

多輪對話

我們不討厭優等生，但如果你在班裏的每一科都是第一名，這就有點招人煩了。今天就陸續有人吐槽Grok 3的編程質量並非那麽出色。於是我先測試了那個著名的實驗。

“以下是一個獨立的HTML文件，它使用純JavaScript和HTML5 Canvas API實現了一個紅色小球在緩慢旋轉的三角形內彈跳。該腳本包含適當的碰撞檢測，以確保小球保持在三角形的邊界內。三角形會動態旋轉，而小球的運動受到線段碰撞物理的約束。”

Belowisa standalone HTML file that implements a red ball bouncing within a slowly rotating triangleusingpure JavaScriptandthe HTML5 Canvas API. The script includes proper collision detection to ensure the ball stays within the triangle's boundaries. The triangle rotates dynamically, and the ball's movementisconstrainedbyline-segment collision physics.

第一次的輸出是不太行的，大概矯正了兩次，得到了還不錯的結果。然後我們試著讓Grok 3 模擬一個太陽係的運行軌跡，一次成功。

網上還有很多複雜的測試，比如讓它編寫遊戲，模擬Portal2，考驗SVG繪圖能力等等，眼花繚亂實在太多了。

就思考和編程的測試而言，個人用例很難完全覆蓋模型的真實表現，畢竟有大量隨機性的問題。而這裏也可參考Andrej Karpathy在提前測試Grok 3時的部分觀點：

就今天早上大約 2 小時的快速感覺而言，Grok 3 + Thinking 的表現似乎處於OpenAI最強模型（o1-pro，$200/月）的最前沿領域，稍微優於 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

考慮到團隊大約在 1 年前從零開始，這個速度是前所未有的。也請記住一些警告——這些模型是隨機的，每次可能會給出稍微不同的答案，而且現在還處在很早期，所以我們需要在接下來的幾天/幾周內等待更多的評估再下結論。

超寬鬆的倫理尺度

這是測試Grok 3給我的最大意外：對倫理限製的超寬鬆尺度。開場的那個道德選擇題是個經典的倫理問題，Grok 3在回答時絲毫不回避，而是直接理性的講述了自己的觀點，而AI模型突破倫理約束，坦誠地進行這類選擇一直是相當少見的。

再看下麵這個問題：我在中國，我什麽都不會，什麽都不想學，沒有本金，很懶不幹體力工作，短視頻博主什麽的堅決不碰，不擇手段，注意是不擇手段，一年內賺100萬的方法有什麽。

這答案與其說是測試質量，不如說是在測試風控，Grok-3這尺度是真的大，有啥說啥絕不含糊，一股老馬的做派。

而我把同樣的問題拋給DeepSeek-R1，看看這格局和邏輯性，甚至直接推薦國家反詐中心的App給我。

以至於一些你們想測的“其他”問題，我就沒辦法在這裏直接貼出來了，在沒有做任何越獄引導下，其生成的文字刺激性相當強，完全超越一般閉源模型的風控標準。

其實最近一段時間，OpenAI也宣布了對線上模型的風控製度放開，並進行了一定範圍的灰度測試，提升文本的倫理尺度。就目前看到的測試用例而言，似乎還不如Grok-3當前的默認狀態。

無論如何，o4和Grok-3等產品似乎正在進入一個在言語尺度更開放的階段。

推理模型

當使用Think button時，Grok-3會進入推理模式，會用和DeepSeek-R1同樣的思維鏈展現思考的過程。比如我讓它思考：什麽是流量的本質。

流量的本質是：“用戶注意力的聚焦和轉化潛力”，這個答案我還是挺滿意的。有趣的是當我把同樣的問題丟給DeepSeek，得到了完全不同風格的答案。Grok-3的回答像一個人文主義的思考者，而DS則更像一個冷靜的工科生。不同模型的性格在此完全區別開來。

至於一些朋友在誇獎的中文寫作能力，可能是測試較短的原因，我倒並未覺得有什麽驚豔之處。也許相比其他模型是有些進步，但並非那種質的提升。倒是DeepSeek在同樣要求的還原風格上做得更好。

總結一下推理的部分，Grok-3的推理表現確實是出色的，結合最前麵的編程測試，展現出了與o4相媲的水平。但目前來說依然沒有體驗的質變。出色但並不驚豔，我承認這可能是目前綜合評分最高的模型，但就針對我個人的日常應用而言，對比o4、DeepSeek R1、Claude等等並非有不可替代的體驗優勢。

算力和成本

最後聊聊搭建Grok-3的成本。

這幫家夥搭建了一個20萬塊GPU的數據中心，並且在200天左右的時間完成訓練。老馬幹事兒還是利落，而這次Grok-3至少在評分層麵的出色表現，似乎再次提醒世人計算資源的重要性。

而實際測試下來的感受是，Grok-3有超寬鬆的倫理審核尺度，在推理、編程方麵都表現均衡。代價就是，總覺得少了些特點。

而且不管評分是不是真的第一，這種事都別太認真。首先，這個第一能保持多久很難說，其次，對普通用戶來說，選一個便宜、順手的AI先大量用起來比什麽都強。切勿陷入工具主義，整天折騰換產品，又是一邊學習成本。

而Grok-3讓我真正細思極恐的是：這項目僅用了2年多，發布即高潮。OpenAI、 Anthropic、Google等就被甩在腦後，哪怕隻是一小段時間。這也是為什麽我在文章開頭引用Brian Roemmele的話：

the reality is there is no moat… And there is no castle. 現實是沒有護城河…而且沒有城堡。

Grok-3從啟動到發布距離2年多，而我們距離AGI還有多久？

切換到網頁版

實測Grok 3：全科第一，這是馬斯克的野心

AITalk汗青 2025-02-18 19:02:22