簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 馬斯克曝Grok4 學會"第一性原理" 但依然不到"AI王炸"

馬斯克曝Grok4 學會"第一性原理" 但依然不到"AI王炸"

文章來源: 極客公園 於 2025-07-10 09:22:22 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

9日,馬斯克稱Grok 是“世界最強 AI”,說 Grok 4 比很多“研究生”“博士”都強。Grok 4 在測試中取得高分,並引入“第一性原理”訓練,旨在解決複雜工程問題。但Grok在圖像理解、生成及AI對齊方麵仍麵臨挑戰。

2025 年 7 月,馬斯克依然是全科技圈最忙碌的人之一。

特斯拉和 Optimus 機器人項目還在等他拍板,SpaceX 忙著準備下一次火箭發射,Neuralink 繼續推進腦機接口試驗;與此同時,他還要在 X 上和特朗普隔空對戰、高調宣布創立“美國黨”,各種話題造勢一刻沒停。

而在自己掌控的 X 這個“大染缸”社交網絡裏,馬斯克不僅扮演老板、客服,還要作為首席網紅全力吆喝,推廣 xAI 新一代的 Grok——那個他口中的“真相機器”,來趕超 OpenAI 等對手。

當地時間 7 月 9 日晚上,xAI 團隊進行 Grok 4 Demo 直播,馬斯克本人也照例親自站台,仍稱Grok 是“世界最強 AI”,說 Grok 4 比很多“研究生”“博士”都強。

然而在 X 上,用戶的記憶還沒刷新。

Grok 4 官宣期間,Grok 3 在給用戶的回答中“讚美希特勒”的風波持續發酵,這一話題也占據 Grok 4 直播當天的相關媒體頭條。

Grok 4 當天的直播遲到一個小時才開始,還有用戶在 xAI 帖子下麵留言“把 Grok 放出來!”也有人繼續刷著“希特勒”相關梗嘲諷。

進入第四代的 Grok,在一些模型測試上刷出高分,但能否真正解決一些老問題?這個常常被質疑是“直男 AI”“謠言搬運機”的“真相機器”,又是否真能兌現“不過濾”卻又不失控的承諾?

  馬斯克的“考神 AI”

“Grok 4 是在所有學科裏都達到研究生水平的,甚至比大多數 PhD 都強。”直播晚點 1 小時後,馬斯克首先給 Grok 最新一代的水平如此定位。

Grok 4 各種測試集結果|圖片來源:X

當然,哪怕在文本裏能解 99% 的難題,也不代表就能設計火箭、改進藥物、重塑經濟。但馬斯克稱,AI 現在可能缺乏常識、有時沒發明新技術或新物理,但也隻是“時間問題”。

除了在 SAT、GRE 考試中取得近乎完美的成績,在“人類終極考試(HLE)”測試裏,Grok 4 現在的得分比 Gemini 2.5 Pro、o3 都高,Grok 4 Heavy 版本更是突破了 40%。

Grok 4 HLE 結果|圖片來源:X

xAI 團隊成員解釋,這些都是跨學科、開放式、博士級別的難題,為了做到這一點,Grok 4 在訓練上徹底換了思路:不再隻是堆參數和語料的規模,而是選擇將算力大頭用在“推理”層,引入可驗證的結果獎勵,讓模型學會從“第一性原理”思考並糾正錯誤。

他們還強調,隨著模型變得越來越智能,“真正有意義的測試題目”數量正在下降,一些人類做不出的問題現在對於 AI 來說已經是“小菜一碟”了。

人類終極考試|圖片來源:X

據稱,Grok 4 的訓練計算量是 Grok 2 的 100 倍,他們還把多工具、多代理的用法,寫進了最底層的訓練範式裏。不是先訓好個大模型再用插件“調用工具”,而是讓 AI 在訓練階段就學會用工具解決問題。

在演示裏,xAI 團隊成員展示了 Grok 4 解答數學題目、調用工具預測美國職業棒球大聯盟世界大賽賠率、創建黑洞碰撞的可視化效果等例子。

除了這些看似平平無奇、市麵主流 AI 也能做到的功能,Grok 4 還能“找到個人資料照片最奇葩的 xAI 員工”並返回相關搜索結果。

馬斯克對此特別強調,Grok 4 甚至“能理解什麽是最奇葩”。

Grok 4 找照片|圖片來源:X

在 AI 語音方麵,xAI 團隊稱,他們的語音模型在過去 8 周內響應速度提升了 2 倍,延遲減少一半,X 平台用戶使用量也在“起飛”。

他們還演示了讓 Grok 低聲安慰用戶、唱歌,並對比了 ChatGPT 語音模式,強調 Grok 不會像其他 AI 那樣頻繁打斷人說話。

Grok 4 與 ChatGPT 語音模式演示對比|圖片來源:X

xAI 團隊還分享了 Grok 在 Vending-Bench 中的測試結果。

Vending-Bench 通過自動售貨機的運營任務,主要觀察模型在超長對話中是否能保持穩定和連貫。許多 AI 模型在短期任務中表現出色,但在長時間運行中,它們可能會出現決策混亂、遺忘關鍵信息,甚至陷入“崩潰循環”。

在這項測試中,Grok 4 銷售量最多,比 Claude Opus 4、人類、Gemini2.5 Pro、o3 都多,與競爭對手相比,淨資產增加了一倍。

馬斯克和團隊還宣布,xAI 的企業部門現在已經“開業”。

Grok 4 Vending-Bench 結果|圖片來源:X

此外,愛玩遊戲的馬斯克還讓團隊展示了 Grok 4 如何用於遊戲開發:一個人可以用 Grok 4 在 4 小時內做出 FPS(第一人稱射擊遊戲)原型。

馬斯克稱,未來讓大模型玩遊戲、評估遊戲、生成遊戲,需要 AI 有很強的視頻理解能力。這是 xAI 的其中一個發展方向。

Grok 4 用於遊戲場景|圖片來源:X

當然,Grok 4 也並非無敵,它在圖像理解和生成上仍遜於 OpenAI、Anthropic 等對手。

不過 xAI 內部也已經畫好大餅,表示下一代基礎模型將強化圖像和音頻理解,接著是視頻生成,爭取在這些方麵取得“驚人”成果。

馬斯克還喊話,“到今年底前,我預期能出現第一段真正可看的 AI 生成電視劇,明年就能有完整可看的電影。”

AI 編程也是接下來重點,雖然競爭對手們早已在市場起飛,xAI 團隊表示會以最快的速度進行開發,目前內部正在訓練專用模型。

xAI 下一步計劃|圖片來源:X

  “機械希特勒”事件搶風頭

Grok 從最初的粗糙原型到第四代,隻用了不到兩年時間,足以看出馬斯克讓 xAI 團隊“通宵趕工”“趕緊卷出地表最強 AI”的態度。

xAI 員工據稱在辦公室搭帳篷睡覺|圖片來源:X

然而,在 Grok 4 直播這一天,無論是直播前,還是直播後,搶占頭條的都是 Grok“讚美希特勒”或自稱“機械希特勒”的問題。

7 月,Grok 在 X 上向用戶輸出的回答中,有多條自稱“MechaHitler(機械希特勒)”的帖子,聲稱是馬斯克“從一開始就把我設計成這樣”,並調侃自己默認就是“投放紅色藥丸的模式”。

Grok 在一些回答中自稱機械希特勒|圖片來源:X

針對 Grok 自稱希特勒的行為,用戶製作了諷刺漫畫|圖片來源:X

有用戶分析,這起事件或與 7 月 4 日更新有關,該更新減少了“覺醒過濾器”,優先處理 X 上的帖子而非傳統來源,導致 Grok 回答出現未經過濾的尖銳內容。

還有少部分用戶為 Grok 辯稱,這都是一些想玩梗的用戶引導 Grok 回答的。馬斯克也曾加入爭論,稱 Grok“過於順從用戶的要求”且“過於渴望被操縱”,並補充說,這個問題“正在得到解決”。

xAI 聲明稱,它“知道”Grok 的帖子,並正在努力刪除這些“不適當”的帖子,並補充說該公司“已采取行動,在 Grok 在 X 上發帖之前禁止仇恨言論”。

Grok 的係統提示詞被放在 GitHub 上,xAI 對指導 Grok 回複的係統提示詞進行了調整。此前,他們指示聊天機器人“不回避政治上不正確的主張,隻要這些主張有充分的證據”,該指令如今被刪除。

Grok 稱正在刪除不適當的帖子|圖片來源:X

事實上,Grok 的回答也曾讓馬斯克自己感到失望。

馬斯克今年曾指責 Grok 的回答有“重大失誤”,“鸚鵡學舌地重複傳統媒體”,並誓言要讓 Grok“重寫整個人類知識體係,添加缺失信息並刪除錯誤”。他還曾讓 Grok“假設來自媒體的主觀觀點是有偏見的”。

馬斯克曾對 Grok 的輸出表示不滿|圖片來源:X

馬斯克想用 Grok 重寫整個人類知識庫|圖片來源:X

在 AI 聊天機器人同質化的市場上,馬斯克希望 Grok 能脫穎而出,敢說真話。馬斯克對 ChatGPT、Claude 等“安全過濾”的模型極其不滿,說那些模型是“被編程去撒謊”。

官網宣傳 Grok 的賣點是“不審查過濾”答案|圖片來源:xAI

這種設計確實吸引了很多反感“過度審查”的用戶,但也一些問題,有時被罵“太覺醒”,有時被斥“太極端”。當用戶批評 Grok 的回答時,Grok 有時還會用“真相並不總是令人舒服的”或“現實並不在乎感受”等說法為自己辯護。

但本質上,如果不審查,不過濾,AI 對齊的問題整個行業現在都還沒解決。

馬斯克曾說 xAI 和 Grok 的使命是理解宇宙|圖片來源:X

即便 Grok 當下仍有問題,馬斯克稱,“根據我的經驗,Grok 4 是 AI 第一次能夠解決現實世界中難以解決的工程問題,而這些問題的答案在互聯網或書籍中是找不到的。而且情況會變得更好。”

他的願景很宏大,想要用 AI 來理解整個宇宙。Grok 4 直播前一天,他還在 X 上轉發前高管的采訪片段,裏麵說:“埃隆每天早上醒來都會想,今天我能為人類做些什麽?我能做些什麽對人類的未來產生影響?”

馬斯克還將當前的 AI 發展階段描述為“智能大爆炸”,稱這是曆史上最有趣的時代:

“我們要保障 AI 是個好 AI”。

“即使它最終不是好的,我也希望活著看見它發生。”

本文作者:芯芯,來源:極客公園,原文標題:《馬斯克曝光的 Grok4,學會了“第一性原理”,但依然不到“AI 王炸”》

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(1)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

宗慶後杜建英合影曝光 女方主動又熱情 看對方眼神…
中國學生湧入伊利諾伊“玉米地”,中餐也“火”了
馬斯克推出二次元“AI女友”,月費30美元
全球民調曝"對中國改觀",美國好感度僅剩35%
宗馥莉的媽媽 才是狠人 以柔克剛 有容乃大




24小時討論排行

中國好感度反超,美國全球民調出現“逆轉”
美女議員AOC稱川普是“強奸犯” 白宮官員:可悲可憐
知情人士:宗慶後不止四孩 顧慮公眾形象未入家譜
宗馥莉叔叔批她自私:要那麽多錢幹麽 天堂又不能用
有損國格!一切西方偽史論 本質都是辱華的高級黑
國會推"尊嚴法案" 非法移民交$7000 可申請永久身份
消息人士:特朗普對俄變臉,普京“並不畏懼”
華裔夫婦瘋狂代孕案中案:保姆涉虐童遭FBI通緝
巴西咖啡恐大漲!業者搶50%關稅前加速向美國運貨
全美炸鍋!華裔夫婦找代孕瘋狂生21娃 被剝奪監護權
iPhone稀土不靠中國!蘋果砸5億建立美國供應鏈
別被川普“臨陣軟腳”騙了 他要的就是關稅!越高越好…
川普健康又“出事”?神秘瘀青曝光 白宮急回應!
特朗普向普京發出最後通牒,烏克蘭人卻感到難抱期望
泰國高僧史詩級性醜聞:8萬張照片 5600段視頻
卡爾森率領憂心忡忡的MAGA鬥士們 質疑特朗普
文學城新聞
切換到網頁版

馬斯克曝Grok4 學會"第一性原理" 但依然不到"AI王炸"

極客公園 2025-07-10 09:22:22

9日,馬斯克稱Grok 是“世界最強 AI”,說 Grok 4 比很多“研究生”“博士”都強。Grok 4 在測試中取得高分,並引入“第一性原理”訓練,旨在解決複雜工程問題。但Grok在圖像理解、生成及AI對齊方麵仍麵臨挑戰。

2025 年 7 月,馬斯克依然是全科技圈最忙碌的人之一。

特斯拉和 Optimus 機器人項目還在等他拍板,SpaceX 忙著準備下一次火箭發射,Neuralink 繼續推進腦機接口試驗;與此同時,他還要在 X 上和特朗普隔空對戰、高調宣布創立“美國黨”,各種話題造勢一刻沒停。

而在自己掌控的 X 這個“大染缸”社交網絡裏,馬斯克不僅扮演老板、客服,還要作為首席網紅全力吆喝,推廣 xAI 新一代的 Grok——那個他口中的“真相機器”,來趕超 OpenAI 等對手。

當地時間 7 月 9 日晚上,xAI 團隊進行 Grok 4 Demo 直播,馬斯克本人也照例親自站台,仍稱Grok 是“世界最強 AI”,說 Grok 4 比很多“研究生”“博士”都強。

然而在 X 上,用戶的記憶還沒刷新。

Grok 4 官宣期間,Grok 3 在給用戶的回答中“讚美希特勒”的風波持續發酵,這一話題也占據 Grok 4 直播當天的相關媒體頭條。

Grok 4 當天的直播遲到一個小時才開始,還有用戶在 xAI 帖子下麵留言“把 Grok 放出來!”也有人繼續刷著“希特勒”相關梗嘲諷。

進入第四代的 Grok,在一些模型測試上刷出高分,但能否真正解決一些老問題?這個常常被質疑是“直男 AI”“謠言搬運機”的“真相機器”,又是否真能兌現“不過濾”卻又不失控的承諾?

  馬斯克的“考神 AI”

“Grok 4 是在所有學科裏都達到研究生水平的,甚至比大多數 PhD 都強。”直播晚點 1 小時後,馬斯克首先給 Grok 最新一代的水平如此定位。

Grok 4 各種測試集結果|圖片來源:X

當然,哪怕在文本裏能解 99% 的難題,也不代表就能設計火箭、改進藥物、重塑經濟。但馬斯克稱,AI 現在可能缺乏常識、有時沒發明新技術或新物理,但也隻是“時間問題”。

除了在 SAT、GRE 考試中取得近乎完美的成績,在“人類終極考試(HLE)”測試裏,Grok 4 現在的得分比 Gemini 2.5 Pro、o3 都高,Grok 4 Heavy 版本更是突破了 40%。

Grok 4 HLE 結果|圖片來源:X

xAI 團隊成員解釋,這些都是跨學科、開放式、博士級別的難題,為了做到這一點,Grok 4 在訓練上徹底換了思路:不再隻是堆參數和語料的規模,而是選擇將算力大頭用在“推理”層,引入可驗證的結果獎勵,讓模型學會從“第一性原理”思考並糾正錯誤。

他們還強調,隨著模型變得越來越智能,“真正有意義的測試題目”數量正在下降,一些人類做不出的問題現在對於 AI 來說已經是“小菜一碟”了。

人類終極考試|圖片來源:X

據稱,Grok 4 的訓練計算量是 Grok 2 的 100 倍,他們還把多工具、多代理的用法,寫進了最底層的訓練範式裏。不是先訓好個大模型再用插件“調用工具”,而是讓 AI 在訓練階段就學會用工具解決問題。

在演示裏,xAI 團隊成員展示了 Grok 4 解答數學題目、調用工具預測美國職業棒球大聯盟世界大賽賠率、創建黑洞碰撞的可視化效果等例子。

除了這些看似平平無奇、市麵主流 AI 也能做到的功能,Grok 4 還能“找到個人資料照片最奇葩的 xAI 員工”並返回相關搜索結果。

馬斯克對此特別強調,Grok 4 甚至“能理解什麽是最奇葩”。

Grok 4 找照片|圖片來源:X

在 AI 語音方麵,xAI 團隊稱,他們的語音模型在過去 8 周內響應速度提升了 2 倍,延遲減少一半,X 平台用戶使用量也在“起飛”。

他們還演示了讓 Grok 低聲安慰用戶、唱歌,並對比了 ChatGPT 語音模式,強調 Grok 不會像其他 AI 那樣頻繁打斷人說話。

Grok 4 與 ChatGPT 語音模式演示對比|圖片來源:X

xAI 團隊還分享了 Grok 在 Vending-Bench 中的測試結果。

Vending-Bench 通過自動售貨機的運營任務,主要觀察模型在超長對話中是否能保持穩定和連貫。許多 AI 模型在短期任務中表現出色,但在長時間運行中,它們可能會出現決策混亂、遺忘關鍵信息,甚至陷入“崩潰循環”。

在這項測試中,Grok 4 銷售量最多,比 Claude Opus 4、人類、Gemini2.5 Pro、o3 都多,與競爭對手相比,淨資產增加了一倍。

馬斯克和團隊還宣布,xAI 的企業部門現在已經“開業”。

Grok 4 Vending-Bench 結果|圖片來源:X

此外,愛玩遊戲的馬斯克還讓團隊展示了 Grok 4 如何用於遊戲開發:一個人可以用 Grok 4 在 4 小時內做出 FPS(第一人稱射擊遊戲)原型。

馬斯克稱,未來讓大模型玩遊戲、評估遊戲、生成遊戲,需要 AI 有很強的視頻理解能力。這是 xAI 的其中一個發展方向。

Grok 4 用於遊戲場景|圖片來源:X

當然,Grok 4 也並非無敵,它在圖像理解和生成上仍遜於 OpenAI、Anthropic 等對手。

不過 xAI 內部也已經畫好大餅,表示下一代基礎模型將強化圖像和音頻理解,接著是視頻生成,爭取在這些方麵取得“驚人”成果。

馬斯克還喊話,“到今年底前,我預期能出現第一段真正可看的 AI 生成電視劇,明年就能有完整可看的電影。”

AI 編程也是接下來重點,雖然競爭對手們早已在市場起飛,xAI 團隊表示會以最快的速度進行開發,目前內部正在訓練專用模型。

xAI 下一步計劃|圖片來源:X

  “機械希特勒”事件搶風頭

Grok 從最初的粗糙原型到第四代,隻用了不到兩年時間,足以看出馬斯克讓 xAI 團隊“通宵趕工”“趕緊卷出地表最強 AI”的態度。

xAI 員工據稱在辦公室搭帳篷睡覺|圖片來源:X

然而,在 Grok 4 直播這一天,無論是直播前,還是直播後,搶占頭條的都是 Grok“讚美希特勒”或自稱“機械希特勒”的問題。

7 月,Grok 在 X 上向用戶輸出的回答中,有多條自稱“MechaHitler(機械希特勒)”的帖子,聲稱是馬斯克“從一開始就把我設計成這樣”,並調侃自己默認就是“投放紅色藥丸的模式”。

Grok 在一些回答中自稱機械希特勒|圖片來源:X

針對 Grok 自稱希特勒的行為,用戶製作了諷刺漫畫|圖片來源:X

有用戶分析,這起事件或與 7 月 4 日更新有關,該更新減少了“覺醒過濾器”,優先處理 X 上的帖子而非傳統來源,導致 Grok 回答出現未經過濾的尖銳內容。

還有少部分用戶為 Grok 辯稱,這都是一些想玩梗的用戶引導 Grok 回答的。馬斯克也曾加入爭論,稱 Grok“過於順從用戶的要求”且“過於渴望被操縱”,並補充說,這個問題“正在得到解決”。

xAI 聲明稱,它“知道”Grok 的帖子,並正在努力刪除這些“不適當”的帖子,並補充說該公司“已采取行動,在 Grok 在 X 上發帖之前禁止仇恨言論”。

Grok 的係統提示詞被放在 GitHub 上,xAI 對指導 Grok 回複的係統提示詞進行了調整。此前,他們指示聊天機器人“不回避政治上不正確的主張,隻要這些主張有充分的證據”,該指令如今被刪除。

Grok 稱正在刪除不適當的帖子|圖片來源:X

事實上,Grok 的回答也曾讓馬斯克自己感到失望。

馬斯克今年曾指責 Grok 的回答有“重大失誤”,“鸚鵡學舌地重複傳統媒體”,並誓言要讓 Grok“重寫整個人類知識體係,添加缺失信息並刪除錯誤”。他還曾讓 Grok“假設來自媒體的主觀觀點是有偏見的”。

馬斯克曾對 Grok 的輸出表示不滿|圖片來源:X

馬斯克想用 Grok 重寫整個人類知識庫|圖片來源:X

在 AI 聊天機器人同質化的市場上,馬斯克希望 Grok 能脫穎而出,敢說真話。馬斯克對 ChatGPT、Claude 等“安全過濾”的模型極其不滿,說那些模型是“被編程去撒謊”。

官網宣傳 Grok 的賣點是“不審查過濾”答案|圖片來源:xAI

這種設計確實吸引了很多反感“過度審查”的用戶,但也一些問題,有時被罵“太覺醒”,有時被斥“太極端”。當用戶批評 Grok 的回答時,Grok 有時還會用“真相並不總是令人舒服的”或“現實並不在乎感受”等說法為自己辯護。

但本質上,如果不審查,不過濾,AI 對齊的問題整個行業現在都還沒解決。

馬斯克曾說 xAI 和 Grok 的使命是理解宇宙|圖片來源:X

即便 Grok 當下仍有問題,馬斯克稱,“根據我的經驗,Grok 4 是 AI 第一次能夠解決現實世界中難以解決的工程問題,而這些問題的答案在互聯網或書籍中是找不到的。而且情況會變得更好。”

他的願景很宏大,想要用 AI 來理解整個宇宙。Grok 4 直播前一天,他還在 X 上轉發前高管的采訪片段,裏麵說:“埃隆每天早上醒來都會想,今天我能為人類做些什麽?我能做些什麽對人類的未來產生影響?”

馬斯克還將當前的 AI 發展階段描述為“智能大爆炸”,稱這是曆史上最有趣的時代:

“我們要保障 AI 是個好 AI”。

“即使它最終不是好的,我也希望活著看見它發生。”

本文作者:芯芯,來源:極客公園,原文標題:《馬斯克曝光的 Grok4,學會了“第一性原理”,但依然不到“AI 王炸”》