簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 馬斯克加入 “視覺模型”是下個“大語言模型”?

馬斯克加入 “視覺模型”是下個“大語言模型”?

文章來源: 硬AI 於 2025-10-12 13:20:27 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

AI競賽的下一個戰場已然清晰:從文本世界走向物理世界。在這場名為“世界模型”的競賽中,馬斯克旗下xAI已攜英偉達專家悄然入局,與穀歌、Meta等巨頭同台競技。xAI計劃率先將該技術應用於AI遊戲生成,並探索其在機器人係統的應用。穀歌推斷,未來的視頻模型將變得和語言模型一樣智能。

本文作者:龍玥

來源:硬AI

人工智能領域的戰火正在從大語言模型蔓延至一個更前沿的領域——能夠理解並模擬真實物理世界的“世界模型”(World Models)。而xAI已悄然加入這場競賽,與穀歌和Meta等科技巨頭同台競技。

據英國《金融時報》10月12日報道,馬斯克的初創公司xAI在今年夏天從芯片巨頭英偉達聘請了人工智能專家,專門從事世界模型的研發。與依賴文本的大語言模型不同,世界模型通過對海量的視頻和機器人數據進行訓練,旨在掌握真實世界的物理規律。

“未來的視頻模型將變得和語言模型一樣智能”,穀歌研究人員在論文中說道。英偉達上月也曾表示,世界模型的潛在市場規模可能接近當前全球經濟的總量。

  兵馬先行:xAI的遊戲“奇襲”與機器人野望

為了在這場競賽中占據一席之地,xAI正在積極招兵買馬。

公司已聘請了來自英偉達的兩位AI研究員Zeeshan Patel和Ethan He,他們在世界模型領域擁有豐富經驗。英偉達憑借其用於創建和運行模擬的Omniverse平台,一直是該技術的領導者。

知情人士透露,xAI為世界模型規劃的第一個商業化落點是遊戲領域,用於生成可交互的3D環境。這一動態迅速引發市場關注,因為它不僅是xAI商業化路徑的明確信號,也凸顯了世界模型作為下一代AI技術的巨大潛力。

馬斯克本人也在社交平台X上確認,xAI將在“明年年底前發布一款出色的AI生成遊戲”。長遠來看,這些技術最終可能應用於機器人的人工智能係統。

馬斯克加入 “視覺模型”是下個“大語言模型”?

xAI的招聘信息也印證了其發展方向。公司正在為其“omni團隊”招聘圖像和視頻生成領域的技術人員,薪資範圍高達18萬至44萬美元,該團隊致力於“創造超越文本的神奇AI體驗”。

此外,公司還在以時薪45至100美元招聘“視頻遊戲導師”,以訓練其AI模型Grok製作視頻遊戲。

  範式轉移:視覺模型的“GPT時刻”

xAI的高調入局,恰逢一個關鍵的行業預判浮出水麵:未來的視頻模型將變得和語言模型一樣智能。穀歌最近的一篇論文指出,其視頻模型Veo 3正展現出與大語言模型(LLM)相似的“湧現能力”。

正如LLM通過“下一詞元預測”的簡單任務,最終學會了數學和創意寫作等額外技能,視頻模型通過“下一幀預測”,也開始零樣本(zero-shot)地解鎖一係列令人驚訝的能力,例如物體分割、邊緣檢測和模擬工具使用等,而這些都未經專門訓練。



穀歌的研究人員Jack Clark在論文中寫道:“我們認為,正如自然語言處理(NLP)從特定任務模型轉向通用模型一樣,機器視覺領域也可能通過視頻模型發生同樣的轉變——一個‘視覺領域的GPT-3時刻’。”

他們將視頻逐幀生成的過程類比為語言模型中的“思維鏈”(chain-of-thought),並稱之為“幀鏈”(chain-of-frames),認為這使得視頻模型能夠跨越時空進行推理。

這一發現意義深遠,它暗示著通過發展更智能的視頻模型,人們或許能夠獲得能力極強的機器人“代理”(agent)。

  前景與現實:高昂的成本與“願景”的缺失

盡管前景誘人,但通往世界模型的道路並非坦途。目前,該技術仍麵臨巨大的技術挑戰,其中最主要的是為模擬真實世界尋找和處理足夠訓練數據的成本極其高昂。

與此同時,業界也存在對AI作用的冷靜審視。熱門遊戲《博德之門3》的開發商Larian Studios的發行主管Michael Douse本周在X上表示,AI無法解決遊戲行業的“大問題”,即“領導力和願景”。

他補充說,行業需要的不是“更多由數學方式生產、經過心理學訓練的遊戲循環”,而是對世界更多樣化的表達。這代表了一種普遍的觀點:純粹的技術突破本身,並不能保證創造出能夠真正打動人心的商業產品。

盡管挑戰重重,但xAI的入局無疑為世界模型的競賽再添一把火。

AI的焦點正不可逆轉地從純粹的數字信息處理,轉向對複雜物理現實的模擬與交互。視覺模型是否能複刻大語言模型的輝煌,迎來屬於自己的“GPT時刻”,不僅將決定下一代AI霸主的歸屬,更可能重塑我們與數字及物理世界的根本關係。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(0)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

杜魯道赤裸上身"擁吻凱蒂佩芮"!直擊照曝光
川普對中祭100%關稅!加密貨幣市場血洗
她的公義,是她的罪證
“價格屠夫”比亞迪,降價也賣不動了?
哈瑪斯警告:隨時準備好"重新開戰",拒絕離開加薩




24小時討論排行

中美貿易戰再度升溫,北京自認處強勢地位態度強硬
川普繼續追殺政敵 美媒:司法部擬提前起訴博爾頓
中國艦艇被拍到在此集結 疑似進入高度戰備狀態
諾獎得主暴論:AI已經有意識 它自己不知道而已
加州選民將決定美國命運 “2028或無法舉行大選了”
美國ICE突襲升級,華人社群受衝擊
激怒川普課100%關稅?中國真正目的恐打錯算盤
TikTok分拆後新布局?傳「川普19歲帥兒」出任高層
議長約翰遜在直播中遭兩黨選民輪番斥責 臉色蒼白…
川普關稅威脅 消息一出 北京市民怎麽看?
貿易摩擦升級,再看稀土產業邏輯
中國老板趁十一長假跑路 設備搬空 員工上班傻眼
中國稀土管製衝擊!三星台積電或須重建供應鏈
川普發文前 神秘“巨鯨”精準做空幣圈 30分鍾狂賺$2億
錫安教會在全國各地的近 30 名牧者同工相繼被拘留或失聯
特朗普威脅對中國加100%關稅,中方批評"雙重標準"
文學城新聞
切換到網頁版

馬斯克加入 “視覺模型”是下個“大語言模型”?

硬AI 2025-10-12 13:20:27

AI競賽的下一個戰場已然清晰:從文本世界走向物理世界。在這場名為“世界模型”的競賽中,馬斯克旗下xAI已攜英偉達專家悄然入局,與穀歌、Meta等巨頭同台競技。xAI計劃率先將該技術應用於AI遊戲生成,並探索其在機器人係統的應用。穀歌推斷,未來的視頻模型將變得和語言模型一樣智能。

本文作者:龍玥

來源:硬AI

人工智能領域的戰火正在從大語言模型蔓延至一個更前沿的領域——能夠理解並模擬真實物理世界的“世界模型”(World Models)。而xAI已悄然加入這場競賽,與穀歌和Meta等科技巨頭同台競技。

據英國《金融時報》10月12日報道,馬斯克的初創公司xAI在今年夏天從芯片巨頭英偉達聘請了人工智能專家,專門從事世界模型的研發。與依賴文本的大語言模型不同,世界模型通過對海量的視頻和機器人數據進行訓練,旨在掌握真實世界的物理規律。

“未來的視頻模型將變得和語言模型一樣智能”,穀歌研究人員在論文中說道。英偉達上月也曾表示,世界模型的潛在市場規模可能接近當前全球經濟的總量。

  兵馬先行:xAI的遊戲“奇襲”與機器人野望

為了在這場競賽中占據一席之地,xAI正在積極招兵買馬。

公司已聘請了來自英偉達的兩位AI研究員Zeeshan Patel和Ethan He,他們在世界模型領域擁有豐富經驗。英偉達憑借其用於創建和運行模擬的Omniverse平台,一直是該技術的領導者。

知情人士透露,xAI為世界模型規劃的第一個商業化落點是遊戲領域,用於生成可交互的3D環境。這一動態迅速引發市場關注,因為它不僅是xAI商業化路徑的明確信號,也凸顯了世界模型作為下一代AI技術的巨大潛力。

馬斯克本人也在社交平台X上確認,xAI將在“明年年底前發布一款出色的AI生成遊戲”。長遠來看,這些技術最終可能應用於機器人的人工智能係統。

馬斯克加入 “視覺模型”是下個“大語言模型”?

xAI的招聘信息也印證了其發展方向。公司正在為其“omni團隊”招聘圖像和視頻生成領域的技術人員,薪資範圍高達18萬至44萬美元,該團隊致力於“創造超越文本的神奇AI體驗”。

此外,公司還在以時薪45至100美元招聘“視頻遊戲導師”,以訓練其AI模型Grok製作視頻遊戲。

  範式轉移:視覺模型的“GPT時刻”

xAI的高調入局,恰逢一個關鍵的行業預判浮出水麵:未來的視頻模型將變得和語言模型一樣智能。穀歌最近的一篇論文指出,其視頻模型Veo 3正展現出與大語言模型(LLM)相似的“湧現能力”。

正如LLM通過“下一詞元預測”的簡單任務,最終學會了數學和創意寫作等額外技能,視頻模型通過“下一幀預測”,也開始零樣本(zero-shot)地解鎖一係列令人驚訝的能力,例如物體分割、邊緣檢測和模擬工具使用等,而這些都未經專門訓練。



穀歌的研究人員Jack Clark在論文中寫道:“我們認為,正如自然語言處理(NLP)從特定任務模型轉向通用模型一樣,機器視覺領域也可能通過視頻模型發生同樣的轉變——一個‘視覺領域的GPT-3時刻’。”

他們將視頻逐幀生成的過程類比為語言模型中的“思維鏈”(chain-of-thought),並稱之為“幀鏈”(chain-of-frames),認為這使得視頻模型能夠跨越時空進行推理。

這一發現意義深遠,它暗示著通過發展更智能的視頻模型,人們或許能夠獲得能力極強的機器人“代理”(agent)。

  前景與現實:高昂的成本與“願景”的缺失

盡管前景誘人,但通往世界模型的道路並非坦途。目前,該技術仍麵臨巨大的技術挑戰,其中最主要的是為模擬真實世界尋找和處理足夠訓練數據的成本極其高昂。

與此同時,業界也存在對AI作用的冷靜審視。熱門遊戲《博德之門3》的開發商Larian Studios的發行主管Michael Douse本周在X上表示,AI無法解決遊戲行業的“大問題”,即“領導力和願景”。

他補充說,行業需要的不是“更多由數學方式生產、經過心理學訓練的遊戲循環”,而是對世界更多樣化的表達。這代表了一種普遍的觀點:純粹的技術突破本身,並不能保證創造出能夠真正打動人心的商業產品。

盡管挑戰重重,但xAI的入局無疑為世界模型的競賽再添一把火。

AI的焦點正不可逆轉地從純粹的數字信息處理,轉向對複雜物理現實的模擬與交互。視覺模型是否能複刻大語言模型的輝煌,迎來屬於自己的“GPT時刻”,不僅將決定下一代AI霸主的歸屬,更可能重塑我們與數字及物理世界的根本關係。