AI競賽的下一個戰場已然清晰:從文本世界走向物理世界。在這場名為“世界模型”的競賽中,馬斯克旗下xAI已攜英偉達專家悄然入局,與穀歌、Meta等巨頭同台競技。xAI計劃率先將該技術應用於AI遊戲生成,並探索其在機器人係統的應用。穀歌推斷,未來的視頻模型將變得和語言模型一樣智能。
本文作者:龍玥
來源:硬AI
人工智能領域的戰火正在從大語言模型蔓延至一個更前沿的領域——能夠理解並模擬真實物理世界的“世界模型”(World
Models)。而xAI已悄然加入這場競賽,與穀歌和Meta等科技巨頭同台競技。
據英國《金融時報》10月12日報道,馬斯克的初創公司xAI在今年夏天從芯片巨頭英偉達聘請了人工智能專家,專門從事世界模型的研發。與依賴文本的大語言模型不同,世界模型通過對海量的視頻和機器人數據進行訓練,旨在掌握真實世界的物理規律。
“未來的視頻模型將變得和語言模型一樣智能”,穀歌研究人員在論文中說道。英偉達上月也曾表示,世界模型的潛在市場規模可能接近當前全球經濟的總量。
兵馬先行:xAI的遊戲“奇襲”與機器人野望
為了在這場競賽中占據一席之地,xAI正在積極招兵買馬。
公司已聘請了來自英偉達的兩位AI研究員Zeeshan Patel和Ethan
He,他們在世界模型領域擁有豐富經驗。英偉達憑借其用於創建和運行模擬的Omniverse平台,一直是該技術的領導者。
知情人士透露,xAI為世界模型規劃的第一個商業化落點是遊戲領域,用於生成可交互的3D環境。這一動態迅速引發市場關注,因為它不僅是xAI商業化路徑的明確信號,也凸顯了世界模型作為下一代AI技術的巨大潛力。
馬斯克本人也在社交平台X上確認,xAI將在“明年年底前發布一款出色的AI生成遊戲”。長遠來看,這些技術最終可能應用於機器人的人工智能係統。
xAI的招聘信息也印證了其發展方向。公司正在為其“omni團隊”招聘圖像和視頻生成領域的技術人員,薪資範圍高達18萬至44萬美元,該團隊致力於“創造超越文本的神奇AI體驗”。
此外,公司還在以時薪45至100美元招聘“視頻遊戲導師”,以訓練其AI模型Grok製作視頻遊戲。
範式轉移:視覺模型的“GPT時刻”
xAI的高調入局,恰逢一個關鍵的行業預判浮出水麵:未來的視頻模型將變得和語言模型一樣智能。穀歌最近的一篇論文指出,其視頻模型Veo
3正展現出與大語言模型(LLM)相似的“湧現能力”。
正如LLM通過“下一詞元預測”的簡單任務,最終學會了數學和創意寫作等額外技能,視頻模型通過“下一幀預測”,也開始零樣本(zero-shot)地解鎖一係列令人驚訝的能力,例如物體分割、邊緣檢測和模擬工具使用等,而這些都未經專門訓練。
穀歌的研究人員Jack
Clark在論文中寫道:“我們認為,正如自然語言處理(NLP)從特定任務模型轉向通用模型一樣,機器視覺領域也可能通過視頻模型發生同樣的轉變——一個‘視覺領域的GPT-3時刻’。”
他們將視頻逐幀生成的過程類比為語言模型中的“思維鏈”(chain-of-thought),並稱之為“幀鏈”(chain-of-frames),認為這使得視頻模型能夠跨越時空進行推理。
這一發現意義深遠,它暗示著通過發展更智能的視頻模型,人們或許能夠獲得能力極強的機器人“代理”(agent)。
前景與現實:高昂的成本與“願景”的缺失
盡管前景誘人,但通往世界模型的道路並非坦途。目前,該技術仍麵臨巨大的技術挑戰,其中最主要的是為模擬真實世界尋找和處理足夠訓練數據的成本極其高昂。
與此同時,業界也存在對AI作用的冷靜審視。熱門遊戲《博德之門3》的開發商Larian Studios的發行主管Michael
Douse本周在X上表示,AI無法解決遊戲行業的“大問題”,即“領導力和願景”。
他補充說,行業需要的不是“更多由數學方式生產、經過心理學訓練的遊戲循環”,而是對世界更多樣化的表達。這代表了一種普遍的觀點:純粹的技術突破本身,並不能保證創造出能夠真正打動人心的商業產品。
盡管挑戰重重,但xAI的入局無疑為世界模型的競賽再添一把火。
AI的焦點正不可逆轉地從純粹的數字信息處理,轉向對複雜物理現實的模擬與交互。視覺模型是否能複刻大語言模型的輝煌,迎來屬於自己的“GPT時刻”,不僅將決定下一代AI霸主的歸屬,更可能重塑我們與數字及物理世界的根本關係。