在過去兩年裏,大語言模型(LLM)在語言理解、文本生成、推理、指令執行等方向取得突破,使AI在理解語義層麵變得越來越可靠。但是,深度學習領域的領軍人物,如Meta公司的Yann LeCun、穀歌DeepMind的Demis Hassabis(下圖 infobae)

以及魁北克人工智能研究所(Mila)的Yoshua Bengio(下圖 universitat wien),都認為世界模型,而非大語言模型,對於構建真正智能、科學且安全的人工智能係統至關重要。專家們不認為當下風靡世界的大語言架構能夠達到通用人工智能(AGI)的目標,因為大語言模型存在一些致命缺陷。

大語言模型的局限
大語言模型(LLM)通過模仿人類的言談來預測下一行動。這是一種依靠嵌入的人類知識的被動過程,實際上被人類語言及相關的行動給筐住了。用通俗語言來說,就是幾十億、幾百億、乃至幾千億的大語言模型訓練的數據,都是過去的、靜態的知識。生成式人工智能將大量互不關聯的經驗法則,近似地對特定場景做出反應。我們輸入問題後,大語言模型會根據所收集的別人在類似情況下的反應,給出答案,或曰解決方案。這很像盲人摸象的寓言,每個人一次隻觸摸大象的一部分,因此無法了解它的全貌。一個人摸到象鼻,就以為整頭大象像蛇;另一個人摸到象腿,就以為它更像樹;第三個人抓住象尾,就說它是繩子。有人形象地將大語言模型的這種能力稱之為“鸚鵡學舌。”
Meta公司的首席人工智能科學家、圖靈獎得主楊樂昆(Yan LeCun 下圖 Instagram)近期在談及語言大模型和他現在極力主張的“世界模型”時指出,當前的大型語言模型架構不太可能達到通用人工智能(AGI)的四個難以突破的致命弱點:理解物理世界的能力,持久記憶能力,推理能力和複雜規劃能力。

1. 理解能力 語言隻是對感知的一種非常近似的表征,但遠遠不能表達出我們的一切所見所聞。大語言模型根據前人(即訓練數據)、而非自身(對物理世界的直觀感知和)理解(即環境刺激),作決定(即反應模式)。對比你從文字上讀到或視頻裏看到的郵輪旅遊與你親身乘坐郵輪旅遊的感受。多半你的親身體驗要比從媒體了解的郵輪旅遊更加豐富,理解更深和準確。
2. 持久記憶 大語言模型通過上下文窗口(context window)處理信息(即token)。包括prompt在內的所有輸入信息,一旦超過上限,便會卡頓。重開新上下文窗口後,前麵窗口的信息多半已經遺忘或丟失。這意味著一切從零開始。
3. 推理能力 大語言模型在執行需要深層次認知技能(常識理解和抽象推理)來幫助人類解決“燒腦”的複雜現實任務時頗感力不從心。確實,大語言模型可憑簡單直接的“直覺式”推理來生成答案,但這樣的答案往往不準確,甚至是錯誤的。
4. 複雜規劃能力 大語言模型在規劃能力方麵仍有顯著不足,尤其在處理圖結構類型的理解與規劃是表現不佳。
世界模型
正是基於目前為止尚無解決辦法的大語言模型自身缺陷,包括Meta公司的首席人工智能科學家、圖靈獎得主楊樂昆(Yan LeCun)在內的一些AI大咖認為當前的大型語言模型架構不太可能達到通用人工智能(AGI)。同時,這些AI大咖提出了世界模型。那麽,什麽是世界模型呢?簡而言之,世界模型就是人工智能係統對現實世界的“內心理解”和“心理模擬”。世界模型是一種能夠對現實世界環境進行仿真,並基於文本、圖像、視頻和運動等輸入數據來生成視頻、預測未來狀態的生成式AI模型(下圖 ResearchGate)。世界模型最好被理解為一係列能力的連續體,四個對世界建模能力至關重要的核心維度:

具體表現就是,世界模型能夠理解和模擬物理世界的規律,如重力、摩擦力、運動軌跡等。這樣它(世界模型)在處理與物理世界有關的問題時,能夠提供更準確、更符合現實的預測和決策支持。而且,世界模型具有反事實推理能力。例如,它(世界模型)可以回答“如果環境條件改變,結果會怎樣”這類問題,從而為複雜問題的解決提供更多的思路和可能性。
從語言到世界
大語言模型讓AI學會了理解語言,世界模型則讓AI嚐試理去解世界。世界模型通過大量數據學習現實世界的物理規則,實施因果推理,從而預測、生產合乎現實規律的未來。世界模型最早可追溯至2018年,穀歌大腦研究科學家David Ha與瑞士AI實驗室IDSIA負責人Jürgen Schmidhuber在經典論文《Recurrent world models facilitate policy evolution》。他們在論文中提出,智能體要想高效學習,就必須在大腦中構建世界的內部模型。這種模型能夠通過感知輸入,去預測外部世界在未來的變化,在內部“想象”出一係列可能的結果,從而據此選擇行動。
讓世界模型走出學術圈,成為AI產業熱詞,是視頻生成技術的突破。2024年2月15日,OpenAI發布Sora模型,並在官方論文中提出,視頻生成模型正在成為世界模擬器(world simulator)。Sora不僅能生成語義上合理的視頻,還能在物理規律、光影運動、空間連續性等層麵維持一致性,讓AI演繹世界成為可能(下圖 Fello AI)。幾乎在同一時間,Meta發布了由楊樂昆團隊主導的項目視覺自監督模型 V-JEPA(Visual Joint Embedding Predictive Architecture),首次在視覺領域明確提出構建世界模型的研究方向。十餘天後,DeepMind發布了Genie模型,一個“可玩世界”的生成模型,可從普通視頻素材中學習環境規律,並生成可實時交互的二維遊戲場景。用戶可以控製角色在生成的世界中移動、碰撞、跳躍,這種“生成—交互—反饋”的閉環。由此,Sora、V-JEPA與Genie,分別代表了世界模型演化的三個方向,生成世界、理解世界、參與世界,共同組成了世界模型認知層麵的突破。

世界模型:美中兩種路徑
世界模型開始落地,在美國企業裏有了實實在在的產品。波士頓動力發布了具有體操技能、並能完成一些簡單但危險工作的機器人,特斯拉的自動駕駛係統FSD(Full Self-Driving),能夠在駕駛員的監督下,通過多攝像頭視頻流在內部重建外部環境,智能、精確地完成包括路線導航、轉向、變道和泊車等功能。大陸公司也緊追不舍:華為公司在2024年4月發布ADS的3.0(乾崑),采用端到端架構,依托多源傳感重建動態場景,實現“車位到車位”和“VPD泊車代駕”功能。此外,小鵬的XPlanner(規劃與控製大模型),百度Apollo推出了ADFM自動駕駛基礎模型,也都顯示,世界模型正在從虛擬場景落地走向真實世界,從“認知世界”轉向“執行世界”。FSD、ADS、XPlanner、Apollo構建了AI的落地行動,將智能具象化的通道。但由於認知方式與產業邏輯的分歧,美中兩國正走在兩條不同的路徑上。
在美國,OpenAI、DeepMind、Google、Meta、Anthropic五大巨頭構成了最具體係化的“世界建模陣營”。它們均從語言模型出發,沿著認知 - 生成 - 具身(Embodied)的路線,把AI從語言理解延伸到物理模擬。Sora 2不僅整合了音視頻統一建模和動態光照控製,還新增 “Cameo”功能,讓用戶可以直接把自己嵌入生成的世界中。DeepMind發布的Genie 3,允許從自然語言直接生成三維、可操作的虛擬世界,用戶能實時控製角色,與環境交互並觀察反饋。Meta V-JEPA 2以自監督方式讓AI理解視頻中的時序與動力規律,成為世界模型“視覺直覺”的雛形。它不依賴標簽數據,而是通過預測畫麵未來幀的方式,逼近人類感知世界的方式。與此同時,盡管Google Gemini 2.5 Pro與Anthropic Claude 4.5不算嚴格意義上的世界模型,但它們都在讓語言模型具備理解世界的能力。由此,美國的研究體係已經形成了完整的認知鏈條,從理解語言、預測視覺變化到生成並模擬世界。
而中國大陸的世界模型,其側重方向是依托產業鏈協同推進落地。從智能駕駛到行業智能體,再到具身機器人,大陸企業更關注AI在真實物理環境中的可感知、可預測與可執行性。可以說,中國企業更看重係統集成與工程落地。智能駕駛之外,國內世界模型的思想和策略也正在進入更多行業場景。如華為盤古大模型引入物理建模框架,將世界模型理念應用到氣象預測、製造、製藥等工業領域;百度文心在視頻理解和數字人交互中融入動態世界建模機製,等等。這裏尤其要提及大陸在具身智能方向的係統化突破:宇樹的R1人形機器人(下圖 TikTok/ROBOT PHILOSOPHY),支持圖像與語音多模態融合,可進行動態行走與交互;優必選Walker S2具備靈巧雙臂與自主換電功能,更貼近工業執行場景;傅利葉的GR-3C人形機器人版本,可用於康複與人機協作;大陸的AI正推動世界模型從算法概念真正落地到機器身體。

大語言模型與世界模型攜手同行
盡管美中兩國為代表的世界模型演變生態邏輯不同,但從更長的技術周期看,這種分野正逐漸進化為互補關係。世界模型的最終方向,肯定不是生成完美的視頻,也不是控製一輛汽車,而是打通“理解-預測-行動”的完整閉環。從這個層麵來說,美中兩國正共同構建通向通用智能的現實路徑。

如今,世界模型正在讓AI理解現實世界,一個有時間、有空間、有因果的動態係統,具身智能已經成為全球AI研究的共識。如OpenAI投資的Figure AI,正在以GPT係列模型驅動人形機器人的決策係統;特斯拉的FSD與Optimus,分別在道路和工廠場景中驗證世界模型驅動的閉環控製;中國大陸的機器人企業也在讓模型直接掌控傳感器與電機,使算法真正落地到身體。AI正在經曆一場從虛擬智能到物理智能的轉變。在虛擬世界中,它生成一段視頻或一段話,而在物理世界中,它必須理解摩擦力、時間延遲和人的意圖。未來的智能體將是一個多層協作係統:上層的大語言模型負責目標規劃與邏輯推理,中層的世界模型負責環境建模與因果預測,底層的執行係統則負責感知、行動與反饋。當這三層閉合,AI才真正擁有“意圖-計劃-行動”的完整循環,這正是通用智能的現實路徑。
參考資料
弗若斯特沙利文. (2025). 2025年中國世界模型發展洞察. Frost & Sullivan. 鏈接 https://img.frostchina.com/attachment/17584704/ayurnM6G7TWccfR3DFtre2.pdf
北京創新樂知網絡技術有限公司. (2025). 講清楚了!一文看懂什麽是世界模型. CSDN. 鏈接 https://blog.csdn.net/m0_59164520/article/details/148878934
極智GeeTech. (2025). 世界模型崛起,AI路線之爭喧囂再起. 36Kr歐洲總站. 鏈接 https://eu.36kr.com/zh/p/3559837738555779
腦極體. (2025). 大語言火爆的今天,我們為什麽還要擁抱世界模型? 鏈接 https://cloud.kepuchina.cn/h5/detail?id=7309771082936344576
Cuofano, G. (2025). The AI world models revolution. The Business Engineer. 鏈接 https://businessengineer.ai/p/the-ai-world-models-revolution
MIT科技評論. (2025). 楊立昆:“AGI即將到來”完全是無稽之談,真正的智能要建在世界模型之上. MIT科技評論Technology Review. 鏈接 https://www.mittrchina.com/news/detail/14583
Nuriyev, Y. (2025).LLMs were just the warm-up. IT’s next revolution is wrld models. Yan Nuriyev. 鏈接 https://whoisyan.com/llms-were-just-the-warm-up-ais-next-revolution-is-world-models/
Pavlus, J. (2025). ‘World models,’an olde idea in AI, mount a comeback. Quanta magazine. 鏈接 https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250902/