World Labs聯合創始人兼CEO李飛飛（圖片來源：彭博）

“AI教母”、美國華人科學家、斯坦福大學計算機科學教授、World Labs聯合創始人兼CEO李飛飛的全新“世界模型”問世。

10月17日消息，李飛飛的World Labs於今晨發布全新實時生成式世界模型——RTFM（Real-Time Frame Model，實時幀模型）。

據悉，RTFM是一款基於大規模視頻數據進行端到端訓練、效率極高的自回歸擴散Transformer模型。其核心突破在於不依賴顯式3D表征，僅通過輸入1張或多張 2D圖像，就能直接生成不同視點的全新2D圖像，被業內稱為“學會渲染的 AI”。通過訓練，該模型已能精準建模3D幾何、反射、陰影等複雜物理現象，還可利用稀疏照片重建真實地點。

李飛飛表示，僅需一塊英偉達H100 GPU芯片，RTFM模型就能實時渲染出持久且3D一致的場景，無論是真實空間還是虛擬想象場景，均可實現交互式體驗。

“那些能隨算力增長優雅擴展的簡潔方法終將在AI領域占據主導，因為它們能享受數十年來推動技術發展的算力成本指數級下降紅利。生成式世界模型正處在絕佳位置，必將從持續降低的算力成本中獲益。”李飛飛團隊在文章中表示。

對此，前穀歌高級工程師Rui Diao發文評價稱，RTFM最新成果真正解決了，長期困擾世界模型可擴展性的問題。

實際上，所謂空間智能，是指人們或機器在三維空間中的感知、理解和交互能力。這一概念最早由美國心理學家霍華德·加德納（Howard Gardner）在多元智能理論中提出，讓大腦中形成一個外部空間世界的模式，並能夠運用和操作。

空間智能讓人有能力以三度空間的方式來思考，使人知覺到外在和內在的影像，也能重現、轉變或修飾影像，從而能夠在空間中從容地遊走，隨心所欲地操弄物件的位置，以產生或解讀圖形的訊息。

從廣義上看，空間智能不僅包括對空間方位的感知能力，還包括視覺辨別能力和形象思維能力。而對於機器而言，空間智能則是指其在三維空間中的視覺數據處理能力，能夠精準作出預測，並基於這些預測采取行動。這種能力使得機器能夠像人類一樣在複雜的三維世界中導航、操作和決策，從而超越傳統二維視覺的局限。

李飛飛曾坦言，視覺能力引發了寒武紀大爆發，神經係統的進化帶來了智能。“我們想要的不僅僅是能看會說的 AI，我們想要的是能做的 AI。”

而隨著新一輪生成式AI技術的到來，“空間智能+世界模型”成為AGI重要發展路徑之一。強大的世界模型能夠實時重建、生成並模擬具有持久性、可交互且物理精確的世界，這類模型技術將徹底改變軟件、機器人等很多領域和產業。

在李飛飛看來，空間智能與世界模型是解決 AI 技術難題的關鍵法寶。

相對於其他世界模型技術，李飛飛團隊認為，在世界模型的性能不變下，需要減少單卡算力資源投入，用性價比更高的方式解決世界模型和空間智能的實時交互問題。

若直接套用現有視頻架構，生成60幀的4K交互視頻流每秒需產生超過10萬個token（約等於《弗蘭肯斯坦》或首部《哈利·波特》的篇幅），而要維持一小時以上的持續交互，需處理的上下文token更將突破1億大關，但基於當前計算基礎設施，這既不可行也不具備經濟性。

因此，今年3月，李飛飛聯合Ben Mildenhall、Justin Johnson、Christoph Lassner三位學者創立World Labs，並研發出RTFM——具備高效性、可擴展性、持久性三大核心優勢。

其中，高效性體現在單塊H100 GPU即可支撐交互式幀率推理；可擴展性方麵，其通用端到端架構能隨數據與算力增長不斷優化；持久性則依靠“帶位姿幀空間記憶”與“上下文調度”技術，實現世界場景“永不消逝”，用戶長時間交互也能保持場景一致性。

融資方麵，今年9月，World Labs宣布獲得2.3億美元（約合人民幣16億元）融資，由a16z、NEA恩頤投資和Radical Ventures領投，AMD、Adobe、Databricks的風投部門和Shinrai Investments LLC，更有黃仁勳執掌的英偉達創投部門參與投資。

公司團隊約24人，其中包括李飛飛在內共4位聯合創始人，而華人麵孔約占據了三分之一。

公開報道顯示，World Labs成立3個月估值便達到10億美元（約合70億元）。

對於World Labs未來規劃，投資人曾透露，李飛飛團隊第一階段將構建一個對三維、物理以及空間和時間概念有深入理解的空間智能大模型LWM；接下來大模型將支持AR；再之後，大模型將作用於機器人技術，改進自動駕駛汽車、自動化工廠、人形機器人等領域。

李飛飛表示，團隊最早將在2025年推出產品，並表示現在隻是剛起步，在盈利模式等問題上有很多邊界需要突破，相信團隊能夠解決。

除了World Labs，李飛飛還在打造Behavior視覺挑戰比賽，希望能複製當年ImageNet的成功——ImageNet已成為深度學習革命的關鍵催化劑，並正式開啟以深度學習為核心的AI熱潮，因此李飛飛被視為“讓AI真正看懂世界”的推動者之一。

李飛飛認為，創建Behavior的靈感來自我們在機器人學習中遇到的三個主要痛點：1、任務缺乏標準化，研究往往依賴隨機設定，導致不同論文之間難以比較；2、缺乏統一的任務體係，很多研究任務非常短、非常局限；3、缺乏訓練數據。

今年10月，李飛飛正式發布了Behavior 1K，也就是Behavior 1000挑戰。

這是一個麵向具身智能與機器人研究的綜合仿真基準與訓練環境。它包含了1000個任務，主要聚焦在日常家庭環境中的“長時序任務”（long-horizon tasks），也就是需要多個動作步驟才能完成的真實任務。Behavior為全球研究者提供了一個開放源碼的訓練與評測平台，讓不同機構可以在相同標準下訓練算法、進行比較和評估。

“更讓我興奮的是，我們正處在一個文明性的轉折時刻：語言、空間、視覺、具身智能等多種AI技術正在融合，並開始真正改變人類社會。隻要我們始終把‘以人為本’放在心中，這些技術就能成為造福人類的力量。”李飛飛近期表示。

李飛飛團隊表示，未來World Labs將進一步增強模型動態場景模擬與用戶交互功能，更大規模模型有望帶來更優性能。

切換到網頁版

“AI教母”李飛飛的全新模型問世！一張AI芯片=無限

鈦媒體APP 2025-10-17 22:26:42