圍在黃仁勳身邊的人形機器人,正在進入AI時刻嗎
文章來源: 騰訊科技 於
- 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
北京時間1月7日,黃仁勳和14台人形機器人同時出現在2025年CES展會的舞台上。
(1月7日拉斯維加斯2025 CES大會上,黃仁勳同時與14台人形機器人登台)
這一幕似曾相識,就在2024年3月,黃仁勳曾同時與9家人形機器人亮相英偉達GTC大會的舞台。
(2024年3月,黃仁勳與9台人形機器人在英偉達GTC大會)
彼時,黃仁勳發布英偉達人形機器人通用基礎模型Project
GR00T,正式宣布進駐人形機器人服務商。Project
GR00T就像幫助機器人變得更聰明的大腦,在GR00T的指揮之下,機器人能夠理解自然語言,並通過觀察人類行為模仿動作,從而適應現實環境並與之交互。
與GTC大會不同的是,黃仁勳這次在CES上重點發布的是世界基礎模型開發平台Cosmos,它提供了一種簡單的方法來生成大量基於物理世界的合成數據。
Cosmos可以通過文本、圖像或視頻的提示,生成高度仿真的虛擬世界,它基於2000萬小時的視頻進行訓練,分為自回歸模型和擴散模型兩類。
與其它合成數據生成平台不同的是,Cosmos能夠理解這個世界,比如它可以理解幾何空間、摩擦力和重力,並且壓縮“虛擬”與“現實”之間的差距。
對於具身智能而言,這是一個重要突破,因為它幫助人形機器人解決泛化道路上的最大瓶頸之一“高質量數據稀缺”問題,為人形機器人感知環境創建逼真的環境和感知物體。
與黃仁勳一起出現在CES舞台上的1X、Agile
Robots、Agility、Figure、傅立葉、波士頓動力等14家人形機器人,都是英偉達Cosmos平台的種子用戶。
那麽,在這之前,人形機器人數據采集遇到了哪些難點?Cosmos對解決這些難點產生哪些價值?
高質量數據瓶頸,成為人形機器人泛化難題
通用人形機器人,需要擁有任務泛化能力。
但目前不論是老牌人形機器人波士頓動力Atlas,還是新興的擎天柱、Figure等,它們在實際場景的應用還停留在單點任務處理上。比如,擎天柱學會了疊衣服,但是又要重新訓練才能學會疊被子。也就是說,它們在完成一個任務後,不具備自主判斷下一個任務要做什麽的能力。
而阻礙人形機器人擁有泛化能力的最大因素,就是高質量數據的稀缺。即便Agility旗下的Digit機器人整天泡在亞馬遜工廠裏打工,擁有天然的豐富場景數據學習環境,它的首席技術官Pras
Velagapudi依舊表示:“數據稀缺性和多變性是機器人從環境中成功學習的關鍵挑戰。”
機器人需要高質量的數據,否則可能會導致目標誤判或任務失敗,甚至做出不恰當的行為。比如,一個塗抹醬汁的機器人可能會把醬汁灑一地,一個醫療手術機器人可能會用手術刀傷到人類。
為了給機器人采集到高質量數據,根據機器人是否與真實世界接觸,通常會從現實世界中采集真實數據,采集方式有兩種:
直接接觸數據(真機數據):機器人用自己的傳感器與物理世界直接交互。比如波士頓動力的液壓Atlas在實驗室“跑酷”,Figure02機器人在美國斯帕坦堡寶馬車廠打工。
間接接觸數據(人工控製數據):通過人類操作讓機器人與物理世界接觸並記錄,比如斯坦福的炒菜機器人Aloha就是人類控製機械臂進行操控的。
對於機器人而言,最理想的數據采集方式是通過機器人本體直接觸達物理世界,這種方式能讓機器人準確理解真實的環境,也就是真機數據。
但采集真機數據需要付出大量時間和資金成本。
首先,必須要讓機器人部署在實際環境中,但大多數人形機器人受限於運動技術水平,隻能待在受限的實驗室環境。
這就很難通過規模化集中化方式讓機器人高效完成數據采集。就像父母們既希望孩子擁有豐富的知識麵,卻又將孩子關在家中閉門不出,在受限的環境裏,他們無法理解外麵的世界有多大。
於是,必須花費大量時間去搭建各種場景,讓機器人做“題海戰術”。
其次,機器人學習新技能的效率十分低下。比如,機器人學會了拿蘋果,轉而去學習取盤子,又要重新經過大量學習。
於是,研究人員試圖尋求間接的辦法,使用人力作為輔助,幫助機器人提高學習效率,也就是遠程遙控,人走到哪裏,機器人也可以跟著學到哪裏,但這個方式的成本依舊高昂。
2024年年初爆火的炒菜機器人Aloha,采用了一個有趣的方案收集數據,基本思路是設置兩個機器人手臂,讓它們互相鏡像,人類可以推動一個手臂,另一個手臂則執行任務,比如拿起一個積木。通過反複演示(比如50次),機器人可以學習如何完成特定任務。
盡管Aloha使用了低成本的手臂,但每個也要大約5000美元,為了完成這項訓練,至少需要4個機械臂大約2萬美金,而這實際上已經是比較低的成本了,通常工業手臂可能價值數十萬美元。
智元機器人薑青鬆曾在2024年8月份智元機器人發布會上算了一筆賬,智元機器人計劃建立的采樣廠包含100台采樣機器,對應150位工人,目標是希望每個工人每天采集1000條數據,按照0.4元/條的成本計算,150位工人則意味著采樣廠日均成本高達6萬元。
人形機器人變得更智能,需要在更短的時間裏獲得更多的高質量數據。
人形機器人數據卡點,被英偉達Cosmos攻克?
為了解決低成本獲得高質量數據問題,很多人開始嚐試采用合成數據。
合成數據並不隻在機器人場景使用,大模型、自動駕駛等許多需要訓練人工智能、需要數據支持的場景都在使用合成數據。
但合成數據也存在問題,就像近親繁殖,如果使用合成數據超過一定比例,反而會讓數據質量下降。
2023年,萊斯大學和斯坦福大學的研究人員發布了一項研究,表明過度依賴合成數據進行訓練可能會導致模型的質量和多樣性下降。研究指出,采樣偏差造成的合成數據,不能充分代表真實世界,並且會在經過多輪訓練後,導致模型的多樣性逐漸退化。
前OpenAI創始成員Karpathy在接受采訪時表示,模型在訓練時可能會出現一種“靜默崩潰”的情況,簡單來說,雖然單個輸出看起來正常,但如果你看整個數據的分布,就會發現它缺乏多樣性,變得單一。這對於合成數據生成來說是個問題,因為合成數據需要包含豐富的變化和多樣性(也就是“熵”),否則就會生成一個過於單一、不真實的數據集。
因此,如何用比較低的成本,獲得接近真實世界的數據,成為包括機器人在內等行業需要突破的關鍵。
於是就有了數字孿生,數字孿生並不是一個新概念,它用虛擬模型來“複製”一個真實物體、設備或係統,目前,數字孿生已經在製造業、醫療等領域得到了應用,但數字孿生的準確性和效果取決於所收集數據的質量。如果數據不完整、存在錯誤或不準確,虛擬模型的表現就會受到影響。
但作為世界模型,英偉達Cosmos平台和以往的合成數據工具都不相同,在英偉達公布的Cosmos論文中,對世界模型的描述是:
“世界基礎模型就是一種根據過去發生的事和當前變化,來預測未來會怎樣的工具。”
簡單來說,Cosmos是一種類似“預測未來”的工具。它能把真實世界的規則整理好,根據當前的情況猜測接下來會發生什麽,然後告訴自動駕駛汽車或機器人該怎麽做。比如,假設前麵有障礙物,模型會預測它可能移動的方向,並指導汽車或機器人做出反應。
這套工具是目前第一款專門為訓練AI、自動駕駛和機器人的世界模型。
此外,黃仁勳在會場還演示了將Cosmos與英偉達Omniverse平台聯合使用的功效,開發者可以基於Omniverse創建虛擬的三維場景,再疊加使用Cosmos生成與真實世界高度相似的場景,以便於開發者用於模型訓練。
(左側:Omniverse製作的虛擬仿真世界 右側:疊加Cosmos生成的效果)
在這個過程中,Cosmos對於機器人數據瓶頸最大的幫助,是用最低的成本,來縮小虛擬數據與物理世界數據的誤差。
但Cosmos生成的合成數據未必能完全代替真實數據的作用。合成數據與真實數據各有優勢,它們是一種互補關係,這一點從黃仁勳和馬斯克近期的觀點中也可以看出。
根據TechCrunch報道,馬斯克在2024年12月也發表了對於AI數據的看法,他讚同人工智能行業已經達到“數據峰值”的說法,“補充現實世界數據的唯一方法是使用合成數據”。
有趣的是,黃仁勳在2025年CES後的采訪中表示,Cosmos生成的合成數據無法替代真實數據,並認為自動駕駛應該盡可能使用真實數據,並且讚賞馬斯克的特斯拉汽車工廠擁有大量行駛數據。
他們一個擁有高配置的仿真數據生成平台,一個擁有豐富的自動駕駛數據資源,在堅守各自陣地的同時,卻也都在欣賞著對方的領域。