CW: Body Horror?
— Cheshire Cat ᓚᘏᗢ, (@autismsupsoc) June 29, 2024
This AI video attempt to show gymnastics is one of the best examples I have seen that AI doesn’t actually understand the human body and it’s motion but is just regurgitating available data. (Which appears to be minimal for gymnastics) pic.twitter.com/8dD2q30e4G
西風 發自 凹非寺Really annoyed to see multiple senior figures of our field jump on that clunky gymnastics AI video to make their point that human body physics is oh so complicated.
— Lucas Beyer (bl16) (@giffmana) June 30, 2024
Do they realize it’s like showing a dalle-mini generation and saying current way of doing image generation is… pic.twitter.com/BbKCmzww8R
量子位 | 公眾號 QbitAI
一段AI生成的體操視頻,引發近百萬網友圍觀,LeCun等一眾大佬還因為它吵起來了。
體操表演,emmmm怎麽不算呢?
通過視頻右上角的水印,此段視頻正是由那個一度被認為是“下一代”文生視頻的Dream Machine(來自Luma AI)生成的。
大夥兒看後紛紛坐不住,圍繞此討論的,是AI視頻領域的一個熟悉的話題:AI是否理解物理規律。
LeCun直接開麥:
視頻生成模型不理解基本物理知識。更不用說人體了。
華盛頓大學計算機科學教授Pedro Domingos看後也“搖了搖頭”:
AGI可能並不會像一些人預期的那樣即將到來。
畸變雀食離譜
自Sora問世以來,“AI是否理解物理規律”這個話題就被越來越多人關注。
下麵這段Sora生成的“寄居蟹用燈泡當外殼的夜間場麵”是個經典的例子,海浪與沙灘的互動非常細膩,寄居蟹腿上的纖毛也活靈活現。
對比真實拍攝的類似場景照片,也就燈泡沒有電源不應該亮這一個明顯破綻了。
最近Luma AI的Dream Machine也一樣,生成的第一視角探廢棄房子真實感拉滿:
由此,不少人認為Sora、LUMA等的視頻生成模型已經理解了簡單的物理規律。
然鵝,這次被放出的視頻著實有點太離譜。
不僅腿腳亂飛,頻頻上演大變活人:
就這高難度的空中懸浮翻跟頭,也是牛頓都要被氣活了的節奏:
以至於網友看後還表示,說恐怖大可不必,說搞笑還差不多。
如此抽象,LeCun直接評論視頻生成模型不會懂物理。
他還進一步解釋,Sora或者其它視頻生成模型都有類似的問題,視頻生成技術無疑也肯定會隨時間推移而進步。
但:
真正理解物理的學習係統並不會具有生成性。就像鳥類、哺乳動物等比任何視頻生成係統更了解物理。然而,它們都不能生成詳細的視頻。
類似還有另一種思考:
即使AI視頻生成模型之後會進化的很好,生成的視頻質量“完美”,那麽就意味著它理解物理了?
LeCun等的觀點,立馬引起網友的質疑:
鳥和哺乳動物也會生成詳細的視頻,隻不過是在大腦中生成無法將其具像化。
然鵝,這種反駁並未說服LeCun。
此外,還有不少人持反對意見。
例如,穀歌DeepMind/Brain團隊研究員Lucas Beyer就指出:
這就像是展示一個由幾年前的Dall·E mini生成的圖像,然後稱當前的圖像生成方式注定失敗一樣。
畢竟,之前生圖模型生成的圖像be like:
至於模型會生成如此離譜的視頻?
有網友認為是缺乏體操表演數據,還有網友認為是身體部位的模糊處理,使得模型無法理解人體結構,繼而不能保證肢體動作的連貫性。
視頻生成在計算上更為複雜,並且具有高度的上下文相關性,對詳細標注的訓練數據有更大的需求,這些需求現在還未得到充分滿足。
前段時間SD 3翻車,同樣對人體生成效果不好,網友也討論過這一問題,過於嚴格的數據審核,可能誤刪了一些無害的成人圖像,影響了模型對人體結構的理解。
One More Thing
除了Luma AI的Dream Machine生成體操視頻大翻車,Runway的Gen-3也……
同款三頭六臂:
同款空中懸浮絕活: