OpenAI Sora: a technical report

來源: voiceofme 2024-02-19 19:39:33 [] [博客] [舊帖] [給我悄悄話] 本文已被閱讀: 次 (4578 bytes)
本文內容已被 [ voiceofme ] 在 2024-02-19 20:38:56 編輯過。如有問題,請報告版主或論壇管理刪除.

 

上周openAI突然公布了Sora, 通過一段短的文字,Sora可以生成一段最長60秒的視頻 (https://openai.com/sora  ),現在該係統還不能開放給用戶去用任何一段話去產生自己的視頻,但從發布的已產生的視頻來看是非常逼真震撼的。 我對大規模語言模型text-to-text比較了解,但對視頻生成(text-to-video)不太了解。讀了openAI的Sora 技術報告後,以下是我的初步理解。 

訓練數據是(video,cation description)對. 視頻表述(caption description) 是用video-to-text 模型來產生,比如 用openAI 自己的 Dalle-3 模型。 

其中一個關鍵點是,要把原始視頻 (video) 壓縮成低維度的時空數據,就像大規模語言模型一樣,用token來表示某一時刻的語言信號,一段話實際上就是一段tokens (a list of tokens), Sora 用patch來表示某一時刻壓縮了的視覺信號, 每個視頻就成 a list of patches。這裏需要有兩個模型,一個模型把視頻壓縮成一段patches的壓縮模型,另一個模型反過來把一段patches變成像素視頻的解碼模型。 

有了一段patches後, 訓練數據就成了(a list of patches, caption description). 這時候,就完全可以套用訓練大規模語言模型的方法來訓練生成模型,和語言模型一樣,transformer 是基本的構造單元。 

另一個關鍵是, 用戶產生的text prompt都不長,可能就一兩個句子,Sora 用chatgpt 的世界知識先把短的text 變成長的視頻表述 (caption descripton). 這樣的擴充完全依賴於chatgpt的對世界的理解,如果用完全的物理世界知識,從prompt生成視頻描述的結構就更符合現實世界,相反就會牛頭不對馬嘴。所以這麽看來,產生視頻的能力的關鍵還是chatgpt對世界的理解。 當然這裏假設,通過(a list of patches, caption description)訓練的視頻產生模型,以及視頻壓縮和解碼模型可以很好的工作。

現在Sora生成的視頻中還沒有音頻信號。 我認為,用同樣的方法完全可以訓練出一個音樂生成模型來做text-to-music, 也許text-to-music 比 text-to-video 容易些。

https://openai.com/research/video-generation-models-as-world-simulators 

 

所有跟帖: 

我的邏輯告訴我:AI 永遠不可能超越人類。。。 -Penuium- 給 Penuium 發送悄悄話 (0 bytes) () 02/19/2024 postreply 19:48:16

never say never. 以前還有人說下圍棋機器永遠不可能打敗人類呢 -cnnbull02- 給 cnnbull02 發送悄悄話 (0 bytes) () 02/19/2024 postreply 19:52:01

我這個帖子是技術帖, 不是意見帖。 -voiceofme- 給 voiceofme 發送悄悄話 voiceofme 的博客首頁 (0 bytes) () 02/19/2024 postreply 20:06:57

因為 AI Sora 出現,鋪天蓋地的人類恐慌,故出此言。。。 -Penuium- 給 Penuium 發送悄悄話 (0 bytes) () 02/19/2024 postreply 20:30:55

這個視頻AI會造成大批動畫片製作人員的失業,如果真的那麽好 -年輪- 給 年輪 發送悄悄話 (0 bytes) () 02/19/2024 postreply 21:13:46

不過,現在這視頻AI製作還沒免費公開使用,懷疑會對動畫片公司收取高額費用 -年輪- 給 年輪 發送悄悄話 (34 bytes) () 02/19/2024 postreply 21:17:00

這個Sora除了博眼球,主要是對生態的警告 -ahhhh- 給 ahhhh 發送悄悄話 (656 bytes) () 02/19/2024 postreply 21:58:44

文本模型怎麽可能同時產生視頻? 自動駕駛不用generative AI吧? -大洋bridge- 給 大洋bridge 發送悄悄話 大洋bridge 的博客首頁 (0 bytes) () 02/19/2024 postreply 22:44:03

問題是video的patch是怎麽來的? -京男- 給 京男 發送悄悄話 京男 的博客首頁 (405 bytes) () 02/19/2024 postreply 23:28:10

好觀點!但是技術的發展還會繼續。 -thore- 給 thore 發送悄悄話 (0 bytes) () 02/20/2024 postreply 03:28:18

潘多拉魔盒的開啟。。。顫抖吧,人們。。。 -不能再沉默- 給 不能再沉默 發送悄悄話 (346 bytes) () 02/19/2024 postreply 23:30:14

請您先登陸,再發跟帖!

發現Adblock插件

如要繼續瀏覽
請支持本站 請務必在本站關閉/移除任何Adblock

關閉Adblock後 請點擊

請參考如何關閉Adblock/Adblock plus

安裝Adblock plus用戶請點擊瀏覽器圖標
選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標
選擇“don't run on pages on this domain”