個人資料
文章分類
正文

OpenAI 的Sora是怎麽產生視頻的

(2024-02-19 20:19:39) 下一個

上周openAI突然公布了Sora, 通過一段短的文字,Sora可以生成一段最長60秒的視頻 (https://openai.com/sora  ),現在該係統還不能開放給用戶去用任何一段話去產生自己的視頻,但從發布的已產生的視頻來看是非常逼真震撼的。 我對大規模語言模型text-to-text比較了解,但對視頻生成(text-to-video)不太了解。讀了openAI的Sora 技術報告後,以下是我的初步理解。 

訓練數據是(video,cation description)對. 視頻表述(caption description) 是用video-to-text 模型來產生,比如 用openAI 自己的 Dalle-3 模型。 

其中一個關鍵點是,要把原始視頻 (video) 壓縮成低維度的時空數據,就像大規模語言模型一樣,用token來表示某一時刻的語言信號,一段話實際上就是一段tokens (a list of tokens), Sora 用patch來表示某一時刻壓縮了的視覺信號, 每個視頻就成 a list of patches。這裏需要有兩個模型,一個模型把視頻壓縮成一段patches的壓縮模型,另一個模型反過來把一段patches變成像素視頻的解碼模型。 

有了一段patches後, 訓練數據就成了(a list of patches, caption description). 這時候,就完全可以套用訓練大規模語言模型的方法來訓練生成模型,和語言模型一樣,transformer 是基本的構造單元。 

另一個關鍵是, 用戶產生的text prompt都不長,可能就一兩個句子,Sora 用chatgpt 的世界知識先把短的text 變成長的視頻表述 (caption descripton). 這樣的擴充完全依賴於chatgpt的對世界的理解,如果用完全的物理世界知識,從prompt生成視頻描述的結構就更符合現實世界,相反就會牛頭不對馬嘴。所以這麽看來,產生視頻的能力的關鍵還是chatgpt對世界的理解。 當然這裏假設,通過(a list of patches, caption description)訓練的視頻產生模型,以及視頻壓縮和解碼模型可以很好的工作。

現在Sora生成的視頻中還沒有音頻信號。 我認為,用同樣的方法完全可以訓練出一個音樂生成模型來做text-to-music, 也許text-to-music 比 text-to-video 容易些。

https://openai.com/research/video-generation-models-as-world-simulators 

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.