OpenAI Sora: a technical report

voiceofme · 2024-02-19 19:39:33Z

OpenAI Sora: a technical report簡介

來源: voiceofme 於 2024-02-19 19:39:33 [檔案] [博客] [舊帖] [給我悄悄話] 本文已被閱讀：次 (4578 bytes)

本文內容已被 [ voiceofme ] 在 2024-02-19 20:38:56 編輯過。如有問題，請報告版主或論壇管理刪除.

上周openAI突然公布了Sora，通過一段短的文字，Sora可以生成一段最長60秒的視頻（https://openai.com/sora ），現在該係統還不能開放給用戶去用任何一段話去產生自己的視頻，但從發布的已產生的視頻來看是非常逼真震撼的。我對大規模語言模型text-to-text比較了解，但對視頻生成(text-to-video)不太了解。讀了openAI的Sora 技術報告後，以下是我的初步理解。

訓練數據是（video，cation description）對. 視頻表述（caption description）是用video-to-text 模型來產生，比如用openAI 自己的 Dalle-3 模型。

其中一個關鍵點是，要把原始視頻（video）壓縮成低維度的時空數據，就像大規模語言模型一樣，用token來表示某一時刻的語言信號，一段話實際上就是一段tokens （a list of tokens), Sora 用patch來表示某一時刻壓縮了的視覺信號，每個視頻就成 a list of patches。這裏需要有兩個模型，一個模型把視頻壓縮成一段patches的壓縮模型，另一個模型反過來把一段patches變成像素視頻的解碼模型。

有了一段patches後，訓練數據就成了（a list of patches, caption description). 這時候，就完全可以套用訓練大規模語言模型的方法來訓練生成模型，和語言模型一樣，transformer 是基本的構造單元。

另一個關鍵是，用戶產生的text prompt都不長，可能就一兩個句子，Sora 用chatgpt 的世界知識先把短的text 變成長的視頻表述（caption descripton). 這樣的擴充完全依賴於chatgpt的對世界的理解，如果用完全的物理世界知識，從prompt生成視頻描述的結構就更符合現實世界，相反就會牛頭不對馬嘴。所以這麽看來，產生視頻的能力的關鍵還是chatgpt對世界的理解。當然這裏假設，通過（a list of patches, caption description)訓練的視頻產生模型，以及視頻壓縮和解碼模型可以很好的工作。

現在Sora生成的視頻中還沒有音頻信號。我認為，用同樣的方法完全可以訓練出一個音樂生成模型來做text-to-music，也許text-to-music 比 text-to-video 容易些。

https://openai.com/research/video-generation-models-as-world-simulators