爆火Sora參數規模僅30億?大佬技術分析來了

就說Sora有多火吧。

生成的視頻上線一個、瘋傳一個。

作者小哥新上傳的效果，點讚很快破千。

失敗案例都讓人看得上癮。

學術圈更炸開鍋了，各路大佬紛紛開麥。

紐約大學助理教授謝賽寧（ResNeXt的一作）直言，Sora將改寫整個視頻生成領域。

英偉達高級研究科學家Jim Fan高呼，這就是視頻生成的GPT-3時刻啊！

尤其在技術報告發布後，討論變得更加有趣。因為其中諸多細節不是十分明確，所以大佬們也隻能猜測。

包括“Sora是一個數據驅動的物理引擎”、“Sora建立在DiT模型之上、參數可能僅30億”等等。

所以，Sora為啥能如此驚豔？它對視頻生成領域的意義是？這不，很快就有了一些可能的答案。

視頻生成的GPT-3時刻

總的來說，Sora是一個在不同時長、分辨率和寬高比的視頻及圖像上訓練而成的擴散模型，同時采用了Transformer架構，也就是一種“擴散型Transformer”。

關於技術細節，官方報告簡單提了以下6點：

一是視覺數據的“創新轉化”。

與大語言模型中的token不同，Sora采用的是“Patches（補片）”來統一不同的視覺數據表現形式。

如下圖所示，在具體操作中，模型先將視頻壓縮到低維潛空間中，然後將它們表示分解為時空補片，從而將視頻轉換為補片。（啊這，說了又仿佛什麽都沒說）

二是訓練了一個視頻壓縮網絡。

它可以降低視覺數據維度，輸入視頻，輸出時空上壓縮的潛表示。

Sora就在這上麵完成訓練。相應地，OpenAI也訓練了一個專門的解碼器。

三是時空補片技術（Spacetime latent patches）。

給定一個壓縮的輸入視頻，模型提取一係列時空補片，充當Transformer的token。正是這個基於補片的表示讓Sora能夠對不同分辨率、持續時間和長寬比的視頻和圖像進行訓練。

在推理時，模型則通過在適當大小的網格中排列隨機初始化的補片來控製生成視頻的大小。

四是擴展Transformer也適用於視頻生成的發現。

OpenAI在這項研究中發現，擴散型Transformer同樣能在視頻模型領域中完成高效擴展。

下圖展示出隨著訓練資源的增加，樣本質量明顯提升（固定種子和輸入條件）。

五是視頻多樣化上的一些揭秘。

和其他模型相比，Sora能夠hold住各種尺寸的視頻，包括不同分辨率、時長、寬高比等等。

也在構圖和布局上優化了更多，如下圖所示，很多業內同類型模型都會盲目裁剪輸出視頻為正方形，造成主題元素隻能部分展示，但Sora可以捕捉完整的場景：

報告指出，這都要歸功於OpenAI直接在視頻數據的原始尺寸上進行了訓練。

最後，是語言理解方麵上的功夫。

在此，OpenAI采用了DALL·E 3中引入的一種重新標注技術，將其應用於視頻。

除了使用描述性強的視頻說明進行訓練，OpenAI也用GPT來將用戶簡短的提示轉換為更長的詳細說明，然後發送給Sora。

這一係列使得Sora的文字理解能力也相當給力。

關於技術的介紹報告隻提了這麽多，剩下的大篇幅都是圍繞Sora的一係列效果展示，包括文轉視頻、視頻轉視頻，以及圖片生成。

可以看到，諸如其中的“patch”到底是怎麽設計的等核心問題，文中並沒有詳細講解。

有網友吐槽，OpenAI果然還是這麽地“Close”（狗頭）。

正是如此，各路大佬和網友們的猜測也是五花八門。

謝賽寧分析：

1、Sora應該是建立在DiT這個擴散Transformer之上的。

簡而言之，DiT是一個帶有Transformer主幹的擴散模型，它= [VAE 編碼器 + ViT + DDPM + VAE 解碼器]。

謝賽寧猜測，在這上麵，Sora應該沒有整太多花哨的額外東西。

2、關於視頻壓縮網絡，Sora可能采用的就是VAE架構，區別就是經過原始視頻數據訓練。

而由於VAE是一個ConvNet，所以DiT從技術上來說是一個混合模型。

3、Sora可能有大約30億個參數。

謝賽寧認為這個推測不算不合理，因Sora可能還真並不需要人們想象中的那麽多GPU來訓練，如果真是如此，Sora的後期迭代也將會非常快。

英偉達AI科學家Jim Fan則認為：

Sora應該是一個數據驅動的物理引擎。

Sora是對現實或幻想世界的模擬，它通過一些去噪、梯度下降去學習複雜渲染、“直覺”物理、長鏡頭推理和語義基礎等。

比如這個效果中，提示詞是兩艘海盜船在一杯咖啡裏航行廝殺的逼真特寫視頻。

Jim Fan分析，Sora首先要提供兩個3D資產：不同裝飾的海盜船；必須在潛在空間中解決text-to-3D的隱式問題；並且要兩艘船避開彼此的路線，兼顧咖啡液體的流體力學、保持真實感、帶來仿佛光追般的效果。

有一些觀點認為，Sora隻是在2D層麵上控製像素。Jim Fan明確反對這種說法。他覺得這就像說GPT-4不懂編碼，隻是對字符串進行采樣。

不過他也表示，Sora還無法取代遊戲引擎開發者，因為它對於物理的理解還遠遠不夠，仍然存在非常嚴重的“幻覺”。

所以他提出Sora是視頻生成的GPT-3時刻。

回到2020年，GPT-3不是一個很完美的模型，但是它有力證明了上下文學習的重要性。所以不要糾結於GPT-3的缺陷，多想想後麵的GPT-4。

除此之外，還有膽大的網友甚至懷疑Sora用上了虛幻引擎5來創建部分訓練數據。

他甚至挨個舉例分析了好幾個視頻中的效果以此佐證猜想：

不過反駁他的人也不少，理由包括“人走路的鏡頭明顯還是奇怪，不可能是引擎的效果”、“YouTube上有數十億小時的各種視頻，ue5的用處不大吧”……

如此種種，暫且不論。

最後，有網友表示，盡管不對OpenAI放出更多細節抱有期待，但還是很想知道Sora在視頻編碼、解碼，時間插值的額外模塊等方麵是不是有創新。

OpenAI估值達800億美元

在Sora引發全球關注的同時，OpenAI的估值也再次拉高，成為全球第三高估值的科技初創公司。

隨著最新一要約收購完成，OpenAI的估值正式達到800億美元，僅次於字節跳動和SpaceX。

這筆交易由風投公司Thrive Capital牽頭，外部投資者可以從一些員工手中購買股份，去年年初時OpenAI就完成過類似交易，使其當時的估值達到290億美元。

而在Sora發布後，GPT-4 Turbo也大幅降低速率限製，提高TPM（每分鍾最大token數量），較上一次實現2倍提升。

總裁Brockman還親自帶貨宣傳。

但與此同時，

OpenAI申請注冊“GPT”商標失敗了。

理由是“GPT”太通用。

One More Thing

值得一提的是，有眼尖的網友發現，昨天Stability AI也發布了SVD 1.1。

但似乎在Sora發布不久後火速刪博。

有人銳評，這不是翻版汪峰麽？不應該刪，應該返蹭個熱度。

這還玩個p啊。

還有人感慨，Sora一來，立馬就明白張楠為啥要聚焦剪映了。

以及賣課大軍也聞風而動，把商機拿捏死死的（doge）。