現在是2點22分，跟朋友們打完LOL手遊，準備倒頭就睡。

臨睡前，刷了一眼X。

然後，特麽的，看到了一個消息，能給我震驚成傻逼的消息：

OpenAI，發他們的文生視頻大模型，Sora了。。。。。

而且，是強到，能震驚我一萬年的程度。。。

https://openai.com/sora

如果非要用三個詞來總結Sora，那就是“60s超長長度”、“超強語義理解”和“世界模型”

我先放3個例子，再具體去說。

00:00

/

00:09

00:00

/

00:00

00:00

/

00:00

我的腦海中，突然冒出了《三體》中楊冬的一句話：

“物理學，不存在了”

套用這句話。

那就是。

“現實，不存在了”

文本、圖片都已經被AI攻占，而現在，AI視頻，這個人類最後的最堅固的堡壘，在OpenAI的Sora攻勢下，也已經很難再分清，AI和現實的界限了。

什麽以前的AI視頻工作流，全部成了往日泡影，全都滾犢子吧。

都TM跪下，都給OpenAI喊爸爸。

說回那三個最核心的特點：

“60s超長長度”、“單視頻多角度鏡頭”，還有那個最核心的，“世界模型”

一. 60s超長長度

在一眾AI視頻，還掙紮在4s連貫性的邊緣，OpenAI，直接說：

勞資支持，60s，都TM跪下。

就，太特麽嚇人了...

看這個case。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

提示：一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，塗著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡麵效果。許多行人走來走去。

00:00

/

00:00

60s，一鏡到底，而且不止主人物穩定，連特麽背景裏麵的人物，都穩定的難以置信。從大中景無縫切換到臉部特寫。

這不是我對於AI視頻這個淺薄的理解能解釋的了的。

我完全不知道是如何能實現出來的，官網的解釋是：

等他們的技術文檔。

二. 單視頻多角度鏡頭

現在的AI工作流，都是單鏡頭單生成，一個視頻裏麵，有多角度的鏡頭，主體還能保證完美的一致性，這在以前，是無法想象的...

但是OpenAI直接一句Prompt，在一分鍾的鏡頭裏，實現了多角度的鏡頭切換...而且...物體一致...

Prompt: A beautiful silhouette animation shows a wolf howling at the moon, feeling lonely, until it finds its pack.

提示：一個美麗的剪影動畫展示了一隻狼對著月亮嚎叫，感到孤獨，直到它找到狼群。

太特麽嚇人了，一隻狼對著月亮嚎叫，感到孤獨，直到它找到狼群。

孤獨。

這個詞，在這個視頻裏，被描述的淋漓盡致。

而且，多鏡頭，無縫切換，而且每一個分鏡，都用的極其講究。。。

這就像其他家AI視頻，還在冷兵器作戰，刀劍相拚，這玩意直接把超電磁炮掏出來了。。。然後一炮直接轟在大家大腦門上了。。。

三. 世界模型

我之前寫過一篇文章，聊過一些關於世界模型的話題。

在我的理解裏，世界模型最難的，是收集、清洗數據。

Runway的世界模型，毫無動靜。

但是OpenAI的Sora，直接來了一波大的。

前麵的視頻case，其實已經能看出Sora，已經能懂物理規律了。

比如這個Case：

Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

提示：一隻貓叫醒熟睡的主人，要求吃早餐。主人試圖忽視這隻貓，但貓嚐試了新的策略，最後主人從枕頭下拿出秘密藏匿的零食，讓貓再呆一會兒。

00:00

/

00:00

這個視頻最離譜的在於...

貓在AI裏...能踩奶了........這..........養貓的人，都一定深有感觸。。。

還有一個開車的case，吊打全世界所有AI視頻：

Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

提示：鏡頭跟隨一輛帶有黑色車頂行李架的白色老式SUV，它在陡峭的山坡上一條被鬆樹環繞的陡峭土路上加速行駛，輪胎揚起灰塵，陽光照在SUV上飛馳。土路，給整個場景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠方，看不到其他汽車或車輛。道路兩旁都是紅杉樹，零星散落著一片片綠意。從後麵看，這輛車輕鬆地沿著曲線行駛，看起來就像是在崎嶇的地形上行駛。土路周圍是陡峭的丘陵和山脈，上麵是清澈的藍天和縷縷雲彩。

00:00

/

00:00

最後一個我也覺得很離譜的case：

Prompt: A Chinese Lunar New Year celebration video with Chinese Dragon.

提示：與中國龍一起慶祝中國農曆新年的視頻。

這個真實的物理感覺，真的...我很希望他們是...過擬合了....

因為之前跟某些大佬們聊，得到的信息是：

"人經曆過千萬年的進化，對於世界的常識，是藏在基因裏的，會自動把一些冗餘的信息以極快的速度，一步一步剔除直到隻剩到最關鍵的信息，然後做做一些思考推斷。但是機器沒有，機器現在不懂抽象，所以需要人去做類似人類抽象化過程的學習算法，來抽離關鍵信息，收集視頻數據。"

收集數據，是最難的。

而OpenAI，可能...解決了。。。

雖然他們表示，他們的世界模型，還有很多弊端...

但是...

寫在最後

一年的時間，OpenAI炸出來一個王炸。

一丁點消息不放，一丁點預熱沒有，直接王炸。

而且最騷的是，他們宣布，即將在今天晚些時候，更新技術論文：

一夜未眠，我在各大群裏，看到的最多的幾句話是：

“這怎麽辦啊...”

“都死吧”

“這個行業要完蛋了...”

不僅僅是AI視頻行業...還有很多傳統的影視公司...

比如虛擬拍攝、比如特效、比如廣告....

一將功成，萬骨枯。

我找不到更好的形容詞了。

就這樣吧，照這個AI發展速度，AGI應該很快了。

希望，這不是人類的落日。

切換到網頁版

OpenAI全新發布文生視頻模型Sora，現實不存在了

數字生命卡茲克 2024-02-15 22:53:44