幾個星期以前, OpenAI 公布了 Sora, 網上給出了美倫美奐的生成例子, 一時間, 互聯網上齊聲歡呼。
論壇裏有些外行,比如偉哥, 認為萬物皆可生成的時代已經到來了。
穀歌為了表示不落後, 馬上公布自己的人工智能也能生成圖像, 結果網上測試, 生成的馬斯克是個黑人, 生成的教父是個黑人, 生成的所有人是黑人...
我的感覺, Sora網上隻是顯示了一種可能, 就是AI能理解人們的語言表述, 用自己的Video數據庫裏已有的Video碎片合成新的錄像。 其實穀歌也是表示自己也能做同樣的事。
區別是, Sora隻是有例子, 並沒開放讓大家生成自己想要的Video
穀歌那個傻大個, 為了不落後, 直接讓客戶生成。
大家知道, 生成的錄像, 不是天馬行空地用模型造出來的, 而是用理解你的語言要求,把學習到的錄像碎片組合到一起, 生成的錄像。
那麽, Sora生成的例子, 也許隻要庫裏學習過東京街頭的片段, 就可以生成很高質量的東京街頭錄像。 學習過某種鳥, 就可以生成同等質量的那種鳥的錄像。 人們所顯示的,其實是能理解你的要求。
如果讓Sora隻學習了王家衛的繁花, 讓它生成上海90年代的黃河路, 那麽大概率的生成的錄像是王家衛的風格, 而不是聰明的一休的風格。
如果錄像庫裏沒有足夠的你要求的錄像, 那麽就生成不出來。 好比穀歌的用的庫都是用黑人的錄像學習的, 生成才會出現黑人馬斯克。 但是不能說明穀歌的理解語言, 生成錄像的技術, 就一定比Sora差。也許隻能說明, 它理解的馬斯克, 它的知識範圍裏,在Video庫裏找到的最相近的, 是個黑人模型。如果學習用的照片是家坦的, 沒準生成的人物裏就會出現無主席,天仙。。
大家知道,文字信息到聲音信息, 存儲量差別是幾何數量級的, 而聲音到圖形在到Video, 每一級的存儲量差別都是幾何級別的。
Chat GPT學習了多少億語言模型, 才真正能生成語言。
那麽Sora要搜索多少億Video, 才能生成任意要求的錄像。生成的質量,完全取決於誰所擁有的錄像庫更大, 誰的算力更高, 誰的存儲空間能大。
人工智能生成錄像, 還有很長路要走, Sora隻是指明路是有可能可行的。
續:
加個有意思的鏈接
https://www.pingwest.com/a/234018
當然文章裏有不少牛皮, 但是
文章裏的餘凱, 在德國時候, 住我的房子裏住了2年, 我們沒少交流對深度學習的看法。
文章裏的這個照片, 黑板上畫的, 正好是老京不幹那行以後發展的狀態, 所以老京一看就明白, 估計偉哥說不出個所以然。