老京博客

防止被刪貼，找個地方掛一下

首頁文章列表博文目錄

個人資料

京男 (熱門博主)

給我悄悄話

博客訪問：

我是這樣看人工智能生成圖像的

(2024-02-26 05:57:59) 下一個

幾個星期以前， OpenAI 公布了 Sora, 網上給出了美倫美奐的生成例子，一時間，互聯網上齊聲歡呼。

論壇裏有些外行，比如偉哥，認為萬物皆可生成的時代已經到來了。

穀歌為了表示不落後，馬上公布自己的人工智能也能生成圖像，結果網上測試，生成的馬斯克是個黑人，生成的教父是個黑人，生成的所有人是黑人...

我的感覺， Sora網上隻是顯示了一種可能，就是AI能理解人們的語言表述，用自己的Video數據庫裏已有的Video碎片合成新的錄像。其實穀歌也是表示自己也能做同樣的事。

區別是， Sora隻是有例子，並沒開放讓大家生成自己想要的Video

穀歌那個傻大個，為了不落後，直接讓客戶生成。

大家知道，生成的錄像，不是天馬行空地用模型造出來的，而是用理解你的語言要求，把學習到的錄像碎片組合到一起，生成的錄像。

那麽， Sora生成的例子，也許隻要庫裏學習過東京街頭的片段，就可以生成很高質量的東京街頭錄像。學習過某種鳥，就可以生成同等質量的那種鳥的錄像。人們所顯示的，其實是能理解你的要求。

如果讓Sora隻學習了王家衛的繁花，讓它生成上海90年代的黃河路，那麽大概率的生成的錄像是王家衛的風格，而不是聰明的一休的風格。

如果錄像庫裏沒有足夠的你要求的錄像，那麽就生成不出來。好比穀歌的用的庫都是用黑人的錄像學習的，生成才會出現黑人馬斯克。但是不能說明穀歌的理解語言，生成錄像的技術，就一定比Sora差。也許隻能說明，它理解的馬斯克，它的知識範圍裏，在Video庫裏找到的最相近的，是個黑人模型。如果學習用的照片是家坦的，沒準生成的人物裏就會出現無主席，天仙。。

大家知道，文字信息到聲音信息，存儲量差別是幾何數量級的，而聲音到圖形在到Video，每一級的存儲量差別都是幾何級別的。

Chat GPT學習了多少億語言模型，才真正能生成語言。

那麽Sora要搜索多少億Video，才能生成任意要求的錄像。生成的質量，完全取決於誰所擁有的錄像庫更大，誰的算力更高，誰的存儲空間能大。

人工智能生成錄像，還有很長路要走， Sora隻是指明路是有可能可行的。

續：

加個有意思的鏈接

https://www.pingwest.com/a/234018

當然文章裏有不少牛皮，但是

文章裏的餘凱，在德國時候，住我的房子裏住了2年，我們沒少交流對深度學習的看法。

文章裏的這個照片，黑板上畫的，正好是老京不幹那行以後發展的狀態，所以老京一看就明白，估計偉哥說不出個所以然。