OpenAI首席執行官奧特曼(Sam Altman)上周四(2月15日)在X上宣布了最新的生成人工智能產品索拉(Sora),立即引起了世界科技界的轟動。因為Sora可以通過文本提示生成長達一分鍾的逼真視頻。也就是說,隻要我們輸入一些文字提示/要求,Sora即可生成最長達一分鍾、質量幾可亂真的視頻錄像。在OpenAI網站上提供的樣本中,一位青年亞裔女性在日本東京逛街視頻。她身穿紅色長裙和黑色皮夾克,鮮豔口紅和白皙的臉龐上架著一副黑色太陽鏡,緩慢優雅地走在暖色霓虹燈和各種閃爍的城市標誌的街道上,妥妥一位都市時尚女士(下圖1 OpenAI)。燈光和廣告照射到潮濕的街道路麵,仿如鏡麵反映。背景中不同方向前行的行人,真的極其逼真。這段人工生成的短視頻的高光時刻在視頻的後段,當鏡頭對準這位女士的麵部時刻。但見這位女子麵部的毛孔清晰可見,她臉上的雀斑和痘痘也曆曆在目(下圖2 OpenAI)。真可謂遠看花枝招展,近看隻想躲閃。別介,咱逗你樂滴。客觀地講,這樣的視頻效果,質量令人歎為觀止。
OpenAI說,Sora正在教授人工智能理解和模擬運動中的物理世界,目的是訓練模型,幫助人們解決需要現實世界互動的問題。在保持視覺質量並遵守用戶提示的同時,Sora能夠生成具有多個角色、特定運動類型以及主題和背景的準確細節的複雜場景。對於用戶在提示中的要求,Sora不僅需要理解而且還了解這些東西在物理世界中是如何存在的。於是,就有了視頻中令人信服的人物,表達充滿活力的環境。Sora的出現,意味著一些視覺藝術家、設計師和電影/電視製作人和創意專業人員的工作(現在是廣告),可以被機器,或曰人工智能所取代。它意味著生產率的飛躍提升 – 以極低的成本非常快地製作出幾可亂真的廣告視頻。除那位時尚女士外,OpenAI還發布了用Sora模型生成的幾段AI視頻,包括“淘金熱期間加利福尼亞州的曆史鏡頭”等(下圖 OpenAI)。它們的質量都非常逼真。當然,Sora並非無所不能。實際上,Sora作為一個開發中的模型存在著很多需要訓練的地方。現在的Sora,即使有提示,仍難以描繪複雜場景的演進以及事物的因果關係。如當一個人咬吃一口蘋果或餅幹時,蘋果或餅幹形狀會保持不變,既沒失去被咬走的那一塊,也無留下咬痕。即便如此,Sora的能力的確令人印象深刻,不失為實現通用人工智能AGI(artificial general intelligence)的一個重要裏程碑。
在讚歎Sora所代表的人工智能技術給人類生活帶來便利的同時,更多的人注意到伴隨AI進步的負麵作用。
對Sora的擔憂
如前所述,現在最可能受到Sora影響的便是與電影/電視/視頻廣告有關的從業人員, 如視覺藝術家、設計師、電影/電視製作人、創意專業人員和演員。據說,2023年好萊塢演員的罷工,在一定程度上是出於對人工智能可能取代演員和作家的擔憂。由於讓任何人,甚至是那些沒有藝術能力的人,都更容易創建視覺內容,Sora可以讓用戶開發並選擇自己風格的媒體。也即像“網飛”這樣的大公司,可以讓最終用戶根據提示開發自己的內容。我要是影視廣告從業人員,也會有就業安全之虞。
不僅如此,Sora這款開創性的生成人工智能工具,可能會加速深度偽造視頻的擴散,並對幾乎所有行業產生影響。索拉將使惡意行為者更容易生成高質量的視頻深度偽造,並使他們更靈活地創建可能用於攻擊目的的視頻。這將大大增加依賴視頻認證安全措施的銀行暴露的風險,銀行消費者會有潛在威脅。有專家告訴ABC新聞,Sora還可能加劇互聯網上的錯誤信息,加強政府宣傳,模糊網絡上真實和虛假內容之間本已混淆的界限。與此同時,人工智能生成的視頻可能會強化從基礎培訓材料中提取的仇恨或偏見觀點。西北大學研究人工智能的計算機科學教授哈蒙德(Kristian Hammond)告訴美國廣播公司新聞:“我們認為錄製的照片和視頻所揭示的真相已經不複存在了。” 1月底,流行歌星斯威夫特(Talor Swift)的虛假的人工智能圖片在社交媒體上瘋傳,獲得了數百萬次瀏覽(下圖 YouTube)。上個月,一個模仿拜登總統聲音的假機器語音阻止了個人在新罕布什爾州初選中投票。
此外,機器學習消耗大量能量。訓練像GPT-3這樣的大型語言模型,估計需要近1300兆瓦時(MWh)的電力,約相當於130個美國家庭每年消耗的電力。圖像生成模型的數字明顯更大,使用人工智能生成一張圖像所需的能量幾乎與為智能手機充滿電所需的電量一樣多。到2027年,人工智能部門每年可能消耗85至134太瓦(terawatt hours)時。這與荷蘭的年度能源需求大致相同,占全球耗電量的0.5%。考慮到一家公司會持續拋出更大的模型和更多的數據,人們會相應地不斷添加更多的計算資源,以使模型或硬件變得更有效率。這樣周而複始地形成循環,使公司不斷增購GPU芯片,用戶要麽租用公司算力,要麽自己增添算力,一直就這麽道高一尺,魔高一丈地耗下去,成本也會持續增加。
據估計ChatGPT需要大約20000個(GPU)單位來處理訓練數據。然而,隨著OpenAI商業部署ChatGPT和Generative Pre-Trained Transformer(GPT)模型的發布,所需GPU數量將超過30000個。英偉達的A100單元價格在10000美元到15000美元之間,OpenAI運行Sora的成本將至少翻倍。最終,這些成本將分攤到用戶身上。還好,Sora尚未商業運營。否則,咱窮人是用不起滴。說句題外的話,這30000個以上的A100也就能生成1分鍾的視頻,生成45分鍾的一節電視劇要花多少錢?更長的電影呢?更長的電視連續劇呢?顯然,OpenAI甚至風投公司都難以滿足如此天量的資金。難怪OpenAI首席執行官奧特曼四處化緣,籌措7萬億美元(7後麵加12個0!)來建立/重塑芯片/AI產業。不過,人黃仁勳的英偉達(NVIDIA)可是高興地呢(下圖 NVIDIA)。
2月13日和14日,英偉達分別超過Meta和Alphabet,以1.8萬億美元的市值位居第三。英偉達正受益於人工智能競賽,控製著約80%的高端人工智能芯片市場。該公司的交易收益約為預期收益的34倍,調整後的淨利潤飆升400%,達到113.8億美元。英偉達也在構建自己的人工智能生態係統。2023年,它投資了14家人工智能公司,並通過其Inception人工智能計劃跟蹤8500多家人工智能初創公司。這些初創公司來自90個國家,已籌集了600多億美元。對英偉達來說,人工智能初創公司是多多益善啊 – 它們都得買英偉達的GPU啊。
不過無論我們喜歡與否,人工智能的時代正在來臨。
參考資料
Henshall, W. (2024). What to Know About OpenAI’s New AI Video Generator Sora. TIME. 鏈接 https://time.com/6695938/sora-openai-video-generator-ai/
OpenAI. (2024). Creating video from text. 鏈接 https://openai.com/sora
Vicent, J. (2024). How much electricity does AI consume? The Verge. 鏈接 https://www.theverge.com/24066646/ai-electricity-energy-watts-generative-consumption
Zahan, M. (2024). OpenAI video-generator Sora risks fueling propaganda and bias, experts say. abcNEWS. 鏈接 https://abcnews.go.com/Business/openai-video-generator-sora-risks-fueling-propaganda-bias/story?id=107289935 gh