
美國當地時間周三,穀歌正式推出新一代AI視頻生成模型Veo 3.1,通過一係列創意與技術升級,顯著提升了AI視頻的敘事控製能力、音頻融合度與畫麵真實感。
此次更新不僅為使用穀歌AI創作應用Flow的愛好者和創作者拓展了可能性,更為企業用戶、開發團隊和創意機構帶來了可擴展、可定製的視頻解決方案。
新模型在畫質、物理模擬效果上均有明顯提升,同時保持了與前代一致的定價體係。控製與編輯功能更加豐富多樣,操作體驗更為流暢。
與OpenAI上月發布的Sora 2相比,Veo 3.1的畫麵風格更偏向電影質感,視覺效果更加精致,但同時也稍顯“人工化”。這種差異各具特色:Sora 2擅長營造手持拍攝的"自然抓拍"風格,而Veo 3.1則更適合追求精雕細琢的視覺呈現效果。
敘事與音頻控製能力升級
Veo 3.1在前代基礎上,增強了對對話、環境音效及其他音頻元素的處理能力。值得關注的是,原生音頻生成現已全麵集成到Flow平台的三大核心功能中:
●“幀轉視頻”:將靜態圖像轉化為動態場景
●“素材轉視頻”:整合多張圖像中的元素,創作複合視頻
●“延伸視頻”:基於已有片段持續生成,將初始視頻延伸至30秒甚至1分鍾以上
這些功能此前需要用戶手動添加音頻,現在則實現了音畫同步生成。這不僅讓用戶能更好地掌控作品的情感基調和敘事節奏,也省去了後期製作的繁瑣步驟。
對企業用戶而言,這種集成化的音視頻處理方式,使得製作培訓材料、營銷視頻等專業內容更加高效,顯著降低了製作門檻。
多模態輸入架構支撐精細編輯
Veo 3.1支持文本、圖像、視頻片段等多種輸入形式,並在輸出控製上更加精細。新引入的功能包括:
●最多支持3張參考圖像,精準把控輸出內容的視覺風格
●首尾幀插值技術,實現不同場景間的自然無縫過渡
●場景延伸功能,突破單次生成時長限製,智能延續原有視頻的動作與運鏡邏輯
這些工具讓企業用戶能夠精細調整內容的外觀質感,確保符合品牌規範或創意要求。
此外,“插入對象”和“移除元素”等編輯功能也同步推出,不過部分功能尚未完全開放給Gemini API用戶。
全平台部署策略滿足多元需求
Veo 3.1通過以下渠道提供服務:
Flow:麵向普通用戶的AI輔助視頻創作平台
Gemini API:為開發者提供視頻能力集成方案
Vertex AI:即將支持"場景延伸"等企業級功能
透明定價,成本可控
目前Veo 3.1處於預覽階段,僅麵向Gemini API付費用戶開放。計費標準延續前代:
●標準版:每秒視頻0.40美元
●Fast版:每秒視頻0.15美元
采用按需計費模式,僅對成功生成的視頻收費,無免費額度。這種透明的定價策略便於企業團隊進行預算管理。
專業級輸出規格拓寬應用場景
Veo 3.1支持720p與1080p分辨率輸出,幀速率穩定在24幀/秒。基礎視頻生成長度提供4秒、6秒或8秒選項,通過延伸功能最長可達148秒的連續片段。
特別值得一提的是,企業用戶上傳產品圖片或風格參考後,模型能夠準確保持這些視覺元素的一致性,這一特性對零售、廣告等行業的內容標準化生產極具價值。
早期用戶反饋:還有改進空間
業界對Veo 3.1的評價呈現兩極分化。
Otherside AI創始人Matt Shumer坦言“有些失望”,認為其“效果明顯遜於Sora 2,價格卻高出不少”。但他也承認,穀歌在參考圖像支持和場景延伸等工具鏈方麵的優勢值得肯定。

3D數字藝術家Travis Davids指出,雖然音頻質量確有提升,但模型仍存在明顯局限:“缺乏自定義語音選項,無法直接選擇生成語音,基礎生成時長仍卡在8秒上限。”他還提到,在多角度拍攝中保持角色一致性仍需精細的提示詞設計,而Flow Pro付費用戶仍無法直接獲取1080p輸出也令人不解。
不過,AI領域創作者@kimmonismus則給予了“Veo 3.1令人驚豔”的評價,盡管他也認為OpenAI的最新模型在整體體驗上仍略勝一籌。

這些早期反饋表明,盡管Veo 3.1在工具完善度和創作控製上取得了進步,但隨著競爭對手不斷抬高行業標準,用戶對真實性、語音控製和生成長度等方麵的期待也水漲船高。

穀歌Veo 3今年在I/O開發者大會亮相後迅速贏得口碑,成為首個實現原生AI同步音頻生成的視頻模型。 然而,OpenAI Sora的強勢崛起改變了競爭態勢。
隨著兩大科技巨頭在AI視頻領域持續加碼,這場關乎技術創新、創作生態與知識產權保護的複雜博弈正進入全新階段。