美國當地時間周三，穀歌正式推出新一代AI視頻生成模型Veo 3.1，通過一係列創意與技術升級，顯著提升了AI視頻的敘事控製能力、音頻融合度與畫麵真實感。

此次更新不僅為使用穀歌AI創作應用Flow的愛好者和創作者拓展了可能性，更為企業用戶、開發團隊和創意機構帶來了可擴展、可定製的視頻解決方案。

新模型在畫質、物理模擬效果上均有明顯提升，同時保持了與前代一致的定價體係。控製與編輯功能更加豐富多樣，操作體驗更為流暢。

與OpenAI上月發布的Sora 2相比，Veo 3.1的畫麵風格更偏向電影質感，視覺效果更加精致，但同時也稍顯“人工化”。這種差異各具特色：Sora 2擅長營造手持拍攝的"自然抓拍"風格，而Veo 3.1則更適合追求精雕細琢的視覺呈現效果。

敘事與音頻控製能力升級

Veo 3.1在前代基礎上，增強了對對話、環境音效及其他音頻元素的處理能力。值得關注的是，原生音頻生成現已全麵集成到Flow平台的三大核心功能中：

●“幀轉視頻”：將靜態圖像轉化為動態場景

●“素材轉視頻”：整合多張圖像中的元素，創作複合視頻

●“延伸視頻”：基於已有片段持續生成，將初始視頻延伸至30秒甚至1分鍾以上

這些功能此前需要用戶手動添加音頻，現在則實現了音畫同步生成。這不僅讓用戶能更好地掌控作品的情感基調和敘事節奏，也省去了後期製作的繁瑣步驟。

對企業用戶而言，這種集成化的音視頻處理方式，使得製作培訓材料、營銷視頻等專業內容更加高效，顯著降低了製作門檻。

多模態輸入架構支撐精細編輯

Veo 3.1支持文本、圖像、視頻片段等多種輸入形式，並在輸出控製上更加精細。新引入的功能包括：

●最多支持3張參考圖像，精準把控輸出內容的視覺風格

●首尾幀插值技術，實現不同場景間的自然無縫過渡

●場景延伸功能，突破單次生成時長限製，智能延續原有視頻的動作與運鏡邏輯

這些工具讓企業用戶能夠精細調整內容的外觀質感，確保符合品牌規範或創意要求。

此外，“插入對象”和“移除元素”等編輯功能也同步推出，不過部分功能尚未完全開放給Gemini API用戶。

全平台部署策略滿足多元需求

Veo 3.1通過以下渠道提供服務：

Flow：麵向普通用戶的AI輔助視頻創作平台

Gemini API：為開發者提供視頻能力集成方案

Vertex AI：即將支持"場景延伸"等企業級功能

透明定價，成本可控

目前Veo 3.1處於預覽階段，僅麵向Gemini API付費用戶開放。計費標準延續前代：

●標準版：每秒視頻0.40美元

●Fast版：每秒視頻0.15美元

采用按需計費模式，僅對成功生成的視頻收費，無免費額度。這種透明的定價策略便於企業團隊進行預算管理。

專業級輸出規格拓寬應用場景

Veo 3.1支持720p與1080p分辨率輸出，幀速率穩定在24幀/秒。基礎視頻生成長度提供4秒、6秒或8秒選項，通過延伸功能最長可達148秒的連續片段。

特別值得一提的是，企業用戶上傳產品圖片或風格參考後，模型能夠準確保持這些視覺元素的一致性，這一特性對零售、廣告等行業的內容標準化生產極具價值。

早期用戶反饋：還有改進空間

業界對Veo 3.1的評價呈現兩極分化。

Otherside AI創始人Matt Shumer坦言“有些失望”，認為其“效果明顯遜於Sora 2，價格卻高出不少”。但他也承認，穀歌在參考圖像支持和場景延伸等工具鏈方麵的優勢值得肯定。

3D數字藝術家Travis Davids指出，雖然音頻質量確有提升，但模型仍存在明顯局限：“缺乏自定義語音選項，無法直接選擇生成語音，基礎生成時長仍卡在8秒上限。”他還提到，在多角度拍攝中保持角色一致性仍需精細的提示詞設計，而Flow Pro付費用戶仍無法直接獲取1080p輸出也令人不解。

不過，AI領域創作者@kimmonismus則給予了“Veo 3.1令人驚豔”的評價，盡管他也認為OpenAI的最新模型在整體體驗上仍略勝一籌。