5月7日消息,美國當地時間周二,穀歌DeepMind人工智能研究團隊發布了Gemini 2.5 Pro “I/O” ,這是今年3月發布的多模態大語言模型Gemini 2.5 Pro的升級版本。
DeepMind CEO德米斯·哈薩比斯表示,這是“我們有史以來構建的最強編程模型!”
從穀歌公布的初步基準測試結果來看,哈薩比斯並非誇大其詞。自從2022年底ChatGPT引爆生成式AI熱潮以來,穀歌首次在關鍵的代碼生成評估指標上全麵領先,超越所有競爭對手。
最強編程模型上線
新版本的模型編號為 “gemini-2.5-pro-preview-05-06”,取代了此前的03-25版本。
目前,該模型已向Google AI Studio的獨立開發者、Vertex AI雲平台的企業用戶以及Gemini應用的普通用戶開放。穀歌在博客中指出,該模型還為Gemini移動應用中的Canvas等功能提供支持。
Gemini 2.5 Pro I/O已廣泛用於諸如Gemini 95等開發場景。例如,模型能夠自動匹配用戶界麵組件的視覺風格。此外,它還支持一係列高效開發工作流,包括將YouTube視頻快速轉換為互動學習應用,或創建響應式視頻播放器、帶動畫的語音轉寫界麵等複雜組件,幾乎無需手動編寫CSS。
作為一款專有模型,企業用戶需通過穀歌的雲服務平台付費使用。不過,穀歌並未調整定價或速率限製:目前使用Gemini 2.5 Pro的用戶將自動切換至新模型,價格仍為每百萬輸入token收費1.25美元,每百萬輸出token收費10美元,最多支持20萬token的上下文窗口。
相比之下,Anthropic的Claude 3.7 Sonnet定價為每百萬輸入token收費3美元,每百萬輸出token收費15美元。
Gemini API與Google AI Studio的高級產品經理洛根·基爾帕特裏克(Logan Kilpatrick)在開發者博客中確認,此次更新重點提升了函數調用的準確率與觸發可靠性,有效解決了此前開發者普遍反饋的問題。
單條文本提示即可生成完整應用
穀歌此次更新的一大亮點在於,隻需通過一條提示即可構建完整、可交互的網頁應用或模擬程序,這正契合了DeepMind希望簡化原型設計與開發流程的願景。
穀歌表示,用戶可以輸入視覺模式或主題性提示,直接轉化為可運行的代碼,這顯著降低了設計導向型開發者或創新團隊的入門門檻。
雖然穀歌尚未公開新版Gemini 2.5 Pro的底層架構及技術細節,但從實際應用效果來看,其核心目標仍是提供更加高效、直觀的開發體驗。
憑借其在代碼生成與多模態輸入方麵的優勢,Gemini 2.5 Pro不再僅是技術實驗室中的“研究模型”,而是正在成為應對真實開發挑戰的實用工具。此次提前發布也表明,DeepMind有意借此響應市場需求,在 I/O大會前持續保持技術領先勢頭。
在人類評審的網頁應用生成任務中登頂
在第三方平台WebDev Arena的排行榜中,Gemini 2.5 Pro Preview(05-06)在生成美觀且實用的網頁應用方麵獲得了人類評審的最高分,超越Anthropic的Claude 3.7 Sonnet,登頂榜首。
穀歌新模型得分為1499.95,遠高於Sonnet 3.7的1377.10。此前版本的Gemini 2.5 Pro(03-25)位列第三,得分為1278.96,這意味著 I/O 版實現了221分的大幅躍升。
正如AI資深用戶 “Lisan al Gaib” 在社交平台上指出的那樣,即便是OpenAI最近推出的GPT-4o(“o3”)都未能擊敗Sonnet 3.7,可見Gemini 2.5 Pro I/O所取得的重大突破。
Gemini的性能提升主要反映在生成內容的可靠性、美觀性與實用性等方麵。
獲得開發者廣泛好評
多個知名開發者與平台負責人已對Gemini 2.5 Pro Preview(05-06在實際生產環境中的表現給予高度評價。
Hyperbolic聯合創始人兼CTO Yuchen Jin寫道:“Gemini 2.5 Pro Preview(05-06)現已成為我的首選編程模型。在多個高難度提示詞測試中,它已超越o3(GPT-4o)和Claude 3.7 Sonnet。以編寫模擬水桶來回晃動的水體效果這個提示為例,其表現完全碾壓另外兩個模型。穀歌,這完全夠格稱為Gemini 3了!”
AI初創公司Cognition聯合創始人塞拉斯·阿爾貝蒂表示,Gemini 2.5 Pro是首個成功完成複雜後端路由係統重構的AI模型,展現出近似高級開發者的決策能力。
AI 編程工具Cursor的CEO邁克爾·特魯爾表示,內部測試顯示工具調用失敗率明顯下降,這是以往飽受詬病的問題。他認為用戶將在真實開發環境中明顯感受到新模型在實用性方麵的提升。Cursor已將Gemini 2.5 Pro集成進其編程智能體中,顯示出開發者將其作為構建智能開發流程核心組件的趨勢。
基於瀏覽器的雲端協同開發平台Replit總裁米歇爾·卡塔斯塔稱,Gemini 2.5 Pro是“在性能與響應延遲之間取得最佳平衡的前沿模型”。他的評價暗示,Replit正考慮將其整合進自身工具中,尤其適用於對響應速度與穩定性要求較高的任務。
AI教育工作者、BlueShell私有AI聊天機器人創始人保羅·庫弗特表示:“Gemini 2.5 Pro在代碼和界麵生成方麵的能力令人印象深刻。”
AI藝術工具EverArt首席執行官彼得羅·斯基拉諾指出,新版Gemini 2.5 Pro I/O能夠通過一個提示就生成互動模擬遊戲,完美還原了“1隻大猩猩大戰100人”的社交媒體梗。
X用戶“RameshR”(@rezmeram)展示了該模型在不到一分鍾內生成的一款互動式俄羅斯方塊風格拚圖遊戲,並配有真實音效,他在帖文中寫道:“休閑遊戲行業要完蛋了!!”
這些讚譽從不同維度驗證了Gemini 2.5 Pro的實用性提升,也預示著其將在更多開發平台中獲得廣泛采納。