那時的穀歌,在大模型賽道上明顯落後,AI Studio僅有3萬用戶且零收入,團隊在激烈的競爭中承受著巨大壓力。
從坦誠落後到Gemini 3引爆市場,穀歌完成了一場令人矚目的逆襲。這場翻身仗的背後,是三個關鍵轉變:
第一, 從實驗室思維轉向戰場思維,建立“每六個月重大迭代”的更新節奏;
第二, 放棄大而全,聚焦三大殺手鐧,讓模型真正理解人類意圖、服務全球用戶、具備使用和創造工具的能力;
第三, 激活穀歌的終極武器,調動六大洲2500名專家,實現從芯片層到搜索、Android等億級產品的端到端協同。
在這場關乎未來的AI軍備競賽中,一家巨頭如何放下身段承認落後,又如何在短短兩年半內後來居上?在與GoogleDeepMind高級產品經理洛根·基爾帕特裏克的對話中,卡武克喬格魯首次揭示了逆襲背後的真實故事。
以下為卡武克喬格魯專訪精華內容:

問:Gemini 3發布後市場反饋積極,你如何評價這一代模型的突破?
卡武克喬格魯:在完成基準測試和預發布驗證後,Gemini 3的實際表現確實達到了我們的預期。這個模型不僅具備強大的技術能力,更重要的是在真實應用場景中獲得了用戶的認可。雖然仍有完善空間,但目前的反饋令人鼓舞,用戶關注的創新點與我們設定的技術方向高度一致。
問:從Gemini 2.5到Gemini 3.0,技術進步的速度似乎仍在加速。你如何看待這種發展態勢?
卡武克喬格魯:當前AI領域確實保持著驚人的創新節奏。無論是在基礎研究還是工程實踐層麵,我們都看到了持續突破。這種進步源於一個良性循環:當技術在實際場景中產生價值時,我們會獲得更多反饋,進而催生新的創新思路。隨著待解決問題的複雜度和多樣性不斷提升,這種挑戰反而推動著我們向前發展。
問:基準測試在技術發展中扮演著怎樣的角色?
卡武克喬格魯:基準測試與模型開發是相輔相成的關係。比如,以號稱“人類最後考試”的HLE(衡量AI解決人類級複雜難題能力)基準測試中,早期模型隻能達到1%或2%的水平,如今DeepThink之類的先進模型已能突破40%的水平。而像GPQA Diamond這樣的挑戰性基準,雖然我們仍在逐步提升其中1%的性能,但它們確實指向了尚未完全解決的核心難題。
問:在GPQA等基準測試上的進展,是否意味著我們需要重新定義技術前沿?
卡武克喬格魯:基準測試確實重要,但它與真實進步之間並非完全劃等號。在我看來,衡量技術進步的根本標準在於實際應用。當科學家借助模型推進研究、學生通過它完成學業、工程師利用它解決實際問題時,當這些工具真正融入人類知識工作的各個環節,我們才能說實現了真正的進步。基準測試的作用,在於為這種進步提供可量化的參照維度。
三大技術支柱與產品飛輪:Gemini 3的破局之道
問:在模型迭代過程中,團隊如何確定技術突破的重點方向?對於Gemini,特別是Pro模型,你們試圖在哪些方麵進行重點提升?
卡武克喬格魯:我們主要聚焦三個核心維度:
首先是精準的意圖理解。模型必須準確捕捉用戶指令的深層意圖,而非簡單地進行模式匹配。這需要突破傳統應答邏輯,建立真正的任務理解與執行能力。
其次,全球化服務能力。作為服務全球用戶的技術平台,穀歌需要確保技術具備真正的包容性,能夠觸達全球的每個人。Gemini 3 Pro在多個非優勢語言場景的表現突破,標誌著我們向技術普惠邁出了重要一步。
最後,工具化與創造能力。在技術實現層麵,我們正重點突破函數調用、工具運用、智能體行動與代碼生成等核心能力。其中,工具調用能力具有獨特的指數效應,它使模型既能靈活運用現有工具庫完成複雜推理,又具備了創造新工具的原生能力。這種自我進化的特性,讓模型從執行工具轉變為創造工具的主體。
代碼能力的重要性不僅體現在技術層麵,更在於其作為數字世界的構建基石。在數字化深度發展的今天,代碼已成為連接創意與現實的核心媒介,讓每個想法都具備通過計算實現的可能性。
我們正在見證編程範式的根本變革。通過自然語言編程(或稱氛圍編程),創作者隻需用日常語言描述構想,就能實時生成可用程序。這種"描述即實現"的新範式,將技術門檻降至前所未有的程度。當創意與實現之間的屏障被打破,創新不再是專業開發者的特權,而是每個擁有想法的人都可觸及的能力。
問:穀歌新推出的智能體編碼平台Anti-Gravity對模型優化有何價值?
卡武克喬格魯:這類產品平台構成了我們技術演進的重要基礎設施。從模型研發角度看,與開發者建立直接的產品級連接具有雙重價值:
首先,通過AI Studio、Anti-Gravity等產品獲得的真實用戶反饋,為我們提供了最直接的技術優化方向。這些來自開發一線的需求信號,比任何模擬測試都能更精準地揭示模型需要改進的維度。
其次,這種產品與研究的閉環正在重塑我們的研發範式。正如搜索的AI概覽功能通過海量用戶交互持續優化,Anti-Gravity在發布階段提供的深度反饋,同樣成為推動模型迭代的關鍵動力。
需要強調的是,雖然基準測試為我們設定了技術攻堅的坐標,但真正衡量技術價值的標尺始終是現實世界的應用效果。隻有當模型在具體場景中持續創造價值,技術演進才具有真正的生命力。
從研究到工程:首席AI架構師如何重塑技術落地範式
問:作為首席AI架構師,你如何看待模型研發與產品落地的協同關係?
卡武克喬格魯:技術價值最終需要通過產品體驗來實現。我的核心使命是確保穀歌各產品線都能獲得最前沿的AI能力支撐,同時將產品反饋轉化為技術演進的重要驅動力。
技術賦能與需求洞察的雙向循環。我們致力於構建完整的技術賦能體係:一方麵將尖端模型能力轉化為產品價值,另一方麵通過真實用戶場景獲取改進方向。這種雙向循環正在重塑我們的研發範式,產品不僅是技術的應用場景,更是驅動技術突破的重要源頭。
重新定義AI時代的用戶體驗。當前我們正處於人機交互範式變革的關鍵節點。新型AI技術正在重新定義用戶對產品的期待,包括交互方式、服務深度和信息呈現形式。這就需要我們與各產品團隊緊密協作,共同探索下一代智能體驗的邊界。
構建AGI的實踐路徑。我們堅信,AGI的實現必須通過與真實世界的持續交互。產品平台恰恰提供了這種寶貴的連接通道,讓我們能夠收集來自億萬用戶的反饋信號,持續校準技術發展方向。這正是我們將產品整合視為AGI演進核心環節的根本原因。
問:你提到與客戶和產品共同構建AGI的理念,這似乎超越了傳統的研究模式?
卡武克喬格魯:這正是我們方法論的核心理念。構建AGI不是封閉的實驗室研究,而是與真實世界持續互動的工程實踐。
為此,我們正在建立一套基於工程思維的完整體係:
係統化的安全架構:從模型預訓練階段開始,安全考量就深度融入開發全流程。我們不僅設有專業的安全團隊,更讓每位研發人員都具備安全意識。在每次迭代評審時,安全指標與性能指標具有同等重要的地位。
全局協作的工程實踐:Gemini 3的發布體現了穀歌獨特的協同能力。就像現代航天工程需要全球協作一樣,我們匯聚了六大洲的技術團隊,實現了從底層研究到產品集成的無縫銜接。這種規模的技術協調,確保了模型發布時就能在全線產品中提供一致的用戶體驗。
產品驅動的技術演進:當AI概覽、Gemini應用等產品在開發初期就參與模型優化,我們實際上建立了一個持續改進的飛輪。產品團隊不僅是技術使用者,更是共同定義技術方向的戰略夥伴。這種深度整合讓我們能夠快速將實驗室創新轉化為用戶價值。
後Gemini 3時代:智能體、創作與專業化的下一戰場
問:在Gemini 3取得顯著成就後,團隊將如何規劃下一代模型的發展路徑?
卡武克喬格魯:我們始終在“慶祝成就”與“追求卓越”之間保持平衡。當前確實應該為Gemini 3取得的進展感到自豪,但同時也清醒地認識到技術突破永無止境。
從技術維度來看,我們識別出若幹關鍵提升方向:
內容創作質量:雖然當前模型已具備出色的文本生成能力,但在保持風格一致性、情感準確性和邏輯嚴密性方麵仍需加強
智能體與編程能力:這代表著最具潛力的突破領域。我們需要讓模型在複雜任務規劃、自主決策和代碼優化方麵達到新高度
專業化場景覆蓋:盡管現有模型已服務了絕大多數開發者群體,但在處理特定領域的複雜需求時,我們仍需提升模型的精準度和可靠性
問:回顧Gemini的發展曆程,為何在多模態領域能持續領先,而在智能體工具使用方麵卻經曆了漸進式發展?
卡武克喬格魯:這種差異源於技術演進邏輯的根本轉變。Gemini項目代表著我們從純研究範式向工程化思維的重大轉型。早期團隊主要由研究人員構成,我們擅長在封閉環境中解決定義明確的問題。
多模態技術正好符合這種模式,其技術挑戰相對聚焦,評估標準也較為清晰。而智能體工具使用本質上是一個開放環境問題,需要與真實世界持續交互才能完善。
如今我們建立了完全不同的開發節奏:每六個月發布重大版本迭代,同時保持月度更新頻率。這種工程化周期讓我們能夠將用戶反饋快速融入技術改進,形成持續優化的閉環。
多模態大融合:從Nano Banana看生成式媒體的未來
問:在構建AGI的進程中,生成式媒體模型扮演著怎樣的角色?
卡武克喬格魯:生成式媒體模型的發展軌跡揭示了AI演進的內在邏輯。回溯學術發展史,圖像生成曾是早期研究的重要切入點。通過視覺輸出,我們能夠直觀檢驗模型對物理世界的理解程度。從PixelCNN等先驅工作開始,我們逐步建立起對生成模型的係統性認知。
然而技術發展呈現出有趣的辯證關係:當文本模型因其結構化特性成為快速進步的主要載體時,媒體模型經曆了必要的沉澱期。但如今我們看到,多模態融合正成為技術發展的必然趨勢。
這種融合並非人為推動,而是架構演進的自然結果。隨著模型能力的提升,文本與視覺這兩個原本分離的領域正在共享越來越多的底層架構。文本模型帶來的語義理解與圖像模型蘊含的物理直覺,正在形成強大的互補效應。
我們最近看到的Nano Banana模型正是這種融合的早期例證。它展現出模型同時處理視覺和語言信號的能力,讓用戶感受到係統真正理解了他們的創作意圖。這種技術匯流不僅提升了性能指標,更重要的是創造了更符合人類直覺的交互體驗。
問:像Nano Banana這樣的非正式命名方式,是否會成為團隊的文化特色?
卡武克喬格魯:這種命名方式確實反映了技術團隊特有的文化氣質。Gemini 3的開發代號RiftRunner,包括Nano Banana這樣生動形象的名稱,往往源於團隊在開發過程中自然形成的共識。這種有機的命名文化,某種程度上體現了技術團隊與所創造產品之間的情感連接。
在正式命名與創意代號之間,我們更看重命名的自然生成過程。當某個名稱能準確傳達技術特性並與團隊產生共鳴時,它就具有獨特的價值。但我們也認識到,在正式發布和技術傳播中,保持命名體係的一致性同樣重要。
基於Gemini 3 Pro架構升級的Nano Banana Pro,代表了我們在多模態理解上的重要進展。這個模型在保持創意生成能力的同時,在文本渲染精度和物理世界理解等專業維度實現了顯著提升。特別在需要深度融合文本與視覺信息的複雜場景中,它展現出了超越前代模型的推理能力。
問:在技術融合的過程中,哪些突破最讓你印象深刻?
卡武克喬格魯:我們正在見證模型架構演進帶來的根本性變革。Gemini係列采用的模型家族理念——通過Pro、Flash等不同規格滿足多樣化需求,體現了我們在性能與效率間的精密權衡。這種技術思路同樣適用於圖像生成領域。
基於Gemini 3 Pro架構升級的新一代模型,在理解複雜文檔並生成信息圖方麵展現出驚人能力。當用戶輸入大量專業材料後,模型不僅能準確解析內容,還能將其轉化為直觀的視覺呈現。這種從文本到圖像的流暢轉換,標誌著多模態交互正在邁向成熟。
問:關於統一模型架構的願景,目前麵臨哪些核心技術挑戰?
卡武克喬格魯:我們正穩步推進統一模型架構的探索,不同模態的模型確實呈現出架構收斂的趨勢。但這本質上是一個遵循科學規律的探索過程,我們需要通過不斷提出假設和驗證來推進,成功與失敗都是技術發展的必經之路。
當前的核心挑戰在於模型輸出空間的本質差異。模型現有的強大能力主要源於代碼和文本提供的結構化學習信號,而圖像生成則要求模型同時達到兩個維度的標準:既要實現像素級的精確還原,又要確保視覺元素在整體概念上的高度連貫。這種雙重標準使得訓練一個能均衡處理多模態任務的模型變得尤為複雜。
我相信這個技術目標終將實現,但關鍵在於我們需要找到那個能夠打破現狀的關鍵創新點,從而讓模型真正融會貫通不同模態的能力。
協作密碼:從AlphaFold到Gemini的組織進化
問:作為DeepMind的第一位深度學習研究員,回顧這13年的旅程,你有何感想?
卡武克喬格魯:2012年我加入DeepMind時,專注於深度學習的初創公司還很少見。當時我和我的朋友Carl Greger都在NYU的Yann Lab,我們同時加入了DeepMind。這個地方真正專注於構建智能,而深度學習正是其核心,這讓我感到非常興奮。從深度學習開始,到強化學習、智能體係統,我們始終秉持著以學習為核心的第一性原理。這段旅程確實令人振奮。
但我反思時也感到,我們很幸運能生活在這個時代。AI現在正在發生,不僅僅是因為機器學習和深度學習,還因為硬件演進達到了某種狀態,互聯網和數據也達到了某種狀態。很多因素匯聚在一起,讓我們能夠見證這個時刻。我們做出了選擇投身AI領域,但同時也非常幸運能在這個時代處於這個位置。
問:從AlphaFold到Gemini,您認為DeepMind在組織層麵形成了哪些獨特的能力?
卡武克喬格魯:我們通過一係列重大項目積累了獨特的經驗。從早期的DQN、AlphaGo、AlphaZero到AlphaFold,每個項目都教會我們如何圍繞明確目標、使命組建團隊。在DeepMind創立初期,25人共同完成一個研究項目並聯合發表論文的做法曾讓學界驚訝,但這正是我們刻意培養的協作模式。
近年來,我們進一步將研究思維與工程思維深度融合。現在我們已經建立起模型主線的開發節奏,並學會在保持主線穩定的同時進行技術探索。DeepThink模型就是一個典範,我們選擇國際數學奧林匹克競賽這類極具挑戰性的目標,但堅持基於通用模型架構進行優化,最終讓競賽級模型能夠惠及所有用戶。
問:從早期25人合作論文到如今Gemini 3可能涉及2500名貢獻者,這種規模變化意味著什麽?
卡武克喬格魯:這種規模躍遷確實令人驚歎,但恰恰體現了穀歌作為技術生態係統的獨特優勢。我們擁有從芯片設計、數據中心架構到算法研發的全棧專家,這種深度整合能力讓我們能夠實現真正的端到端優化。
當模型設計與硬件研發形成雙向反饋——我們基於硬件特性優化模型架構,同時根據模型需求定製下一代芯片——技術演進就進入了良性循環。這種緊密協同需要數千名頂尖專家的精密配合,而穀歌正具備這樣的大規模協作能力。
在規模化與顛覆性創新之間:DeepMind的永恒平衡術
問:在當今時代,DeepMind如何平衡基礎科學研究與Gemini模型的規模化擴展?
卡武克喬格魯:保持這種平衡確實是我們麵臨的核心挑戰。即便現在,當我思考Gemini發展的最大風險時,始終認為是創新源泉的枯竭。我從不相信我們已經找到了可以簡單複製的"成功配方",隻需按圖索驥就能實現智能。
真正的突破永遠來自創新——無論是沿著現有技術路徑的深化探索,還是開辟全新的研究方向。在Gemini項目內部,我們持續進行著架構創新和方法論實驗,這是推動進步的根本動力。
但同時,Google DeepMind和Google Research正在更廣闊的領域進行探索。有些前沿課題可能超出了當前Gemini項目的範疇,但這些探索至關重要。因為最終,Gemini代表的不是某個特定架構,而是我們構建通用智能的使命。技術架構會不斷演進,但追求智能的目標始終如一。
人性的溫度:DeepMind如何保持“逆襲”心態
問:在穀歌I/O大會上,人們能感受到DeepMind團隊特有的人文關懷與溫暖,這種文化是如何被塑造和體現的?
卡武克喬格魯:我認為核心在於我們始終相信團隊的力量,重視信任賦予和機會共享。這是我在DeepMind成長過程中領悟到的重要理念:從初創小團隊到如今規模,如何建立並保持信任始終是關鍵。
我們致力於營造這樣的環境:讓每位成員都感受到我們正在共同應對能真正影響世界的技術科學挑戰。Gemini項目正是如此,構建智能是高度複雜的技術科學議題,需要我們既保持專業嚴謹,又心懷謙遜、持續自省。
我常為團隊感到自豪。大家確實疲憊不堪,項目充滿挑戰,但我們沒有完美架構可言,全靠每個人凝聚合力、相互支撐。正是這種團隊協作,讓艱難的工作變得有意義,讓我們能夠攻克真正複雜的難題。
同時,我們清醒地認識到現有技術的潛力與局限。二十年後必然不會沿用當前的大模型架構,因此我們必須保持探索精神,與Google Research及學術界共同推進多元研究方向。比起爭論對錯,更重要的是通過實際能力證明技術價值,這才是最具說服力的答案。
問:在穀歌的早期階段,你們開發AI Studio時用戶僅3萬,尚無收入,處於Gemini模型的起步期。如今局麵已大不相同,整個生態係統都意識到了這一進展。你當時是否也感受到一種“逆襲”的心態?你如何看待團隊跨越這一轉折點的表現?
卡武克喬格魯:確實如此,甚至在更早階段我就有此感受。當大語言模型(LLM)展現出強大潛力時,我清楚地意識到,盡管DeepMind是前沿AI實驗室,但我們在某些方麵的投入尚顯不足。這對我作為研究者而言,是一次深刻的教訓。因此我始終強調:我們需要廣泛布局,探索至關重要,這不局限於某一種架構或方法。
大約兩年半前,我們更認真地啟動Gemini項目時,我便坦誠地告訴團隊:我們距離頂尖水平仍有差距,許多方麵尚不成熟。那是一個追趕的階段,持續了相當長的時間。如今,我認為我們已躋身領先陣營,對當前的運營節奏和團隊狀態感到積極樂觀。
追趕並不可恥,關鍵是要誠實麵對。我們必須借鑒他人所長,但更要堅持自主創新,無論是在技術、模型、流程還是運營模式上都是如此。我們與穀歌整體協同運作,將規模優勢轉化為獨特競爭力。我們正是通過不斷學習與創新才達到今天的位置,而這條路也成就了現在的我們。
如今我們剛剛站上起跑線,目標始終是構建真正的智能。我們將繼續匯聚智慧與創新,以正確的方式實現這一使命。
