簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » Google首席AI架構師:Gemini 逆風翻盤有18個關鍵

Google首席AI架構師:Gemini 逆風翻盤有18個關鍵

文章來源: 矽星人 於 2025-11-28 09:32:25 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數



如果不是親耳聽到,很難想象一家科技巨頭會在鏡頭前承認:“兩年半前,我們遠遠落後了。”在這次訪談裏,DeepMind CTO、Google 首席 AI 架構師 Koray Kavukcuoglu 罕見地拆開了過去兩年 Google 的真實處境——不是領先、不是規模,而是被時代加速甩在身後、再一點點追上來的過程。

他沒有炫耀參數,也沒有談模型的“神跡”,而是把重點放在更底層、更殘酷的問題上:一家全球最強的 AI 實驗室,如何在巨大的慣性中重新學會創新、學會工程化、學會組織協作、學會把技術真正變成產品?

Gemini 的故事隻是表層。真正發生變化的,是 Google 這家公司的骨架與節奏。

原文訪談鏈接:

https://www.youtube.com/watch?v=fXtna7UrL44

以下是根據訪談實錄整理的關鍵議題,希望也能幫你更清晰地讀懂 Google 的這次“重構”。

一、真正的起點不是突破,而是承認自己落後了

訪談中最刺耳也最重要的一句話,出現在結尾:

“當 Gemini 項目開始時,我們離最先進水平還很遠,那是一個追趕。”

這句話標誌著一個巨大的認知轉折:Google 承認自己在 LLM 起跑線上是真正的落後者。不是“狀態不好”這種輕描淡寫,而是“遠遠落後”。這意味著 DeepMind 必須拋棄此前十年建立的自信,從最基礎的用戶使用場景重新學習。

而這種承認,是一切變化的源頭。Koray 在訪談裏反複強調:真正的轉折不是某個新技術,而是 Google 接受自己必須重新建立訓練方式、產品方式、工程方式以及組織方式。

二、為什麽中國用戶最先明顯感覺到 Gemini 變好了?

訪談一開始,主持人提到一個特別中國的反饋:Gemini 3 在中國用戶中被形容為“像 Windows XP 一樣穩定好使”。Koray 很有興致地解釋,這不是模型本身突然“智商暴漲”,而是 Google 終於把“模型 × UI × 任務鏈路”統一到了一起。

以前的大模型“聰明”,但不“好使”。而 Gemini 3 的轉折來自:

用戶界麵更直覺

任務拆解更穩定

模型更能理解人類意圖

產品團隊從訓練階段就介入模型設計

真實用戶使用數據可以直接反哺訓練

換句話說,Google 終於開始像一家做產品的公司在做大模型。這是 Gemini 3 變化最直觀的原因,也是中國用戶最先體會到的原因。

三、Benchmark 正在失效,但真實世界永遠不會

外界批評 Google 的 benchmark 成績起伏不定,但 Koray 的解釋很罕見地觸及本質:主流 benchmark 正在靠近它們的自然上限。GPQA、ARC-AGI 等“智商題”已經被模型頂住,HLE 這種曾經難得離譜的測評如今也能“持續提升”。

Benchmark 會枯竭,但真實世界不會。學生寫作、科學研究、專業翻譯、複雜跨語境對話、跨語言表達……這些場景永遠無法被一個固定測試集窮盡。Google 把模型的最終價值從“得分”轉向“能不能幫人完成任務”。這是 Gemini 的第一性原理轉變。

四、Gemini 3 的核心不是智力提升,而是讓模型“能幹活”

從 Gemini 3 開始,Google 清晰確立了三個優先級最高的能力方向。

第一是 指令遵從。模型要能“無二義性地理解和執行用戶的真實意圖”。這對用戶體驗影響巨大,比提升推理指標更重要。

第二是 國際化能力。Google 的用戶覆蓋超過 200 個國家,“理解全球不同文化語境”成為模型能力的底層指標,而不是翻譯能力的延伸。

第三是 工具調用與代碼執行。這是未來智能體的基礎,模型必須不僅能理解問題,還能執行任務、運行工具鏈、處理工程環境中的真實任務。

三者加在一起,構成了 Google 的 “Gemini 設計哲學”:智能不是來自“更聰明的對話”,而來自“更可靠的執行”。

五、為什麽多模態強的 Google,起初 Agent 卻不好用?

這是主持人問得最尖銳的問題,也是外界最想知道的矛盾。Koray 的答案意外樸素:研究員可以在實驗室推動視覺理解,但 Agent 的任務不是研究員能想出來的,是用戶逼出來的。

真正的 Agent 場景來自:

創作者的任務鏈路

學生的寫作流程

工程師的工具調用模式

商業用戶的複雜需求

也就是說,Google 走了一條與 OpenAI 不同的路徑:不是“demo 優先”,而是“真實用戶需求優先”。Agent 的能力不是靠酷炫演示驅動的,而是靠“讓百萬用戶每天用”驅動的。

六、Google 真正的反超武器:模型、產品、工程第一次被統一

Koray 多次強調一個過去被低估的事實:Gemini 3 不是“模型團隊”的勝利,而是“工程、產品、模型、安全”第一次從第一天就被捏在一起推進。

以往是:

模型訓練完了,產品團隊接盤

安全團隊在最後做審核

工程團隊負責部署

而今天是:

產品團隊從訓練最初就參與

安全成為訓練目標,而不是後置規則

真實用戶數據(AI Studio、AI Overviews、Anti-Gravity)直接反哺模型

使用成本、延遲、推理路徑都在訓練階段就被優化

Google 終於構建出了一個“模型 × 產品 × 工程”的統一體係。這是它在 2024–2025 年真正反超的結構性基礎。

七、Nano Banana Pro 的突破不是“畫圖變好看”,而是“理解世界結構”

外界關注圖像模型總是看“清晰度”、“風格”,但 Koray 在訪談中反複強調,真正的突破來自:

理解 PDF、表格、圖表等複雜文檔結構

具備結構化的視覺推理

第一次能生成“概念一致的信息圖”

一句值得記下的話是:

“當一個模型能把複雜概念準確地用一張信息圖表達出來,你就能感受到真正的理解。”

這是多模態模型的真正價值,也直接指向 Agent 的未來能力。

八、多模態不是功能加法,而是真正的“世界模型”入口

Koray 給出了一個簡潔但極具說服力的框架:

文本是線性的,視覺是空間的,音頻是時序的。真實世界不是隻靠線性序列能描述的。因此一個真正智能的模型必須同時具備三種感知維度。

這也是為什麽 Google 在推進統一多模態模型上比任何公司都更加堅持——不是因為多模態“更炫酷”,而是因為它是理解世界的基礎。

九、統一模型並不是“把視覺塞進語言模型”,而是一場架構革命

外界經常把“統一模型”理解成方向正確的趨勢,但 Koray 的解釋更具技術深度。他指出:文本和圖像的輸出結構根本不同——文本是一維的,圖像是二維的。這意味著訓練方式、損失函數、優化器、token 化方式都要重新發明。

統一模型不是“時代潮流”這麽簡單,而是 必須突破的工程極限。Google 的敘事沒有浪漫,也沒有玄學,隻有工程難題。

十、DeepMind 的文化基因:謙遜、科學與大規模協作

這部分是整場訪談裏最“人味”的地方。

DeepMind 的文化由三部分組成:

科學心態 —— 所有問題回到實驗與學習,而不是路徑依賴。

謙遜 —— 那句“我們不知道終極配方”不是客套,而是策略。

協作能力 —— 從 25 個人寫論文到 2500 人一起推進單一模型。

在一個公司試圖從科研轉型為工程、從工程轉型為產品的過程中,這種文化結構變得至關重要。

十一、規模是 Google 的最大難題,也是最大武器

Koray 承認:規模越大,一致性越難。但規模本身就是推進力。

Google 能夠同時推進統一模型、多產品落地、跨部門協作、全球化數據管線、超大規模訓練與部署,是因為它擁有世界上最成熟的基礎設施鏈路。

過去兩年,這條鏈路從“沉睡”變回“主力”,重啟了 Google 的攻勢。

十二、安全不是限製能力,而是訓練能力

Google 與 OpenAI 在安全策略上最大的差異不是嚴格程度,而是方式:安全不是“訓練後加過濾器”,而是“訓練中學會安全”。

這是“讓模型可靠”的關鍵,並且天然適配 Google 的基礎設施規模。

十三、統一模型與專用模型不是路線爭奪,而是成本優化

Koray 說得很實在:這不是意識形態問題,而是效率問題。未來一定會同時存在統一模型與專用模型,Google 的策略是用合適的工具做合適的任務,而不是堅持單一範式。

這種務實,是 Google 過去缺失、現在重新找到的品質。

十四、Google 的真正底氣:基礎設施的重新激活

“我們能成功,不是因為我們更聰明,而是因為基礎設施足夠強。”Koray 的這句話其實深刻揭示了大模型時代的一個底層事實——智能規模化不是靠天才,而是靠管線。

能訓練、能部署、能迭代、能處理全球數據、能保持安全一致性的,是基礎設施,而不是算法。

十五、Google 不相信有單一路徑,也不相信“持續擴參”能走到終點

他說:

“我們不知道最終配方。”

這句話的潛台詞是:

擴參不是終局

統一模型不是最終答案

多模態不是最後形態

未來模型的路線還遠未定型

這種“帶著不確定性繼續前行”的姿態,反而比某些公司宣稱的“xxx 是通往 AGI 的唯一路徑”更具有長壽感。

十六、下一階段的重點:推理、執行與真正的自主性

Gemini 3 的故事才剛開始。Google 的下一個目標是:

深層推理

多步任務執行

在複雜場景中的魯棒性

從“會回答”到“會行動”,這是整個行業的共同方向,但 Google 給出了相對清晰的內部路徑。

十七、Google 內部的時間結構:研究 × 工程 × 產品的等權分配

Koray 透露,團隊的時間分配不是研究優先,而是三者等權。這意味著一個模型從訓練到使用的全過程是統一推進的,而不是線性流程。

這是模型“真正可用”的關鍵原因。

十八、Gemini 是一個全公司規模的“科學工程項目”

訪談的最後,Koray 用“全公司的科學工程任務”來形容 Gemini 的誕生。那更像是一種內部視角的注腳:模型的進步來自結構性調整,而結構性調整本身比模型更難。訓練、數據、工程、產品、安全、協作……這些環節重新對齊,才構成了今天的 Gemini。

過去兩年,Google 不是在尋找捷徑,而是在恢複一個體係應有的速度和一致性。

當這些基礎再次穩固起來,一個屬於 Google 的節奏也重新出現了。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(14)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

特斯拉前高管:我們拆解中國電動汽車後...
美國國民警衛隊成員遭槍擊,馬斯克怒了
11個人隨機死於它們的疏忽,冷漠地像11個人撞到了車上
100個“野人”,靠“荒野求生” 救活了一座山
香港現代史上最致命火災:慘劇何以釀成?




24小時討論排行

日本女歌手大槻真希上海演出 唱到一半被斷電趕下台
美醫保談判“大風暴”:85%降幅背後 全球醫藥變局
成都民企造出高超音速導彈且已量產 成本僅同類一成
CIA局長承認了:華府槍擊案嫌犯是和我們有關…
辭去美國弗吉尼亞大學終身教職,他回到清華
路透社:極為罕見 美國務卿擬缺席北約外長會
衡水中學的神話崩塌,揭露了一個簡單的道理
香港火災已造成128人遇難 仍有約200人情況未明
烏克蘭二號人物住所被搜查 外媒暗示美國是幕後推手
轉賣吃剩的藥,“我怎麽就成了販毒?”
錢誌敏帶走的400億比特幣,能歸還中國嗎?
在非洲遭綁架虐待的27歲中國網紅博主 腳被打斷
印尼雅加達超過東京,成為世界上人口最多的城市
近80年來傷亡最嚴重火災,“香港為何還在用竹棚?”
賴清德清洗台軍“異己”,台海軍司令唐華被貶
印度用簽證對中國進行“服從性測試”?想多了吧
文學城新聞
切換到網頁版

Google首席AI架構師:Gemini 逆風翻盤有18個關鍵

矽星人 2025-11-28 09:32:25



如果不是親耳聽到,很難想象一家科技巨頭會在鏡頭前承認:“兩年半前,我們遠遠落後了。”在這次訪談裏,DeepMind CTO、Google 首席 AI 架構師 Koray Kavukcuoglu 罕見地拆開了過去兩年 Google 的真實處境——不是領先、不是規模,而是被時代加速甩在身後、再一點點追上來的過程。

他沒有炫耀參數,也沒有談模型的“神跡”,而是把重點放在更底層、更殘酷的問題上:一家全球最強的 AI 實驗室,如何在巨大的慣性中重新學會創新、學會工程化、學會組織協作、學會把技術真正變成產品?

Gemini 的故事隻是表層。真正發生變化的,是 Google 這家公司的骨架與節奏。

原文訪談鏈接:

https://www.youtube.com/watch?v=fXtna7UrL44

以下是根據訪談實錄整理的關鍵議題,希望也能幫你更清晰地讀懂 Google 的這次“重構”。

一、真正的起點不是突破,而是承認自己落後了

訪談中最刺耳也最重要的一句話,出現在結尾:

“當 Gemini 項目開始時,我們離最先進水平還很遠,那是一個追趕。”

這句話標誌著一個巨大的認知轉折:Google 承認自己在 LLM 起跑線上是真正的落後者。不是“狀態不好”這種輕描淡寫,而是“遠遠落後”。這意味著 DeepMind 必須拋棄此前十年建立的自信,從最基礎的用戶使用場景重新學習。

而這種承認,是一切變化的源頭。Koray 在訪談裏反複強調:真正的轉折不是某個新技術,而是 Google 接受自己必須重新建立訓練方式、產品方式、工程方式以及組織方式。

二、為什麽中國用戶最先明顯感覺到 Gemini 變好了?

訪談一開始,主持人提到一個特別中國的反饋:Gemini 3 在中國用戶中被形容為“像 Windows XP 一樣穩定好使”。Koray 很有興致地解釋,這不是模型本身突然“智商暴漲”,而是 Google 終於把“模型 × UI × 任務鏈路”統一到了一起。

以前的大模型“聰明”,但不“好使”。而 Gemini 3 的轉折來自:

用戶界麵更直覺

任務拆解更穩定

模型更能理解人類意圖

產品團隊從訓練階段就介入模型設計

真實用戶使用數據可以直接反哺訓練

換句話說,Google 終於開始像一家做產品的公司在做大模型。這是 Gemini 3 變化最直觀的原因,也是中國用戶最先體會到的原因。

三、Benchmark 正在失效,但真實世界永遠不會

外界批評 Google 的 benchmark 成績起伏不定,但 Koray 的解釋很罕見地觸及本質:主流 benchmark 正在靠近它們的自然上限。GPQA、ARC-AGI 等“智商題”已經被模型頂住,HLE 這種曾經難得離譜的測評如今也能“持續提升”。

Benchmark 會枯竭,但真實世界不會。學生寫作、科學研究、專業翻譯、複雜跨語境對話、跨語言表達……這些場景永遠無法被一個固定測試集窮盡。Google 把模型的最終價值從“得分”轉向“能不能幫人完成任務”。這是 Gemini 的第一性原理轉變。

四、Gemini 3 的核心不是智力提升,而是讓模型“能幹活”

從 Gemini 3 開始,Google 清晰確立了三個優先級最高的能力方向。

第一是 指令遵從。模型要能“無二義性地理解和執行用戶的真實意圖”。這對用戶體驗影響巨大,比提升推理指標更重要。

第二是 國際化能力。Google 的用戶覆蓋超過 200 個國家,“理解全球不同文化語境”成為模型能力的底層指標,而不是翻譯能力的延伸。

第三是 工具調用與代碼執行。這是未來智能體的基礎,模型必須不僅能理解問題,還能執行任務、運行工具鏈、處理工程環境中的真實任務。

三者加在一起,構成了 Google 的 “Gemini 設計哲學”:智能不是來自“更聰明的對話”,而來自“更可靠的執行”。

五、為什麽多模態強的 Google,起初 Agent 卻不好用?

這是主持人問得最尖銳的問題,也是外界最想知道的矛盾。Koray 的答案意外樸素:研究員可以在實驗室推動視覺理解,但 Agent 的任務不是研究員能想出來的,是用戶逼出來的。

真正的 Agent 場景來自:

創作者的任務鏈路

學生的寫作流程

工程師的工具調用模式

商業用戶的複雜需求

也就是說,Google 走了一條與 OpenAI 不同的路徑:不是“demo 優先”,而是“真實用戶需求優先”。Agent 的能力不是靠酷炫演示驅動的,而是靠“讓百萬用戶每天用”驅動的。

六、Google 真正的反超武器:模型、產品、工程第一次被統一

Koray 多次強調一個過去被低估的事實:Gemini 3 不是“模型團隊”的勝利,而是“工程、產品、模型、安全”第一次從第一天就被捏在一起推進。

以往是:

模型訓練完了,產品團隊接盤

安全團隊在最後做審核

工程團隊負責部署

而今天是:

產品團隊從訓練最初就參與

安全成為訓練目標,而不是後置規則

真實用戶數據(AI Studio、AI Overviews、Anti-Gravity)直接反哺模型

使用成本、延遲、推理路徑都在訓練階段就被優化

Google 終於構建出了一個“模型 × 產品 × 工程”的統一體係。這是它在 2024–2025 年真正反超的結構性基礎。

七、Nano Banana Pro 的突破不是“畫圖變好看”,而是“理解世界結構”

外界關注圖像模型總是看“清晰度”、“風格”,但 Koray 在訪談中反複強調,真正的突破來自:

理解 PDF、表格、圖表等複雜文檔結構

具備結構化的視覺推理

第一次能生成“概念一致的信息圖”

一句值得記下的話是:

“當一個模型能把複雜概念準確地用一張信息圖表達出來,你就能感受到真正的理解。”

這是多模態模型的真正價值,也直接指向 Agent 的未來能力。

八、多模態不是功能加法,而是真正的“世界模型”入口

Koray 給出了一個簡潔但極具說服力的框架:

文本是線性的,視覺是空間的,音頻是時序的。真實世界不是隻靠線性序列能描述的。因此一個真正智能的模型必須同時具備三種感知維度。

這也是為什麽 Google 在推進統一多模態模型上比任何公司都更加堅持——不是因為多模態“更炫酷”,而是因為它是理解世界的基礎。

九、統一模型並不是“把視覺塞進語言模型”,而是一場架構革命

外界經常把“統一模型”理解成方向正確的趨勢,但 Koray 的解釋更具技術深度。他指出:文本和圖像的輸出結構根本不同——文本是一維的,圖像是二維的。這意味著訓練方式、損失函數、優化器、token 化方式都要重新發明。

統一模型不是“時代潮流”這麽簡單,而是 必須突破的工程極限。Google 的敘事沒有浪漫,也沒有玄學,隻有工程難題。

十、DeepMind 的文化基因:謙遜、科學與大規模協作

這部分是整場訪談裏最“人味”的地方。

DeepMind 的文化由三部分組成:

科學心態 —— 所有問題回到實驗與學習,而不是路徑依賴。

謙遜 —— 那句“我們不知道終極配方”不是客套,而是策略。

協作能力 —— 從 25 個人寫論文到 2500 人一起推進單一模型。

在一個公司試圖從科研轉型為工程、從工程轉型為產品的過程中,這種文化結構變得至關重要。

十一、規模是 Google 的最大難題,也是最大武器

Koray 承認:規模越大,一致性越難。但規模本身就是推進力。

Google 能夠同時推進統一模型、多產品落地、跨部門協作、全球化數據管線、超大規模訓練與部署,是因為它擁有世界上最成熟的基礎設施鏈路。

過去兩年,這條鏈路從“沉睡”變回“主力”,重啟了 Google 的攻勢。

十二、安全不是限製能力,而是訓練能力

Google 與 OpenAI 在安全策略上最大的差異不是嚴格程度,而是方式:安全不是“訓練後加過濾器”,而是“訓練中學會安全”。

這是“讓模型可靠”的關鍵,並且天然適配 Google 的基礎設施規模。

十三、統一模型與專用模型不是路線爭奪,而是成本優化

Koray 說得很實在:這不是意識形態問題,而是效率問題。未來一定會同時存在統一模型與專用模型,Google 的策略是用合適的工具做合適的任務,而不是堅持單一範式。

這種務實,是 Google 過去缺失、現在重新找到的品質。

十四、Google 的真正底氣:基礎設施的重新激活

“我們能成功,不是因為我們更聰明,而是因為基礎設施足夠強。”Koray 的這句話其實深刻揭示了大模型時代的一個底層事實——智能規模化不是靠天才,而是靠管線。

能訓練、能部署、能迭代、能處理全球數據、能保持安全一致性的,是基礎設施,而不是算法。

十五、Google 不相信有單一路徑,也不相信“持續擴參”能走到終點

他說:

“我們不知道最終配方。”

這句話的潛台詞是:

擴參不是終局

統一模型不是最終答案

多模態不是最後形態

未來模型的路線還遠未定型

這種“帶著不確定性繼續前行”的姿態,反而比某些公司宣稱的“xxx 是通往 AGI 的唯一路徑”更具有長壽感。

十六、下一階段的重點:推理、執行與真正的自主性

Gemini 3 的故事才剛開始。Google 的下一個目標是:

深層推理

多步任務執行

在複雜場景中的魯棒性

從“會回答”到“會行動”,這是整個行業的共同方向,但 Google 給出了相對清晰的內部路徑。

十七、Google 內部的時間結構:研究 × 工程 × 產品的等權分配

Koray 透露,團隊的時間分配不是研究優先,而是三者等權。這意味著一個模型從訓練到使用的全過程是統一推進的,而不是線性流程。

這是模型“真正可用”的關鍵原因。

十八、Gemini 是一個全公司規模的“科學工程項目”

訪談的最後,Koray 用“全公司的科學工程任務”來形容 Gemini 的誕生。那更像是一種內部視角的注腳:模型的進步來自結構性調整,而結構性調整本身比模型更難。訓練、數據、工程、產品、安全、協作……這些環節重新對齊,才構成了今天的 Gemini。

過去兩年,Google 不是在尋找捷徑,而是在恢複一個體係應有的速度和一致性。

當這些基礎再次穩固起來,一個屬於 Google 的節奏也重新出現了。