正文

穀歌Nano Banana團隊技術解密:圖像生成不是算力之戰,沒有嚴格的人類評估體係,就沒有一致性可言

(2025-11-30 03:10:02) 下一個

如果說上一代圖像工具的使命,是幫你把腦海裏的畫勉強呈現出來,那 Nano Banana 想做的,就是把你心裏的人物、風格與故事完整、穩定、成體係地呈現出來。而 Nano Banana Pro 的上線,更像是一場「現象級爆發」:朋友圈在刷屏,設計群在炸場,同人圈直接沸騰,全行業都被它點燃,創作的浪潮幾乎是一瞬間席卷開來。

站在這場變化的正中央,是 Nicole Brtova 和 Hanza Swini Vasan。她們是穀歌 Nano Banana 的核心成員,也是把單圖角色一致性做成 2025 年全球現象級話題的幕後推手。

在這場由紅杉資本發起的深度對談中,兩位嘉賓幾乎不談那些模型有多強參數有多大的宏大敘事。她們更願意沿著具體的使用場景追問下去:一張普通的 2D 照片,如何在不同角度、不同光線、不同場景裏始終保持是同一個人?

對話的另一條主線,則落在工具邊界上。Nicole 和 Hanza 多次提到,看似簡單的需求比如隻改動想改的地方沒有提示詞工程也能用好,在實現上遠比想象中困難得多。

真正決定上限的,不隻是算力規模和數據量,還有那些寫不進論文的細節:多長的上下文窗口,怎樣的人類評估標準,怎樣的數據篩選才能讓像本人變成可持續複現的能力,而不是偶爾驚豔的一次好運。隨著能力被不斷推高,穀歌也被推到更敏感的位置上:如何確保這樣一套創作工具不會輕易被用來製造偽造內容?

兩位嘉賓詳細談到 Synth ID 這套隱形水印體係,以及穀歌在內容標注、內部紅隊測試和外部合作上的投入。既要讓普通用戶敢用、樂於用,又要在深度偽造和信息安全的問題上留出足夠的刹車距離,這種拿捏讓人看到了大廠的謹慎,也順帶暴露出一片巨大的空白地帶那些圍繞具體工作流程、具體行業場景打造的創作和生產力工具,很可能留給初創公司去完成。

更長遠的想象,落在個人體驗的改變上。兩位嘉賓都提到,未來一兩年最期待看到的,並不是又多出多少更炫的特效,而是一件更樸素的事情:真正的個性化學習。教材不再千篇一律,講解方式貼著每個人的背景和理解路徑;複雜知識天然以圖像、圖表、短視頻混合呈現,而不是一整頁密密麻麻的段落文字。

到那時,人們做演示、準備匯報、給孩子講故事,可能都不再從排版和找圖開始,而是從一個更本質的問題出發:我到底想講一個什麽樣的故事?

一張照片能撐起多大的想象力?

Stephanie Zhan:今天我們邀請到了Nicole Brtova和Hanza Swini Vasan,他們是穀歌Nano Banana圖像模型背後的團隊。這個模型最初隻是一個淩晨兩點定下的代號,如今已成為一種文化現象。他們將帶我們了解實現單圖像角色一致性的技術突破:高質量數據、長的多模態上下文窗口和嚴格的人工評估如何讓單張照片實現可靠的角色一致性,以及為何工藝、基礎設施和規模同等重要。

我們還會探討推進技術前沿與實現廣泛普及之間的權衡,以及這項技術的發展方向,包括多模態創作、個性化學習,以及兼具精細控製與自動化操作的專業用戶界麵。最後,我們將聊聊真正的AGI仍缺少哪些要素,以及初創企業現在應該布局的空白領域。希望大家喜歡本期節目。

Nicole、Hanza,非常感謝你們今天的到來。我們對Nano Banana這個風靡全球的模型充滿好奇,想從一個有趣的問題開始。你們自己用Nano Banana創作過哪些作品,或者見過社區裏最有創意的用法是什麽?

Nicole Brtova:對我來說,最令人興奮的一點雖然事後想來很明顯,但我之前確實沒預料到是它與視頻模型的結合,能夠實現跨場景的角色和場景一致性保留。

Pat Grady:現在這個工作流程流暢嗎?實現起來難度大嗎?

Hanza Swini Vasan:我看到大家確實在混合使用不同來源的各種視頻工具和模型,所以目前流程可能還不算流暢。我知道有一些產品在嚐試整合多個模型來提升流暢度,但Nano Banana推出前後,我看到的視頻作品差異非常顯著。現在的視頻轉場更流暢,更符合視頻創作中自然切換場景的需求,這一點很出色。說實話,我之前完全沒料到大家會立刻想到這種用法。

Nicole Brtova:不過還有一個我沒想到的、很喜歡的用法,是人們通過巧妙的方式利用這個模型來學習新知識或消化信息。上周我遇到一個人,他用它來製作各種主題的思維導圖。這很令人驚訝,因為文本渲染其實還不是我們模型的強項,但這個人通過複雜的提示詞讓模型輸出了連貫的內容。他的父親是一所大學的化學家,研究的領域非常專業,於是他把父親的講課內容輸入到搭載Nano Banana的Gemini中,生成了條理清晰、視覺化且易於理解的思維導圖。這是幾十年來他們父子倆第一次能就父親的工作展開深入交流,這真的很有意思,也是我之前完全沒預料到的。

Hanza Swini Vasan:我覺得大家真的在想辦法靈活運用這個模型。雖然它很出色,但顯然還不完美,我們還有很多需要改進的地方。不過我很驚訝於大家找到的各種使用方式,他們用我們沒預料到的輸入方法激發模型的最佳性能,解鎖了一些令人驚歎的功能。

Pat Grady:在模型開發過程中,有沒有某個頓悟時刻讓你們覺得這個模型一定會很出色?

Nicole Brtova:我有過一次。我們在開發過程中總會進行內部演示,大家會試用模型。有一次我上傳了自己的照片,然後輸入提示詞:把我放在紅毯上,要全身造型完全是滿足虛榮心的要求。結果生成的圖像真的很像我,我把它和我們之前所有的模型做了對比,發現沒有其他模型能做到這一點,當時我特別興奮。後來大家看到後都說好吧,知道了,你在紅毯上呢。之後的幾周裏,其他人也開始上傳自己的照片試用,才逐漸意識到這種效果有多神奇。現在大家用這個模型做得最多的事情,就是把自己變成3D人偶。比如想要一個虛擬玩具盒,裏麵有自己的人偶形象,甚至可以有好幾個不同版本。這種能表達自我、以全新方式展現自己、甚至強化自我認同的感覺真的很有趣,那一刻我就覺得哇,這太讚了。

Stephanie Zhan:Nano Banana把你放在紅毯上的效果,比其他模型出色在哪裏?

Nicole Brtova:關鍵在於它生成的形象真的像我。對不熟悉的人,其實很難判斷麵部一致性。比如我看到一個AI生成的你的形象,可能覺得還不錯,但你自己可能會說不對,我臉上的某些部分不像。所以這種判斷隻能由本人來做,這也是為什麽我們現在讓很多團隊成員用自己的照片進行評估,因為隻有這樣才能準確判斷模型生成的形象是否與本人一致,以及是否符合對熟悉麵孔的認知。

Hanza Swini Vasan:我覺得當我們開始用自己的照片測試時,這種差異就很明顯了。比如我經常見到Nicole,所以如果評估Nicole的形象和評估一個隨機陌生人的形象,對模型能力的判斷標準完全不同。角色一致性的保留對於這些模型的實用性和吸引力來說至關重要,但實現起來卻出奇地困難,這也是很多其他模型未能做到位的原因。

Pat Grady:我覺得角色一致性不僅僅是模型規模擴大後的自然結果。我有兩個問題:第一,雖然有些內容可能不便透露,但你們能分享一下是如何實現這一點的嗎?第二,這是模型開發之初就明確設定的目標嗎?

Hanza Swini Vasan:確實,有些細節不便多說,但可以說圖像生成有不同的技術路徑,這對最終效果有很大影響。而且這絕對是我們從一開始就設定的目標。

Nicole Brtova:之所以把它作為目標,是因為我們知道這是我們過去推出的模型所欠缺的。對我們來說,一致性本身就是一個重要目標。每次編輯圖像時,你都希望保留部分內容,同時修改另一部分,但之前的模型在這方麵表現不佳。這不僅讓它在專業工作流程中難以發揮作用,也無法滿足角色一致性的需求。多年來,甚至連廣告商也向我們反饋:他們想把產品放在生活場景中展示,但產品必須100%還原原貌,否則就無法用於廣告。所以我們知道市場有這個需求,模型也存在這個缺口,而且我們認為自己已經掌握了正確的方法,包括模型架構和數據方麵,能夠最終實現這個目標。不過讓我們驚訝的是,當模型真正建成後,效果比預期還要好。

Hanza Swini Vasan:沒錯。就像Nicole說的,我們確實認為自己有了正確的方法,但在模型完成訓練、實際投入使用之前,你永遠不知道離目標還有多近。當時我們所有人都很驚訝。而且還有一點,大家在手機應用或Photoshop裏編輯圖像時,都希望未編輯的部分能得到高度保留。但根據模型的構建方式和設計決策不同,要實現這一點其實非常困難。不過人們確實很看重這一點。雖然看似基礎,但從技術角度來說,不改動不想修改的部分這件事,難度其實遠超預期。

Pat Grady:回到你在紅毯上看到真正的自己那個時刻。你的同事們花了幾周時間,用自己的照片測試後也有了同樣的感受。我的問題是,除了這很像我這種定性判斷,有沒有量化的評估方法,能證明你們確實實現了最初設定的目標?

Hanza Swini Vasan:有的。但就像Nicole說的,麵部一致性評估確實很難由他人完成。不過總體來說,我們發現在圖像生成領域,人工評估起到了關鍵作用,甚至可以說是基礎性的。我們有專門的團隊幫助構建完善的評估工具和流程,讓人工對這些細微差異進行評估。比如麵部還原度、圖像美感這類難以量化的指標。所以人工評估對我們來說是個重要的突破口。

Nicole Brtova:實際上,評估是多方麵結合的,既有人工評估,也有大家常說的肉眼判斷,還有社區測試。我們的社區測試先從內部開始,穀歌和DeepMind的藝術家會試用這些模型,高管們也會參與,這有助於我們構建定性的判斷依據,比如這個模型出色在哪裏。如果隻看量化基準,你可能隻會說它比之前的模型好10%,但這無法傳達那種我終於能以全新方式看到自己或我終於能修複那張五歲時剪壞的全家福的情感價值。確實有人用它修複過老照片,而且效果很好。

所以我認為,要傳達這種情感層麵的意義,定性的用戶反饋至關重要。我覺得這一點適用於很多生成式AI和AI功能,但在視覺媒體領域尤為明顯。因為視覺內容的主觀性很強,不像數學推理、邏輯推理那樣,能有明確的標準答案作為依據,所以更容易通過自動化方式實現客觀的量化評估。

Stephanie Zhan:僅通過一張2D人物照片就能實現如此高的角色一致性,難度非常大。你們能分享實現的技術突破嗎?正是這些突破讓你們實現了其他模型未能達到的角色一致性水平。

Hanza Swini Vasan:我覺得關鍵在於高質量的數據,這些數據能讓模型學會泛化。而且很重要的一點是,Nano Banana基於Gemini模型開發,Gemini是一個多模態基礎模型,接觸過大量數據,具備出色的泛化能力。

Nicole Brtova:我認為這正是核心優勢所在。需要泛化能力強的模型,才能在此基礎上實現角色一致性。而且在Gemini這樣的模型上開發,還有一個優勢就是超長的上下文窗口。也就是說,你不僅可以上傳一張自己的照片,還能上傳多張。在輸出端,你還能通過多輪交互與模型對話,這在一兩年前是做不到的。之前我們需要用10張照片進行微調,還要等20分鍾才能生成像自己的形象,這也是它無法普及的原因,操作太複雜,人們也沒有那麽多自己的照片。

所以現在的進步是多方麵的:Gemini本身的性能提升、多模態上下文窗口帶來的優勢、長輸出和長時間上下文保持能力,再加上我們對數據的重視和對問題的聚焦。其實很多技術的進步,都源於團隊裏有人對某個問題執念很深,比如我們團隊有人特別關注文本渲染,所以我們的文本渲染效果才會不斷提升。

Hanza Swini Vasan:沒錯,這絕不是簡單地堆砌大量數據就能實現的。注重細節和質量無論是模型開發的各個環節,還是數據的篩選都至關重要。開發過程中有很多細微的設計決策和選擇節點,而對高質量的追求、對細節的關注,這些都很關鍵。

Nicole Brtova:是的,這其實是AI工藝層麵的東西,我們平時很少談論,但它的重要性不言而喻。

當AI開始猜你想要,Nano Banana創作光譜有多寬?

Pat Grady:那負責開發並推出這個模型的團隊規模有多大?

Nicole Brtova:需要很多人共同參與。

Hanza Swini Vasan:因為我們要在多個產品上同步推出,所以如果把所有相關人員算上,很容易就有幾十甚至上百人。但核心的建模團隊規模要小得多,還有很多人負責實現魔法效果。比如我們有很多基礎設施團隊,他們優化了技術棧的每一個環節,以應對巨大的使用需求,這非常棒。我們甚至開玩笑說,推出這個模型差不多需要一個小國的人力。

Pat Grady:開發這類模型時,你們是會針對特定用戶群體或使用場景進行設計,還是先聚焦於提升模型能力,等能力成熟後再匹配用戶群體?

Nicole Brtova:我覺得兩者都有。在開始訓練任何新模型前,我們都會對想要實現的能力有大致規劃。而且有些設計決策,也會影響目標用戶群體,比如推理速度。Nano Banana是一個對話式編輯器,所以我們希望它反應迅速,因為如果生成圖像要等一兩分鍾,就沒法實現對話式交互了。這也是圖像模型相比視頻模型的優勢等待時間短。所以從一開始,我們就把它定位為麵向消費者的模型。不過顯然,它的能力對開發者產品和企業產品也同樣有用。但實際上,消費者對它的熱情遠超我們以往推出的任何圖像模型,因為它反應快,還能通過文本提示詞輕鬆實現專業級效果。所以我們最初是麵向消費者設計的,但後來發現它在其他領域也能發揮作用。

Hanza Swini Vasan:而且我覺得在理念上,它和我們之前開發的Imagine係列模型有一個重要區別。在Gemini圖像生成模型中,泛化能力被視為更基礎的能力。也就是說,我們既希望模型能擅長特定任務,比如還原人物形象、支持圖像編輯,也希望它具備基礎的視覺信息推理能力,從而自然湧現出一些額外功能。比如之前提到的,有人會上傳數學題的手繪圖,讓模型生成解題過程,比如上傳幾何題,問這個角是多少度。這種能力就是基礎能力的自然湧現,因為一個具備泛化能力的模型,同時擁有推理能力、數學理解能力和視覺理解能力。所以我覺得這兩方麵是相輔相成的。

Stephanie Zhan:出於好奇,我想了解一下Gemini、Nano Banana、VEO這些產品和模型之間的關聯,它們都受益於Gemini的泛化能力和規模效應。你們是如何協同開發這些產品的?未來又有怎樣的規劃?

Nicole Brtova:我們的目標一直是打造一個最強大的全能模型,能處理任何模態的輸入,並轉化為任何模態的輸出。這是我們的北極星目標,目前顯然還沒完全實現。所以在這個過程中,我們開發了很多專業模型,它們能在特定領域提供出色的效果,比如Imagine係列是圖像生成領域的專業模型,VEO是視頻生成和編輯領域的專業模型。我們開發這些模型,一方麵是為了推進該模態的技術前沿,它們確實能帶來實用價值,比如很多電影人會用VO輔助創作;另一方麵,我們也能從這些模型中積累經驗,反過來提升Gemini在該模態下的能力。圖像領域的發展通常會比其他模態快一些,因為它隻有一幀畫麵,訓練和推理成本都更低。

所以我認為,圖像領域現在的很多技術突破,大概在6到12個月後會出現在視頻領域。這一直是我們的目標,形成了幾個團隊來做這個,圖像領域現在正逐漸向Gemini靠攏,朝著全能模型的願景邁進。未來其他模態也會如此,在此過程中,我們會推出各個模態下極具影響力的產品。比如V3因為在視頻生成中加入了音頻而備受好評,G3因為支持實時場景導航而很出色。要在一個模型中同時實現所有功能,目前難度還很大,所以這些專業模型在某種程度上也是試驗場。但我相信,隨著時間推移,Gemini最終應該能具備所有這些能力。

Stephanie Zhan:這太有意思了。

Pat Grady:那我們必須聊聊名字的由來。Nano Banana是個很棒的產品,而且這個名字好記又獨特,我覺得它肯定為產品加分不少。這個名字是偶然想到的,還是有創意天才早就預料到它會成為爆款?

Hanza Swini Vasan:完全是偶然。很多人應該知道,我們的模型會先在內部平台Analina上測試,測試階段需要給模型起代號。如果有人用過Analina就知道,你輸入提示詞後會收到兩個模型的回複,這些模型在正式發布前都隻有代號。當時大概是淩晨兩點,我們要把模型上線到Analina,Nicole是我們很棒的產品經理,還有另一位經理叫Nina,有人給Nina發消息問給模型起什麽名字好,她當時又累又困,然後就想出了這個名字,算是淩晨兩點的靈感。

Pat Grady:原來是你啊。

Nicole Brtova:不是我,是我團隊裏的人起的,還有另一位產品經理也參與了,我不能搶功。但這個名字確實很棒:有趣、易讀,還有對應的表情符號,這對品牌傳播很重要。她當時沒有想太多,而最棒的是,模型上線後大家都很認可這個名字。它很有穀歌的風格,很自然,最後反而像個營銷神來之筆。但說實話,這就是個偶然,隻是效果很好,大家都很喜歡,所以我們也順勢推廣。現在打開Gemini應用,到處都能看到香蕉元素,因為之前很多人反饋找不到這個模型,所以我們才做了這樣的設計。

Hanza Swini Vasan:沒錯,之前外界都在問Nano Banana在哪怎麽用Nano Banana,我在穀歌的同事都問過我怎麽用Nano Banana,我隻能說就是Gemini啊,直接讓它生成圖像就行。但我覺得這也體現了穀歌的品牌特質。穀歌從一開始就是麵向消費者的公司,所以用這樣一個有趣的名字,也契合大家對穀歌有趣、有活力的印象。

而且有趣其實是實用的敲門磚,Nano Banana能讓你把自己放在紅毯上,實現童年時的職業夢想,這種有趣的體驗是很好的切入點。但令人驚喜的是,人們在Gemini應用中試用後,會開始用它做其他事情,比如學習、解數學題,或者了解新知識。所以我覺得,無論是命名還是產品設計,有趣的價值有時會被低估,它能吸引用戶嚐試,幫助他們發現模型更多強大的功能。

Nicole Brtova:而且像我父母和他們的朋友這樣的用戶,也在使用這個模型。我覺得原因就是它的口碑操作簡單、有趣、沒有門檻。試用之後,大家會發現原來這麽好用,交互很簡單,沒有技術門檻。現在很多人對技術,尤其是人工智能,還是會有畏懼心理。雖然聊天機器人的自然交互方式打破了很多障礙,但可能對年輕人更有效。我媽媽一開始用它生成各種有趣的圖像,玩得很開心,後來發現它還能去除照片背景裏的人,解決了實際問題,從好玩到實用的轉變很自然。人們還會發現,它能生成圖表,幫助理解複雜內容,所以它在易用性方麵的價值也很突出。

Stephanie Zhan:那從模型和產品兩個層麵來看,你們未來的發展方向是什麽?

Nicole Brtova:產品層麵有幾個方向。首先是消費者端,我們還有很多工作要做,讓它變得更易用。你會發現,很多Nano Banana的提示詞都有上百個詞,人們需要複製粘貼到Gemini應用裏才能使用,之所以願意這麽麻煩,是因為效果值得。但我們必須突破 提示詞工程 這個階段,讓消費者用起來真正簡單。然後是專業端,我們需要提供更精細的控製、更強的穩定性和可重複性,這樣才能滿足實際專業工作流程的需求。比如我們現在的編輯一致性已經很好,不會隨意改動像素,但還沒有達到100%完美。而專業人士需要100%的可靠性,他們甚至需要對畫麵中每一個像素進行精細控製,比如基於手勢的操作。所以我們肯定要朝著這個方向推進。

還有一個我特別興奮的通用方向,就是 信息可視化。就像我一開始提到的,有人巧妙利用Nano Banana 作思維導圖,你可以想象這種能力的無限擴展。很多人是視覺學習者,而大語言模型在幫助人們消化和可視化信息方麵的潛力,還遠未被挖掘。每個人吸收信息的方式不同,有時需要圖表,有時需要圖像,有時可能需要短視頻。比如學習生物課上的某個概念時,用短視頻來輔助理解。所以這是一個全新的領域,我很期待模型不斷優化,擺脫95%的輸出都是文本的現狀。文本雖然有用,但這並不是我們現實生活中獲取信息的主要方式。

Stephanie Zhan:這很有意思。那從產品角度來說,你是不是在暗示,你們可能會進行垂直整合,圍繞這項技術開發更多相關產品?同時也在暗示,隨著時間推移,與這些模型的交互方式可能不再局限於純語言和提示詞,而是會加入更多用戶界麵元素?

Nicole Brtova:是的,沒錯。我當然認為聊天機器人是很好的用戶入門方式。畢竟用戶不需要學習新的界麵,直接開口說自己想做什麽就行。但對於視覺模態來說,聊天機器人的局限性會越來越明顯,所以探索 未來的視覺創作畫布 還有很大空間。關鍵是要打造出 功能豐富但不複雜 的產品。隨著模型能做的事情越來越多,在這種開放式工具中,很難向用戶說清 它有哪些限製該如何規避怎樣高效使用。所以我很期待看到人們朝著這個方向開發產品。對我們來說,穀歌有個叫 Labs 的團隊,由Josh Woodward領導,他們專門做這類前沿探索和實驗,和我們合作非常緊密。他們會利用我們的前沿模型,去探索娛樂、創作和生產力的未來形態,還開發了Notebook LM和視頻領域的Flow等產品。我很期待Flow未來能成為一個創作平台,讓我們探索視覺創作的全新可能.

Hanza Swini Vasan:短期來看,很明顯這個模型還有不完善的地方。它需要每次都能按預期穩定運行,而不隻是大部分時候可行,還要做到極致流暢,修複所有性能上的細微不一致問題。長期來看Nicole已經提到過核心方向,對我而言,就是要實現真正豐富的多模態生成。現在如果你讓Gemini解釋某個內容,它通常隻會輸出文本,除非你明確要求生成圖像。但回想過去10到20年裏成功的學習平台,比如從YouTube起步的Khan Academy,或是圖片豐富的維基百科,它們都極具圖像導向性。比如查詢任何數學知識,都會看到大量圖表,這種視覺化呈現本該成為模型使用流程中自然的一部分。而要實現這一點,從建模角度來說,還是要回歸到我們之前討論的多模態理解能力,以及模態間的無縫泛化能力。

Nicole Brtova:另外一個有趣的方向是,我們在思考如何讓這些模型更主動地調用合適的內容無論是代碼、圖像還是視頻隻要符合用戶的需求意圖。我職業生涯初期是做谘詢的,所以很明顯,我當時做了很多幻燈片,現在也還在做。我發現有些使用場景下,人們其實並不想深入參與創作的細節。比如,當你要向stakeholders匯報項目進展時,你可能隻想提供一些背景信息,可能是會議記錄,可能是幾個要點,也可能是你過去做的其他幻燈片,然後希望Gemini能幫你完成所有工作:整合幻燈片、排版、生成合適的視覺元素,讓內容更易於理解。這類事情你可能並不想親自參與,這就涉及到了智能代理行為。

但對於另一些創意工作流程來說,用戶其實是想親自創作的。他們想深入細節,想思考什麽樣的用戶界麵能讓目標實現更便捷。比如,如果我真的喜歡設計自己的房子,那我可能就想親自嚐試調整材質、搭配顏色,或者看看拆掉這麵牆會是什麽效果。所以我認為,這裏存在一種需求光譜:一端是完全脫手讓模型根據任務自動調用相關視覺素材和資源;另一端是優化創意流程讓創作過程更有趣,減少繁瑣操作,打破現有工具的技術壁壘。

Hanza Swini Vasan:簡單來說,就是要在兩個極端之間找到平衡。一方麵給用戶提供他們想要的精細控製也就是精準操作的權限;另一方麵,讓模型能夠理解用戶的需求,預判他們的需求和期望的結果,然後自動完成中間所有的銜接工作。

Nicole Brtova:沒錯,這就像現在請專業人士做事一樣。比如請設計師,你給出需求,他們就會利用專業知識完成所有工作。而現在的模型在很多領域還做不到這一點。

Pat Grady:那你認為這個領域接下來的競爭焦點會是什麽?

Nicole Brtova:首先,提升模型能力還有很大空間。比如處理任何輸入、輸出任何模態的全能模型,目前還沒人能完全實現。但要推動技術落地,有兩個關鍵點:一是用戶界麵,我們現在太依賴聊天機器人了,它雖然是好的入門方式,但無法滿足所有需求。所以需要更深入地思考用戶是誰他們要做什麽技術如何提供幫助,然後圍繞這些問題構建產品。這應該是一個重要方向。

Pat Grady:那你們覺得未來5到10年,技術前沿的推進速度會和過去幾年一樣快嗎?

Nicole Brtova:未來5到10年感覺就像20年後一樣遙遠,這個領域的發展速度太快了。你們可能也有同感。兩年前我就覺得發展很快,現在看來,速度比兩年前還要快。

穀歌怎麽給生成內容係上安全繩?

Pat Grady:好的,我要問一個完全不同的問題。穀歌在深度偽造這類問題上一直很謹慎,也很關注。我想知道,當你們看到這個模型的強大能力時,會不會有這樣的討論:如何確保人們不會用它做壞事?穀歌內部是如何進行這類討論的?你們對最終的應對方案滿意嗎?

Nicole Brtova:這其實是一個不斷演變的領域,因為我們需要在給用戶創意自由和避免嚴重危害之間找到平衡,既不能讓限製過於嚴格,影響用戶使用,也要防範最壞的情況。這是我們一直在深入討論的平衡問題。比如,模型生成的內容會有明顯的水印,標注由Gemini生成,直觀表明這是AI內容;而且我們所有模型生成的內容無論是圖像、視頻還是音頻都嵌入了Synth ID,這是一種隱形水印技術。這些都是我們用於驗證內容是否為AI生成的手段,包括顯性和隱性的。我們在這方麵投入很大,因為我們認為,讓用戶能識別這不是真實視頻或圖像,這一點至關重要。

此外,在模型開發過程中,我們會進行大量內部測試,也會和外部合作夥伴合作。因為隨著模型能力增強,會出現新的攻擊方式,需要新的防範措施。這是模型開發中非常重要的一環,我們會持續投入。而且隨著模型能力提升、可實現的功能增多,我們也需要不斷開發新的防範措施,確保在不造成危害的同時,還能讓用戶充分發揮創意、掌控工具。

Hanza Swini Vasan:我覺得這種平衡非常難把握。因為總會有人善意使用工具,也總會有人惡意使用。而且這涉及到一個問題:工具本身是否需要承擔責任?所以我們對此非常謹慎。用戶當然也要對自己的使用行為負責,但Synth ID確實是一項重要技術,它讓我們能向人們開放這些能力,同時又能保留驗證內容真實性的手段,從而應對虛假信息的風險。但這確實是個複雜的問題,我看到所有人都在嚴肅對待,也有很多關於如何平衡的討論。

Stephanie Zhan:那Synth ID現在是行業標準嗎?

Hanza Swini Vasan:它是穀歌的標準。穀歌的Imagine係列、VO等產品,在任何平台上使用時,生成的內容都帶有Synth ID。

Pat Grady:好的,既然你們說未來5到10年變化太快,不好預測,那我們就聚焦未來1到3年。我有兩個問題:第一,現在隻能想象的事情,未來1到3年裏哪些會成為可能?第二,這些變化會給我們的生活帶來什麽影響?

Nicole Brtova:我真心希望一兩年後,我們能擁有個性化導師和個性化教材,這是很有意義的。如果人們的學習風格和起點不同,就沒有理由使用相同的教材,但現在的教育體係就是這樣的。而有了這些技術突破,我認為實現個性化學習是完全可能的:大型語言模型可以作為導師,先了解你的學習風格和興趣點。比如你喜歡籃球,那它就用籃球類比來解釋物理知識。我對學習變得高度個性化這件事非常期待,而且這看起來是可以實現的。當然,我們必須確保模型不產生幻覺,對事實性有很高的要求,所以需要基於真實世界的內容。但這個方向真的很讓人興奮,它能為人們消除很多學習障礙回答你第二個問題,我認為這會讓學習任何知識變得更容易,而且是以高度貼合個人需求的方式,這在現在是做不到的。

Pat Grady:那這有可能成為穀歌的產品嗎?

Nicole Brtova:值得有人去探索。

Hanza Swini Vasan:而且我覺得,這些技術對我們生活和工作方式的改變,現在已經能看到一些跡象了。因為我們自己就在大量使用這些模型。比如我要結婚了,我們的婚禮預告就是用這個模型做的。

我認為未來會出現的變化是:模型帶來的效率提升,會讓個人能完成的工作量大幅增加。這也是創新加速的原因之一。現在我們有代碼助手,能用模型篩選信息、分析海量數據,這些都讓我們的工作效率比兩年前提升了一個數量級。不過這目前主要體現在科技行業,其他很多行業還沒有把這些技術整合到工作流程或工具中。所以有些人會擔心AI會取代我,但至少我看到的是,它其實是改變了個人能完成的工作量。

至於是對企業還是對經濟產生什麽影響,我還不確定,但它肯定能讓人們更有能力在相同時間內完成更多事情。比如我有做谘詢的朋友,他們要花兩小時做幻燈片,調整布局、移動圖標,未來他們可能就不用做這些繁瑣的工作了,而是能把時間用在思考幻燈片內容和客戶溝通上。我希望一兩年後能看到這樣的變化。

在Google不碰的Workflow領域,Nano Banana催生了多少新可能?

Stephanie Zhan:從技術發展趨勢來看,你們覺得有哪些領域是初創企業可以探索,而穀歌可能不會涉足的?

Nicole Brtova:即使是在創意工具領域,也有很多空間。比如探索未來用戶界麵的形態如何實現創意控製如何整合各種功能。現在很多創意從業者需要在多個工具間切換:用大型語言模型構思概念,用圖像模型設計關鍵幀,花大量時間調整,再用視頻模型生成視頻,之後還要用其他工具添加音效和音樂,最後用傳統軟件進行深度編輯。

所以這類基於工作流程的工具,未來可能會在很多垂直領域湧現。創意領域隻是其中一個例子。比如可能會有針對谘詢行業的工具,幫助他們更高效地製作幻燈片、演示文稿和提案文檔。這些領域有很多機會,而一些大公司可能不會涉足。

Hanza Swini Vasan:沒錯,很多領域都需要如何讓技術適配特定工作流程的解決方案,比如銷售、金融。初創企業的優勢在於,它們能深入了解特定客戶的需求、聚焦細分場景,然後構建應用層解決方案;而我們穀歌更關注底層核心技術。

Nicole Brtova:而且我真的很開心看到這麽多人對這個模型感興趣。我身邊的很多人阿姨、叔叔、父母、朋友都用過聊天機器人,用它查信息。我媽媽還喜歡用聊天機器人查健康相關的內容。但視覺媒體有一種特別的魅力,它不隻是有趣,還能讓人興奮、直觀易懂。視覺是人類體驗生活的重要方式,看到它能在情感上打動人們,讓大家感到興奮,這是我覺得最棒的一點。

Stephanie Zhan:我的孩子也很喜歡它。我三歲的兒子把我們家狗的牽引繩纏在自己身上,扮成戰士的樣子。我給他拍了照,用模型把他變成了戰士超級英雄。

Hanza Swini Vasan:太酷了。

Stephanie Zhan:這讓他覺得自己像個超人。而且我丈夫會用穀歌Storybook給他讀故事,這些故事都是關於他在學校學到的道理,比如和同學在操場發生小矛盾,或者適應新學校。模型生成的角色很像他、我丈夫、我、我們家的狗,還有我們的女兒,故事裏還融入了我們想教給他的道理,這就是你之前說的個性化。我真的很期待這樣的未來,對他來說,成長環境會和我們完全不同,這太棒了。

Nicole Brtova:因為這類隻給一兩個人看的故事,以前是不可能製作出來的。別人可能也不想看,但對我們自己來說很有意義。我覺得我們現在真正做到了講述以前無法講述的故事。就像相機普及後,任何人都能捕捉現實一樣,現在我們能捕捉人們的想象力,為人們提供工具,讓他們能把腦海中的想法以視覺形式呈現出來,而這在以前是做不到的,因為沒有工具,也沒有使用工具的知識。這真的非常棒。

Pat Grady:說得真好。

Stephanie Zhan:非常感謝你們的到來。

Nicole Brtova和Hanza Swini Vasan:能來參加節目也很開心。

[ 打印 ]
評論
目前還沒有任何評論
登錄後才可評論.