OpenAI新模型:科幻照進現實,有情緒的AI出現了

5月14日淩晨，OpenAI終於發布了SamAltman提前造勢的“Magic（魔法）”，主要包括三個重點發布，ChatGPT新UI、桌麵版GPT、以及最重要的，新的多模態模型GPT-4o。

當模型變得越來越複雜，新的ChatGPT用戶界麵變得更加簡潔，交互體驗實際上變得更加自然和簡單。

圖注：ChatGPT新UI

桌麵版GPT實時在線，能隨時幫你解決寫代碼、讀圖表等任務，且從演示視頻看上去，桌麵版GPT可以直接通過視覺等方式“讀懂”你的任務，這大大提高了端側任務處理的想象力。

最重磅的是新的模型GPT-4o。根據OpenAI的官網解釋，"o"代表“全知”，是朝著更自然的人類與計算機交互邁出的一步。

總結下來，新模型GPT-4o有三大“魔法”：

①多模態：接受文本、音頻、圖像作為組合輸入，並生成任何文本、音頻和圖像的組合輸出。同時，在多模態理解能力中，最讓人感到驚奇的是，它能夠識別人類的感情，並根據感情做出“有感情的反應”。

②幾乎無延遲：它對音頻輸入的響應時間最短為232毫秒，平均為320毫秒，這與人類在對話中的響應時間相似。

③可在電腦桌麵運行，隨時擁有一個AI隊友，能隨時幫你處理寫代碼、看圖表等任務。

看完這三大特點，真的是直接感歎：“賈維斯”上線！“HER”闖進生活。從今天起，OpenAI給了你一個沒延遲，有感情，可以隨時看著你，無處不在的AI助理。還免費。本文的後半部分，將詳細介紹GPT-4o解鎖的新能力。

一、概覽：GPT-4o是一個端到端的新模型

GPT-4o在英文文本和代碼上與GPT-4Turbo的性能相匹配，在非英文文本上有了顯著提升，同時在API上速度更快，成本降低了50%。與現有模型相比，GPT-4o在視覺和音頻理解方麵尤其更好。

根據OpenAI發布在官網的最新博客文章顯示，在GPT-4o之前，我們使用語音模式與ChatGPT對話，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。為了實現這一點，語音模式是由三個獨立的模型組成的流水線：一個簡單的模型將音頻轉錄為文本，GPT-3.5或GPT-4接收文本並輸出文本，第三個簡單的模型將該文本再轉換回音頻。這個過程意味著主要的智能來源，GPT-4，丟失了很多信息，它不能直接觀察語調、多個說話者或背景噪音，也不能輸出笑聲、歌唱或表達情感。

GPT-4o，是單獨訓練的新模型，可以端到端地處理文本、視覺和音頻，這意味著所有輸入和輸出都由同一個神經網絡處理。

GPT-4o並不是第一個端到端多模態模型。早在去年十二月，穀歌就已經發布了他們的Gemini模型。後續業界也一直判斷OpenAI也會遵從大一統模型的模式，最終開發出端到端的多模態模式。

四個月過去了，OpenAI的大一統模型總算閃亮登場。還比穀歌的多了語音這一模態。

更重要的是，雖然大一統模型是穀歌先發，但OpenAI今天展示了一個更“真”的多模態模型到底應該達到什麽水平。

二、新產品能力——魔法背後的魔法

1、魔法的基礎：一體化多模態的多模態模型。傳統文本、代碼等推理能力沒有質的提升，但音頻視覺等能力達到新標準。

作為一個一體化的多模態模型，GPT-4o在傳統基準測試中,文本推理和編程能力上達到GPT-4Turbo水平,而在多語言、語音識別、語音翻譯、視覺理解等方麵創下新紀錄。多模態能力的平均分高，是這個模型“魔法”能力的基礎。

圖注：文本推理能力提高有限

圖注：與Whisper-v3相比，GPT-4o在多種語言的識別表現優異，尤其是小語種語言

圖注：GPT-4o在音頻翻譯表現上達到新的高水準

圖注：在多項基準測試上，分數都有提高，在視覺理解的測試上，GPT-4o達到新的高水準

2、易用性的魔法：OpenAI教蘋果、穀歌做語音助手

雖然在能力上，大一統的多模態模型和Gemini一樣並沒帶來想象中的性能巨幅提升。但OpenAI明顯比穀歌多走了一步：用一個統合的助手在所有場景下應用所有這些多模態。

就從這次演示來看，這一交互層麵的升級才證明了多模態確實是AI的GameChanger。

更強的是手機版的GPT-4o可以通過語音能力理解你的話語，狀態（累不累，喘氣粗不粗）。

還能通過視覺識別你所處的環境和你正在做的事情，並對它作出反應。幫你解數學題，沒問題，解完還能陪你聊聊人生。

這就是OpenAI想做到的全知：一個陌生人看到你時所能感受到的幾乎一切，它全部能接收到。因此它也有了真正能和你做與你私人相關的，符合場景的操作。

很多人會覺得這都是舊有的功能，因為不論是Gemini還是過去的GPT-4V，我們都可以截圖給他們看當下的環境，他們也能識別照片中的信息並給你回應。語音，過去也有基於Whisper的識別係統，足以讓上個版本的GPT4能回應你。

但這次GPT-4o帶來的是對易用性體驗的顛覆。

它能對實時環境產生理解，隨時對已經變化的環境做反應，甚至還能借助記憶能力聯係起這些變化。這比起過去不停截圖給一個軟件才能順利對話的交互模式易用太多了。

除此之外，在演示中讓人印象最深刻的是GPT-4o的快如閃電。與前代動輒2.6秒的反應速度相比，GPT-4o能毫無延遲的反饋對話。反應速度對用戶體驗的影響之大，想必產品經理們都熟記在心。

這就是得益於GPT-4o為多模態統一編碼，並且是目前最真·多模態。因此我們不再需要語音轉文本-問答-文本轉語音（語音~文本-問答-文本~語音）這個傳統的流程管線了。在GPT-4o中，可以直接做到語音-問答-語音，一步到位，大大縮短了反應時間。

圖注：JimFan演示的過去的三步走模式

同時，易用性還意味著更符合人類交互的習慣：GPT-4o在對話時可以隨時被打斷，且能接續的語音對話模式。

圖注：Jim Fan的賽前預測，滿分

以上這三種能力的組合，讓這個產品真正達到了用戶用起來不覺得麻煩的水平。從今天起，AI終於成為了一個真正的常用陪伴型助手，而非隻是我們需要求助時不情不願調用的效率工具了。

這也許才是AI時代語音助手應該有的樣子：隨時可得，易用自然，功能強大。

正如美國知名技術布道者在會後第一時間提出的看法一樣。

所以，Siri，穀歌語音助手，你們準備好了嗎？

而RabbitR1，AIPin們，你們獨特的價值還能存續嗎？

除了語音助手本身，OpenAI還通過新的GPT桌麵版本展示了一下GPT-4o在桌麵係統內能帶來的改變。教了微軟怎麽叫真正的Copilot。

GPT-4o可以利用視覺能力識別出屏幕中你在寫的代碼，看的PDF，並給出總結或者提示。這比起GPT-4V的截圖，上傳文件也更易用自然；更比打開微軟Copilot，用鍵盤在側邊欄提問交互易用自然太多。

你的賈維斯上線了：ChatGPT的桌麵版，能給你在寫的代碼指錯，能語音總結你屏幕上的pdf

3、沉浸性的魔法——有情感的機器

自然易用隻是GPT-4o的基礎操作，OpenAI真正讓人感到深不可測技術力的其實是它讓模型變得有“人味”了。

先看看這段對話，GPT-4o的回應簡直自然的像是你的好閨蜜，情緒飽滿到幾乎與真人毫無差別：她會驚訝，會笑，會隨著你的情緒激動起來，語氣中充滿了細節。這和過往雖然也能模仿人類語調，但總歸是缺了點真人情緒反饋的GPT4相比，太像人了。

尤其是這些情緒變化都非常貼合上下文和對話的場景，就好像她知道什麽時候該表現出什麽情緒一樣。

另一個例子也可以證明它是真的懂“情緒”是什麽。在Demo過程中，當測試者要求它用“最戲劇性”的方式去講故事的時候，她表現的和一個話劇演員幾乎沒什麽差別了。這需要她懂得“戲劇性”這一在很大程度上形容情緒強度的詞匯是什麽意思。

OpenAI最新模型GPT-4o演示，用最富感情的方式給你講故事還不夠，還能把它給你唱出來

除了自身會表達情緒，GPT-4o還有個“情緒探查器”，能夠讀懂你的情感。結合之前的演示，它也能從你的語氣中理解你的狀態。

這些性能不由讓人想起在3月27日，HumeAI剛剛的發布第一個能識別人類感情的AI——Evi，它能通過人類的聲音語調判斷出63種情感的綜合。這在當時引發了業界的相當震動。

但它能做到的僅僅是識別感情，而非能夠應對人類的感情來生成富有感情的語句。

但現在GPT-4o似乎做到了這個堪稱魔法的能力。

這意味著更加可信的對話對象，一個你會不光從能力角度上覺得它有智力，而是從交流感受上覺得它像人的AI誕生了。這將意味著前所未有的交互性沉浸感。

正如Sam Altamn所說，正是在這個背景下，屬於每個人的雲端情人HER到來了。

可惜的是，OpenAI的技術文檔對此隻字未提。我們也無法對它進行更深入的解讀了。一個可能的猜測是，這是OpenAI在訓練端到端語音模型中自發湧現出的一種新的模型能力。

可以想見的是，在GPT-4o的魔法影響下，AI交友、AI心理谘詢師等等所有需要強情緒交互的賽道都會很快就變成一片藍海。

4、魔法之旅剛剛開始，真·多模態的能力也許遠不止於此

情感識別和適配，也許是GPT-4o作為統一多模態模型所湧現出來的一種非常強大的能力。但它潛在的可能性並不止於。如GregBrockman在推特上的發聲，GPT-4o通過音頻、文本、圖像輸出的任意組合，可以無限解鎖新的功能。而OpneAI對這些新湧現也不過隻是瞥見了一小部分。

這一小部分也已經非常驚人了。除了在直播中重點強調的功能，在OpenAI的技術文檔中，我們看到在GPT4-o的能力列表中，還包含3D能力、圖像詩能力、轉換卡通照片等能力。

圖注：OpenAI官方Blog中的能力探索列表

比如：生成3D模型的魔法

像波德萊爾那幫現代主義詩人一樣，用詩歌或logo填滿規定的形象。

潛在的粘土人能力，隻不過OpenAI選的是把現實頭像轉換卡通圖像

這一切都說明， GPT-4o給我們可能帶來的驚喜可能還遠不止如此。

三、其它值得注意的小細節

1、GPT-4o采用全新的tokenizer,大幅提高了對各種語言的編碼效率,比如古吉拉特語的token數減少了4.4倍，這其中包括20種語言，如英語、法語、德語、葡萄牙語、西班牙語等，其中也包括中文。

2、模型安全性和局限性

根據OpenAI的安全評估,GPT-4o在網絡安全等風險維度上都控製在中等水平以下。但其語音模態帶來一些新的安全挑戰,需要持續迭代改進。目前向公眾開放的是文本和圖像輸入,以及文本輸出。語音輸出將限定為預設的聲音，這意味著，語音的克隆還是會有某些限製，OpenAI未來將分享更多細節。

3、SamAltman上線”承認“，GPT-4o就是前兩天放出來的I'magoodgpt2chatbot

四、免費，降價，OpenAI想盡辦法讓你在幾周後就用上它

不是期貨，馬上就能用。GPT-4o的文本和圖像能力今天開始在ChatGPT中推出。在免費版中提供GPT-4o，並為Plus用戶提供高達5倍的消息限製。在未來幾周內，將在ChatGPTPlus中推出帶有GPT-4o的語音模式新版本。

開發者現在也可以通過API以文本和視覺模型的形式訪問GPT-4o。與GPT-4Turbo相比，GPT-4o的速度提高了2倍，價格降低了一半，速率限製提高了5倍。OpenAI計劃在未來幾周內向API中的一小部分信任合作夥伴推出對GPT-4o的新音頻和視頻能力的支持。