騰訊科技訊 5月16日消息，據國外媒體報道，OpenAI近日發布了其最新的大語言模型GPT-4o，再次引領了人工智能領域的又一創新浪潮。在此重要時刻，該公司首席執行官山姆·奧特曼（Sam Altman）接受了知名播客節目主持人羅根·巴特萊（Logan Bartlett）的專訪，向全球觀眾揭開了發布會背後的精彩故事，並提供了他對人工智能未來的預測。

在這次專訪中，奧特曼不僅詳盡地闡述了OpenAI的宏大藍圖，還探討了實現AGI（通用人工智能）的時間表，以及人形機器人可能帶來的深遠社會影響。與此同時，奧特曼也對人工智能個人助理的前景表達了自己的興奮與憂慮，並強調了當今人工智能領域最大的機遇和風險等。

以下為奧特曼與巴特萊對話全文：

01 領導OpenAI讓我再難保持“透明”

巴特萊：讓我們從較為輕鬆的話題開始吧！在過去的四五年裏，作為OpenAI的領導者，你的生活經曆了哪些最不尋常的變化？換句話說，哪些轉變對你來說是最為明顯的？

奧特曼：許多事情都發生了變化。但其中最令人驚異的是，我再也無法在公眾麵前保持“透明”。如果之前我稍微預想過這一點，我可能會說，這比想象中更為奇特。但當時我確實沒有多想。這就像一種非常特殊的“隔離狀態”，讓我有些無所適從。

巴特萊：你深信人工智能和OpenAI的力量，那麽，在經營這樣一家公司時，你有沒有預想過它可能帶來的連鎖反應？

奧特曼：我並未預料到這些。我並沒有想到會牽涉到這麽多其他的事情，比如公司會成長為一個真正具有影響力的企業。我更加沒有預見到，我甚至在自己的城市裏都無法自由地外出用餐，這確實讓我感到有些奇怪和不可思議。

02 發布多模態AI：技術的一大飛躍

巴特萊：本周早些時候，你們成功發布了多模態大模型GPT-4o，它實現了在文本、語音和視覺之間的無縫交互。你能談談為何這一突破如此重要嗎？

奧特曼：這無疑是計算機使用方式的一次革命性飛躍。長久以來，我們都有通過語音控製計算機的願景，如Siri等早期產品。但對我而言，它們的使用體驗從未真正達到自然流暢的境界。然而，GPT-4o在使用感受上與前代產品截然不同。它的表現非常自然，這源於多方麵因素的完美結合：它功能的豐富性、融入其他模型的迅捷性、語調的自然流暢，以及它所能實現的多樣化操作，比如你可以輕鬆地對它說“嘿，說得更快一點”或者選擇另一種聲音。這種流暢性和靈活性——無論我們如何稱呼它——都讓我對新模型愛不釋手。

巴特萊：請分享一下你目前更偏好的一些用例場景。

奧特曼：盡管我才使用了一周的時間，但有一個用例讓我頗為驚喜。當我全神貫注於工作時，我可以簡單地將手機置於桌麵之上，而無需頻繁地切換窗口或打斷我的工作流程。這手機仿佛成為了我與信息之間的另一個橋梁。

舉個例子，當我處理某個任務時，我過去常常需要停下來，去其他標簽頁搜索資料或點擊其他鏈接。而現在，我可以繼續手頭的工作，直接提問並立即獲得響應，而不必轉移視線離開我當前在電腦上處理的內容。這種無縫銜接的體驗確實令人稱奇。

巴特萊：聽起來，這一切的背後是技術架構的演進，特別是計算能力的飛躍？

奧特曼：確實，從技術角度來看，這基於我們過去幾年在多個領域的積累。我們一直在深入探索音頻模型、視覺模型，並努力將它們融合。同時，我們也在探索用更高效的方法來訓練我們的模型。這並不是說我們突然之間就擁有了一個革命性的新功能，而是將眾多技術元素巧妙地結合在了一起。

巴特萊：考慮到延遲問題，你認為是否需要在設備上開發專門的模型來確保流暢的交互？

奧特曼：對於視頻來說，網絡延遲確實是一個需要關注的問題。我一直對AR眼鏡或其他設備能夠實時地與世界交流、感知事物變化的前景充滿期待。但網絡延遲確實可能成為這一願景的絆腳石。不過，在實際應用中，兩三百毫秒的延遲已經足夠迅速，很多時候甚至能超越人類的反應速度。

巴特萊：你最近提到GPT-4o可能不是下一個大型版本的命名，比如GPT-5。這似乎意味著你們在模型開發上采用了更為靈活和迭代的方法。我們是否應該這樣看待未來的發展方向？

奧特曼：未來發布的大模型不會是一個標誌性的大版本，如GPT-5，因為目前我們還無法確定。我認為，我從中學習到的一點是，人工智能與傳統的發布模式並不總是完美契合。科技公司通常遵循著既定的產品發布模式，但我們現在可能需要采取一種不同的策略。我們當然可以沿用GPT-5這樣的命名，並以新的方式發布，或者也可以考慮使用其他名稱。但我認為，我們還在摸索如何為這些產品命名和建立品牌。

從GPT-1到GPT-4的命名方式對我來說是合乎邏輯的，而GPT-4顯然已經取得了顯著的進步。我們也在思考，是否會有一個類似“虛擬大腦”的基礎模型，在某些情況下可能展現出更深入的“思考能力”。或者，我們也可能探索不同的模型，但用戶可能並不關心這些模型之間的差異。因此，我認為我們還在探索如何將這些產品推向市場。

巴特萊：這是否意味著，為了模型取得漸進式進步，我們對計算能力的需求可能會低於曆史水平？

奧特曼：我認為，我們總是渴望利用盡可能多的計算能力。然而，現在我們正在見證驚人的效率提升，這無疑是至關重要的。最近發布的亮點之一是語音模式，但也許更核心的是，我們能夠以如此高的效率運行它，以至於我們可以向全球用戶提供這一服務，而且它的性能達到了世界上頂尖模型的水準。對於希望免費體驗ChatGPT的用戶，你會發現，GPT-4o與之前的GPT-4和GPT-4 Turbo相比，在某些使用場景下效率方麵有顯著提升。而且，我認為在這方麵我們還有很大的提升潛力。

03 自然語言將成為人與AI主要交流方式

巴特萊：你曾提到ChatGPT本身並沒有真正改變世界，它可能隻是改變了人們對世界的期望。

奧特曼：是的，我完全認同這一觀點。如果以任何經濟指標來衡量，你很難找到確切的證據證明ChatGPT確實提高了生產力或產生了其他直接的經濟效益。可能在客戶服務或某些特定領域有一些體現，但如果你觀察全球GDP的走勢，你能在ChatGPT發布時明顯檢測到它的影響嗎？恐怕不能。

巴特萊：你認為是否有一個時間點，我們可以確定GDP的增長是由ChatGPT推動的？

奧特曼：我不確定我們能否將這一增長直接歸因於某個特定的模型。但我認為，如果我們回顧幾十年後的曆史數據，我們會看到一係列模型如何逐步推動整個領域的發展，ChatGPT隻是其中的一部分。

巴特萊：你認為在接下來的12個月裏，哪些應用或領域將展現出最有前途的發展？

奧特曼：由於我個人的工作背景，我自然對編程領域有關偏愛，我堅信這是一個至關重要的領域。

巴特萊：你曾詳細討論了深度專業化模型與通用模型的區別，前者針對特定數據訓練並用於特定目的，而後者能夠進行真正的推理。

奧特曼：我敢打賭，未來是通用模型大放異彩的時代。

巴特萊：在你看來，什麽才是最為重要的？

奧特曼：對於那些僅僅局限於一個數據集和與之緊密相關的狹窄領域的模型來說，如果它們能夠擁有泛化推理的能力，那麽無論麵對何種新的數據類型，隻需輸入相應的數據，模型便能夠迅速適應並運行。但這樣的能力並不是通過堆砌一堆專業化的模型所能獲得的。因此，我認為最重要的是要弄清楚真正的推理能力，這樣我們便可以將其應用於各種場景和任務中。

巴特萊：在設想人工智能在通信和創造力方麵的前景時，你認為在未來兩年內，人類與人工智能之間的主要交流方式將是什麽？

奧特曼：自然語言無疑是一種非常有效的交流方式。我對於這樣一個想法很感興趣：我們可以設計一個人類和人工智能都能共同使用的機製，讓它們以相同的方式互動。因此，相比於其他形式的機器人，我對人形機器人更感興趣。因為當前這個世界在很大程度上是為人類設計的，我不希望因為追求某些所謂的“效率”而讓這個世界重新配置。我傾向於這樣的觀點，即我們使用人類習慣的語言與人工智能交流，他們之間甚至可能采用同樣的方式進行交流。盡管我無法預知未來，但我認為這是一個值得探索的有趣方向。

切換到網頁版

OpenAI掌門人專訪:GPT-4o讓我愛不釋手

騰訊科技 2024-05-15 21:07:38