OpenAI下周要出什麽大招?奧特曼在這個訪談裏劇透了

5月12日消息，據國外媒體報道，OpenAI首席執行官山姆·奧特曼（SamAltman）日前參加了播客節目“All-inPodcast”。在活動中，奧特曼談到了推理計算、開源模型、正在開發中的GPT-5大語言模型、人工智能監管、後人工智能時代實施全民基本收入（UBI）、先進的智能體將如何改變我們與應用的交互方式、發生在去年年末的OpenAI“宮鬥”事件等一係列話題。

此外，周五有報道稱，蘋果即將與OpenAI合作，預計下一代移動操作係統iOS18可能會集成ChatGPT的功能。在訪談中，奧特曼還探討了未來可能出現的、能夠與具有人工智能功能的iPhone競爭的產品可能具備哪些特征。

以下是節目內容的全文記錄。

問：我們非常榮幸地邀請到了山姆·奧特曼，一位在科技界引起轟動的創新者和企業家。讓我們把時鍾撥回到大約20年前，那時我有幸首次與奧特曼相遇。當時，他正致力於開發一款名為Looped的本地移動應用，而這款應用後來獲得了紅杉資本的支持。我們兩人都成為了紅杉資本的天使投資人，奧特曼在那時就展現出了他非凡的洞察力，他主導了對當時還默默無聞的金融科技公司Stripe的投資，而我則對Uber進行了投資。我們共同參與的基金，以數百萬美元的投入，最終實現了超過2億美元的驚人回報。

在那段時期，奧特曼的事業軌跡轉向了創業孵化器YCombinator，他在2014至2019年間擔任了該公司的總裁。2016年，他與合作夥伴共同創立了OpenAI，帶著一個宏偉的願景--創造能夠造福全人類的通用人工智能。2019年，奧特曼離開了YCombinator，全身心投入到OpenAI的首席執行官角色中。到了2022年11月30日，隨著OpenAI發布ChatGPT，奧特曼的名字開始在科技界廣為人知。2023年1月，科技巨頭微軟對OpenAI進行了高達100億美元的投資。

然而，2023年11月，情況突然發生了戲劇性的變化。在短短的五天內，社交媒體上充斥著奧特曼被OpenAI董事會解雇的消息，許多人猜測他可能會加入微軟，而OpenAI這個即將實現通用人工智能技術的夢想團隊可能會因此解散。但就在幾天後，奧特曼戲劇性地重返OpenAI，再次擔任CEO。

最近的報道顯示，奧特曼正在尋求為一個人工智能芯片項目籌集高達7萬億美元的資金。此外，還有消息稱，他與蘋果前設計總監喬納森·伊夫（JonyIve）聯手，計劃從軟銀CEO孫正義手中募集10億美元，開發一款能夠與iPhone競爭的產品。自ChatGPT發布以來，這項服務一直在不斷進步，對我們的工作方式產生了深遠的影響。據報道，ChatGPT已經成為史上用戶增長速度最快的消費級應用，僅用了兩個月時間就獲得了1億用戶。OpenAI的營收增長也同樣令人矚目，去年年底時的年化營收已經達到了20億美元。

現在，讓我們熱烈歡迎奧特曼來到“All-inPodcast”節目。

奧特曼：非常感謝！

GPT-5還沒確定發布日期，但正在考慮采用新的發布策略

問：業內都在迫不及待的等待著GPT-5的發布。有報道稱，這款產品將會在今夏某時正式推出。能縮小時間範圍嗎？你們會在何時發布GPT-5？

奧特曼：關於GPT-5的發布時間，目前我們還沒有確定一個具體的日期。我們對新模型的推出持謹慎態度，致力於確保它在發布時能夠達到我們的高標準。正如您所提到的，自從GPT-4發布以來，我們注意到模型性能的持續提升，這表明了技術進步的自然趨勢。我們相信，通過不斷的使用和優化，人工智能係統將能夠更好地服務於社會，而不僅僅是通過版本號的簡單遞增。

我們正在考慮采用一種新的發布策略，這可能與以往的方式有所不同。我們的目標是讓人工智能技術更加普及，讓更廣泛的用戶群體能夠享受到先進的技術成果。我們認為，通過提供易於訪問的人工智能工具，可以激發更多人的創新潛力，這是我們的核心使命之一。

我們對於GPT-5的命名和發布策略仍在討論之中，但可以肯定的是，我們致力於讓這款新模型在發布時能夠為用戶帶來卓越的體驗。我們將繼續關注技術的發展，並探索最佳的發布策略，以便讓更多人受益於先進的人工智能技術。

問：這是否意味著不會有很長的訓練周期，而是持續不斷地反複訓練或訓練子模型。對於大模型，未來在架構方麵會有哪些變化？

奧特曼：你可以想象是，繼續訓練正確的模型，這似乎是合理的事情。

問：剛才你談到GPT-5這次的發布會有點不同。你是不是在想先向付費用戶發布GPT-5；亦或是現在的安全風險還很高，你們打算先讓紅隊進行測試之後，再逐步向用戶發布？

奧特曼：我們非常重視讓人工智能技術變得更加普及和可及，這確實是我們的核心使命之一。目前，GPT-4主要麵向付費用戶，但我們正在積極探索如何讓免費用戶也能享受到先進的技術成果。我們的理念是開發人工智能工具，並盡可能廣泛地免費提供給用戶，或者以非常低廉的成本提供服務。我們相信，這樣可以幫助人們利用這些工具去發明和創造新的事物，推動社會的進步和發展。雖然通用人工智能目前仍然是一個遙不可及的目標，但我們相信，通過不斷的創新和優化，我們可以逐步接近這個目標。我們正在努力尋找方法，讓GPT-4這樣的先進模型能夠以免費或低成本的方式提供給更多的用戶。如果我們還沒有找到如何讓用戶免費使用GPT-4的方法，我會非常的難過。這是我們真正想做的事情。

開源、閉源都有其獨特的價值和作用，計劃未來開源更多模型

問：我認為人們經常談論著兩大因素。一是在某種程度上限製了殺手級應用發展的潛在成本和延遲。第二個因素是人們在開源環境中能夠長期開發應用，該領域的瘋狂之處在於開源社區非常狂熱。我們在一個多月前剛演示了Devin，給我們留下了非常深刻的印象。你認為開源模型在未來幾年會有什麽樣的發展？

奧特曼：關於你提到的速度和成本問題，我們非常重視這兩個因素。雖然目前我無法給出一個確切的時間表來說明何時能夠顯著降低成本，但我有信心我們能夠實現這一目標。我們致力於減少延遲，並大幅降低成本。盡管我們仍處於對人工智能科學發展和工作原理理解的早期階段，但我們堅信通過不斷的努力和創新，我們最終能夠達到預期的目標。我們目前所有的開發工作都在穩步推進中。我們認識到，當人工智能的成本變得足夠低，以至於幾乎可以忽略不計，同時其速度變得如此之快，以至於對我們和其他用戶來說幾乎是即時的，這將是一個重大的突破。我們相信，實現這一目標將為我們自己以及所有用戶解鎖巨大的潛力。

在開源和閉源的問題上，我們認為兩者都有其獨特的價值和作用。我們已經有計劃在未來開源更多的模型，同時我們也在積極地開發通用人工智能，並探索如何廣泛地分配其帶來的利益。我們的這一戰略已經得到了很多人的認同，盡管它可能並不適合所有人。我們正在構建一個龐大的生態係統，其中將包括開源模型以及基於此構建的開發者社區。就我個人而言，我對開源領域特別感興趣，尤其是希望能夠開發出一個盡可能優秀的開源模型，使其能夠在手機上高效運行。目前，市場上似乎還沒有一個非常好的解決方案，但我相信這將是一項非常重要的技術進步。

問：你們何時會開發在手機上運行的開源模型？

奧特曼：我不清楚我們是否會這樣，也不清楚是否有人會這樣做。也許Llama3或Llama4能夠做到這些。

問：我猜測70億參數版本的Llama3模型可能適合在手機上運行。

奧特曼：不管這個版本的Llama3是否針對手機，但我認為它可以在手機上運行。我還不確定，我沒有體驗過它。

問：當Llama3發布時，許多人認為其性能已經與GPT-4相當，甚至在某些方麵非常接近。OpenAI不久前剛發布了新版本的GPT-4，而且還在開發GPT-5。鑒於開源的Devin的優異表現，OpenAI作為行業的領先者，需要采取什麽措施來維持其在人工智能領域的領先地位？

當Llama3發布時，許多人都認為它的表現性能已經追趕上了GPT-4。我認為Llama3的能夠在所有方麵都與GPT-4相當，但它好像已經非常接近。我的問題是，OpenAI不久前剛發布了新版本的GPT-4，而且還在開發GPT-5。因為開源的Devin的優異表現，OpenAI如何保持對開源模型的領先地位？

奧特曼：我們的目標不僅僅是開發盡可能智能的算法權重，而是致力於創建一個實用的智能層，供人們在各種場景中應用。在這個過程中，我們的模型雖然是核心組件，但也隻是整個智能係統的一部分。我相信OpenAI在這一領域將保持世界領先的地位，並且我們有決心維持這種優勢。要實現這一目標，我們還需要在係統周圍構建更多的基礎設施和支持工作。與其他任何企業一樣，我們必須以傳統的方式建立持久的價值。這意味著我們需要發現並堅持一個偉大的產品願景，這個願景能夠持續地為客戶提供價值。

我們正致力於構建一個生態係統，它不僅包括先進的人工智能模型，還包括用戶界麵、開發者工具、教育資源和社區支持等，以確保我們的技術能夠被廣泛地接受和有效利用。通過這樣的全麵方法，我們希望能夠實現長期的成功，並在人工智能領域持續地為社會帶來積極的影響。

問：在創辦OpenAI之初，這家組織的目標就是開源，因為開源對任何一家公司來說都太重要了。後來開關就出現了，因為所有人輕而易舉的開發和使用這項技術過於為先，我們需要鎖定它。我認為這是正確的，因為憤世嫉俗的一麵就像這樣。從開源走向閉源，我想知道你為何最終選擇了這樣的道路？

奧特曼：我們發布ChatGPT的部分原因是向世界展示我們的成果。我們一直在努力傳達一個信息：人工智能真的非常重要。回到2022年10月，當時並沒有太多人意識到人工智能的重要性或其即將帶來的影響。我們努力做這件事的一個重要部分是使人們能夠實際使用這項技術。現在，實現這一目標有多種不同的方式，我認為這確實起到了非常關鍵的作用。然而，事實上，目前許多人正在使用免費版的ChatGPT，而我們並沒有進行廣告宣傳，也沒有考慮過盈利的問題。我們推出免費版的ChatGPT，是因為我們希望人們能夠利用這些工具。我認為，這已經為人們提供了很多價值，就像是“授人以漁”。我們這麽做的原因也是為了讓人們更好地理解整個人工智能行業的發展態勢。

至於閉源戰略是否正確，目前我們還沒有標準答案。我們和其他公司一樣，也在探索中前行，並會在學習新事物的過程中多次調整策略。當我們創辦OpenAI時，我們並不清楚事情會如何發展。在我們開發出第一款語言模型之前，我們甚至還沒有開發出過任何產品。我們隻是一步步地努力探索，穩步前進。我們會繼續這樣做。

智能隻是物質的一種突現屬性，就像物理定律一樣

問：我認為你剛才在談論開源和閉源問題時是這麽說的：不管做出什麽商業決策，所有這些模型都將會變得無限接近某個準確度水平。不是全部，但比如說有四、五個模型，它們背後有足夠的資金支持，比如OpenAI、Meta、Google、微軟等等。假設有四、五個，也許還有一個初創公司，以及開源模型。然後很快，這些模型的準確性或價值可能會轉移到那些你能得到而別人得不到的專有訓練數據上，或者別人能得到而你得不到的數據上。你是這麽看待這件事的發展的嗎？開源讓每個人都達到一定的閾值，然後就是對數據的競爭，是不是這樣？

奧特曼：我絕對不認為這將變成一場關於數據的競賽，因為當模型變得足夠智能時，它們在某個點上，至少在訓練方麵，將不再依賴於更多的數據。可能仍需數據來提升其實用性。在這一過程中，我學到的最重要的一課是，對於未來幾年的發展趨勢做出自信的預測是非常困難的，所以我目前不想嚐試這樣做。我確實期待世界上會出現許多卓越的模型。

在我看來，我們似乎剛剛發現了一個自然界或科學界的新事實，無論你想怎樣稱呼它，這幾乎是一種精神上的認知。智能隻是物質的一種突現屬性，它就像物理定律一樣。我相信人們將會理解這一點，但係統設計將會有多種不同的方法，人們會做出不同的選擇，並提出新的想法。我相信，就像任何其他行業一樣，人工智能領域也會出現多種不同的方法，不同的人會有不同的偏好。就像有些人喜歡iPhone，有些人喜歡安卓手機一樣，我認為人工智能模型也會呈現類似的多樣性。

問：關於成本和速度的問題。所有人工智能企業在某種程度上都有點受到英偉達產能的限製，是不是這樣？我認為你和幾乎所有其他人都已經有效地宣布了你們可以獲得的芯片數量，因為這隻是英偉達的最大產能。為了能夠更便宜、更快地計算，獲得更多的能源，需要在基礎設施層麵上做些什麽，以便你們實際上可以解決這些問題。你們是如何幫助塑造整個行業解決這些問題的呢？

奧特曼：我們肯定會在算法上取得顯著的進步，我並不想低估這一點。我對芯片和能源領域非常感興趣。如果我們能夠使相同性能的模型效率提高一倍，那實際上就等於我們擁有了雙倍的計算能力，不是嗎？我相信在提升效率方麵還有很多工作要做，並且我期待我們能夠真正開始看到這些成果的顯現。除了這些，整個供應鏈的複雜性不容忽視。這包括邏輯芯片的生產能力，高帶寬存儲器（HBM）的供應量，以及我們能夠以多快的速度獲得建設許可、澆築混凝土、建設數據中心，並且完成布線工作。能源的獲取也是一個巨大的瓶頸。但是，我相信，當這些技術對人們有足夠大的價值時，全世界都會采取必要的行動，我們也會努力推動這一進程加速發展。

當然，也存在一定的可能性，正如你之前提到的，如果在基礎設施方麵取得重大突破，我們可能會擁有一種更加高效的計算方法。不過，我不願意過於依賴這種可能性，也不會花費太多時間去考慮它。

語音交互是通向未來交互方式的一個重要線索

問：那麽在設備端的情況如何呢？你之前提到了能夠適配手機的模型，無論是大語言模型（LLM）還是小語言模型（SLM），我相信你肯定已經在考慮這些模型的應用。但是，設備本身是否也會隨之發生變化？這些設備是否也會變得像iPhone那樣昂貴？

奧特曼：我對這個話題非常感興趣，並且對計算領域的創新形態充滿熱情。每一次技術的重大飛躍似乎都能開啟新的可能性。手機目前的卓越性能令人驚歎，因此要達到一個新的高度，門檻自然非常之高。我個人認為，iPhone是人類曆史上製造出的最偉大的技術產品之一。它真的是一款非凡的設備。我之前也提到過，它已經非常出色，以至於想要超越它，我們必須設定一個相當高的標準。

問：它要麽必須設計得更加複雜，要麽實際上應該更經濟、更易於使用？

奧特曼：幾乎每個人都願意為手機花錢，因此，如果你能製造一個成本要低得多的設備，我認為人們對於攜帶或使用第二個設備還是有一定的抗拒感。鑒於我們大多數人都願意為手機支付費用，我不認為僅僅降低成本就是解決方案。

問：不同的（設備）會是答案嗎？是否會存在一種專門的芯片，用來驅動手機，並且特別擅長於支持手機尺寸的人工智能模型呢？

奧特曼：很可能會有（這樣的芯片），但手機製造商肯定會朝這個方向努力。這並不一定要求我們去創造一個全新的設備。我認為關鍵在於發掘一種真正與眾不同的互動模式，這種模式是由技術進步所催生的。如果我能知道那是什麽，我現在就會非常激動地投身於這個領域的開發。

問：不過，你們現在的應用已經具備了語音功能，實際上，我將手機上的快捷動作按鈕設置成了直接啟動ChatGPT的語音應用。我常和孩子們一起使用它，他們非常喜歡與它交流。盡管這個應用有時會出現一些延遲問題，但它真的非常出色。

奧特曼：我們將繼續改進並提升語音功能的質量。我相信語音交互是通向未來交互方式的一個重要線索。如果能夠實現真正優質的語音互動體驗，那將是一種與計算機互動的全新方式。

問：順便提一下，ChatGPT有時為何不響應，感覺就像是在使用一個收音機，確實非常煩人。但當它提供正確答案時，它同樣令人讚歎。

奧特曼：我們正在努力改進，目前它確實顯得有些笨拙，響應速度不夠快，且缺乏流暢和自然的感覺。我們致力於讓這些方麵的體驗得到顯著提升。

問：關於計算機視覺領域，是否可以這樣設想：配備有眼鏡或者佩戴一個掛墜，這樣就能將視覺或視頻數據與語音信息相結合。通過這種結合，人工智能就能全麵掌握你周圍發生的一切。

奧特曼：多模態交互的能力極其強大，例如，可以提問：“嘿！ChatGPT，我正在看什麽？”或者“我不太確定這是什麽植物。”這顯然是另一個探索方向。但關於人們是否願意佩戴眼鏡，或者在需要時舉起某個設備來獲取信息，我認為這涉及到許多社會和人際交往方麵的複雜考量，尤其是在麵部佩戴計算設備的問題上。

問：我們見證了穀歌眼鏡的案例，曾經有人在執行任務時遭遇了身體衝突，這引發了許多問題。如果人工智能變得在每個人的手機上都無所不在，那麽可能會催生哪些應用程序呢？你有沒有預感到可能會發生什麽，或者你希望看到什麽樣的應用被開發出來？

奧特曼：我期望擁有的是一種始終處於激活狀態且極易使用的設備，它可以通過語音、文字，或者更理想的狀態，通過其他方式理解我的需求。我設想有一個係統能夠全天候地輔助我，盡可能多地收集上下文信息，成為世界上最出色的助理，不斷地幫助我提升自我。當討論到人工智能的未來時，人們通常有兩種不同的觀點，它們聽起來可能頗為相似，但在係統設計的實際應用上卻有著顯著差異。一種觀點是希望人工智能成為個人的一種延伸，像一個幽靈或另一個自我，能夠代表我行動，甚至在不通知我的情況下處理郵件，它變得就像是我的一部分。另一種觀點是希望人工智能成為一個出色的高級雇員，它能夠非常了解我，我可以向它委派任務，它可以像有權訪問我的電子郵件一樣了解我的需求，但我會將其視為一個獨立的實體。我個人更傾向於後者，認為這是我們未來發展的方向。在這個意義上，人工智能不是用戶的簡單延伸，而是一個始終可訪問、始終卓越、能力超群的助理或高管。

智能體不隻是機械地執行命令，它能夠進行推理

問：智能體在某種程度上就像是你的代表，它能夠理解你的需求，並且預測你的意圖，這正是我對你所述內容的解讀。

奧特曼：我預期將會出現類似的智能體，但在高級雇員和智能體之間還是存在區別的。我欣賞高級雇員的一點在於他們能夠向我提供反饋，有時他們可能會選擇不完全按照我的指示行事。他們可能會告訴我，如果按照您的要求做，可能會產生這樣的後果，接著會是這樣的，然後是那樣的，你確定要這麽做嗎？智能體不隻是機械地執行命令，它能夠進行推理，是的，它具備推理能力。智能體與我之間的關係，是我所期待的那種與真正有能力的同事之間的互動，這與那些隻會盲目遵從的人不同。

問：在這個設想的世界中，如果我們擁有像Jarvis（注：Jarvis是漫威宇宙中托尼·斯塔克的人工智能助手）這樣的高級智能體，它們將怎樣改變我們與應用程序的互動方式？這些智能體具備推理能力。這將對我們目前使用的產品界麵產生哪些影響，尤其是在那些界麵價值極高的應用上，比如Instacart、Uber和DoorDash等，它們並不是單純提供API接口的服務，而是直接為人們提供便利的。在這樣一個由智能體代表80億人進行交互的世界裏，我們對應用程序的工作方式和整個體驗架構的思考需要如何轉變？

奧特曼：我對打造一個既適合人類也適合人工智能使用的世界的構想非常感興趣。我青睞於這種設計的可解釋性、任務交接的流暢性，以及我們提供反饋的能力。例如，DoorDash可以向我未來的人工智能助手提供一些API接口，讓助手能夠自動下單，或者我可以通過手機對人工智能助手說：“好的，人工智能助手，請幫我在DoorDash上下個訂單”，然後觀察應用如何響應，看到界麵上的點擊操作，如果需要，我可以即時糾正說：“嘿，不是這個選項”，或者“嗯，我想要的是那個”。

問：所以你意識到，語音交互這種方式有潛力使得傳統應用變得多餘。你隻需簡單地說出你想要壽司，它就能根據你以往的喜好來推薦你喜歡的壽司類型，同時避免那些你不喜歡的選項，並努力為你提供最佳的點餐體驗。

奧特曼：我很難想象我們完全進入一個隻需簡單地說“嘿，ChatGPT，給我訂份壽司”，然後它回應“好的，你想從哪家餐館訂？要哪種類型的壽司？什麽時間送達？”等等的世界。我相信用戶界麵對於許多任務來說都是非常有用的。我很難想象一個你完全不再看屏幕，而隻依賴語音交互的世界，但我確實難以想象那樣的場景。

問：確實如此。對於許多事務來說是這樣的。比如，蘋果推出了Siri，按理說我們可以通過Siri來自動預約Uber，但我懷疑實際上很少有人這麽做。畢竟，為什麽要冒這個險呢？正如你所指出的，因為目前語音助手的服務質量還不夠高。然而，一旦服務質量足夠高，我認為人們真的會更傾向於使用語音助手，因為它更加便捷。你不需要拿出手機，不需要打開應用，不需要點擊任何東西。如果遇到應用自動登出，或者需要重新登錄，或者進行雙因素認證（TFA）的情況，整個過程就變得非常繁瑣和令人煩惱。

奧特曼：我明白，對於像設置計時器這樣簡單的任務，我總是使用Siri，因為它非常有效且方便，我也不需要其他額外的信息。然而，對於像叫Uber這樣的服務，我可能想要比較幾種不同選項的價格，了解車輛距離我的實際遠近，甚至查看司機在地圖上的實時位置，因為有時候我可能會選擇步行到某個更方便的地點。通過直接在Uber應用的界麵上操作，我可以更快地獲取這些詳細信息，這比通過語音指令來完成整個過程要高效得多。

問：我喜歡你提出的“觀看它發生“的想法，那真的很酷。

奧特曼：我認為將會有不同的界麵用於不同的任務，而且我認為這種情況將會持續下去。

讓人工智能加速和改進科學發現過程，最讓我感興趣

問：在所有利用OpenAI平台開發應用和體驗的開發者中，是否有一些項目給您留下了深刻印象，它們即便還處於初期或類似玩具應用的階段，卻展現出了極具吸引力的發展潛力？或者說，是否有一些成果是你的團隊特別指出並認為具有重要意義的？

奧特曼：我今天早上遇到了一個新建的創業團隊，嚴格來說是由兩個人組成。他們計劃在夏季開展一個項目，致力於開發人工智能導師功能。我對這一領域一直抱有濃厚興趣，盡管許多人已經在我們的平台上取得了傑出成果，但如果能夠有人實現--正如他們所形容的，這將是一次“單軌列車級別”的創新--徹底改變我們學習的方式，那將是非常令人興奮的。如果能夠找到一種新的途徑，讓人們能夠以個性化的方式探索和學習，我個人對這樣的前景感到非常激動。你之前提到的與編碼相關的許多事項，我認為這是對未來的一個非常酷的展望。我相信醫療保健是一個特別需要被徹底革新的領域。但就個人而言，我最感到興奮的是加速和改進科學發現過程的可能性。雖然GPT-4顯然還未在這方麵實現重大突破，但它或許已經在一定程度上加快了進程，提升了科學家的工作效率。

問：這些模型與語言模型在訓練和構建上有所區別。雖然它們之間存在許多共同點，但也存在許多差異。這些模型中的許多都是基於一種全新的基礎架構設計的，它們專門針對特定的問題集或應用場景，例如化學相互作用的建模。是這樣嗎？

奧特曼：確實，某些元素是必不可少的，但我認為我們當前普遍缺失的，對於我們討論的眾多應用而言，是具備推理能力的模型。一旦模型能夠進行推理，便可以將它們與化學仿真器等工具相結合，或者用於進行預測和假設。

問：確實，我今天想探討的一個關鍵話題是模型網絡的理念。在討論智能體時，人們往往會想到一係列線性的函數調用，但在生物學中，我們觀察到的是係統之間複雜的網絡和相互作用。這些係統通過集合和網絡的整合作用產生結果，而不僅僅是簡單的線性調用。我們是否正處於這樣一個架構的興起之中：專業模型或網絡模型相互協作，共同解決更複雜的任務集，運用推理能力，其中一些計算模型專注於化學或算術運算，而其他模型則承擔不同的職責。這種架構避免了依賴單一的、全知全能的模型來處理所有問題。

奧特曼：我不確定推理能力最終能否成為一種廣泛適用的功能。我有這樣的預感，並且希望它是，如果真的能夠實現，那將是非常理想的。不過，我並不確定它是否真的會如此。

問：讓我們以蛋白質結構預測為例。存在大量蛋白質圖像和序列數據，研究人員利用這些數據構建了一個預測模型，並且遵循一係列流程和步驟來實現這一點。可以設想，未來可能會有一種人工通用智能或具備高級推理能力的模型，它能夠自主地構建出解決這一問題的子模型，通過搜集必要的數據並進行處理來解決蛋白質結構預測的問題嗎？

奧特曼：存在許多可能性，例如，它可能為特定任務訓練一個專門的模型；或者，它可能依賴於一個大型模型，該模型能夠識別出它所需的其他訓練數據，然後主動查詢這些數據，並據此更新自身的知識庫。

問：我想知道，是否真的所有這些初創公司都會失敗？目前許多初創公司都在采取這樣的策略：收集特定的數據，接著基於這些數據全新訓練一個模型，該模型專門針對某一任務進行優化，並且在這一任務上的表現超過了其他所有解決方案。

奧特曼：某種程度上，正如我們在討論生物學和那些複雜的係統網絡時所指出的，我已經能夠窺見一二。我之所以會笑，是因為最近我經曆了一場嚴重的疾病，現在已大致康複，但整個過程就像是身體係統逐一受到打擊。你真的可以明確指出，比如，這是消化係統的問題。這讓我想起了我們之前討論的，你不知道這些係統之間相互作用的複雜性，直到出現問題，這本身是一個非常有趣的現象。同時，我嚐試使用ChatGPT來理解我的病情。我可能會說，我對某個問題不太確定。接著，我會在沒有閱讀的情況下，把相關的論文鏈接放入上下文中，然後發現，哦，這就是我不確定的那個問題，現在我認為應該是這樣。這就是你之前提到的一個例子，你可以說，我不知道這個信息，然後你可以添加更多的上下文信息，而不是重新訓練整個模型，你隻需要即時地增加上下文，然後你就能得出一個結論。

問：這些用於預測蛋白質結構的模型，比如說，構成了這個領域的基石。現在，我好奇的是，Alpha3是否能夠處理其他分子類型的預測？如果可以，那麽理論上最好的通用模型將能夠接入、學習訓練數據，並自主解決問題。或許你可以為我們舉一個例子來闡釋這個過程。你能和我們談談Sora嗎？你的視頻模型能夠生成令人驚歎的動態圖像和視頻。你願意分享的話，能不能告訴我們它的架構有何獨特之處，以及它是如何區別於其他模型的？

奧特曼：確實，對於一般性問題，我們顯然需要專業的模擬器、連接器和各種數據片段等工具。我有一種直覺--盡管我得強調這並沒有科學依據--如果我們能夠理解通用推理的精髓，並將這一原理應用到新的問題領域，類似於人類的通用推理能力，我認為這是可以實現的。這可能會是一個快速的突破過程，至少我是這麽認為的。至於Sora，它並不是以語言模型為基礎，而是專門針對視頻處理而設計的模型。

問：顯而易見，我們還未能完全實現那樣的技術境界，對吧？以構建高效視頻模型為例，你們可能是從零開始，采用獨特的架構和特定的數據集進行開發。然而，展望未來，一個具備通用推理能力的係統--也就是我們所說的人工通用智能--理論上應該能夠通過自我學習和邏輯推理，掌握渲染視頻的方法。

奧特曼：我想說的是，以一個例子來看，據我所了解，目前全球最優秀的文本模型大多還是基於回歸的方法構建的。與此同時，頂尖的圖像和視頻模型則采用了擴散模型技術，這種情況在某種程度上顯得有些不尋常。

對訓練數據的使用存在差異性，暫時不會進入音樂產業

問：圍繞訓練數據的使用，存在廣泛爭議。你們一直采用合理使用原則和尊重創作者權利的方式來處理問題。為何OpenAI選擇不涉足音樂產業？相較於其他公司，你們的做法顯得更加審慎。目前，你們已經建立了一些授權協議，但據我所知，你們與紐約時報的訴訟並未達成和解，我猜想這背後涉及的是訓練數據的使用問題。你們是如何看待和平衡公平使用原則的？我們在播客中對此有過激烈的討論。你們通過簽訂授權協議的行動表明了你們追求公平的決心。對於創作美妙音樂、歌詞、書籍的藝術家的權利，你個人是如何看待的？當你們使用了他們的作品，創造了衍生產品，並將其商業化，這其中的公平性應如何定義？我們應如何構建一個世界，讓藝術家們能夠創作內容，並能夠控製他人對其作品的使用？我對你個人的看法很好奇，因為我知道你在這個問題上一直思考得很深入，而我們行業中的許多人對內容創作者的權利並沒有給予足夠的考慮。

奧特曼：我認為不同類型的情況之間存在著顯著差異。以公平使用為例，我認為根據現行法律，我們的立場是合理的。但人工智能的特殊性意味著，對於藝術等創造性工作，我們需要用新的角度來考慮這些問題。舉個例子，如果有人通過閱讀網上的數學資料學會了數學，我想大多數人會認為這是無可非議的。然而，對於其他情況，可能會有不同的看法……但為了避免回答過於冗長，我就不深入討論了。

在我看來，人們普遍認為學習通用的人類知識，如數學定理，屬於公共領域的一部分。而另一方麵，係統模仿某位藝術家的風格或創作肖像，則涉及到更為複雜的版權問題。在這兩個極端之間，存在許多不同的情況。傳統上，討論往往集中在訓練數據上，但隨著訓練數據價值的降低，我們越來越關注模型在推理時的行為，以及它如何實時地在上下文中訪問和使用信息。推理時的行為將成為新的討論焦點，以及未來的經濟模式將如何發展。

以音樂為例，如果有人要求模型創作一首泰勒·斯威夫特（TaylorSwift）風格的歌，即使該模型從未在泰勒·斯威夫特的歌曲上進行過訓練，我們仍然麵臨一個挑戰：模型可能已經了解了關於泰勒·斯威夫特的信息和她的音樂主題。這就引出了一個問題：即使沒有直接訓練，模型是否應該被允許模仿她的風格？如果可以，那麽泰勒·斯威夫特應如何獲得報酬？在這種情況下，我認為首先應該有選擇加入或退出的機製，然後建立一個經濟模型來處理這些問題。

從音樂產業的采樣曆史中，我們可以找到一個有趣的視角，來觀察這種經濟模式是如何運作的。這雖然和人工智能創作不完全相同，但為我們提供了一個思考的起點。

問：山姆，我想對你提供的例子提出挑戰：模型通過學習歌曲結構、節奏、旋律、和聲關係等元素——這些是成就音樂成功的關鍵因素，然後利用訓練數據來創造新的音樂。這與一個人聆聽了大量音樂、吸收了這些知識，並在大腦中構建了相似的預測模型或理解的過程有何不同？這兩者之間的差異何在？你為什麽要主張藝術家應該獲得特別的報酬？這不是一個簡單的采樣案例，因為AI並沒有複製或存儲原始歌曲，而是在學習音樂的結構，不是嗎？

奧特曼：我並不是想表達那個觀點，因為我同意，就像人類從其他人類那裏獲得靈感一樣，我在說，如果你說“為我創造一首泰勒·斯威夫特風格的歌。”

問：我明白了，好的，提示語中含有某位藝術家的風格。

奧特曼：我個人認為這是兩個不同的案例。

問：你是否能夠接受這樣的情況：一個音樂模型在未向創作了這些音樂作品的藝術家支付版稅的前提下，自主地通過人類創作出的所有音樂作品庫進行訓練。接著，你不被允許提出特定藝術家的請求，而是可以這樣要求：“請為我播放一首相當現代的、關於心碎的流行歌曲，最好是女聲演唱的。”

奧特曼：我們已經決定暫時不進入音樂產業，部分原因在於圍繞如何界定使用界限的複雜問題。比如，我最近與一些我非常尊敬的音樂家會麵，試圖探討一些邊緣情況。設想一下，如果我們出資讓一萬位音樂家創作大量音樂，專門用於構建一個優質的訓練集，使我們的音樂模型能夠學習到所有關於強烈節奏結構和引人入勝的節奏的要素。如果我們僅利用這些音樂進行訓練，理論上我們仍能開發出一個傑出的音樂模型，或許我們能夠實現這一點。我曾將這作為一個思維實驗提出，音樂家們表示，到了那個階段，他們沒有原則上的反對理由。即便如此，我個人對此仍有所保留。這並不是說我們不應該這麽做，但確實存在一些考量。

問：你看到蘋果最近發布的廣告了嗎？它將人類的所有創造力凝練在一台非常薄的iPad中。你對這有什麽看法？

奧特曼：人們對此產生了非常情感化的反應，比你想象的要強烈得多。我本人對人工智能持非常積極的態度，但我相信人類創造力和藝術表達中有些東西是非常寶貴的。對於能夠提升科學研究的人工智能，我們當然歡迎。然而，當涉及到能夠進行深刻而美妙的人類創造性表達的人工智能時，我認為我們應該審慎行事。這種技術的發展是不可避免的，它將成為幫助我們達到更高層次創造力的工具，但在這個過程中，我們應該找到一種方式，既能推動技術發展，又能保持我們所珍視的創造性精神。

一些先進的人工智能係統將有能力造成嚴重的全球性傷害

問：當討論到人工智能的監管以及在一個由人工智能主導的世界中實施全民基本收入時，有人提倡“全麵監管人工智能”。這究竟指的是什麽？你是否能夠就加州最近提出的監管提案分享一些看法？如果你願意，我們可以進一步探討這個話題。

奧特曼：我對目前的情況有些憂慮。雖然我注意到有許多關於人工智能的監管提案正在討論中，但就我個人所見，加州的許多提案引起了我的擔憂。同時，我普遍擔心如果每個州都獨立進行人工智能的監管工作。當討論到“監管人工智能”時，我認為人們的想法並不統一。有些人可能主張完全禁止人工智能的發展，而另一些人則可能堅持認為人工智能應當是開源的，而不是封閉的。

我個人特別關注的是，我相信在不遠的將來，我們可能會麵臨一個時刻--我得承認，這隻是一個前瞻性的聲明，做出此類預測總是伴隨著風險--我的預測是，在不久的將來，一些先進的人工智能係統將有能力造成嚴重的全球性傷害。對於這些係統，我希望能有一個類似全球監管核武器或合成生物學的國際機構，來監督這些最強大係統，並確保它們經過合理的安全測試，以防止它們失控、自我遞歸改進或其他類似的風險。

問：批評的聲音指出，你擁有足夠的資源去進行遊說並與政治家建立緊密聯係，而且你已經非常積極地參與其中。然而，對於那些同樣對這一領域充滿熱情並投入資金的初創公司來說，它們可能沒有足夠的資源去進行遊說或應對監管俘獲的問題。正如風投大佬比爾·柯爾利（BillGurley）在去年的一次精彩演講中提到的那樣，這可能是一個值得關注的問題。也許你可以直麵這個問題，並給出你的看法。

奧特曼：如果法規限定為“我們僅關注那些在價值超過10億或100億美元的計算機上訓練的模型”，我認為這是可以接受的，可以設定這樣一個標準。而且，我不覺得這樣的規定會為初創公司帶來監管上的負擔。

非常擔心監管可能會過度，GPT-4並不會構成實質性威脅

問：如果你擁有製造核武器的核材料，這通常隻限於少數人所持有，因此，可以將這種情況比作需要核檢查的類比。

奧特曼：確實，我覺得這個觀點很有趣。關於監管問題，我想補充一點，我非常擔心監管可能會過度。我相信，無論是做過了頭還是僅僅做過了一點點，我們都可能會犯錯。同樣，如果我們做得不夠，也可能出錯。但我真的認為，我們有責任也有使命去討論我們認為可能會發生的事情，以及為了正確處理這些事情我們需要做些什麽。

問：挑戰在於，我們現有的法規本意是保護人民和整個社會，但我們正在麵臨一種新類型的法規，這種法規可能會賦予政府審查代碼和商業機密的權力，這是我們以前從未遇到過的。例如，加州提出的立法和一些聯邦立法提案實質上要求聯邦政府對模型、軟件進行審計，檢查和核實模型的參數和權重。在獲得政府的認證之前，你無法將這些模型或軟件部署於商業或公共用途。對我來說，這似乎是因為人們對人工智能的理解和它潛在的影響感到恐懼，他們希望對其進行控製，而控製的一種方式就是要求在發布前進行審計。我認為，這些立法者對人工智能的理解可能還很有限。正如你所知，甚至比任何人都清楚，隨著技術的快速發展，這些法規在一年後可能就會變得不再適用。

奧特曼：我之所以提倡采取基於機構的方法來處理宏觀層麵的問題，而不是將這些寫入法律，是因為我認為在12個月後，這些法律可能都會被證明是不正確的。即使這些立法者是世界級的專家，我也懷疑他們能否在12個月或24個月的時間框架內做出正確的決策。我不相信那些政策，比如我們要審查你的所有源代碼，逐一檢查你的所有權重，是的，我認為市麵上有很多不切實際的提議。但是，就像飛機在獲得認證前需要經過一係列的安全測試一樣，這與閱讀你所有的代碼完全不同，我們更應該審查模型的輸出結果，而不是模型的內部細節。我想說的是，我認為進行安全測試是有意義的。

問：我們怎樣才能達到那個目標呢？我不隻是代表OpenAI，而是代表整個行業，乃至全人類發聲。我擔心，如果我們限製了那些能夠極大推動人類進步的卓越技術的發展，我們可能會讓自己回到一個類似於黑暗時代的局麵。我們該如何轉變當前的情緒並實現這一目標？因為政府層麵的進展太快，而許多人似乎並沒有正確處理這個問題。另外，Llama的架構決策非常有意思，它的理念是允許Llama盡可能自由地發展，同時我們還有另一個名為Llama衛士（Llama衛士）的係統，它旨在提供保護性的控製措施。你認為這種方法是否能夠正確解決問題，或者你對這個問題有何看法？

奧特曼：鑒於當前模型的能力，無疑會出現一些問題。我並不打算對這些問題輕描淡寫，也不想忽視它們的嚴重性，但對於像GPT-4這樣的模型，我個人並不擔心它們會帶來災難性的風險。我相信，對於如何安全地部署這類模型，存在著多種可行的方法。如果我們在這個觀點上達成一致，可能會發現更多的共識。你提到的一個例子特別有趣，那就是技術上有潛力進行遞歸自我改進的模型，即便它們實際並不會被這樣使用，比如自主設計和部署生物武器，或者涉及到遞歸自我改進的新模型。

對於這些有潛在威脅的模型，我認為應該在國際層麵進行安全測試。我認為GPT-4並不會構成實質性的威脅，並且有許多安全的方式來發布這樣的模型。但你也了解，當涉及到可能導致大量人員傷亡的情況時，比如飛機或其他許多例子，我們很樂意有一套測試框架來確保安全。當我登上飛機時，我通常不會擔心它的安全性，因為我假定它是安全的，對吧？現在，人們對此有很多不必要的擔憂。

未來可能不僅僅是關於全民基本收入，而更像是全民基本計算資源

問：關於工作的問題，你在YCombinator的時候進行了一些測試，我想你對全民基本收入進行了一些研究，你的研究結果很快就會出來。

奧特曼：這是一項持續五年的研究項目，它現在已告一段落，或者說，這個項目實際上是五年前啟動的。項目初始階段進行了一項試驗性研究，之後則是長期的研究運行。

問：你能解釋一下為什麽決定啟動全民基本收入項目嗎？你的初衷是什麽？

奧特曼：我們在2016年開始探討這個問題，也正是在那個時期，我們開始嚴肅地對待人工智能。我們的理論是，無論對於社會、就業、經濟，還是在更深層次上，比如社會契約的本質，可能發生的變化都是如此之大，以至於我們需要進行大量研究，探索重新組織社會結構的新方法。我也認為，我對政府在大多數旨在幫助貧困人口的政策上的做法並不十分滿意。我更傾向於相信，如果直接給人們金錢，他們能夠做出明智的選擇，市場也會相應地發揮作用。

我非常支持提高基本生活水平，減少並消除貧困，但我對於尋找一種比現有社會安全網和現行處理方式更有效的解決方案非常感興趣。我相信，金錢雖然不能解決所有問題，也不會讓人即刻感到幸福，但它可能能解決一些問題，可能為人們提供一個更好的起點，幫助他們自助，我對這樣的前景非常感興趣。現在，隨著我們看到人工智能的發展方式，我在思考，是否有比傳統的全民基本收入（UBI）更好的做法。我在想，未來可能不僅僅是關於全民基本收入，而更像是全民基本計算資源。例如，每個人都可以獲得一定量的GPT-7計算能力，他們可以使用它，可以將其轉售，或者捐贈給其他人用於癌症研究等。但你所獲得的不是金錢，而是相當於一部分生產力的份額，你擁有的是生產力的一部分。

被解雇後幾小時都處於徹底的困惑狀態，董事會的意圖是真誠的

問：究竟發生了什麽事？你曾經被解雇，卻又回來了，那是一場內部的權力鬥爭嗎？有沒有人背叛了你？你有沒有取得人工通用智能的突破？究竟是什麽情況？請告訴我們。

奧特曼：我遭遇了被解雇的情況，當時我在考慮是否返回崗位，因為那時我感到非常沮喪，有些迷茫。但隨後我意識到，我對OpenAI以及那裏的同事們懷有深厚的感情，我決定要回去。我明白重返崗位將會麵臨挑戰，實際上，這個過程比我預想的更加艱難，但我覺得可以應對。我同意重返OpenAI。董事會在搞清楚狀況上花費了一些時間，而在此期間，我們盡力保持團隊的完整，並繼續為我們的客戶提供服務。隨後，我們開始製定新的計劃。最終，董事會決定任命另一位臨時CEO。當這位臨時CEO上任後，許多人感到驚訝，他的名字是埃米特·謝爾（EmmettShear）？他在職的時間非常短暫。

我前一天晚上先收到了一條短信，緊接著又接到了一個電話，之後一切就變得非常混亂。我的手機幾乎變成了擺設，因為它不斷地震動，充斥著短信和來電。基本上，我就像是通過社交媒體被解雇的，這種情況在特朗普執政期間也發生過幾回。在酒店房間裏，我幾小時都處於一種徹底的困惑狀態，努力想弄清楚下一步該怎麽辦。然後事情變得非常奇怪。我大約在下午3點左右飛回家，一路上手機不停地響，電話和信息幾乎沒有斷過。到了晚上，我和一些人麵對麵地見了麵，我決定，好吧，我將繼續進行人工通用智能的研究，並對未來發展感到樂觀。然後第二天早晨，我和幾位董事會成員通了電話，討論了我可能回歸的事情，這又引發了一連串的忙碌和混亂。最終，盡管中間經曆了許多瘋狂的時刻，但事情得到了解決。

OpenAI當時隻有一個非營利董事會，因此所有的董事會成員都是獨董。董事會的成員數量已經減少到了六個人。他們先是讓時任董事長兼總裁格雷格·布洛克曼（GregBrockman）離開了董事會，隨後又解雇了我。情況就是這樣。

問：我的意思是，是否在董事會中，那些隻具有非營利組織背景的成員與那些具有初創公司經驗的成員之間發生了文化衝突？如果你願意，你能否分享一些關於導致這些決策背後的動機的信息，或者是任何你願意透露的細節。

奧特曼：我總是認為文化衝突是不可避免的。顯然，並非所有董事會成員都是我特別喜愛的人，但我對他們對待人工通用智能的嚴肅態度以及對確保人工智能安全重要性的認識持有深深的敬意。盡管我對他們某些決策和行為持有強烈的異議--我確實有這樣的異議--但我從未對他們的誠信或對我們共同目標的承諾，也就是實現安全且有益的通用人工智能感到懷疑。

問：你是否認為他們在處理過程中做出了正確的決策，或者是否知道如何平衡所有需要妥善處理的事務？

奧特曼：我並不這麽認為。但我確實相信，他們的意圖是真誠的，他們對通用人工智能的重視以及對正確處理這項技術的承諾是認真的。

“7萬億美元”項目不是個人的項目，而是OpenAI的項目

問：我想詢問有關OpenAI的使命，其明確的目標是開發人工通用智能。這確實是一個非常有趣的目標。許多人認為，如果我們成功創造了通用人工智能，這可能會是一個意料之外的結果，甚至可能是某些事情出現了嚴重錯誤的標誌，這讓他們感到非常害怕。然而，OpenAI實際上將此作為其核心使命。這樣的使命是否為您所從事的工作帶來了更多的擔憂？我理解，它同樣也能激發動力，但您是如何平衡這兩者的？您為什麽會選擇這樣的使命？

奧特曼：我首先會回答第一個問題，然後是第二個問題。我認為，人工通用智能的發展確實引起了廣泛的恐懼，這是可以理解的，因為許多人對當前的人工智能，乃至未來的AGI都感到害怕。盡管如此，他們對人工智能目前的發展感到興奮，對未來的可能性感到更加興奮，盡管這種興奮伴隨著更深的憂慮。我們正在努力應對這些複雜的情感，但我認為通用人工智能的出現是不可避免的，它終將實現。我相信，盡管如此，它將帶來巨大的益處。然而，我們確實需要找到一種合理的方式來引導我們走向這一未來。將會有很多變化發生，而變化往往讓人們感到不適，所以我們需要在很多方麵做出正確的決策和調整。

問：你是一位傑出的交易者。我見證了你整個職業生涯，你在交易方麵的確非常出色。你擁有廣泛的人脈，而且在籌資方麵技藝高超，成效顯著。你在投資界的動作，以及你所參與的公司籌集了巨額資金來建設芯片廠等事宜，所有這些都顯示了你的實力。不過，這裏稍微誇張了一點，我們都知道，你並非真的籌集了7萬億美元，那可能是某公司的市值。暫且不提這些，問題在於，盡管你完成了眾多交易，但有人對你缺乏信任，這究竟是為什麽？你的動機何在？你追求的最終目標是什麽？哪些機遇應當保留在OpenAI內部，而哪些可以歸屬於你個人？是不是因為那些非營利組織的人對你有所懷疑？

奧特曼：關於設備公司或芯片製造公司的項目，這些並不是我個人的項目，而是OpenAI的項目。相應的，OpenAI將會獲得相關股權。我理解外界可能會有這樣的看法，尤其是那些不需要日常評論這些事務的人。這是公平的，因為我們還沒有宣布這些事項，它們尚未完成。我並不認為世界上大多數人會像你們這樣深入思考這些問題。

我也認同，這種情況確實容易引發眾多陰謀論，特別是在科技評論家中。如果能回到過去，我會更加明確地表達我持有股份的意圖，並確保這一點非常清晰。這樣，每個人都能理解，盡管如此，我依然會投身於其中，因為我深切關心通用人工智能，並相信這是全球最引人入勝的工作。至少，這樣做可以向所有人清楚地傳達芯片項目的本質。