OpenAI超級對齊團隊解散內幕：對奧特曼信任崩潰

據國外媒體報道，在OpenAI聯合創始人兼首席科學家伊爾亞·蘇茨克維（Ilya Sutskever）和超級對齊小組聯合負責人揚·雷科（Jan Leike）相繼於本周離職之後，該公司負責研究未來超級智能模型安全性問題的超級對齊團隊已經宣告解散。該團隊的成員們麵臨了兩種選擇：離職或加入其他團隊。

OpenAI於去年7月成立了超級對齊團隊，由蘇茨克維和雷科共同領導，旨在4年的時間內解決一個核心問題：如何確保超級智能的人工智能係統實現價值對齊與安全。當時，OpenAI曾明確表示，該團隊將獲得公司20%的算力資源。然而，隨著多名研究人員在此前的離職，以及蘇茨克維和雷科於本周的相繼離開，OpenAI在周五確認了超級對齊團隊的工作將被整合入公司其他研究部門。這一變化標誌著超級對齊團隊作為一個獨立實體的結束，同時也預示著OpenAI在人工智能安全與價值對齊領域的研究方向和策略可能麵臨調整。

蘇茨克維本周的離職引發了廣泛的討論。他本人不僅在2015年協助公司首席執行官山姆·奧特曼（Sam Altman）共同創立了OpenAI，還為ChatGPT的研究指明了方向。然而，他也是去年11月導致奧特曼被解雇的四名董事會成員之一。在隨後的五天內，OpenAI經曆了一場劇烈的內部紛爭，最終奧特曼得以重返公司並恢複原職。在奧特曼被免職期間，OpenAI的員工發起了一場大規模抗議活動，最終促成了一項協議，根據該協議，蘇茨克維和其他兩名董事離開了董事會。

研究人員相繼離職

在蘇茨克維本周二宣布離開OpenAI的消息發布數小時後，超級對齊團隊的另一位聯合負責人雷科也在社交媒體平台X上透露了自己辭職的消息。蘇茨克維並未詳細解釋其離職的原因，但他在X上表示：“OpenAI的發展軌跡令人讚歎，我堅信公司在現任領導團隊的帶領下，將能夠構建一個既安全又有益的通用人工智能。”

雷科則在X上詳細闡述了他離職的原因，他指出：“我與OpenAI領導層在公司核心優先事項上的分歧已經持續了一段時間，直至我們達到了一個臨界點。在過去幾個月中，我的團隊一直在逆風中前行。我們有時為了獲取計算資源而掙紮，完成這項至關重要的研究變得越來越困難。”他還表示：“我認為我們應該投入更多的帶寬來為下一代模型做好準備。在安全性、監控、準備、對抗魯棒性、（超級）對齊、保密、社會影響等相關主題上。這些問題很難做好，我擔心我們沒有走上正確的軌道。”

這似乎是OpenAI高管首次公開表達公司將產品置於安全之上的觀點。對此，奧特曼回應稱：“我對雷科為OpenAI的對齊研究和安全文化所做的貢獻表示深深的感激。他的離開讓我感到非常難過。他所說的我們還有很多事情要做是正確的；我們致力於繼續前進。

超級對齊團隊的解散進一步證實了公司在去年11月治理危機之後內部的動蕩。據外媒上個月報道，超級對齊團隊的兩名研究人員奧波德·阿申布倫納（Leopold Aschenbrenner）和帕維爾·伊茲邁洛夫（Pavel Izmailov）因泄露公司機密而被解雇。團隊的另一名成員威廉·桑德斯（William Saunders），根據以他的名字發布的互聯網論壇帖子顯示，於2月份離開了OpenAI。

此外，兩位從事人工智能政策和治理研究的OpenAI研究員似乎也已離開公司。根據LinkedIn信息，庫倫·奧基夫（Cullen O'Keefe）在4月份離開了他在政策前沿研究領域的領導職位。而共同撰寫過多篇關於高級人工智能模型潛在危險的論文的研究員丹尼爾·科科塔伊洛（Daniel Kokotajlo），因對公司在人工通用智能時代能否負責任地行事失去信心，也已離開OpenAI。目前，這些顯然已經離職的研究員都沒有對評論請求做出回應。

OpenAI對蘇茨克維或其他超級對齊團隊成員的離職，以及對未來長期人工智能風險研究的問題均未發表評論。現在，由約翰·舒爾曼領導的團隊將負責與更強大的模型相關的風險研究，他與他人共同領導著一個團隊，負責在訓練後微調人工智能模型。

盡管超級對齊團隊並非唯一思考如何控製人工智能的團隊，但其公開定位為致力於解決這一遠景問題的主力團隊。OpenAI在去年夏天宣布成立超級對齊團隊時指出：“目前，我們還沒有一種解決方案來指導或控製一個潛在的超級人工智能，阻止它變得不可控製。”

OpenAI的章程規定，公司必須安全地開發所謂的人工通用智能，或與人類相媲美或超越人類的技術，安全地並為人類的利益服務。蘇茨克維和其他領導者經常強調謹慎行事的必要性。然而，OpenAI也是最早開發並向公眾發布實驗性人工智能項目的機構之一。

蘇茨克維和雷科的離職發生在OpenAI最新產品發布會之後—該公司本周一剛推出了GPT-4o“多模態”模型，它使ChatGPT能夠看到世界並以更自然、更人性化的方式進行對話。盡管沒有跡象表明最近的離職與OpenAI開發更人性化人工智能或推出產品的努力有任何關係，但最新的進展確實引發了圍繞隱私、情感操縱和網絡安全風險的倫理問題。OpenAI還維護著另一個名為“準備就緒團隊”的研究小組，專注於這些問題。

對奧特曼感到失望

如果一直在社交媒體X上關注OpenAI的“宮鬥”鬧劇，就可能會認為OpenAI秘密取得了巨大的技術突破。“伊爾亞發現了什麽？”這個梗推測蘇茨克維離職是因為他看到了一些可怕的東西，比如一個能夠摧毀人類的人工智能係統。

但真正的答案可能與對技術的悲觀無關，而更多地與對人類的悲觀有關——尤其是對一個人：山姆·奧特曼。知情人士透露，以安全為重的超級對齊團隊成員對奧特曼失去了信心。“這是一個信任逐漸崩潰的過程，就像多米諾骨牌一個接一個倒下，”知情人士透露。沒有多少員工願意公開談論這件事。部分原因是OpenAI讓員工在離職時簽署包含不詆毀條款的離職協議。如果拒絕簽署，員工將放棄在公司的股份，意味著可能會失去數百萬美元。

不過也有例外，的確有員工在離職時沒有簽署協議，仍可以自由地批評OpenAI。在2022年加入OpenAI的科科塔伊洛，曾希望引導公司朝著安全部署人工智能的方向發展。他表示：“OpenAI正在訓練越來越強大的人工智能係統，目標是最終在各個領域超越人類智能。如果處理得當，這可能是對人類最好的事情，但如果我們不小心，也可能是最糟糕的。”

OpenAI表示它想要構建人工通用智能，這是一個假設性的係統，可以在許多領域以人類或超人的水平執行。“我加入時抱有極大的希望，希望OpenAI能夠崛起，在接近實現通用人工智能時表現得更加負責任。但對我們許多人來說，這逐漸變得清晰，這是不會發生的，”科科塔伊洛告訴我。“我逐漸對OpenAI領導層及其負責任地處理通用人工智能的能力失去了信任，所以我辭職了。”

自從“宮鬥”事件以來，蘇茨克維大約半年時間沒有出現在OpenAI辦公室——他一直遠程共同領導超級對齊團隊。雖然該團隊有著遠大的抱負，但它與奧特曼領導下的OpenAI日常運營脫節。奧特曼對被解雇的反應揭示了他的性格：他威脅要帶走OpenAI全部員工，除非董事會重新聘用他；回歸後堅持用對他有利的新成員填補董事會，顯示出他決心抓住權力並避免未來的製約。OpenAI前同事和員工站出來描述他是一個操縱者，說話兩麵三刀——例如，他聲稱他想要優先考慮安全，但在行為上卻與之矛盾。

舉例來說，奧特曼正在與沙特阿拉伯等國商談，這樣他就可以創辦一家新的人工智能芯片製造公司，為他提供構建尖端人工智能所需的大量資源。這令注重安全的員工感到震驚。如果奧特曼真的關心以最安全的方式構建和部署人工智能，為什麽他似乎急於積累盡可能多的芯片，這隻會增加技術的速度？同樣，他為什麽要承擔與可能使用人工智能來加強數字監控或侵犯人權的政權合作的安全風險？

對員工來說，所有這些都導致了逐漸“失去信念，”一位了解公司的內部表示。