奧特曼種的草莓“熟”了，但它又貴又難吃？

丨劃重點

①Sam Altman沒有選擇用“草莓”命名新模型，而選擇用“OpenAI o1”，它預示著OpenAI提高模型準確性、降低幻覺的新開始。

②訂閱用戶可以不用重新付費、無縫銜接使用OpenAI o1，而API使用者則需要“花重金”的準備，API最終使用成本可能比GPT-4o高出1000倍。

③OpenAI o1很可能采用了Self Play RL的方法，利用帶有思維鏈能力的PRM提升了模型的推理能力。但它應該沒有采用MCTS的方式。

④OpenAI o1確實帶來了從預訓練scale up轉向推理scale up的範式轉變，但其有效領域暫時比較有限。對AI應用開發的提升也不顯著。

Sam Altman種的草莓終於“熟”了。

9月13日，美國當地時間周四，OpenAI醞釀許久的新模型OpenAI o1（以下簡稱o1）問世，在正式發布之前，o1一直被外界稱為“草莓”。

o1的核心能力在於複雜推理，目前有o1-preview和o1-mini兩個版本。

它尤其擅長處理數學和編程問題，OpenAI直言，o1在物理、生物和化學問題基準測試中的準確度超過了人類博士水平。

比如，o1在美國數學奧林匹克資格賽中躋身美國前500名學生之列；在Codeforces比賽中達到了第89個百分位。

（o1-preview、o1-mini和人類能力對比，來源：OpenAI）

（GPT-4o和o1基準測試對比，OpenAI）

o1就像一位優秀的理科生，它擅長解決嚴謹的、有固定答案的推演問題。

如果分析o1的思考模式，它對應的是心理學家丹尼爾·卡尼曼（Daniel Kahneman）提出的System 2（邏輯係統），其啟動是被動、緩慢又耗時的，但這樣的係統隻占據人類整體思考的5%。而人類95%思考方式都歸屬於System 1（直覺係統），即根據直覺和經驗的即時性本能思考。

來源：心理學家丹尼爾·卡尼曼（Daniel Kahneman）

o1所提升的準確性，還無法滲透System1（直覺係統），它像一個聰明的理科博士，但身上又欠缺了一些煙火氣，很難通過直覺和經驗角度提供沒有幻覺的準確答案，所以距離真正的AGI還有不小的距離。

如果AGI是我們所仰望的星空，那麽當下可以腳踏實地思考的是：OpenAI o1到底能給我們帶來什麽？它掀起的Self-play RL會成為大模型新的技術範式嗎？行業玩家會跟隨它的步伐嗎？

Sam Altman曆經數月種植的“草莓”，終於到了收獲的季節，讓我們一起品一品這顆草莓的味道。

OpenAI o1背後可能的技術是什麽？

本次新品發布後，OpenAI在其官方博客簡述了o1背後的核心技術提升：“通過強化學習，o1 學會了精煉其思維鏈並優化所用的策略。它學會了識別並糾正錯誤，將複雜的步驟分解為更簡單的部分，並在當前方法無效時嚐試不同的途徑。這一過程顯著提升了模型的推理能力。”

在這段敘述中我們可以看到o1的三個主要新能力：內化了思維鏈（COT）、能糾錯、能嚐試不同的途徑。這些基本上與近幾日業界討論甚多的SelfPlay-RL（自我對弈型強化學習）的基本能力很符合。

雖然OpenAI沒有詳細的技術文檔，但它的老對手穀歌在8月發布的一篇文章《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》，提供了這種新的SelfPlay RL範式的一些基本框架和實現可能。

從中我們可以一窺o1可能的架構和邏輯。

在這篇論文中穀歌詳細解釋了一種 PRM（Process reward model 過程獎勵模型）作為和LLM（大語言模型）對弈的對手，它的推理模式和其效果。

PRM是在思維鏈的過程中給出獎勵（打分）的模型，過程獎勵模型。

它是一個單獨被訓練出來的模型，它擁有兩個能力，一個是將問題拆成一步一步的思維鏈的能力；另一個是對大模型生成的每一步進行打分，並在結果不夠理想時讓大模型重新生成結果。它不僅可以評判每一個具體回答的優與劣，也可以評判在整個思維鏈過程中最佳的流程。

（綠的就是PRM覺得好的，紅的就是覺得不行的）

它在與大模型的互動中，通過讓大模型搜索多個可能的答案，在推理過程中的整體邏輯和每一步上都選擇最佳的答案。這就讓推理的準確性得到大幅提升。

（LLM與PRM進行對弈的流程示意圖）

這一過程與OpenAI在“推理模型”中顯示的多步循環對弈的形式也基本一致。在這張圖裏，模型在給出最終回答之前會進行三輪推理，並把前一輪的推理作為Input（輸入）再給到下一輪。如果把它想象成思維鏈，這個輸入就是對前一個步驟的對弈結果的總結。它最終輸出的是一個簡短的版本。

（OpenAI官網推理模型的多輪對弈模式）

在這個過程中，PRM讓LLM 去搜索最佳答案的方法也不同。

Google在研究中提到了從簡單到複雜的三種方案，直接在多個答案中選最佳解的方法（Best of N），在思維鏈中每步都提供多個候選項的方法（Beam Search）和把後續多個步驟聯係起來看的MCTS方法（蒙特卡洛樹狀搜索算法）的簡化版本Lookahead Search。

那OpenAI最有可能選擇的搜索模式是什麽呢？

我們從反應時間和token消耗兩方麵看，根據Hackernews上一名使用了API的開發者的推算，OpenAI o1進行推理所消耗的token數量是其給出答案token的10倍。但可能會達到未進行思維鏈的GPT-4o mini 所用token數的60-100倍。

而如果采用能看三步的、每步形成5個候選選項情況下，單層深度的Lookahead Search就會消耗45倍的token。但用到了思維鏈每個步驟都需要進行一次Lookahead Search的話，100倍的token是根本打不住的。因此OpenAI o1所用的選擇方法肯定不是MCTS形式的。另外考慮到這麽MCTS這麽大的計算量，目前o1的反饋時間是遠遠不夠的。

但OpenAI o1也不可能是單純的僅給出單個答案的思維鏈判斷。僅用思維鏈，對於非常複雜的問題，token消耗最多也就是達到5-10倍。其60倍token消耗又太大了。因此可能有兩種情況，一是PRM僅在答案不可接受或者低分太低時拓展進行MCTS式的搜索。或者它用的是更節約的Beam Search的方法搜索可能答案。但具體其結構，還有等到有更多OpenAI相關劇透才能認定。

這就是我們目前猜測的OpenAI o1的可能的技術架構。

對於OpenAI是否是訓練了一個同時能做到思維鏈和判定的模型，而非一個PRM+LMM的模型組合這點。這其實並無必要。

首先，無論如何該模型都需要扮演兩個角色（生成者和裁判）來完成強化學習的過程。而從性價比來講，訓練一個單獨的PRM顯然比訓練一個GPT-4o大小的模型要節約的多。在穀歌的論文中，他們采用的是Palm 2-s這個最小的Palm 2模型進行的訓練。

雖然穀歌的文章是在8月份發布的，但關於PRM的早期探索，實際上還是要回歸到OpenAI。早在2023年5月，Illya和其團隊就已經思考出了PRM，並發明出了這一結合思維鏈及監督者為一體的強化學習方法。

範式轉變的種子，可能從那個時期就留下了。反思近期Illya在采訪中提到的”每個人都在說“Scaling up”，但每個人都忽略了一個問題：我們在Scaling什麽？可能就是意指這個從預訓練到推理 Scaling up的轉變。

但目前OpenAI o1的效果很難說得上驚豔，雖然在很多複雜問題上能表現的超越GPT-4o，但仍然會在9.11和9.8誰大這樣的問題上犯錯誤，會出現比較嚴重的思維鏈離題幻覺。

所以即使是OpenAI，經過一年多時間的嚐試，其結果也不過如此。想走這條路，確實不太容易。

OpenAI o1更貴了嗎？

相比較於OpenAI以往的版本，OpenAI o1的性價比優勢並不明顯。

OpenAI的收費類型有兩種：麵向普通用戶的訂閱製收費，以及麵向開發者的API收費。

如果你已經是ChatGPT Pro的訂閱用戶，可以無縫銜接繼續享受OpenAI o1，不用額外付費，也可以變相地認為，20美金可以使用OpenAI o1一個月。

但如果奔著OpenAI o1付費，就顯得不那麽劃算，因為o1-preview每周隻允許使用30條，o1-mini每周的使用上限是50條。如果想要好好做數學題，往往還沒做完一套卷子，提問次數就已被消耗殆盡了。

如果你是購買API的開發者用戶，就要做好“花重金”的準備。首先，你的身份得是一個“5級API使用量”，它的意思是，你得已經消費1000美元以上並且是超過1個月的付費用戶，有了這層身份，才擁有OpenAI o1的使用資格。

但即便你是這樣的超級VIP用戶，也隻能使用“閹割版”，不支持圖像、不支持係統消息和流媒體，也不支持函數調用。

即便有這麽多的限製，API的價格也絲毫不比之前的版本便宜，你必須接受OpenAI價格的“屠刀”。

單從輸出價格來看，o1-preview版的API就是4o的四倍，並且，一定要注意用（max_completion_tokens參數）限製token用量。

在之前的模型版本裏，參數控製生成的token數量和用戶可見的token數量始終相等，但是，在o1係列中，由於內部推理token的存在，生成token的總數可能會超過可見token的總量。如果不注重限製token數量，你可能會因為推理過程中多出來的token量，莫名提升使用成本。

根據Hacker News評測，API最終使用成本可能比GPT-4o高出1000倍。與此同時，也能看出OpenAI在推理成本上確實下了本，高達60美元/百萬token。

OpenAI o1會帶來哪些變革？

從範式革命的角度上看，這毫無疑問是一場革命。

它至少為困於數據和基建無法快速提升預訓練規模的模型公司們提供了一個新的角度，從推理側和強化學習的方法入手，加強模型的能力。

（隨著更多強化學習（訓練時計算）和更多思考時間（測試時計算）的投入，o1 的性能持續提升，但推理能力的加強比起預訓練的加強增量更明顯）

這也是為什麽OpenAI 將它從GPT係列中獨立出來，單獨成一個新係列的原因。就是為了擺脫GPT（Generative pre-trained transformer）這個名字過分強調預訓練（Pre -trained）的意味。而是讓它更成為一個更強調推理能力訓練的模型係列。

雖然之前Claude Sonnet也嚐試過用強化學習提升其模型能力。但因為其反饋時間和token消耗並沒有顯著增加，因此它更可能用的是利用強化學習的模式積累思維鏈數據，再利用這些合成數據訓練模型的模式。

因此，OpenAI o1確實是第一個“推理模型”。

但我們需要思考的是，為什麽關於結合一個評價者（Verifer），乃至PRM的強化學習研究在這一年時間裏汗牛充棟，卻沒一個公司敢做這個模型？當年做出AlphaGO的Deepmind在和Google AI合並時，大家就期待會有大模型和強化學習的結合。結果並沒有。

首要原因是因為它太貴了，並且太慢了。

其次就是它的用處沒那麽大。一個作為Reward Model（獎勵模型）的PRM模型，最重要的是能給LLM產生出的可能性打分。而能判斷哪種回答更好的條件是什麽？是最好是有答案。在數學和編程這樣的領域，我們有明確的對和錯的答案。但在其他領域，這些答案往往是模糊的，最優解的路徑也不夠清晰。

因此即使GPT-o1在編程和數學，以及同樣可以形式化的，有最優解的物理、化學領域有了很大提升，它在其他領域的表現依然平平。它學到的邏輯能力並沒有被泛化，也很難泛化。

（與GPT 4o相比，o1在文本寫作及處理上甚至因為強烈的幻覺有倒退）

也許它確實可以成為編程和數學研究的利器，但這個應用場景離我們期待的AGI太遠了。

當然，依靠現實世界的基本事實，在比如說醫療這樣有明確結果（治好、沒治好）的領域進行訓練，它也可以得到一定程度的能力延展。而對於非常複雜，基本上我們都沒有通用思維鏈的領域，比如金融、文學創作上，它能帶來的提升確實有限。現在它還隻能被稱為“領域推理模型“，而非通用推理模型。

但也許，如果Scaling Law真的也能應用於推理能力的話，當o1積攢的思維鏈數據飛輪足夠多時，我們也能迎來在System 2這一側的湧現。因此它確實是有效的範式變革。

比如最近穀歌的新論文 Generative Verifier 中，通過把 Verifier （評判者）也改變成一個預測的自回歸模型，他們可以把問題每一步都用數值和文字評估。拓展了形式語言的限製。而且這個Verifier也可以直接結合思維鏈，成為一個PRM。

而對於嗷嗷待哺，需要更強應用界來講，這一範式變化當下對他們帶來的改進非常有限。因為它自己大概率就是個由PRM和LLM組成的Agent係統，想要好好利用它，很可能要改變目前做Agent的工作流。

因此在研究機構METR發布的報告中，將o1-Preview作為Agent組件運用，其表現甚至低於GPT-4o。乃至經調試後效果也不過追平Claude Sonnet。這和大家期待的更強的基礎模型能帶來應用的提升也相去甚遠。

（METR的結論）

對於Cursor這樣目標在編程領域的公司來講，o1的到來毫無疑問是一劑強心劑。他們在最近的論文《PlanSearch》論文裏正在找適合自己的PRM模式。

仔細想想，其實OpenAI這就是在搭建一個通用Agent框架。而大多數應用開發者在做的，就是搭建一個麵向特定領域的Agent工作流。雖然o1現在僅僅可用於數學、編程、物理這樣的領域，而且是個缺乏搜索、調用工具能力的。但在OpenAI o1的研究參與者訪談中，研究人員就談到，希望也可以把這種能力用在像編故事這類更有創造力的領域。

真是如此，恐怕又該有一票做Agent應用的創業者要失業了。

為什麽不叫“草莓”，也不叫“GPT”？

對於新模型的名字為什麽叫OpenAI o1，我們可以拆分來看。

OpenAI在官網上明確回複了名字中“1”的來源：“對於複雜的推理任務來說，這是一個重大進步，代表了人工智能能力的新水平。鑒於此，我們將計數器重置為1，並將該係列命名為“OpenAI o1”。

雖然OpenAI沒有進一步解釋名字中為什麽帶“o”，但我們可以衍生出幾種合理的猜測。

第一種猜測是，它沿襲了上一代模型GPT-4o中的“o”，OpenAI在今年5月份公布GPT-4o模型的時候提到，“o”代表“omni”，意思為“全能”，反應模型的多模態能力。

但這一次的o1模型僅支持文本，並沒有展現多模態的能力，所以更傾向於另一種猜測：它代表“Orion（獵戶座）”，也是OpenAI放風會成為GPT-4繼任的模型，它比“草莓”模型要更上一層，根據The Medium報道，在強化推理能力的基礎上，獵戶座承載著OpenAI降低模型“幻覺”、提升模型可靠性的希望。

這就解釋了OpenAI o1名字的大致由來，它預示著OpenAI提高模型準確性、降低幻覺的新開始。

但是為什麽在發布之前，又盛傳新模型名字是“草莓”？今年8月份，Sam Altman在X上曬一張草莓果實圖，一度被外界誤認為由大模型生成，Sam Altman後澄清它確實是自家花園的真草莓。

與此同時，有一種說法，草莓成熟需要曆經6周左右的時間，而從Sam Altman發布X的日期8月7日，到新模型正式發布的9月12日，中間相隔的時間正好接近6周。

（Sam Altman在X上發布自家花園的草莓）

雖然，“草莓”沒有成為Sam Altman最終選定的模型名稱，但這段有點浪漫的情節，造就了OpenAI的一段營銷佳話。

還有一個細節是，這次的模型名稱完全沒有了“GPT”三個字母的影子，其中“P”代表“Pre-trained”（預訓練），英偉達高級研究科學家Jim Fan在X上透露，相比以往的大模型，o1模型弱化了“預訓練”的環節，而提升了“推理”環節。

（Jim Fan在X上發布關於模型“預訓練”份量對比圖）

總的來看，“OpenAI o1”這個名字盡管略有拗口，但充滿了美好的寓意。

結語

在現實生活中，更聰明、掌握信息更多的讓往往會成為掌握資源最多的人。但在AI的世界裏，也許你不用成為那個“最聰明”的人，而是成為最懂如何利用好“最聰明”工具的人，就可以掌握最多的資源。

這很符合人類的情緒價值——造出一個比自己聰明百倍千倍的新物種，同時它又不構成破壞性。

按照OpenAI的說法，o1的理科水平已經超過人類博士了，可以想象，一個小學生指揮AI“博士”幫自己做題的畫麵，在極大程度上滿足了人類的需求。它們既能解決問題，又能提供情緒價值。

或許，這是除了“大腦”，人類也同樣執著於打造和自己長得酷似的機器人的原因。未來比你聰明的“人”，可能真的成為對你百依百順的工具，人們希望盡情享受這種，駕馭比你厲害的人帶來的快感。

很顯然，OpenAI已經在提供這種快感的道路上。