一文讀懂OpenAI發布會:從工具到AGI,12天進化論
文章來源: AI未來指北 於
- 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
OpenAI 年末的12天連續Devday更新終於落幕,每天蹲守觀看發布會都像在開巧克力盲盒,不知道下一個是什麽口味。
在前11天的發布會中,大部分屬實非常寡淡,隻有三個產品還有些精彩的“滋味”。
總結起來,能稱得上重磅的更新包括:o1正式版、Sora、Canvas,它們主要集中在前4天發布。
其中,o1正式版確實提升很大,Sora則是增加了不少對AI生成視頻進行更改的產品模式,Canvas可以被視為OpenAI第一次挑戰AI工作台的產品嚐試。
其次,相對還有些看點的是:和蘋果的深度合作,視頻通話功能,以及o1-mini的強化微調。
o1-mini的強化微調在專業領域潛力很大,微調簡單提升明顯。視頻通話功能則是那個讓人驚豔的“HER”正式上線。和蘋果的深度合作對OpenAI來講也是件大事,更站穩了在AI行業的一哥地位。
另外一些小的產品更新則是讓人覺得——“這也值得開發布會?”
這些產品包括“Projects”項目功能、o1 圖像輸入和4o高級語音API正式開放、ChatGPT Search
升級和給GPT打電話 的功能。它們都是相對比較小,也都和競爭對手沒什麽差異的更新。
到了最後一天,OpenAI終於甩出一個王炸:GPT-o3。一舉打破AI發展陷入瓶頸的懷疑,各項性能直奔AGI而去。
我們根據發布產品的重要性做了一個表格,梳理這過山車似的十二天發布日。
下麵,我們來稍微詳細的講述一下這些更新的核心點。
重要產品更新
o1完全版(Day1)
從能力上看,o1確實比Preview版本有了比較大的進步。它在國際數學奧林匹克預選賽題目(AIME
2024)、編程能力測試(CodeForces)方麵都比o1-
preview提升了50%。在處理複雜問題時的重大錯誤率降低了34%。
它還能根據題目的難易程度調節處理時間,這使得用戶等待時間下降超過50%。
更重要的是o1也能支持多模態識別了。這讓它的實用性暴增。醫生可以用它分析醫學影像,工程師能讓它幫忙看圖紙,設計師還能讓它提供創意建議。
但它的價格也相當貴,隻有200美金的ChatGPT
Pro版訂閱用戶才能享受無限使用,其他普通20美元訂閱用戶僅能享受每日20次使用權限。
作為第一天登場的產品,o1確實能讓人眼前一亮。
Sora(Day3)
等了10個月後,Sora終於姍姍來遲。
但這不是個模型版本升級,而更像是一個產品打磨。正式版的Sora能生成最長20秒,最高1080p的視頻。生成效果和2月份剛放出的差異不大。
但產品上OpenAI確實下了點心思,故事板是此次發布中最具創新性的功能,也是Sora最具野心的嚐試。它為用戶提供了類似專業視頻編輯軟件的時間軸界麵。用戶可以在時間軸上添加多個場景卡片。用戶可以將多個提示詞串聯起來,係統會自動處理場景之間的過渡效果。
除此之外,OpenAI還提供了Remix、Blend和Loop三個專業工具。換掉視頻中的元素,或者混合兩個視頻,還能自動補全做無限循環視頻。
產品是挺不錯的,但沒升級過的模型不太給力。在發布後的評測中,Sora頻頻翻車,運動、交互和物理經常處理的一塌糊塗。還會有憑空出現的人和鬼影。
OpenAI
給的可用量也很小氣,20美元的Plus用戶每月可用50次。隻有支付每月200美元的Pro用戶則能享受無限次數的"慢速"生成權限。
Sora總算來了,但是挺讓人失望的。
Canvas(Day4)
一句話形容,Canvas就是OpenAI 打造的AI版Google Docs。
因為Canvas已經進化成了集智能寫作、代碼協作和AI智能體為一體的一套完整工作台。它顯示出了OpenAI超越Chatbot的產品野心。
作為寫作助手,可以提供編輯意見。
編程功能上,Canvas則通過內置的WebAssembly
Python模擬器,創造了一個幾乎無延遲的編程環境。它還展現出了理解代碼意圖的能力。
與近期更新的Cursor和Devin一樣,它上線了定製化AI智能體的能力。它可以完成一係列操作,幫你給朋友們發聖誕信。
Canvas的這三個維度並不是孤立運作的。在實際使用中,它們往往會相互配合,這種無縫的集成使Canvas成了一個多功能AI驅動的創作工作室原型。
但單純從前端展示的角度看,它不如Claude 的
Artifacts。編程的便利性也不如Cursor。因此融合才是它的亮點吧。
一般產品更新
o1-mini強化微調(Day2)
這一產品如果不是實用性較窄,也算是一個重磅發布。
它改變了過去微調隻是通過增加專業數據的邏輯,而是對具有推理能力的模型進行強化學習方向的微調。引導模型在麵對複雜問題時有更深刻的思考能力。
現在,僅需“幾十個例子”甚至12個例子,就能夠讓模型有效學會特定領域的推理。根據OpenAI的研究數據,經過強化微調的o1mini模型,其測試通過率比傳統的o1模型高出24%,相比未經過強化微調的o1mini則提升了整整82%。
可惜隻能微調o1-mini,適用上也都是那些複雜領域任務,比如醫療、法律或金融和保險。泛用性較差。
高級視頻語音模式(Day6)
這又是個老餅上桌。5月13日,在GPT-4o的演示中,OpenAI的工作人員就能和4o視頻通話,可以看到我們實時的手機屏幕內容,或者根據相機裏的實時畫麵和我們聊天或解答問題。
這次就是真正實裝了,沒有什麽升級。但這個功能本身還是非常重要的。
不過因為這個餅烙的時間有點長,前兩天微軟推出的Vision和穀歌還在烙的Astra也已經跟上了。OpenAI的領先正在一點點被蠶食。
與蘋果的合作(Day5、Day11)
ChatGPT和Apple Intelligence的,更像是個官宣深度結果。蘋果搞不定的隻能讓賢OpenAI了。
整合主要包含三個方麵:首先是與Siri的協同。當Siri判斷某個任務可能需要ChatGPT的協助時,它可以將任務移交給ChatGPT處理;
其次是寫作工具的增強,用戶現在可以使用ChatGPT從頭開始撰寫文檔,還能進行文檔細化和總結;
第三是iPhone 16的相機控製功能,它能夠通過視覺智能讓用戶更深入地了解拍攝對象。
後麵第十一天的Mac整合,則是給了GPT更多Mac工具的調用權限。
我唯一不理解的就是這倆為什麽不能同一天宣布,還非分兩天?
能力補齊和小功能更新(Day 7,8,9,10)
剩下的幾個更新最多隻能算是湊數。簡單一句話就能說清。
“Projects”項目功能:它允許用戶創建特定項目,上傳相關文件,設置自定義指令,並將所有與該項目相關的對話集中在一個地方。基本和Claude的沒差別。
ChatGPT搜索升級:能在對話中搜索,支持多模態輸出。Perplexity的Pro模式早支持了。
4o熱點:美國用戶能打電話用4o了!挺尊老愛老的,我看也算是給他們過重陽了。
o1 圖像輸入和4o高級語音API正式開放:我建議這個放在o1發布當天最後一句話說完。
這幾天真的是有點進入拖時間的循環了。
最終王炸:GPT-o3(Day 12)
如果不是最後一天GPT-o3壓軸登場,我真的覺得OpenAI純粹是為了攪渾水才連開12天發布會。
因為在這期間,Google發布了Gemini 2 Flash,超快超強;Astra,看起來是真的Agent模樣;
Voe2,碾壓Sora ;Gemini 2 Flash
Thinking,o1人家也有了。就發了三篇公告幾個視頻,把OpenAI前11天的發布全都掀了桌。
但在Day 12,OpenAI還是找回了雄風。用o3向業界證明:Scaling Law未死,OpenAI為王。
o3 是 o1的下一個版本。在9月份o1發布後僅3個月後,這一新版本在編碼、數學以及 ARC-AGI
基準測試等多個基準上就大幅超過了 OpenAI 此前的 o1 模型。
看幾個數據對比
Codeforces 評分:2727——相當於全球人類程序員編碼競賽中,排名第 175
位。超過99%的人類程序員。
博士水平的科學問題(GPQA):87.7%——博士生一般得分70%
最難的前沿數學測試:25.2%——其他模型沒有超過2%,數學天才陶哲軒說該測試“可能難住AI好幾年”
證明是否達到AGI的題目ARC-AGI:87.5%——o1的得分25%
最值得注意的就是這最後一項測試ARC-AGI,它展示的是模型新型任務適應能力。作為對比,之前ARC-AGI-1從2020年GPT-3的0%僅提升到2024年GPT-4o的5%。這意味著模型不是死記硬背,而是真正在解決問題的能力。
雖然ARC-AGI測試中表現出色,但這並不意味著o3已達到了AGI水平,因為它仍會在一些非常簡單的任務中失敗,和人類智能有根本性的差別。
但不論如何,這都證明OpenAI選擇強化推理這個範式轉變成功了。人工智能的發展沒有任何放緩的跡象。Scaling
Law依然有效。
那些對AI停滯不前的擔憂,被OpenAI年末的聖誕禮物一掃而空。
雖然o3進行一次低算力計算的成本高達20美元,高算力甚至可能高達3000美元,要使用在現階段幾乎是不可能的。但算力會降低,Scaling
Law會延續。
3個月,兩個頂尖模型,OpenAI在這12天的最後一天又讓我們感受到了2022年末到2023年初從ChatGPT到GPT4那段時間AI撲麵而來的速度。
也許正如之前參與開發了o1的 OpenAI科學家Noam
Brown在采訪中說的一樣,“2024年,OpenAI是在實驗,而2025年就是全速前進的一年。”
OpenAI 12天的發布會,過程波折,完美收工。為2025年的AI埋下了希望。